国产自拍偷拍阿里史上最大限制开源发布，超GPT-4o 、Llama-3.1！

发布日期：2024-09-20 04:30 点击次数：191

今天凌晨国产自拍偷拍，阿里巴巴官宣了史上最大限制的开源发布，推出了基础模子Qwen2.5、专用于编码Qwen2.5-Coder和数学的Qwen2.5-Math。

这三大类模子一共有10多个版块，包括0.5B、1.5B、3B、7B、14B、32B和72B，适用于个东说念主、企业以及迁徙端、PC等不同东说念主群不同行务场景的模子。

淌若不念念进行繁琐的部署，阿里还敞开了旗舰模子Qwen-Plus 和 Qwen-Turbo的API，匡助你快速开荒或集成生成式AI功能。

开源地址：https://huggingface.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e

Github：https://github.com/QwenLM/Qwen2.5?tab=readme-ov-file

在线demo：https://huggingface.co/spaces/Qwen/Qwen2.5

API地址：https://help.aliyun.com/zh/model-studio/developer-reference/what-is-qwen-llm

底下「AIGC敞开社区」矜重为各人先容这些模子的性能特色以及测试效果。

Qwen2.5系列性能测试

本次阿里开源的最大版块指示微调模子Qwen2.5-72B在MMLU-Pro

MMLU-redux、GPQA、MATH、GSM8K、HumanEval、MBPP等全球知名基准测试平台的测试效果透露。

固然Qwen2.5惟一720亿参数，但在多个基准测试中打败了Meta领有4050亿参数的最新开源Llama-3.1指示微调模子；全面越过了Mistral最新开源的Large-V2指示微调模子，成为当今最高大参数的开源模子之一。

即等于莫得进行指示微调的基础模子，其性能相通越过Llama-3-405B。

阿里敞开API的旗舰模子Qwen-Plus，其性能不错忘形闭源模子GPT4-o 和Claude-3.5-Sonnet。

此外，Qwen2.5系列初次引入了140 亿和320亿两种新参数模子，Qwen2.5-14B 和 Qwen2.5-32B。

指示微调模子的性能则越过了谷歌的Gemma2-27B、微软的Phi-3.5-MoE-Instruct，与闭源模子GPT-4o mini比拟，惟一三项测试略低其他基准测试一皆越过。

自阿里发布CodeQwen1.5 以来，眩惑了大量用户通过该模子完成千般编程任务，包括调试、回应编程关联的问题以及提供代码提出。

本次发布的Qwen2.5-Coder-7B指示微调版块，在繁多测试基准中，打败了那些知名且有较大参数的模子。

前不久阿里初次发布了数学模子Qwen2-Math，本次发布的Qwen2.5-Math 在更大限制的高质料数学数据上进行了预施行，包括由 Qwen2-Math 生成的合成数据。同期增多了对汉文的救济，并通过CoT、PoT和 TIR的智商来加强其推明智商。

其中，Qwen2.5-Math-72B的举座性能杰出了Qwen2-Math-72B指示微和洽知名闭源模子GPT4-o。

其实从上头这些测试数据不丢脸出，即等于参数很小的模子，在质料数据和架构的匡助下，相通不错打败高参数模子，这在能耗和环境部署方面领有十分大的上风。而阿里本次发布的Qwen2.5系列将小参数模子的性能融会到了极致。

Qwen2.5系列简便先容

Qwen2.5系列救济汉文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文等越过29种主流话语。与 Qwen2雷同，Qwen2.5话语模子救济高达 128K tokens，并能生成最多 8K tokens的实质。

与Qwen-2比拟，Qwen2.5系列的预施行数据大幅度增长达到了惊东说念主的18万亿tokens，越过了Meta最新开源Llama-3.1的15万亿，成为当今施行数据最多的开源模子。

学问智商权贵增强，Qwen2.5在 MMLU 基准测试中，与 Qwen2-7/72B 比拟从70.3提高到74.2，从84.2提高到86.1 。Qwen2.5 在 GPQA/MMLU-Pro/MMLU-redux/ARC-c 基准测试上也有明显改动。

Qwen2.5豪放生成更顺应东说念主类偏好的反馈，与Qwen2-72B-Instruct比拟，Qwen2.5-72B-Instruct的Arena-Hard分数从48.1明显提高到81.2 ，MT-Bench分数从9.12提高到9.35 。

数学智商取得增强，在交融了Qwen2-math的手艺后，Qwen2.5的数学智商也得到了快速栽种。在MATH基准上，Qwen2.5-7B/72B-Instruct的得分从Qwen2-7B/72B-Instruct的52.9/69.0提高到75.5/83.1。

此外，Qwen2.5在指示追踪、生成长文本（从1k增多到越过8K秀雅）、连接结构化数据（举例表格）以及生成结构化输出（尤其是JSON）方面终澄莹明显改动。同期对系统教导的千般性更具弹性，增强了聊天机器东说念主的脚色饰演扩充和条件确立。

本文开头：AIGC敞开社区国产自拍偷拍，原文标题：《阿里史上最大限制开源发布，超GPT-4o 、Llama-3.1！》

风险教导及免责要求商场有风险，投资需严慎。本文不组成个东说念主投资提出，也未辩论到个别用户独特的投资筹画、财务景况或需要。用户应试虑本文中的任何观念、不雅点或论断是否顺应其特定景况。据此投资，牵涉开心。

依依色