凌晨,阿里开源了一个全球最顶尖的 AI 模型,那就是通义千问 QwQ-32B 推理模型。
它仅用 320 亿参数,就能够和目前被广泛认可的开源领域中最强的、有 6710 亿参数的满血版 DeepSeek-R1(其中 370 亿被激活)相提并论。
QwQ - 32B 在多项基准测试里实现了全面超越 o1 - mini 的表现。 QwQ - 32B 在多项基准测试中做到了对 o1 - mini 的全面超越。 QwQ - 32B 在多项基准测试方面全面超过了 o1 - mini 。
令人兴奋的是,任何人都可以在搭载消费级显卡的电脑上或者 Mac 上直接体验满血版性能。(我们的 5090D 终于派上用场了)
)
左右滑动查看
更有开发者惊呼:AI模型彻底进入全民普及阶段!
从这个角度来看,QwQ-32B 完全可以说是“推理能力达到了最高水平”与“实用性成为了典范”的完美融合。
苹果的机器学习研究员 Awni Hannun 使用了搭载 MLX 架构的 M4 Max 笔记本来运行 QwQ-32B,结果表明运行过程十分流畅。
如下是在8k token上的长思维过程:
3090 Ti 已是上上代的旗舰产品,它在运行模型时速度非常快,其输出速度能够达到 30+token/s。
目前,阿里将 QwQ - 32B 以宽松的 Apache2.0 协议进行全面开源。全球的开发者能够免费下载它,企业也可以对其进行商用。
魔搭社区:
Hugging Face:
所有人都可以通过通义 APP 免费体验最新的千问 QwQ - 32B 模型,开启的方式是 Qwen2.5 Plus + Thinking(QwQ)。
体验地址:
开源新王诞生,32B媲美DeepSeek-R1
QwQ-32B到底有多强?我们用数据来说话——
在数学 AIME 2024 的评测集当中,QwQ - 32B 与 DeepSeek - R1 在评估代码 LiveCodeBenc 基准上表现得不相上下。
它的性能比 o1-mini 要好很多,并且它的性能甚至超过了相同尺寸且基于 Qwen 系列蒸馏出的 R1 模型。
LeCun 领衔的“最难 LLMs 评测榜”LiveBench 中,QwQ-32B 得分超越了 DeepSeek-R1;谷歌等提出的指令遵循能力IFEval 评测集中,QwQ-32B 得分超越了 DeepSeek-R1;由 UC 伯克利等提出的评估准确调用函数或工具方面的 BFCL 测试中,QwQ-32B 得分超越了 DeepSeek-R1。
总的来说,QwQ-32B 在通用能力方面取得了领先优势。
RL 的 Scaling 使得 QwQ-32B 能够实现与 DeepSeek-R1 相匹敌的性能。
艾伦人工智能研究所的大佬 Nathan Lambert 由衷地赞叹道:“QwQ - 32B 是送给 RL 纯粹主义者的最佳礼物。”
大佬开始认真地研读阿里所放出的官方材料,接着敲了敲桌板并说道:我们需要更多的论文!
接下来,是对QwQ-32B的最新实测。
我们已经部署在电脑里了
首先,来一段难度不低的数学题。
一个圆中有 n 个点,这些点出现在圆中的位置是随机的。求这些点出现在同一个半圆内的概率。
QwQ-32B在经过一大长串的思考之后,给出了正确答案。
同一道题,我们也在本地部署的Q4量化模型上进行了验证。
因为没优化本地环境,所以输出较慢。不过,QwQ-32B 依然一次就做对了。
OpenAI o3-mini-high 或许认为这道题较为简单,仅仅思索了数秒,便开始进行作答。
最后,果不其然答错了。
上下滑动查看
接下来是一道微积分,看它能不能解决高等数学问题。
可以看出,本地部署的 QwQ-32B 有着逻辑严谨、步骤清晰的解题过程。同时,线上的 QwQ-32B 也有着逻辑严谨、步骤清晰的解题过程。
明确目标之后,进行了巧妙的变量代换,即 u = xe^x。接着逐步进行推导,并且进行了结果验证。通过这些步骤,成功地将复杂的积分转化为了简单的对数形式,并且结果是完全正确的。
同样的提示给到蒸馏版DeepSeek-R1-32B。
可以看到,它在经过了漫长的思考之后,并没有做对。
而最有趣的,还得是OpenAI o1。
它的答案是不正确的。并且,它两次都仅仅只是说了一个思路,至于剩下的部分,那就需要你自己去进行解答了。
再上一道推理题。
一群人在开舞会,每人头上都戴着一顶帽子,帽子只有黑色和白色这两种,并且黑色的帽子至少有一顶。每个人都能够看到其他人帽子的颜色,但是却看不到自己头上戴的帽子。主持人先让大家看看别人头上戴的是什么帽子,接着就把灯关掉了。如果有人认为自己戴的是黑帽子,就自己打自己一个耳光。第一次关灯的时候,没有听到任何声音。于是又把灯打开,大家再看了一遍别人头上的帽子。再次关灯的时候,依然寂静无声。第三次关灯之后,才有打耳光的声音噼里啪啦地响起。要问有多少人戴着黑帽子呢?
在思考过程中,QwQ-32B进行了逻辑严密的推断。
上下滑动查看
最终,它给出了正确答案:3人戴着黑帽子。
本地模型同样回答正确。
实测过 QwQ-32B 的写作能力之后,我们不禁发出赞叹:在国内的大模型当中,出现了一个思想和文笔都很出色的文科生!
此前,DeepSeek-R1 写出了一篇风格类似《过秦论》的文章,这篇文章是《过美利坚论》,它的文采十分出众,令人惊叹。
现在让QwQ-32B接受同样的考验。
可以看到,它首先对贾谊《过秦论》的特点进行了分析,此特点为多用排比、对仗,气势磅礴且语言犀利。接着想到,自己得考虑怎样把美国的历史事件和《过秦论》的结构对应起来。
难点在于,要用文言文来精准地表达某些现代概念,并且要确保论点具备逻辑性以及能够层层递进。
思考过后,QwQ-32B 给出的回答十分精彩,其文采与 DeepSeek-R1 相比毫不逊色。
相比之下,蒸馏版 DeepSeek-R1-32B 是用于技术验证的。它在文采方面要稍微逊色一些。
DeepSeek-R1 有一个惊艳全网的“续写红楼梦后八十回”,我们将同样的题目交给了 QwQ-32B,让它来续写红楼梦的第八十一回。
它在思考时,考虑到自身需要延续前作的一些方面,包括细腻的描写、复杂的人物关系以及隐喻等,同时还要对埋下的伏笔进行回应,例如贾府的衰落以及宝黛的爱情悲剧等。
它分析得出,自己需表现出原著的悲剧色彩以及深刻的批判。若要引入新角色或事件,就一定要自然地融入现有的框架,不可突兀。
它经过这番思考之后,列出了第八十一回的故事梗概,此梗概看起来很像那么回事。
这个梗概续写的正文框架,虽比不上原作文笔,但并非毫无可取之处。
上下滑动查看
无需集群,笔记本都能跑
大家都知道,满血版的 DeepSeek-R1 极为强大。然而,671B 的参数量导致其体积庞大,这使得它在本地进行部署时会遇到很大的困难。
Matthew Carrigan 作为 Hugging Face 的工程师,其部署过程是很好的参考。
要在 GPU 上达成 720GB(Q8 量化)的显存,其花费或许要超过 10 万美元。
可以使用 CPU 进行部署,这是另辟蹊径的方式。不过,这样生成的速度会慢很多。并且,此时需要 24 条 32GB 的内存才能够装下。
即便对于 Q4 量化的版本 DeepSeek-R1-Q4_K_M 而言,也需要 404GB 的空间,其规模仍然不算小。
以谷歌开发者专家 Xihan Li 以及 UCL 计算机系博士生的部署实操为例。其中 Xihan Li 是谷歌开发者专家,同时他也是 UCL 计算机系的博士生。
模型参数占用的内存与显存空间为 404GB,实际运行时除了这部分空间外,还需额外预留一些内存用于上下文缓存,这些预留的内存总计约 500GB。
在 4×24GB 显卡(RTX 4090)以及 4×96GB 内存的配置之下,DeepSeek-R1-Q4_K_M 进行短文本生成时,其速度为 2 - 4 token/秒。而在进行长文本生成时,速度会降低到 1 - 2 token/秒。并且基本上是不可用的。
相比之下,QwQ-32B 进行本地部署的情况要好得多。消费级 GPU 的单张显卡就能够轻松地完成部署,并且部署后的速度非常快。
在 Hugging Face 上开源的 QwQ-32B 版本,若以 Q4 量化精度来算的话,其大小不到 20GB。
Hugging Face 上有从 2 位一直到 8 位不同的版本,并非只有 4 - bit 量化的版本。这些版本最小仅需不到 13GB,能直接将本地部署的难度拉到最低,普通的办公电脑都能够运行起来。
本地部署之后,加载很容易,运行也很容易。只用十几行代码,就能够完成模型的加载,能够处理问题,并且能够生成答案。
Ollama 推出了 Q4 版本的 QwQ-32B 模型。安装好 Ollama 后,只需在终端中复制“ollama run qwq”,就能够体验该模型,完全没有使用门槛。
Nous Research 的常驻研究员是 N8 Programs,他在 X 上对 QwQ - 32B 进行了称赞,称其是一个令人难以置信的进步。
他展示的是前沿推理模型在 LiveBench 上的得分,如下所示(见下图)。LiveBench 是一个全面的在线评估测试,它覆盖了广泛的领域,并且通常与实际情况相符。
可以看到,QwQ-32B 的得分处于 R1 和 o3-mini 的得分之间。同时,QwQ-32B 的成本仅仅是 R1 和 o3-mini 成本的十分之一。
强化学习「炼丹」,小模型也能逆袭
DeepSeek 突然爆火,这使得强化学习再次进入人们的视野,成为提升大模型或推理模型的重要因素。
QwQ-32B 能够取得成功,其核心秘诀在于阿里云团队采用了大规模强化学习技术,并且是开创性地运用。
不过,与传统方法不同的是,他们采用了多阶段RL训练策略。
在开始的时候,依据冷启动的数据,针对数学这一领域、编程这一领域以及通用任务,进行了强化学习的训练。
团队创新性与传统的奖励模型不同,它通过校验答案的正确性(针对数学任务)以及进行代码执行测试(针对编程任务)来提供反馈,这样就能确保模型逐步地“进化”。
在 RL Scaling 期间,随着训练轮次不断推进,模型在数学领域的性能得以持续提升,同时在编程领域的性能也在持续提升。
在第二阶段,研究人员针对通用能力再次开展了 RL 训练。他们主要运用通用奖励模型以及一些依据规则构建的验证器来进行训练。
实验表明,使用少量步骤的通用强化学习,能够提升 QwQ - 32B 的通用能力。尤其重要的是,它的数学性能和编程性能并没有明显降低。
QwQ-32B 仅在参数规模为 320 亿时,其推理能力与 DeepSeek-R 十分接近,这恰恰验证了“大规模强化学习加上强大基座模型”是通向 AGI 的关键路径。
此外,QwQ - 32B 不仅仅是一个推理模型。它还集成了先进的 Agent 相关能力。它在使用工具时会进行批判性思考,并且能够根据环境反馈动态调整策略。
最终阿里要实现 AGI。
开源先锋,引领全球AI新格局
这次 QwQ - 32B 满血版实现了开源。这不是个别的情况,而是阿里云开源战略里的一个部分。
全球人工智能浪潮在席卷,开源已经成为推动技术创新的重要引擎。
阿里云是国内最早开源自研大模型的“大厂”。阿里云也是全球唯一一家积极研发先进 AI 模型的云计算厂商。并且阿里云还是全方位开源的云计算厂商。
2023 年 8 月起,通义系列陆续推出了从 Qwen 开始,到 Qwen1.5、Qwen2 以及 Qwen2.5 等数十款大模型。这些模型覆盖了 5 亿到千亿级别的参数规模,并且开源了超过 200 款模型,还支持 29 种语言。
这一壮举意味着阿里云在业界处于领先地位,率先达成了“全尺寸、全模态、多场景”的开源。 阿里云通过这一壮举,在业界率先实现了“全尺寸、全模态、多场景”的开源。 这一壮举的达成,标志着阿里云在业界率先将“全尺寸、全模态、多场景”实现了开源。 阿里云率先在业界实现“全尺寸、全模态、多场景”开源,这是一项壮举。 阿里云在业界率先实现“全尺寸、全模态、多场景”开源,此为一壮举。 这一壮举显示阿里云在业界率先把“全尺寸、全模态、多场景”进行了开源。 阿里云率先实现的“全尺寸、全模态、多场景”开源是这一壮举。 这一壮举体现了阿里云在业界率先完成了“全尺寸、全模态、多场景”的开源。 阿里云在业界率先实现“全尺寸、全模态、多场景”开源,这一成就堪称壮举。 这一壮举代表阿里云在业界率先把“全尺寸、全模态、多场景”实现为开源。 阿里云率先在业界将“全尺寸、全模态、多场景”开源,此乃一壮举。 这一壮举表明阿里云在业界率先达成了“全尺寸、全模态、多场景”的开源目标。 阿里云通过率先实现“全尺寸、全模态、多场景”开源,创造了这一壮举。 这一壮举是阿里云在业界率先实现“全尺寸、全模态、多场景”开源的标志。 阿里云率先在业界实现“全尺寸、全模态、多场景”开源,此壮举意义重大。 这一壮举意味着阿里云在业界率先把“全尺寸、全模态、多场景”的开源工作完成了。 阿里云在业界率先实现“全尺寸、全模态、多场景”开源,这一壮举令人瞩目。 这一壮举彰显了阿里云在业界率先实现“全尺寸、全模态、多场景”开源的实力。 阿里云率先在业界将“全尺寸、全模态、多场景”开源,此为其壮举。 这一壮举体现了阿里云在业界率先把“全尺寸、全模态、多场景”的开源成果展现出来。 阿里云通过率先实现“全尺寸、全模态、多场景”开源这一壮举,在业界树立了标杆。 这一壮举是阿里云在业界率先实现“全尺寸、全模态、多场景”开源的具体体现。 阿里云率先在业界将“全尺寸、全模态、多场景”开源,此壮举值得铭记。 这一壮举表明阿里云在业界率先把“全尺寸、全模态、多场景”的开源进程推进到了新的高度。 阿里云通过率先实现“全尺寸、全模态、多场景”开源这一壮举,在业界取得了领先地位。 这一壮举是阿里云在业界率先实现“全尺寸、全模态、多场景”开源的重要标志。 阿里云率先在业界将“全尺寸、全模态、多场景”开源,此壮举影响深远。 这一壮举体现了阿里云在业界率先把“全尺寸、全模态、多场景”的开源行动付诸实践。 阿里云通过率先实现“全尺寸、全模态、多场景”开源这一壮举,在业界展现出了卓越的能力。 这一壮举是阿里云在业界率先实现“全尺寸、全模态、多场景”开源的生动写照。 阿里云率先在业界将“全尺寸、全模态、多场景”开源,此壮举具有重要意义。 这一壮举表明阿里云在业界率先把“全尺寸、全模态、多场景”的开源理念贯彻到底。 阿里云通过率先实现“全尺寸、全模态、多场景”开源这一壮举,在业界赢得了广泛的认可。 这一壮举是阿里云在业界率先实现“全尺寸、全模态、多场景”开源的辉煌成就。 阿里云率先在业界将“全尺寸、全模态、多场景”开源,此壮举堪称典范。 这一壮举体现了阿里云在业界率先把“全尺寸、全模态、多场景”的开源价值充分体现出来。 阿里云通过率先实现“全尺寸、全模态、多场景”开源这一壮举,在业界树立了良好的形象。 这一壮举是阿里云在业界率先实现“全尺寸、全模态、多场景”开源的精彩演绎。 阿里云率先在业界将“全尺寸、全模态、多场景”开源,此壮举令人钦佩。 这一壮举表明阿里云在业界率先把“全尺寸、全模态、多场景”的开源工作
开源的 Qwen 系列具有卓越的性能,它数次在国内外权威榜单中登顶,并且多次冲上 HuggingFace 和 Github 的热榜,成为开发者心中的“爆款”。
2024 年,在 HuggingFace 平台上,仅 Qwen2.5 - 1.5B 这一款模型。它占据了全球模型下载量的 26.6%。并且在所有模型中位列第一。
QwQ-32B 刚刚开源,就有众多来自不同国家、说着不同语言的开发者,在第一时间直接使用了,并且好评如潮。
左右滑动查看
我们都知道,开源的真谛在于,众人拾柴火焰高。
目前,Qwen 有衍生模型,其数量突破了 10 万。这个数量远超 Llama 系列的数量,使得 Qwen 衍生模型成为了全球最大的生成式语言模型族群。
阿里云的开源战略体现在技术输出方面,同时也在于推动普惠 AI 的初心。这一初心让中小企业和开发者能够以最低成本、更快速度用上 AI,从而加速大模型应用的落地。
阿里云通过魔搭 ModelScope 社区,还联合了 1000 万开发者,打造出了中国最大的 AI 开源生态。
阿里云坚信,开源是推动技术创新的关键。
通义千问系列实现了开源。这不仅仅是一场技术方面的狂欢,更是一次生态层面的革命。从技术取得突破开始,到对生态进行赋能,他们正在通过实际行动来诠释技术普惠所蕴含的深刻意义。
其愿景表明,通过开源与合作的方式,能够推动中国大模型生态的繁荣,也能够助力全球 AI 技术迈向新的高度。
通义千问在这条路上无疑成为一颗耀眼的星,照亮了 AI 的未来。
参考资料:
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/274804.html