阿里云开源通义千问QwQ-32B推理模型，性能超越DeepSeek R1和OpenAI-o1-mini-模具钢网

3 月 6 日凌晨，阿里云发布了全新的推理模型通义千问 QwQ - 32B 并将其开源。官方表明，此新模型仅具备 320 亿参数，然而在性能方面却能与拥有 6710 亿参数的满血版 DeepSeek R1 相媲美。

点击查看大图

目前，阿里云尚未发布完整的技术报告。不过官方数据表明，QwQ-32B 在编程竞赛（LiveCodeBench）和美国数学竞赛（AIME24）这两项上仅比满血的 DeepSeek-R1 稍逊一筹，而在其余三项上则实现了全面超越。并且，它还完全碾压了 OpenAI-o1-mini。

阿里云解释，团队此次以 Qwen2.5-32B 模型为基础，对扩展强化学习（RL）的技术方案进行了探索。团队发现，强化学习训练能够持续提升模型性能，并且在数学与编程任务中表现得尤为显著。该团队还提到，持续扩展强化学习训练的规模后，中型模型能够实现与巨型混合专家模型（MoE）相媲美的性能。

此外，QwQ - 32B 能够满足较低的资源消耗需求。它适合那些需要快速响应的应用场景，也适合对数据安全要求较高的应用场景。开发者和企业可以将其部署到本地设备中，这些本地设备可以是消费级显卡。这样就能进一步打造高度定制化的 AI 解决方案。阿里表示，QwQ - 32B 已被多个平台依据宽松的 Apache2.0 协议进行了开源。所有人都能够免费下载该模型，以进行本地部署。同时，也可以通过阿里云的百炼平台，直接调用该模型的 API 服务。

点击查看大图

值得一提的是，之前 OpenAI 遇到了技术瓶颈，于是将原本的 GPT5.0 降格为 GPT4.5 后进行发布。之后它还透露会降低强化学习训练的优先级，转而以监督学习（SSL）和语言模型（LM）为核心的技术路线。而 QwQ-32B 的发布证明了强化学习路线还有潜力，能够继续提升模型的性能。

千问 QwQ-32B 模型集成了与智能体 Agent 相关的能力，能在使用工具时进行批判性思考，还能根据环境反馈调整推理过程。通义团队称，未来会继续探索智能体与强化学习的集成，以达成长时推理，探索更高智能，最终实现 AGI 的目标。

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://mjgaz.cn/fenxiang/275098.html

阿里云开源通义千问QwQ-32B推理模型，性能超越DeepSeek R1和OpenAI-o1-mini

相关推荐

联系我们