2025.03.26
本文字数:1249,阅读时长大约2分钟
作者 |第一财经 刘晓洁
DeepSeek 在开源平台 hugging face 上新的 V3 迭代版本模型,且没有任何公告和宣发,这引起了不小的关注。
3 月 25 日晚,官方在海内外官方账号上正式宣布了 V3 模型完成小版本升级的消息。同时,官方还介绍了新版本 DeepSeek-V3-0324 模型的提升细节,这些细节涵盖了推理、前端开发、中文写作以及中文搜索等几个方面的能力优化。
值得一提的是,25 日下午,海外专业 AI 模型评测机构 Artificial Analysis 发布了最新排名。此排名显示,新版 V3 模型现在是得分最高的非推理模型,它超过了 xAI 的 Grok3 和 OpenAI 的 GPT-4.5(preview)。
开放权重模型首次成为领先的非推理模型,这对于开源而言是一个里程碑。Artificial Analysis 官方称,此版本比 DeepSeek 的 R1 模型更令人印象深刻,并且可能意味着 R2 模型将是又一个重大飞跃。
此次发布的新版 V3 模型采用了 MIT 许可,这个许可允许模型进行蒸馏以及用于商业用途,这就意味着该模型可以被自由地应用于商业方面。
官方展示的对比图显示,在数学、代码类相关评测集方面,新版 V3 模型的分数位居第一,比 GPT-4.5、Claude-Sonnet-3.7 以及阿里云的 Qwen-Max 都要高。然而,在百科知识方面,新模型比 GPT-4.5 稍弱一些。
新版 V3 模型在百科知识方面(如 MMLU-Pro、GPQA)表现有提升,在数学方面(像 MATH-500、AIME 2024)表现有提升,在代码任务(如 LiveCodeBench)方面表现也有提升。
DeepSeek 介绍称,新版 V3 模型借鉴了 DeepSeek-R1 模型在训练过程中所运用的强化学习技术。通过这一借鉴,新版 V3 模型在推理类任务上的表现水平得到了大幅提升。
此外,在 HTML 等代码前端的任务方面,新版 V3 模型所生成的代码可用性变得更高了,并且视觉效果也更加美观,富有设计感。官方列举了一个由模型生成的程序,其画面呈现为多个小球在特定的空间范围内进行运动,同时还包含有一些能够调整重力、摩擦力等参数的滑动按钮。
在中文写作方面,新版 V3 模型提升了中长篇文本创作的内容质量。在搜索任务方面,新版 V3 模型可以在联网搜索场景下,对于报告生成类指令,输出更为详实准确的内容,排版也更加清晰美观。
官方表示,新版 V3 模型在问答闲聊方面有一定幅度的能力提升。
DeepSeek 介绍,对于新模型,用户登录官方网页、APP 或小程序进入对话界面后,关闭深度思考就能体验。其 API 接口和使用方式未发生改变。如果不是复杂推理任务,官方建议使用新版本 V3 模型,这样能获得速度更流畅、效果提升的对话体验。
Artificial Analysis 评测显示,V3 新模型的智能指数跃升了 7 个百分点,目前在智能指数方面处于领先地位,超过了其他所有非推理模型。不过,它在智能指数方面比 DeepSeek 自己的推理模型 R1 以及 OpenAI、Anthropic 和阿里的其他推理模型要低,但它的成就依然令人印象深刻。非推理模型能够立即给出回答,无需花费时间去“思考”,所以这一模型在对延迟较为敏感的场景中是非常有用的。
V3 新模型发布之后,有开发者即刻用它进行了写代码的实际测试,并且认为新模型超越了 DeepSeek-R1,甚至超越了 Claude-3.7,还表示“难以想象这还不是一个推理模型”。这位开发者称,在 20 个小球碰撞测试中,V3 新模型有能被肉眼看到的进步,之前 DeepSeek-V3 的小球是挤成一团的,而现在对物理运动的模拟非常好。
有海外开发者借助 DeepSeek 新模型一次性建成了网站,还编写了 800 多行代码,并且没有出现任何故障。他在 X 上分享并表示,很高兴看到这些开源模型能够向大型科技公司施加压力,从而以更低的成本构建出更好的模型。
微信编辑| 生产队的驴(拉磨版)
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/275158.html