1. 首页>>分享

Claude 3.7 Sonnet正式发布:全球首款双模式混合推理模型,开启AI增强人类能力新篇章

深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节_深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节_

就在刚刚,Claude 3.7 Sonnet 正式发布。

Claude 是有史以来最智能的模型,它采用混合推理方式。它既能快速生成响应,又能进行深入的逐步推理。

一个模型,两种思考模式。

深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节__深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节

Anthropic 发布了一款名为 Claude Code 的智能编程工具。

官方称,Claude 3.7 Sonnet 以及 Claude Code 表明 AI 朝着真正增强人类能力的方向迈出了重要一步。它们不但能够进行深入的推理,还能够独立地执行任务,并且能够高效地协作,从而使 AI 在现实世界中发挥出更大的价值。

太长不看,省流版如下:

Claude 3.7 有一首十四行诗。它是全球首款双模式混合推理模型。在标准模式下能快速响应。通过扩展思考模式可进行深度自我反思。在数学、物理和编程等复杂任务上表现得很卓越。注重实用导向。不会不必要地拒绝并减少 45%。还强化了代码协作能力。

Claude Code 可以直接在终端理解并操作代码库。它能够一次完成人工编程任务,而这些任务通常需要 45 分钟以上。它专长于测试驱动开发、复杂调试和大规模代码重构。同时,它全面支持代码编辑、测试执行等核心开发流程。

全球首款混合推理模型正式发布,你的 Claude 会思考了

新发布的 Claude 3.7 Sonnet 引入了详细的逐步推理,同时也公开了“思考”过程。DeepSeek 的内卷推动了行业透明度的提升,对此我们表示感谢。

人类能用同一个大脑既快速反应又深入思考,Anthropic 也认为推理能力不应依赖单独的模型。

最好是,一个模型搞定所有场景。

用户能够自由地进行选择,既可以让模型快速给出答案,也可以让模型进行更长时间的深度思考。

在标准模式时,它是 Claude 3.5 Sonnet 的升级版;在扩展思考(Extended Thinking)模式时,它会在回答前进行自我反思,并且能大幅提升在数学、物理、指令理解以及编程等复杂任务上的表现。

深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节_深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节_

从基准测试结果方面来看,Claude 3.7 Sonnet(扩展思维版)是适用于强逻辑推理以及数学任务的。而 Grok 3 Beta 和 DeepSeek R1 在特定的任务,像推理以及数学竞赛方面,表现得更为出色。

DeepSeek R1 在数学解题能力方面表现最为突出,其能力值达到了 97.3%。并且,它在其他任务上也展现出了良好的表现。

在推理模型的优化期间,Anthropic 降低了对数学以及计算机科学竞赛类问题的重视程度,而是将精力更加集中于满足企业对于 LLM 的实际应用方面的需求。

深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节__深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节

Claude 3.7 Sonnet 在专门用于评估 AI 解决真实软件问题能力的 SWE-bench Verified 基准测试里达到了行业领先水平。并且,此模型在 TAU-bench 测试中表现得很突出,体现出了它在与用户以及工具进行交互方面的优秀能力。

_深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节_深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节

值得一提的是,Claude 3.7 Sonnet 在 Anthropic 内部进行的 Pokémon 游戏测试里,超越了之前的所有模型,并且展现出了更强大的决策能力和规划能力。

深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节__深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节

同时,该模型可通过 Google Cloud 的 Vertex AI 访问。

值得注意的是,所有平台除了免费版之外,都支持扩展思考模式(Extended Thinking Mode)。

使用任何模式时,定价都与前代模型相同。输入 100 万个 token 需收费 3 美元,输出 100 万个 token(其中包含思考过程中使用的 token)要收费 15 美元。

过去,Claude 凭借出色的编程能力,成为许多开发者的首选模型。现在,Claude 3.7 Sonnet 更是进一步增强了它的优势。

Canva 公司确认该模型在上述各方面表现出色。

为了优化用户体验,GitHub 的集成功能已经向所有订阅计划开放了。开发者能够直接把代码库与 Claude 相连接,从而实现更高效的协作。不管是修复 Bug ,还是开发新功能,亦或是完善文档,Claude 3.7 Sonnet 都可以为个人项目以及企业级的 GitHub 代码库给予更好的支持。

在安全性方面,Claude 3.7 Sonnet 与外部专家合作后,相比前代模型,它能更精准地分辨恶意请求和正常请求,其不必要的拒绝情况减少了 45%,还能够给予更流畅的交互体验。

_深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节_深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节

截取自 Claude 3.7 Sonnet 系统卡

代码写到一半想放弃?把复杂问题甩给 Claude Code

Anthropic 推出了一款名为 Claude Code 的智能编程工具。目前该工具以限量研究预览版的形式开放。开发者能够直接在终端中把大量工程任务交给 Claude 去处理。

新推出的 Claude Code 可以进行代码的搜索与阅读,能够编辑文件,还可以编写并运行测试,同时能将代码提交并推送至 GitHub,并且能够使用命令行工具等。

_深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节_深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节

Anthropic 官方介绍称,在早期测试阶段,Claude Code 具备一次性完成通常需 45 分钟以上人工任务的能力,能大幅降低开发时间与工作量,尤其在测试驱动开发(TDD)、调试复杂问题以及大规模重构等方面表现较为显著。

深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节__深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节

Claude Code 是一款终端运行的智能编程助手,它能够直接理解开发者的代码库。同时,它可以通过自然语言命令来帮助用户更高效地进行编码。并且,它能够无缝集成到开发环境中,无需额外的服务器,也无需复杂的配置,从而极大地简化了工作流程。

它的核心功能有编辑文件这一项;能修复 Bug;可以回答有关代码架构和逻辑的问题;能够执行测试;可以修复测试错误;具备进行代码格式检查的能力;还能搜索 Git 历史记录;能够解决合并冲突;可以创建提交;也能创建拉取请求。

深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节__深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节

Anthropic 表示,在接下来的几周时间里,他们有计划持续对 Claude Code 进行优化。他们的重点在于改进多个方面,比如提升工具调用的稳定性,支持能够长时间运行的命令,改进在应用内的渲染效果,并且增强 Claude 对自身能力的理解。

这次发布预览研究版本,是希望能够深入了解开发者使用 Claude 进行编程的情况,以便为进一步优化未来的模型版本提供参考。

感兴趣的开发者在官方网站查看相关事项,指路

AI 发展速度太快,连起名都跟不上了?

X 网友使用了。不过其注意点存在偏差。一年前编写的越狱提示词现在还能被使用。

深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节_深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节_

询问 strawberry 中 r 的数量,Claude Sonnet 3.7 给出了错误答案,但官方似乎特意在这个问题中设置了一个彩蛋。不得不承认,官方很懂得如何玩梗。

_深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节_深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节

知名博主 @rowancheung 率先使用了 Claude 3.7 Sonnet 。他对该模型赞不绝口,称其为世界上最优秀的编码 AI 模型。在收到一个简单指令后,他成功生成了一个类似 Minecraft 的游戏,并且这个游戏可以即刻运行。

_深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节_深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节

耗费的推理 Token 数量越大,Claude 3.7 Sonnet 绘制的“彩虹独角兽”效果越佳。

深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节_深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节_

我们对 Claude 3.7 Sonnet 进行了简单的上手体验。

深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节_深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节_

_深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节_深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节

_深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节_深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节

深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节_深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节_

烧一根不均匀的绳需一小时,怎样用它来确定半个小时呢?烧一根不均匀的绳,从开始烧到烧完总共要一小时。现在有好多条材质相同的绳子,那该如何通过烧绳的方式来计时一小时十五分钟呢?

一道简单的推理题,差点让 Claude 3.7 Sonnet 的 CPU 过热到仿佛要燃烧起来。

深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节_深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节_

你应该已经留意到,相较于 DeepSeek R1 所展示出的思考过程,Claude 3.7 Sonnet 公开的思考过程呈现出较为客观的特点,并且缺乏个性化的表达,而这是经过特意设计的。

Anthropic 没有对模型的思维过程进行标准角色方面的训练,而是期望给予 Claude 最大的自由度,让其能够自主地进行思考,这种思考方式就如同人类的思维一样,其中可能包含着不完全正确或者尚未成熟的想法。

Anthropic 认为模型所展示的思考过程未必真实反映了其内部决策逻辑。所以,Anthropic 正在考量未来版本是否继续公开 Claude 的思维过程,同时也在对其利弊进行评估。未来会依据用户反馈和研究进展来进一步做出调整。

深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节_深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节_

有趣的是,之前我们提到过,随着各家新模型陆续发布,各类版本号以及命名规则让人看得眼花缭乱。

去年 OpenAI 的 CEO Sam Altman 被问到公司产品的命名策略时,他承认自己对此相当头疼。

Anthropic 的 CEO Amodei 曾表明,尽管 Claude 的命名方式在初期显得较为良好,然而随着模型迅速地迭代以及更新,所沿用的命名体系也逐渐变得难以应对。

他指出,当下没有任何一家 AI 公司切实地“搞定命名”这一事项。大家都在奋力探寻更为简便且清晰的命名方式。这或许也是 AI 巨头们不太容易达成的一种共识。

Anthropic 的首席产品官 Mike Krieger 在 X 平台将 Claude 3.7 Sonnet 的幕后命名花絮进行了公布。

内心的纠结过程大概是这样

_深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节_深夜重磅!全球首个混合推理模型发布,Claude 能思考了,实测发现这些细节

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/274529.html

联系我们

在线咨询:点击这里给我发消息

微信号:13588888888

工作日:9:30-18:30,节假日休息