1. 首页>>分享

GPT-4.1实力评测:编码性能提升百万token上下文,性价比超越GPT-4.5

两个月后号称要淘汰 GPT-4.5 的是 GPT-4.1,它的实力究竟怎样呢?在众多实际测试中,它的表现是值得称赞的,但还是无法战胜 Gemini 2.5 Pro 和 Claude 3.7 Sonnet。那么就出现了一个问题,OpenAI 为什么要发布一个远远落后于谷歌的模型呢?

不过两月,GPT-4.5正式出局,前浪把后浪拍在了沙滩上。

GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的_GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的_

GPT-4.1 家族诞生了。它具有更强的编码性能,能处理百万 token 的上下文,并且价格更具性价比,直接突破了 4.5。

nano 版的 GPT-4.1 价格比 GPT-4o mini 更便宜。

GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的_GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的_

GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的__GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的

这些模型当前仅在 API 中可供使用。然而,当下爆火的编码平台 Windsurf 和 Cursor 正在开展福利大放送活动,用户可以享受七天的 GPT - 4.1 免费体验。

_GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的_GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的

这不,全网首波实测已经来了。

GPT-4.1编码惊艳,却打不过Gemini 2.5

这款以超强编码著称的模型,在实际任务表现中又如何呢?

_GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的_GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的

OpenAI 科学家称,GPT - 4.1 并非推理模型,然而它在软件工程基准测试中能够取得 55%的高分。

网友 Flavio Adamo 使用同一个提示,即让小球在旋转的六边形中模拟自由落体,对 GPT-4.1 的三款模型以及 GPT-4.5 的编码表现进行了测试。

GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的_GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的_

可以看出,GPT-4.1 对小球物理运动过程进行了精准模拟。而 GPT-4.1-mini 和 GPT-4.1-nano 与之相比,差了很多意思。

GPT-4.5的实力几乎不输GPT-4.1。

_GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的_GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的

在另一个类似的测试里,让 GPT-4.1 去挑战旋转正方形这一任务,从而模拟出球体在正方形内真实弹跳的效果。

GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的__GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的

Kaggle 的开发者 Parul Pandey 称,用 GPT - 4.1 来创建用于教育物理模拟这件事是很有趣的。

在使用小球击倒金字塔的代码生成过程里,模型会读取一些不必要的文件,但数量很少,并且代码结构十分简洁。

GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的_GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的_

一位工程师借助 Windsurf 使 GPT-4.1 在 30 秒内生成了一个贪吃蛇游戏。

GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的_GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的_

微软研究员 Dimitris Papailiopoulos分别让 GPT-4.1、GPT-4o、GPT-4.5 去画独角兽。通过这个过程,他推测出 4.1 的参数量比 4o 的参数量小。

GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的__GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的

有一说一,GPT-4.1生成的独角兽是当中最丑的那个。

_GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的_GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的

沃顿商学院的教授 Ethan Mollick 运用 GPT - 4.1 来生成飞船控制面板的 p5js 。他指出,与 GPT - 4 相比,GPT - 4.1 取得了很大的进步,在整体上表现得很出色。

GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的_GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的_

Ethan 表明 GPT - 4.1 是能够在 twigl 中首次运行着色器的第四款模型。

GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的__GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的

网友让 GPT-4.1 以及 Gemini 2.5 Pro 去模拟一个霓虹灯照亮的赛博朋克城市夜景。在这个案例当中,4.1 模型比谷歌模型要强很多。

_GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的_GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的

GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的__GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的

以上 demo 中,能看出 GPT - 4.1 的编码性能很惊艳。然而从宏观角度来看,它仍比不上 Gemini 2.5 Pro 和 Claude 3.7 Sonnet。

在 Aider 多语言编码的最新测试里,GPT-4.1 的得分是 52.4%,它与 Grok 3 和 DeepSeek V3 的得分相近。并且它的成本相较于 o3-mini 降低了一半。

GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的__GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的

网友对此发表了吐槽,称 GPT-4.1 在编程方面不如 DeepSeek V3,然而其价格却比 DeepSeek V3 贵了 8 倍。

_GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的_GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的

最新的 Livebench 基准评估也证明了 GPT-4.1 的推理、编码、数学实力不如 Gemini 2.5 。

Abacus.AI 的创始人 Bindu Reddy 称,4.1 性能要比 GPT-4o 更优。然而,Livebench 的结果显示,新模型仅仅是对 4o 进行了一个增量式的更新。

GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的__GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的

哈佛科学家皮埃尔·邦格朗明确地指出,OpenAI 在谷歌之后首次发布了一个相较于谷歌而言远远落后的模型。

GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的_GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的_

GPT-4.1 系家族在 GPQA Diamond 知识问答基准测试中未达到人类博士级水平,也无法超越 Gemini 2.5 Pro。

GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的_GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的_

网友用一张恶搞图开玩笑说,在 OpenAI 发布 GPT-4 以及 GPT-4.1 的那段时间里,谷歌把 Bard 进化到了最强的 Gemini 2.5 版本。

GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的_GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的_

今年的 AI 大战里,很明显是 OpenAI 和谷歌在进行硬碰硬的终极较量。

谷歌包围圈已成,OpenAI依然不可小觑

GPT-4.1 发布后,Ai2 的后训练负责人 Nathan Lambert 在第一时间撰写并发表了一篇分析文章。

他表示,GPT-4.1 是一个小版本的更新。这让人们更清楚地认识到,驱动着最佳 API 业务的是非常不同的模型。

如今,OpenAI 正使用 GPT-4.1 来把 API 与 GPT 进行分离。

它的模型正在对每一美元的智能进行优化。我们之后还会持续看到,GPT 的处理方式与 API 业务存在差异。

GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的_GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的_

最近,OpenAI 持续进行着各种程度较小的更新。他们最终的期望,是把 GPT 塑造成为一个与他们的 API 相独立的单体应用。

上周,GPT的记忆功能得到了改进。

今天,OpenAI 宣布了一套仅适用于 API 的模型,即 GPT-4.1。这一宣布使得它直接与谷歌的 Gemini 形成了竞争。

单独来看,最近的发布其实并没有什么颠覆性的前沿突破。因为性能相当的模型已经存在了。

不过,从这些更新中,却可以看出OpenAI的战略重心走向。

如今,它的周活跃用户数量突破了 19 亿。在此情况下,它所需要的是 GPT 以及其背后的模型,并且这些与市场上的任何其他 AI 产品都存在着明显的差异。

其他产品的中心主要在于编码或信息处理。而与这些产品不同的是,GPT 格外注重个性,注重氛围感,注重娱乐性。

一个经典例子体现了这一点,那就是 GPT-4.5 以及它的高昂定价,如今正从 API 中被舍弃不用,但在 GPT 中仍会被保留。

即将发布的 o3 模型、o4 模型或者开放模型,当下还让人无法清晰地看清 OpenAI 的宏观战略方向。

从下图能够看出,OpenAI 所传递的核心信息较为简单,那就是提供性能更为优良且推理速度更加快速的模型。

GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的_GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的_

以下是新的 OpenAI 模型与谷歌 Gemini 每百万 Token 的价格进行对比,对比的单位是美元。

OpenAI新模型:

OpenAI旧模型:

谷歌Gemini:

OpenAI 的模型学术评估结果表现强劲,但这并不能完全体现它们的实际状况。因为在实践里,它们所执行的是重复性的小众任务。

这些新模型显然是用来直接与 Gemini Flash 和 Flash-Lite 相对标的。在 Gemini 2.5 Pro 惊艳发布之后,备受期待的 Gemini 2.5 Flash 即将面世。

GPT-4o-mini 的性能处于落后状态,并且它不如 Flash 好用。

要在 API 业务上获得成功,OpenAI 必须在 Gemini 已占据优势的这个前沿领域实现突破。

_GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的_GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的

都是从GPT-4.5蒸馏来的?

很多人已察觉到:在 OpenAI 的官方宣传方面,这些新模型的发布模式是相似的。它们都有广泛的改进,然而却极少对具体原因进行解释。

所以可以肯定,这些新模型五花八门。它们都是为了获得更好的个性和推理能力而被制造出来的。并且这些新模型是从 GPT-4.5 蒸馏而来的。

或者是在编码和数学上,借鉴了像o3这样的模型。

可以看出,新模型在代码方面已经取得了显著进步。要知道,曾经 OpenAI 早期的模型在这方面表现极为不佳,几乎可以说是零分的水平。

GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的__GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的

在编码评估方面,这些新模型落后于 Gemini 2.5(推理模型);在数学评估方面,这些新模型也落后于 Gemini 2.5(推理模型)。同时,在编码评估上,这些新模型还落后于 Claude 3.7(可选推理模型);在数学评估上,这些新模型同样落后于 Claude 3.7(可选推理模型)。

如今,我们正处于模型向包含推理转变的时期。这个时期处于早期阶段。而关于究竟什么是单一的最佳模型,这个概念已经变得更加复杂了。

这些推理模型会消耗远超过以往的 Token,从而实现性能的大幅提升。性能确实是很重要的,然而如果性能相近,那么成本更低的那个就会胜出。

但先发优势仍难以撼动

但总体而言,对于大多数普通的用户来讲,上述这些技术方面的细节实际上重要性并不高。

对于他们而言,那个被称作“模型投入度”的滑块,虽然让人头疼,却反而更直观。

GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的__GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的

很多人长期以来对于聊天机器人的订阅费会比 API 的价格更感到犹豫。

但显然,有一个日渐清晰的现实。这个现实就是,真正个性化的体验以及受用户喜爱的体验,往往只存在于这些集成的应用程序里。

开发者能够通过 API 来构建竞品,并且可以积累用户交互数据。然而,由于 OpenAI 在产品层面已经构建起了极为巨大的先发优势,所以若要胜过 OpenAI,恐怕不是一件容易的事情。

这些都再次印证了我们的认知,那就是产品化在当前 AI 发展中处于最为重要的地位。 产品化是当前 AI 发展的关键所在。 当前 AI 发展中,产品化极为重要,这些再次印证了这一点。 这些再次证明了我们的认知,即产品化在当前 AI 发展里是重中之重。 这些再次印证了我们的认知,产品化在当前 AI 发展中占据着最重要的位置。

记忆功能有助于 OpenAI 铺平未来的发展道路。将 GPT 这条产品线与 API 服务进行更清晰的切割,也有助于 OpenAI 铺平未来的发展道路。

但要完全实现这一愿景,OpenAI前方仍有很长的路要走。

参考资料:

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/275493.html

联系我们

在线咨询:点击这里给我发消息

微信号:13588888888

工作日:9:30-18:30,节假日休息