GPT-4.1实力评测：编码性能提升百万token上下文，性价比超越GPT-4.5-模具钢网

两个月后号称要淘汰 GPT-4.5 的是 GPT-4.1，它的实力究竟怎样呢？在众多实际测试中，它的表现是值得称赞的，但还是无法战胜 Gemini 2.5 Pro 和 Claude 3.7 Sonnet。那么就出现了一个问题，OpenAI 为什么要发布一个远远落后于谷歌的模型呢？

不过两月，GPT-4.5正式出局，前浪把后浪拍在了沙滩上。

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的_

GPT-4.1 家族诞生了。它具有更强的编码性能，能处理百万 token 的上下文，并且价格更具性价比，直接突破了 4.5。

nano 版的 GPT-4.1 价格比 GPT-4o mini 更便宜。

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的_

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的__GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的

这些模型当前仅在 API 中可供使用。然而，当下爆火的编码平台 Windsurf 和 Cursor 正在开展福利大放送活动，用户可以享受七天的 GPT - 4.1 免费体验。

_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的

这不，全网首波实测已经来了。

GPT-4.1编码惊艳，却打不过Gemini 2.5

这款以超强编码著称的模型，在实际任务表现中又如何呢？

_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的

OpenAI 科学家称，GPT - 4.1 并非推理模型，然而它在软件工程基准测试中能够取得 55%的高分。

网友 Flavio Adamo 使用同一个提示，即让小球在旋转的六边形中模拟自由落体，对 GPT-4.1 的三款模型以及 GPT-4.5 的编码表现进行了测试。

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的_

可以看出，GPT-4.1 对小球物理运动过程进行了精准模拟。而 GPT-4.1-mini 和 GPT-4.1-nano 与之相比，差了很多意思。

GPT-4.5的实力几乎不输GPT-4.1。

_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的

在另一个类似的测试里，让 GPT-4.1 去挑战旋转正方形这一任务，从而模拟出球体在正方形内真实弹跳的效果。

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的__GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的

Kaggle 的开发者 Parul Pandey 称，用 GPT - 4.1 来创建用于教育物理模拟这件事是很有趣的。

在使用小球击倒金字塔的代码生成过程里，模型会读取一些不必要的文件，但数量很少，并且代码结构十分简洁。

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的_

一位工程师借助 Windsurf 使 GPT-4.1 在 30 秒内生成了一个贪吃蛇游戏。

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的_

微软研究员 Dimitris Papailiopoulos分别让 GPT-4.1、GPT-4o、GPT-4.5 去画独角兽。通过这个过程，他推测出 4.1 的参数量比 4o 的参数量小。

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的__GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的

有一说一，GPT-4.1生成的独角兽是当中最丑的那个。

_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的

沃顿商学院的教授 Ethan Mollick 运用 GPT - 4.1 来生成飞船控制面板的 p5js 。他指出，与 GPT - 4 相比，GPT - 4.1 取得了很大的进步，在整体上表现得很出色。

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的_

Ethan 表明 GPT - 4.1 是能够在 twigl 中首次运行着色器的第四款模型。

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的__GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的

网友让 GPT-4.1 以及 Gemini 2.5 Pro 去模拟一个霓虹灯照亮的赛博朋克城市夜景。在这个案例当中，4.1 模型比谷歌模型要强很多。

_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的__GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的

以上 demo 中，能看出 GPT - 4.1 的编码性能很惊艳。然而从宏观角度来看，它仍比不上 Gemini 2.5 Pro 和 Claude 3.7 Sonnet。

在 Aider 多语言编码的最新测试里，GPT-4.1 的得分是 52.4%，它与 Grok 3 和 DeepSeek V3 的得分相近。并且它的成本相较于 o3-mini 降低了一半。

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的__GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的

网友对此发表了吐槽，称 GPT-4.1 在编程方面不如 DeepSeek V3，然而其价格却比 DeepSeek V3 贵了 8 倍。

_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的

最新的 Livebench 基准评估也证明了 GPT-4.1 的推理、编码、数学实力不如 Gemini 2.5 。

Abacus.AI 的创始人 Bindu Reddy 称，4.1 性能要比 GPT-4o 更优。然而，Livebench 的结果显示，新模型仅仅是对 4o 进行了一个增量式的更新。

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的__GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的

哈佛科学家皮埃尔·邦格朗明确地指出，OpenAI 在谷歌之后首次发布了一个相较于谷歌而言远远落后的模型。

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的_

GPT-4.1 系家族在 GPQA Diamond 知识问答基准测试中未达到人类博士级水平，也无法超越 Gemini 2.5 Pro。

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的_

网友用一张恶搞图开玩笑说，在 OpenAI 发布 GPT-4 以及 GPT-4.1 的那段时间里，谷歌把 Bard 进化到了最强的 Gemini 2.5 版本。

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的_

今年的 AI 大战里，很明显是 OpenAI 和谷歌在进行硬碰硬的终极较量。

谷歌包围圈已成，OpenAI依然不可小觑

GPT-4.1 发布后，Ai2 的后训练负责人 Nathan Lambert 在第一时间撰写并发表了一篇分析文章。

他表示，GPT-4.1 是一个小版本的更新。这让人们更清楚地认识到，驱动着最佳 API 业务的是非常不同的模型。

如今，OpenAI 正使用 GPT-4.1 来把 API 与 GPT 进行分离。

它的模型正在对每一美元的智能进行优化。我们之后还会持续看到，GPT 的处理方式与 API 业务存在差异。

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的_

最近，OpenAI 持续进行着各种程度较小的更新。他们最终的期望，是把 GPT 塑造成为一个与他们的 API 相独立的单体应用。

上周，GPT的记忆功能得到了改进。

今天，OpenAI 宣布了一套仅适用于 API 的模型，即 GPT-4.1。这一宣布使得它直接与谷歌的 Gemini 形成了竞争。

单独来看，最近的发布其实并没有什么颠覆性的前沿突破。因为性能相当的模型已经存在了。

不过，从这些更新中，却可以看出OpenAI的战略重心走向。

如今，它的周活跃用户数量突破了 19 亿。在此情况下，它所需要的是 GPT 以及其背后的模型，并且这些与市场上的任何其他 AI 产品都存在着明显的差异。

其他产品的中心主要在于编码或信息处理。而与这些产品不同的是，GPT 格外注重个性，注重氛围感，注重娱乐性。

一个经典例子体现了这一点，那就是 GPT-4.5 以及它的高昂定价，如今正从 API 中被舍弃不用，但在 GPT 中仍会被保留。

即将发布的 o3 模型、o4 模型或者开放模型，当下还让人无法清晰地看清 OpenAI 的宏观战略方向。

从下图能够看出，OpenAI 所传递的核心信息较为简单，那就是提供性能更为优良且推理速度更加快速的模型。

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的_

以下是新的 OpenAI 模型与谷歌 Gemini 每百万 Token 的价格进行对比，对比的单位是美元。

OpenAI新模型:

OpenAI旧模型:

谷歌Gemini:

OpenAI 的模型学术评估结果表现强劲，但这并不能完全体现它们的实际状况。因为在实践里，它们所执行的是重复性的小众任务。

这些新模型显然是用来直接与 Gemini Flash 和 Flash-Lite 相对标的。在 Gemini 2.5 Pro 惊艳发布之后，备受期待的 Gemini 2.5 Flash 即将面世。

GPT-4o-mini 的性能处于落后状态，并且它不如 Flash 好用。

要在 API 业务上获得成功，OpenAI 必须在 Gemini 已占据优势的这个前沿领域实现突破。

_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的

都是从GPT-4.5蒸馏来的？

很多人已察觉到：在 OpenAI 的官方宣传方面，这些新模型的发布模式是相似的。它们都有广泛的改进，然而却极少对具体原因进行解释。

所以可以肯定，这些新模型五花八门。它们都是为了获得更好的个性和推理能力而被制造出来的。并且这些新模型是从 GPT-4.5 蒸馏而来的。

或者是在编码和数学上，借鉴了像o3这样的模型。

可以看出，新模型在代码方面已经取得了显著进步。要知道，曾经 OpenAI 早期的模型在这方面表现极为不佳，几乎可以说是零分的水平。

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的__GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的

在编码评估方面，这些新模型落后于 Gemini 2.5（推理模型）；在数学评估方面，这些新模型也落后于 Gemini 2.5（推理模型）。同时，在编码评估上，这些新模型还落后于 Claude 3.7（可选推理模型）；在数学评估上，这些新模型同样落后于 Claude 3.7（可选推理模型）。

如今，我们正处于模型向包含推理转变的时期。这个时期处于早期阶段。而关于究竟什么是单一的最佳模型，这个概念已经变得更加复杂了。

这些推理模型会消耗远超过以往的 Token，从而实现性能的大幅提升。性能确实是很重要的，然而如果性能相近，那么成本更低的那个就会胜出。

但先发优势仍难以撼动

但总体而言，对于大多数普通的用户来讲，上述这些技术方面的细节实际上重要性并不高。

对于他们而言，那个被称作“模型投入度”的滑块，虽然让人头疼，却反而更直观。

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的__GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的

很多人长期以来对于聊天机器人的订阅费会比 API 的价格更感到犹豫。

但显然，有一个日渐清晰的现实。这个现实就是，真正个性化的体验以及受用户喜爱的体验，往往只存在于这些集成的应用程序里。

开发者能够通过 API 来构建竞品，并且可以积累用户交互数据。然而，由于 OpenAI 在产品层面已经构建起了极为巨大的先发优势，所以若要胜过 OpenAI，恐怕不是一件容易的事情。

这些都再次印证了我们的认知，那就是产品化在当前 AI 发展中处于最为重要的地位。产品化是当前 AI 发展的关键所在。当前 AI 发展中，产品化极为重要，这些再次印证了这一点。这些再次证明了我们的认知，即产品化在当前 AI 发展里是重中之重。这些再次印证了我们的认知，产品化在当前 AI 发展中占据着最重要的位置。

记忆功能有助于 OpenAI 铺平未来的发展道路。将 GPT 这条产品线与 API 服务进行更清晰的切割，也有助于 OpenAI 铺平未来的发展道路。

但要完全实现这一愿景，OpenAI前方仍有很长的路要走。

参考资料：

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://mjgaz.cn/fenxiang/275493.html

GPT-4.1实力评测：编码性能提升百万token上下文，性价比超越GPT-4.5

相关推荐

联系我们