GPT-4.1实力评测：编码性能提升百万token上下文，性价比碾压GPT-4.5-模具钢网

两个月后号称要淘汰 GPT - 4.5 的是 GPT - 4.1，它的实力到底怎样呢？在众多实际测试里，它的表现确实是值得称赞的，然而却仍旧无法战胜 Gemini 2.5 Pro 和 Claude 3.7 Sonnet。接着就有问题出现了，OpenAI 为什么要发布一个远远落后于谷歌的模型呢？

不过两月，GPT-4.5正式出局，前浪把后浪拍在了沙滩上。

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的_

GPT-4.1 家族诞生了，它具备更强的编码性能，能处理百万 token 的上下文，并且价格更具性价比，直接突破了 4.5。

nano 版的 GPT-4.1 价格比 GPT-4o mini 更便宜。

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的_

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的__GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的

这些模型目前仅在 API 中提供。然而，目前爆火的编码平台 Windsurf 和 Cursor 开启了福利大放送活动，用户可以在七天内免费体验 GPT-4.1。

_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的

这不，全网首波实测已经来了。

GPT-4.1编码惊艳，却打不过Gemini 2.5

这款以超强编码著称的模型，在实际任务表现中又如何呢？

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的__GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的

OpenAI 科学家称，GPT - 4.1 并非推理模型，然而它能够在软件工程基准测试中获得 55%的高分。

网友 Flavio Adamo 使用同一个提示，即让小球在旋转的六边形中模拟自由落体，然后对 GPT-4.1 的三款模型以及 GPT-4.5 的编码表现进行了测试。

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的_

可以明显看出，GPT-4.1 对小球物理运动过程进行了精准模拟，然而 GPT-4.1-mini 和 GPT-4.1-nano 在这方面的表现则差了很多。

GPT-4.5的实力几乎不输GPT-4.1。

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的__GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的

在另一个类似的测试里，让 GPT-4.1 去挑战旋转正方形这件事，从而模拟出球体在正方形内真实弹跳所呈现出的效果。

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的__GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的

Kaggle 的开发者 Parul Pandey 说，用 GPT - 4.1 去创建用于教育物理模拟这件事是非常有趣的。

在使用小球击倒金字塔的代码生成过程里，模型仅仅读取了少量不必要的文件，并且代码结构十分简洁。

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的_

一位工程师借助 Windsurf 工具，让 GPT-4.1 在 30 秒内生成了一个贪吃蛇游戏。

_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的

微软研究员 Dimitris Papailiopoulos分别让 GPT-4.1、GPT-4o、GPT-4.5 去画独角兽，经过推测得知 4.1 的参数量比 4o 的参数量小。

_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的

有一说一，GPT-4.1生成的独角兽是当中最丑的那个。

_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的

沃顿商学院的教授 Ethan Mollick 利用 GPT - 4.1 来生成飞船控制面板的 p5js 。他指出，与 GPT - 4 相比，GPT - 4.1 有很大的进步，并且在整体上表现得很出色。

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的_

Ethan 表明 GPT - 4.1 是能够在 twigl 中首次运行着色器的第四款模型。

_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的

网友让 GPT-4.1 以及 Gemini 2.5 Pro 去模拟一个霓虹灯照亮的赛博朋克城市夜景，在这个案例当中，4.1 模型比谷歌模型要强很多。

_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的__GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的

以上 demo 中，可以看出 GPT - 4.1 的编码性能很惊艳。然而从宏观角度来看，它仍比不上 Gemini 2.5 Pro 和 Claude 3.7 Sonnet。

在 Aider 多语言编码的最新测试里，GPT-4.1 的得分是 52.4%，这个得分与 Grok 3 和 DeepSeek V3 相近。并且它的成本相较于 o3-mini 降低了一半。

_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的

网友对此发出了吐槽，他们认为 GPT-4.1 在编程方面比不上 DeepSeek V3，然而其价格却比 DeepSeek V3 贵了 8 倍。

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的_

在最新的 Livebench 基准评估里，印证了 GPT-4.1 的推理、编码、数学实力比 Gemini 2.5 差。

Abacus.AI 的创始人 Bindu Reddy 称，4.1 性能要比 GPT-4o 更出色。然而，Livebench 的结果显示，新模型仅仅是对 4o 进行了一个增量式的更新。

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的_

哈佛科学家皮埃尔·邦格朗明确地指出，OpenAI 在谷歌之后首次发布了一个相较于谷歌而言远远落后的模型。

_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的

GPT-4.1 系家族在 GPQA Diamond 知识问答基准测试中未达到人类博士级水平，也无法超越 Gemini 2.5 Pro。

_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的

网友用一张恶搞图调侃说，在 OpenAI 发布 GPT-4 和 GPT-4.1 的那段时间里，谷歌把 Bard 进化成了最强的 Gemini 2.5 版本。

_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的

今年的 AI 大战里，很明显是 OpenAI 在和谷歌进行着硬碰硬的终极较量。

谷歌包围圈已成，OpenAI依然不可小觑

GPT-4.1 发布后，Ai2 的后训练负责人 Nathan Lambert 在第一时间撰写并发布了一篇分析文章。

他表示，GPT-4.1 是一个小版本的更新。这让人们更清楚地认识到，驱动着最佳 API 业务的模型是非常不同的。

如今，OpenAI 正借助 GPT-4.1 这一工具，把 API 与 GPT 进行分离。

它的模型正在对每一美元的智能进行优化。我们之后还会持续看到，GPT 的处理方式与 API 业务存在差异。

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的_

最近，OpenAI 持续进行着各类小幅的更新。他们的最终愿景是，把 GPT 打造成一个与自身 API 相独立的单体应用。

上周，GPT的记忆功能得到了改进。

今天，OpenAI 宣布了一套模型，这套模型仅适用于 API，名为 GPT-4.1，它直接与谷歌的 Gemini 形成了竞争。

单独来看，最近的发布没有什么颠覆性的前沿突破。因为性能相当的模型已经存在了。

不过，从这些更新中，却可以看出OpenAI的战略重心走向。

如今，它的周活跃用户数量突破了 19 亿。在这个时候，它所需要的是 GPT 以及其背后的模型，并且这些与市场上其他任何 AI 产品都存在明显的差异。

其他产品的中心主要在于编码或信息处理。与之不同的是，GPT 格外注重个性，注重氛围感，注重娱乐性。

一个经典例子体现了这一点，那就是 GPT-4.5 被弃用了，它是连同高昂定价一起从 API 中被弃用的，不过在 GPT 中仍会被保留。

即将发布的 o3 模型、o4 模型或者开放模型，目前尚无法让人清晰地看清 OpenAI 的宏观战略方向。

从下图能够看出，OpenAI 所传递的核心信息较为简单，其主要是提供性能更为优良且推理速度更加快速的模型。

_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的

新的 OpenAI 模型与谷歌 Gemini 每百万 Token 的价格存在对比，单位为美元。

OpenAI新模型:

GPT-4.1 的输入为 2.00，输出为 8.00，缓存输入为 0.50。

GPT-4.1 Mini 的输入与输出分别为 0.40 和 1.60，其缓存输入为 0.10。

GPT-4.1 Nano 的输入为 0.10，输出为 0.40，其缓存输入为 0.025。

OpenAI旧模型:

GPT-4o 的输入情况为 2.5，输出情况为 10.00，缓存输入的费用为 1.25 。

GPT-4o Mini 的输入为 0.15，输出为 0.60，缓存输入为 0.075。

谷歌Gemini:

Gemini 2.5 Pro（其 Token 数量小于等于 200K）：输入方面为 1.25，输出方面为 10.00；缓存情况为不可用。

Gemini 2.5 Pro （其输入的 Token 数量大于 200K）：输入的费用是 2.50，输出的费用是 15.00；缓存是不可用的。

Gemini 2.0 Flash 的输入为 0.10，输出为 0.40。其缓存输入在文本、图像、视频方面为 0.025，在音频方面为 0.175。

Gemini 2.0 Flash-Lite 的输入为 0.075，输出为 0.30，缓存是不可用的。

OpenAI 的模型学术评估结果表现强劲，然而这并未完全体现它们的实际状况。要知道，在实践当中，它们所执行的是重复性的小众任务。

显然，这些新模型是为了直接与 Gemini Flash 和 Flash-Lite 相对应的。在 Gemini 2.5 Pro 令人惊艳地发布之后，备受期待的 Gemini 2.5 Flash 也即将面世。

GPT-4o-mini 的性能处于落后状态，并且在好用程度上比不上 Flash。

要在 API 业务上获得成功，OpenAI 必须在 Gemini 已占据优势的这个前沿领域实现突破。

_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的

都是从GPT-4.5蒸馏来的？

很多人已发现：在 OpenAI 的官方宣传里，这些新模型的发布模式是一样的。它们有广泛的改进，然而却很少对具体原因进行解释。

所以可以肯定的是，这些新模型各式各样。它们都是为了获取更优的个性以及推理能力，是从 GPT-4.5 蒸馏出来的。

或者是在编码和数学上，借鉴了像o3这样的模型。

可以看出，新模型在代码方面已经取得了很大的进步。要知道，曾经 OpenAI 早期的模型在这方面表现得非常糟糕，几乎可以说是挂 0 了。

_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的

在编码和数学的评估方面，这些新模型与顶尖模型相比仍有明显差距。顶尖模型如 Gemini 2.5（推理模型）和 Claude 3.7（可选推理模型）在这方面表现更为出色。

如今，我们正处于模型向包含推理转变的这一早期阶段。然而，关于究竟何为单一的最佳模型，这个概念已经变得更加复杂了。

这些推理模型会消耗远超过以往的 Token，以此实现性能的大幅度提升。性能确实是最重要的，但如果性能相近，那么成本更低的那个就会胜出。

但先发优势仍难以撼动

但总体而言，对于绝大多数普通用户来讲，上述这些技术方面的细节实际上并没有太大的意义。

对于他们而言，那个被戏称作“模型投入度”的滑块，尽管令人头疼，但反而更直观。

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的_GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压，大佬猜测：从GPT-4.5蒸馏的_

很多人长期以来对于聊天机器人的订阅费会比 API 的价格更感到犹豫。

但显然，有一个日渐清晰的现实，那就是真正个性化且受用户喜爱的体验，通常只存在于这些集成的应用程序里。

开发者能够通过 API 来构建竞品，并且可以积累用户交互数据。然而，由于 OpenAI 在产品层面已经构建起了极为巨大的先发优势，所以要想胜过 OpenAI，可能并不是一件容易的事情。

当前 AI 发展中，产品化是重中之重，这些都再次印证了我们的这一认知。

记忆功能有助于 OpenAI 铺平未来的发展道路，将 GPT 这条产品线与 API 服务进行更清晰的切割也有助于 OpenAI 铺平未来的发展道路。

但要完全实现这一愿景，OpenAI前方仍有很长的路要走。

参考资料：

本文源自微信公众号“新智元”，其作者为新智元，36 氪获得授权后进行了发布。

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://mjgaz.cn/fenxiang/275468.html

GPT-4.1实力评测：编码性能提升百万token上下文，性价比碾压GPT-4.5

相关推荐

联系我们