两个月后号称要淘汰 GPT - 4.5 的是 GPT - 4.1,它的实力到底怎样呢?在众多实际测试里,它的表现确实是值得称赞的,然而却仍旧无法战胜 Gemini 2.5 Pro 和 Claude 3.7 Sonnet。接着就有问题出现了,OpenAI 为什么要发布一个远远落后于谷歌的模型呢?
不过两月,GPT-4.5正式出局,前浪把后浪拍在了沙滩上。
GPT-4.1 家族诞生了,它具备更强的编码性能,能处理百万 token 的上下文,并且价格更具性价比,直接突破了 4.5。
nano 版的 GPT-4.1 价格比 GPT-4o mini 更便宜。
这些模型目前仅在 API 中提供。然而,目前爆火的编码平台 Windsurf 和 Cursor 开启了福利大放送活动,用户可以在七天内免费体验 GPT-4.1。
这不,全网首波实测已经来了。
GPT-4.1编码惊艳,却打不过Gemini 2.5
这款以超强编码著称的模型,在实际任务表现中又如何呢?
OpenAI 科学家称,GPT - 4.1 并非推理模型,然而它能够在软件工程基准测试中获得 55%的高分。
网友 Flavio Adamo 使用同一个提示,即让小球在旋转的六边形中模拟自由落体,然后对 GPT-4.1 的三款模型以及 GPT-4.5 的编码表现进行了测试。
可以明显看出,GPT-4.1 对小球物理运动过程进行了精准模拟,然而 GPT-4.1-mini 和 GPT-4.1-nano 在这方面的表现则差了很多。
GPT-4.5的实力几乎不输GPT-4.1。
在另一个类似的测试里,让 GPT-4.1 去挑战旋转正方形这件事,从而模拟出球体在正方形内真实弹跳所呈现出的效果。
Kaggle 的开发者 Parul Pandey 说,用 GPT - 4.1 去创建用于教育物理模拟这件事是非常有趣的。
在使用小球击倒金字塔的代码生成过程里,模型仅仅读取了少量不必要的文件,并且代码结构十分简洁。
一位工程师借助 Windsurf 工具,让 GPT-4.1 在 30 秒内生成了一个贪吃蛇游戏。
微软研究员 Dimitris Papailiopoulos分别让 GPT-4.1、GPT-4o、GPT-4.5 去画独角兽,经过推测得知 4.1 的参数量比 4o 的参数量小。
有一说一,GPT-4.1生成的独角兽是当中最丑的那个。
沃顿商学院的教授 Ethan Mollick 利用 GPT - 4.1 来生成飞船控制面板的 p5js 。他指出,与 GPT - 4 相比,GPT - 4.1 有很大的进步,并且在整体上表现得很出色。
Ethan 表明 GPT - 4.1 是能够在 twigl 中首次运行着色器的第四款模型。
网友让 GPT-4.1 以及 Gemini 2.5 Pro 去模拟一个霓虹灯照亮的赛博朋克城市夜景,在这个案例当中,4.1 模型比谷歌模型要强很多。
以上 demo 中,可以看出 GPT - 4.1 的编码性能很惊艳。然而从宏观角度来看,它仍比不上 Gemini 2.5 Pro 和 Claude 3.7 Sonnet。
在 Aider 多语言编码的最新测试里,GPT-4.1 的得分是 52.4%,这个得分与 Grok 3 和 DeepSeek V3 相近。并且它的成本相较于 o3-mini 降低了一半。
网友对此发出了吐槽,他们认为 GPT-4.1 在编程方面比不上 DeepSeek V3,然而其价格却比 DeepSeek V3 贵了 8 倍。
在最新的 Livebench 基准评估里,印证了 GPT-4.1 的推理、编码、数学实力比 Gemini 2.5 差。
Abacus.AI 的创始人 Bindu Reddy 称,4.1 性能要比 GPT-4o 更出色。然而,Livebench 的结果显示,新模型仅仅是对 4o 进行了一个增量式的更新。
哈佛科学家皮埃尔·邦格朗明确地指出,OpenAI 在谷歌之后首次发布了一个相较于谷歌而言远远落后的模型。
GPT-4.1 系家族在 GPQA Diamond 知识问答基准测试中未达到人类博士级水平,也无法超越 Gemini 2.5 Pro。
网友用一张恶搞图调侃说,在 OpenAI 发布 GPT-4 和 GPT-4.1 的那段时间里,谷歌把 Bard 进化成了最强的 Gemini 2.5 版本。
今年的 AI 大战里,很明显是 OpenAI 在和谷歌进行着硬碰硬的终极较量。
谷歌包围圈已成,OpenAI依然不可小觑
GPT-4.1 发布后,Ai2 的后训练负责人 Nathan Lambert 在第一时间撰写并发布了一篇分析文章。
他表示,GPT-4.1 是一个小版本的更新。这让人们更清楚地认识到,驱动着最佳 API 业务的模型是非常不同的。
如今,OpenAI 正借助 GPT-4.1 这一工具,把 API 与 GPT 进行分离。
它的模型正在对每一美元的智能进行优化。我们之后还会持续看到,GPT 的处理方式与 API 业务存在差异。
最近,OpenAI 持续进行着各类小幅的更新。他们的最终愿景是,把 GPT 打造成一个与自身 API 相独立的单体应用。
上周,GPT的记忆功能得到了改进。
今天,OpenAI 宣布了一套模型,这套模型仅适用于 API,名为 GPT-4.1,它直接与谷歌的 Gemini 形成了竞争。
单独来看,最近的发布没有什么颠覆性的前沿突破。因为性能相当的模型已经存在了。
不过,从这些更新中,却可以看出OpenAI的战略重心走向。
如今,它的周活跃用户数量突破了 19 亿。在这个时候,它所需要的是 GPT 以及其背后的模型,并且这些与市场上其他任何 AI 产品都存在明显的差异。
其他产品的中心主要在于编码或信息处理。与之不同的是,GPT 格外注重个性,注重氛围感,注重娱乐性。
一个经典例子体现了这一点,那就是 GPT-4.5 被弃用了,它是连同高昂定价一起从 API 中被弃用的,不过在 GPT 中仍会被保留。
即将发布的 o3 模型、o4 模型或者开放模型,目前尚无法让人清晰地看清 OpenAI 的宏观战略方向。
从下图能够看出,OpenAI 所传递的核心信息较为简单,其主要是提供性能更为优良且推理速度更加快速的模型。
新的 OpenAI 模型与谷歌 Gemini 每百万 Token 的价格存在对比,单位为美元。
OpenAI新模型:
GPT-4.1 的输入为 2.00,输出为 8.00,缓存输入为 0.50。
GPT-4.1 Mini 的输入与输出分别为 0.40 和 1.60,其缓存输入为 0.10。
GPT-4.1 Nano 的输入为 0.10,输出为 0.40,其缓存输入为 0.025。
OpenAI旧模型:
GPT-4o 的输入情况为 2.5,输出情况为 10.00,缓存输入的费用为 1.25 。
GPT-4o Mini 的输入为 0.15,输出为 0.60,缓存输入为 0.075。
谷歌Gemini:
Gemini 2.5 Pro(其 Token 数量小于等于 200K):输入方面为 1.25,输出方面为 10.00;缓存情况为不可用。
Gemini 2.5 Pro (其输入的 Token 数量大于 200K):输入的费用是 2.50,输出的费用是 15.00;缓存是不可用的。
Gemini 2.0 Flash 的输入为 0.10,输出为 0.40。其缓存输入在文本、图像、视频方面为 0.025,在音频方面为 0.175。
Gemini 2.0 Flash-Lite 的输入为 0.075,输出为 0.30,缓存是不可用的。
OpenAI 的模型学术评估结果表现强劲,然而这并未完全体现它们的实际状况。要知道,在实践当中,它们所执行的是重复性的小众任务。
显然,这些新模型是为了直接与 Gemini Flash 和 Flash-Lite 相对应的。在 Gemini 2.5 Pro 令人惊艳地发布之后,备受期待的 Gemini 2.5 Flash 也即将面世。
GPT-4o-mini 的性能处于落后状态,并且在好用程度上比不上 Flash。
要在 API 业务上获得成功,OpenAI 必须在 Gemini 已占据优势的这个前沿领域实现突破。
都是从GPT-4.5蒸馏来的?
很多人已发现:在 OpenAI 的官方宣传里,这些新模型的发布模式是一样的。它们有广泛的改进,然而却很少对具体原因进行解释。
所以可以肯定的是,这些新模型各式各样。它们都是为了获取更优的个性以及推理能力,是从 GPT-4.5 蒸馏出来的。
或者是在编码和数学上,借鉴了像o3这样的模型。
可以看出,新模型在代码方面已经取得了很大的进步。要知道,曾经 OpenAI 早期的模型在这方面表现得非常糟糕,几乎可以说是挂 0 了。
在编码和数学的评估方面,这些新模型与顶尖模型相比仍有明显差距。顶尖模型如 Gemini 2.5(推理模型)和 Claude 3.7(可选推理模型)在这方面表现更为出色。
如今,我们正处于模型向包含推理转变的这一早期阶段。然而,关于究竟何为单一的最佳模型,这个概念已经变得更加复杂了。
这些推理模型会消耗远超过以往的 Token,以此实现性能的大幅度提升。性能确实是最重要的,但如果性能相近,那么成本更低的那个就会胜出。
但先发优势仍难以撼动
但总体而言,对于绝大多数普通用户来讲,上述这些技术方面的细节实际上并没有太大的意义。
对于他们而言,那个被戏称作“模型投入度”的滑块,尽管令人头疼,但反而更直观。
很多人长期以来对于聊天机器人的订阅费会比 API 的价格更感到犹豫。
但显然,有一个日渐清晰的现实,那就是真正个性化且受用户喜爱的体验,通常只存在于这些集成的应用程序里。
开发者能够通过 API 来构建竞品,并且可以积累用户交互数据。然而,由于 OpenAI 在产品层面已经构建起了极为巨大的先发优势,所以要想胜过 OpenAI,可能并不是一件容易的事情。
当前 AI 发展中,产品化是重中之重,这些都再次印证了我们的这一认知。
记忆功能有助于 OpenAI 铺平未来的发展道路,将 GPT 这条产品线与 API 服务进行更清晰的切割也有助于 OpenAI 铺平未来的发展道路。
但要完全实现这一愿景,OpenAI前方仍有很长的路要走。
参考资料:
本文源自微信公众号“新智元”,其作者为新智元,36 氪获得授权后进行了发布。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/275468.html