GPT-4.5在LM Arena排行榜中意外登顶：情商爆表的表现引发热议-模具钢网

在知名的 AI 排行榜 LM Arena 里，GPT-4.5 曾经在全班中处于垫底的位置，然而它却一度获得了第一名。并且它在数学、编程等领域都有着优异的表现。这种反常的表现让网友们一度产生了质疑，他们怀疑大模型竞技场是不是被 LLM 操纵了。不过，网友们在进行实际测试之后，惊讶地发现，GPT-4.5 的情商非常高，能够不用推理就理解人类的深层意图。

GPT-4.5，口碑又意外反转了？

GPT-4.5 经过 3 千多轮的比较后，在所有类别中都获得了第一名，并且在 LLM 竞技场中处于首位。

GPT-4.5 注重情商而非智商，它不是推理模型，在之前的基准测试里几乎每次都是全班成绩最差的，那情形真是惨不忍睹。

智商竞赛__高智商比赛

结果一转眼，它就在大模型竞技场上登顶了？？

LLM Arena 排行榜刚刚官宣，GPT-4.5 在所有类别中处于首位。它在风格控制方面表现突出，在多轮对话方面也占据优势，最终拿到了 1411 的总分。

在多轮对话领域是第一！在困难提示领域是第一！在编码领域是第一！在数学领域是第一！在创意写作领域是第一！在指令遵循领域是第一！在长查询领域是第一！

这个结果，也太让人意外了吧……

_高智商比赛_智商竞赛

马斯克立即站出来表明：GPT-4.5 仅仅是暂时处于领先地位，不会一直保持下去。

_智商竞赛_高智商比赛

马斯克话音刚落不久，果然大模型竞技场的 TOP1 变为了 Grok-3，其总分为 1412，与 GPT-4.5 的比分十分接近，差距极小。

智商竞赛__高智商比赛

曾经登顶 TOP 1 的 GPT-4.5 给人们留下了诸多疑问。它不仅情商高，能让人如沐春风，还绝顶聪明，能睥睨群雄，堪称天下第一，甚至可以吊打 o1、Grok-3、Clauede 等前辈。

_智商竞赛_高智商比赛

GPT-4.5 主打“高情商”，仅靠情商就能在编程、数学等领域拿下第一吗？

现在，有网友直接开始质疑：大模型竞技场是否存在什么问题了。

甚至还有人猜测：LLM是不是已经学会操纵LMArena了？

高智商比赛__智商竞赛

GPT-4.5智商结果公布：得分94排名第五

就在同时，GPT-4.5的智商测试结果也公布了。

可以看到，GPT-4.5 进行线下测试时的智商是 97，进行线上门萨测试时的智商是 94。

智商竞赛__高智商比赛

总之，线上的智商测试中，GPT-4.5 的得分不如 OpenAI 的 o1 Pro、o3 mini 和 o1-preview 高；线下的智商测试中，GPT-4.5 的得分也不如 OpenAI 的 o1 Pro、o3 mini 和 o1-preview 高。

这个结果，总算是合理了些。

众多大模型里，线下智商测试的得分最高者是 OpenAI o1 pro，线上门萨智商测试的得分最高者是 OpenAI o1。

但要和人类比的话，GPT-4o可以说已经和人类的智商齐平。

人类的平均智商大概处于 90 到 110 这个范围。爱因斯坦的智商大约是 160。陶哲轩被认为是世界上智商最高的人，他的得分在 225 到 230 之间。

人类的智商被LLM超越，应该也就是近在咫尺的事了。

高智商比赛_智商竞赛_

然而也有很多人质疑了：给LLM测智商，到底意义几何呢？

原因在于，智商是与人类心智的独特性相关的一种度量。这种度量不可能与 LLM 相关。

高智商比赛__智商竞赛

网友实测惊喜：它很理解用户意图！

最近，奥特曼就晒出了自己和GPT-4.5对话的记录。

他提问道：「奇点临近，未知在哪一侧」，你如何看待？

GPT-4.5 缓缓答道：我们已经跨越了奇点的事件视界，不过只是刚刚才跨越过去。

我们已踏入奇点的引力范围，但要理解它的后果，依然为时尚早。

智商竞赛__高智商比赛

_高智商比赛_智商竞赛

_智商竞赛_高智商比赛

高智商比赛_智商竞赛_

显然，奥特曼对于GPT-4.5的表现非常满意。

在这些天的实测过程中，许多网友都发现，GPT-4.5具备一种极为超凡的自我意识，并且在理解用户意图方面给人带来了惊喜。

比如下面这个例子，用户开了一个关于国际象棋的粗俗玩笑，GPT-4.5 接住这个梗没有任何困难，并且给出了适宜的回答。

高智商比赛__智商竞赛

这位 AI 大 V 称，自己对此印象极为深刻。原因在于，GPT - 4.5 在压根没有进行任何思考 token 的情形下，就把握住了这个细微之处。

他感慨道：预训练并没有失去其价值。它只是在某些领域的效果逐渐减弱了，然而在其他领域却取得了令人惊叹的进步！

智商竞赛_高智商比赛_

相比之下，这句人类粗俗玩笑让 LLM 很难理解。而 Claude Sonnet 很显然没有理解这句玩笑。

智商竞赛_高智商比赛_

同样，Grok 3也没有get到这句话的意思。

智商竞赛_高智商比赛_

对此，马斯克不服气，他出现在了评论区，还贴上了 Grok 3 的回复，以此力证它并没有落后。

高智商比赛__智商竞赛

GPT-4.5并非文武双全

仔细看竞技场排名，目前在“语言”这个选项上，UB 排名第一的是 Grok-3-Preview-02-24，它的得分为 1412，并且共获得了 3364 次投票。

GPT-4.5-Preview 的 UB 排名处于第二位，其得分是 1411 。它仅在“风格控制”（StyleCtrl）这一项上排名第一，总共进行了 3224 次投票。

_智商竞赛_高智商比赛

风格控制排名：这种模型排名考虑了诸如响应长度以及 Markdown 使用等会产生影响的因素，目的是将模型性能与潜在的容易混淆的因素分离开来。

在“综合”选项上，Grok-3 和 GPT-4.5 的排名处于并列第一的状态。并且，GPT-4.5 在部分项目上具有微弱的优势。

智商竞赛_高智商比赛_

GPT-4.5 在编程方面表现出色，与 Grok-3 并列第一；GPT-4.5 在数学方面也同样如此，与 Grok-3 并列第一。

Grok-3 在英文、中文、德文等不同语言上与 GPT-4.5 并列第一。

此外DeepSeek-R1在中文上也是第一。

智商竞赛__高智商比赛

WebDev Arena 是一种在实时状态下开展的 AI 编程竞赛。各个模型在“网页开发”这一挑战中展开直接的对抗。GPT-4.5 根本没有参与此次竞赛。

OpenAI 的模型表现不是很好。最好的 o3-mini-high 与 Early-grok-3 并列排在第 4 位，它落后于 Claude 3.7 Sonnet、Claude 3.5 Sonnet 以及 DeepSeek-R1。

高智商比赛__智商竞赛

GPT-4.5新王登基？测试让人大跌眼镜

某研究者发表了一篇博客，内容是关于 GPT-4.5 的。在这篇博客中，他对 GPT-4.5 进行了详细的剖析。

高智商比赛_智商竞赛_

GPT-4.5在社区中引发了褒贬不一的反应。

尽管前期进行了大肆炒作，该模型却未能完全达到人们的高期望。

一些测试结果让人大跌眼镜。

Karpathy 进行的测试显示，在很多情况下，用户更倾向于 GPT-4o 的回答。具体而言，在五分之四的情形下，用户表现出了这种倾向。

GPT-4.5 虽被宣传为更具创意且情商更高，然而在实际的用户体验方面，这些优势并未充分展现出来。

有用户反馈称，在创意写作领域，GPT-4.5 的表现不如之前的那些模型。

_高智商比赛_智商竞赛

此外，高昂的使用成本也成为了推广GPT-4.5的一大障碍。

GPT-4.5 的 API 价格与 GPT-4o 相比有大幅上涨。其输入 token 价格从每百万 2.50 美元提升到了 75 美元，输出 token 价格从每百万 10 美元提升到了 150 美元。

用户普遍难以接受 GPT-4.5 的高价。一些网友称只是为了营造更有氛围的感觉才花费 75 美元。

小型公司以及独立开发者面临着这样的情况，如此高昂的成本对他们而言无疑是个极大的负担，进而影响了 GPT-4.5 的广泛应用。

智商竞赛__高智商比赛

GPT-4.5的高价格可能反映了背后的资源约束。

Altman 称，公司期望能够同时推出 GPT-4.5 Plus 以及 Pro 版本，然而 GPU 资源已然耗尽，打算在下周增添数万个 GPU，之后才可推广至 Plus 用户。

GPT-4.5 在某些方面有明显进步，然而，许多人所期望的全面改进并未达成。

GPT-4.5 规模庞大且架构复杂，这导致它的响应速度变慢，进而降低了用户体验。

Sam Altman 大肆宣传 GPT-4.5，这使得人们的期望被抬高了，他把它描绘成了第一个“真正让人感受到 AGI”的时刻。

高智商比赛_智商竞赛_

如果现实未能达到预期，这种宣传也会像回旋镖一样对他不利。

为什么现在发布GPT-4.5？

GPT-4 两年前发布时很盛大，而 GPT-4.5 的发布却出奇地低调简约，这让许多人感到意外。

Sam Altman 没有到场参加此次发布会，这使得外界对 OpenAI 对于 GPT-4.5 的重视情况以及信心产生了疑问。

GPT-4.5 的目标受众主要为广大普通用户，它可借助 AI 来完成撰写邮件这一任务，也可借助 AI 来完成总结文章这一任务。

GPT-4.5 是 OpenAI 进行从 GPT-4o 向 GPT-5 过渡的重要环节，它成为了在创意方面、沟通方面以及解决实际问题方面的日常伙伴。

智商竞赛_高智商比赛_

OpenAI 清晰地表明，GPT-4.5 并不是为了取代 GPT-4o。这一表明的举动，进一步让市场对 GPT-4.5 的未来充满了不确定性。

许多人将 GPT 视为 AI 的代名词，并且 OpenAI 对 AGI 进行了大力炒作，这使得人们对新模型的期待有所提高。

GPT-4.5发布的原因可能是市场竞争加剧。

短时间内，有越来越多且更好的模型进入市场。DeepSeek R1具备与 GPT-4o 相媲美的能力，xAI 的 Grok 3 看上去几乎如同人类一般，这使得 OpenAI 承受着巨大的压力。

GPT-5 有望在几个月内推出。它首次将推理和非推理组件在模型中进行结合。并且能够自主决定对查询的反应强度，也就是所谓的“推理扩展”。

GPT-4.5 是一种战略性的应对举措。其目标在于留住那些付费用户，避免他们在 GPT-5 发布之前转而投向竞争对手。通过这样的方式，能够保持 OpenAI 在市场中的领先地位。

参考资料：

这是一个链接 https://x.com/elonmusk/status/1896624102674506172 ，指向埃隆·马斯克（Elon Musk）的某条状态。

本文源自微信公众号“新智元”，作者是新智元，36 氪获得了发布的授权。

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://mjgaz.cn/fenxiang/274723.html

GPT-4.5在LM Arena排行榜中意外登顶：情商爆表的表现引发热议

相关推荐

联系我们