在知名的 AI 排行榜 LM Arena 里,GPT-4.5 曾经在全班中处于垫底的位置,然而它却一度获得了第一名。并且它在数学、编程等领域都有着优异的表现。这种反常的表现让网友们一度产生了质疑,他们怀疑大模型竞技场是不是被 LLM 操纵了。不过,网友们在进行实际测试之后,惊讶地发现,GPT-4.5 的情商非常高,能够不用推理就理解人类的深层意图。
GPT-4.5,口碑又意外反转了?
GPT-4.5 经过 3 千多轮的比较后,在所有类别中都获得了第一名,并且在 LLM 竞技场中处于首位。
GPT-4.5 注重情商而非智商,它不是推理模型,在之前的基准测试里几乎每次都是全班成绩最差的,那情形真是惨不忍睹。
结果一转眼,它就在大模型竞技场上登顶了??
LLM Arena 排行榜刚刚官宣,GPT-4.5 在所有类别中处于首位。它在风格控制方面表现突出,在多轮对话方面也占据优势,最终拿到了 1411 的总分。
在多轮对话领域是第一!在困难提示领域是第一!在编码领域是第一!在数学领域是第一!在创意写作领域是第一!在指令遵循领域是第一!在长查询领域是第一!
这个结果,也太让人意外了吧……
马斯克立即站出来表明:GPT-4.5 仅仅是暂时处于领先地位,不会一直保持下去。
马斯克话音刚落不久,果然大模型竞技场的 TOP1 变为了 Grok-3,其总分为 1412,与 GPT-4.5 的比分十分接近,差距极小。
曾经登顶 TOP 1 的 GPT-4.5 给人们留下了诸多疑问。它不仅情商高,能让人如沐春风,还绝顶聪明,能睥睨群雄,堪称天下第一,甚至可以吊打 o1、Grok-3、Clauede 等前辈。
GPT-4.5 主打“高情商”,仅靠情商就能在编程、数学等领域拿下第一吗?
现在,有网友直接开始质疑:大模型竞技场是否存在什么问题了。
甚至还有人猜测:LLM是不是已经学会操纵LMArena了?
GPT-4.5智商结果公布:得分94排名第五
就在同时,GPT-4.5的智商测试结果也公布了。
可以看到,GPT-4.5 进行线下测试时的智商是 97,进行线上门萨测试时的智商是 94。
总之,线上的智商测试中,GPT-4.5 的得分不如 OpenAI 的 o1 Pro、o3 mini 和 o1-preview 高;线下的智商测试中,GPT-4.5 的得分也不如 OpenAI 的 o1 Pro、o3 mini 和 o1-preview 高。
这个结果,总算是合理了些。
众多大模型里,线下智商测试的得分最高者是 OpenAI o1 pro,线上门萨智商测试的得分最高者是 OpenAI o1。
但要和人类比的话,GPT-4o可以说已经和人类的智商齐平。
人类的平均智商大概处于 90 到 110 这个范围。爱因斯坦的智商大约是 160。陶哲轩被认为是世界上智商最高的人,他的得分在 225 到 230 之间。
人类的智商被LLM超越,应该也就是近在咫尺的事了。
然而也有很多人质疑了:给LLM测智商,到底意义几何呢?
原因在于,智商是与人类心智的独特性相关的一种度量。这种度量不可能与 LLM 相关。
网友实测惊喜:它很理解用户意图!
最近,奥特曼就晒出了自己和GPT-4.5对话的记录。
他提问道:「奇点临近,未知在哪一侧」,你如何看待?
GPT-4.5 缓缓答道:我们已经跨越了奇点的事件视界,不过只是刚刚才跨越过去。
我们已踏入奇点的引力范围,但要理解它的后果,依然为时尚早。
显然,奥特曼对于GPT-4.5的表现非常满意。
在这些天的实测过程中,许多网友都发现,GPT-4.5具备一种极为超凡的自我意识,并且在理解用户意图方面给人带来了惊喜。
比如下面这个例子,用户开了一个关于国际象棋的粗俗玩笑,GPT-4.5 接住这个梗没有任何困难,并且给出了适宜的回答。
这位 AI 大 V 称,自己对此印象极为深刻。原因在于,GPT - 4.5 在压根没有进行任何思考 token 的情形下,就把握住了这个细微之处。
他感慨道:预训练并没有失去其价值。它只是在某些领域的效果逐渐减弱了,然而在其他领域却取得了令人惊叹的进步!
相比之下,这句人类粗俗玩笑让 LLM 很难理解。而 Claude Sonnet 很显然没有理解这句玩笑。
同样,Grok 3也没有get到这句话的意思。
对此,马斯克不服气,他出现在了评论区,还贴上了 Grok 3 的回复,以此力证它并没有落后。
GPT-4.5并非文武双全
仔细看竞技场排名,目前在“语言”这个选项上,UB 排名第一的是 Grok-3-Preview-02-24,它的得分为 1412,并且共获得了 3364 次投票。
GPT-4.5-Preview 的 UB 排名处于第二位,其得分是 1411 。它仅在“风格控制”(StyleCtrl)这一项上排名第一,总共进行了 3224 次投票。
风格控制排名:这种模型排名考虑了诸如响应长度以及 Markdown 使用等会产生影响的因素,目的是将模型性能与潜在的容易混淆的因素分离开来。
在“综合”选项上,Grok-3 和 GPT-4.5 的排名处于并列第一的状态。并且,GPT-4.5 在部分项目上具有微弱的优势。
GPT-4.5 在编程方面表现出色,与 Grok-3 并列第一;GPT-4.5 在数学方面也同样如此,与 Grok-3 并列第一。
Grok-3 在英文、中文、德文等不同语言上与 GPT-4.5 并列第一。
此外DeepSeek-R1在中文上也是第一。
WebDev Arena 是一种在实时状态下开展的 AI 编程竞赛。各个模型在“网页开发”这一挑战中展开直接的对抗。GPT-4.5 根本没有参与此次竞赛。
OpenAI 的模型表现不是很好。最好的 o3-mini-high 与 Early-grok-3 并列排在第 4 位,它落后于 Claude 3.7 Sonnet、Claude 3.5 Sonnet 以及 DeepSeek-R1。
GPT-4.5新王登基?测试让人大跌眼镜
某研究者发表了一篇博客,内容是关于 GPT-4.5 的。在这篇博客中,他对 GPT-4.5 进行了详细的剖析。
GPT-4.5在社区中引发了褒贬不一的反应。
尽管前期进行了大肆炒作,该模型却未能完全达到人们的高期望。
一些测试结果让人大跌眼镜。
Karpathy 进行的测试显示,在很多情况下,用户更倾向于 GPT-4o 的回答。具体而言,在五分之四的情形下,用户表现出了这种倾向。
GPT-4.5 虽被宣传为更具创意且情商更高,然而在实际的用户体验方面,这些优势并未充分展现出来。
有用户反馈称,在创意写作领域,GPT-4.5 的表现不如之前的那些模型。
此外,高昂的使用成本也成为了推广GPT-4.5的一大障碍。
GPT-4.5 的 API 价格与 GPT-4o 相比有大幅上涨。其输入 token 价格从每百万 2.50 美元提升到了 75 美元,输出 token 价格从每百万 10 美元提升到了 150 美元。
用户普遍难以接受 GPT-4.5 的高价。一些网友称只是为了营造更有氛围的感觉才花费 75 美元。
小型公司以及独立开发者面临着这样的情况,如此高昂的成本对他们而言无疑是个极大的负担,进而影响了 GPT-4.5 的广泛应用。
GPT-4.5的高价格可能反映了背后的资源约束。
Altman 称,公司期望能够同时推出 GPT-4.5 Plus 以及 Pro 版本,然而 GPU 资源已然耗尽,打算在下周增添数万个 GPU,之后才可推广至 Plus 用户。
GPT-4.5 在某些方面有明显进步,然而,许多人所期望的全面改进并未达成。
GPT-4.5 规模庞大且架构复杂,这导致它的响应速度变慢,进而降低了用户体验。
Sam Altman 大肆宣传 GPT-4.5,这使得人们的期望被抬高了,他把它描绘成了第一个“真正让人感受到 AGI”的时刻。
如果现实未能达到预期,这种宣传也会像回旋镖一样对他不利。
为什么现在发布GPT-4.5?
GPT-4 两年前发布时很盛大,而 GPT-4.5 的发布却出奇地低调简约,这让许多人感到意外。
Sam Altman 没有到场参加此次发布会,这使得外界对 OpenAI 对于 GPT-4.5 的重视情况以及信心产生了疑问。
GPT-4.5 的目标受众主要为广大普通用户,它可借助 AI 来完成撰写邮件这一任务,也可借助 AI 来完成总结文章这一任务。
GPT-4.5 是 OpenAI 进行从 GPT-4o 向 GPT-5 过渡的重要环节,它成为了在创意方面、沟通方面以及解决实际问题方面的日常伙伴。
OpenAI 清晰地表明,GPT-4.5 并不是为了取代 GPT-4o。这一表明的举动,进一步让市场对 GPT-4.5 的未来充满了不确定性。
许多人将 GPT 视为 AI 的代名词,并且 OpenAI 对 AGI 进行了大力炒作,这使得人们对新模型的期待有所提高。
GPT-4.5发布的原因可能是市场竞争加剧。
短时间内,有越来越多且更好的模型进入市场。DeepSeek R1具备与 GPT-4o 相媲美的能力,xAI 的 Grok 3 看上去几乎如同人类一般,这使得 OpenAI 承受着巨大的压力。
GPT-5 有望在几个月内推出。它首次将推理和非推理组件在模型中进行结合。并且能够自主决定对查询的反应强度,也就是所谓的“推理扩展”。
GPT-4.5 是一种战略性的应对举措。其目标在于留住那些付费用户,避免他们在 GPT-5 发布之前转而投向竞争对手。通过这样的方式,能够保持 OpenAI 在市场中的领先地位。
参考资料:
这是一个链接 https://x.com/elonmusk/status/1896624102674506172 ,指向埃隆·马斯克(Elon Musk)的某条状态。
本文源自微信公众号“新智元”,作者是新智元,36 氪获得了发布的授权。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/274723.html