1. 首页>>分享

Elon Musks xAI Stirs the AI Industry: A Deep Dive into the Latest Developments

马斯克的至暗时刻_马斯克之日_

- 大家好。我叫伊戈尔(Igor),X。

- 我是吉米(Jimmy),领先的研究。

- 我是托尼(Tony),在最近的团队中工作。

- 好的。我是埃隆。我什么都不做。我偶尔出现。

作者|苏霍伊

Huntian Ling的Deepseek轰动再次在人工智能海洋中卷起了巨大的海浪。这使得像Openai,Xai和其他人等公司无法坐下。

2月17日,西方时代,埃隆·马斯克(Elon Musk)的人工智能创业公司XAI推出了Grok-3型号,并以备受瞩目的声称是“表面上最聪明的AI”。

马斯克的至暗时刻__马斯克之日

马斯克和三名工程师完成了演示。左侧工程团队负责人伊戈尔·巴布斯金(Igor Babuschkin)最初是DeepMind的高级研究员。左侧研究团队负责人吉米·巴(Jimmy Ba)是杰弗里(Jeffrey)。 ·杰弗里·辛顿的学生;托尼·尤哈伊(Tony Yuhuai Wu),右第二,最近是该团队的成员。

_马斯克的至暗时刻_马斯克之日

该团队透露,Grok-3的计算能力是上一代产品的“超过10倍”。据报道,Grok-3在今年1月初完成了预培训,并且仍在优化。马斯克说:“我们每天都在改善模型,因此我们可以在24小时内看到改进。”

他还在现场直播中说,“ grok”这个名字来自罗伯特·安森·海因莱因(Robert Anson Heinlein)的小说《一个陌生人》,主角是一个在火星上长大的人,“ grok”也是“火星词”,代表了“火星”。对事物的充分而深刻的理解。

然后他说,Xai和Grok的任务是了解宇宙。 “我们想回答最大的问题:外星人在哪里?生活的意义是什么?宇宙如何结束?”

根据XAI数据,Grok-3在数学的三个主要基准(AIME'24),Science(GPQA)和编程(LCB OCT-FEB)中表现良好。数据超出了所有主流模型,包括GPT-4O,Claude 3.5十四行诗,DeepSeek-V3和Gemini-2 Pro。

_马斯克之日_马斯克的至暗时刻

聊天机器人竞技场各种主要模型的结果比较

以数学测试为例,Grok-3得分最高52分,而Grok-3 Mini也属于XAI营地,得分40分,DeepSeek-V3紧随其后39分。 Gemini-2 Pro得分36 Claude 3.5十四行诗,GPT-4O分别只有16分和9分。

科学和编程测试的情况相似。 Grok-3所有其他领先的模型具有更大的优势,Grok-3 Mini,Gemini-2 Pro,DeepSeek-V3,Claude 3.5十四行诗和GPT-4O分别排名第二。

马斯克的至暗时刻__马斯克之日

Grok-3与数学,科学和编程基准中的其他模型的比较

除Grok-3外,XAI还推出了一个名为DeepSearch的新的智能搜索引擎。 DeepSearch是基于Grok-3开发的,具有推理能力,并提供了一个完整的思维过程。在演示中,DeepSearch展示了其在研究,集思广益和数据分析等方案中的应用潜力。

马斯克的至暗时刻__马斯克之日

Grok-3依赖于拥有200,000 NVIDIA H100 GPU的巨像超级计算集群。计算能力是上一代Grok-2的10倍。训练阶段的消费相当于核电站每月发电的7%。从其建立到推出仅花了122天的时间。 XAI计划扩大巨像的量表十倍,并整合超过100万个GPU,以超过Google和Openai等竞争对手。

相比之下,DeepSeek-V3的算法优化路径仅使用2,048个NVIDIA H800 GPU,并在花费557.6万美元后完成了培训,这比相同规模的模型(例如GPT-4,GPT-4,GPT-4O,LLAMA,LLAMA 3.1)更好。培训成本大大降低了。同时,Grok 3仍然是一个非开放的源模型,需要付款。

_马斯克之日_马斯克的至暗时刻

DeepSeek-V3的培训成本(假设H800的租金为2美元/GPU小时),图像来源:DeepSeek-V3技术报告

1.grok 3在哪里聪明?

Xai说,Grok-3之所以聪明的原因是它依靠其背后的巨像,并通过“突破光速”的R&D模型实现了技术飞跃。

“最好的人工智能不仅依赖大规模的预训练,而且还需要类似人类的推理能力,也就是说,能够独立于解决方案,自我批评,验证,回溯和从第一原则开始。”基于这个想法,XAI强化学习是根据预先训练的模型引入的,希望进一步促进该模型的推理能力。

在聊天机器人竞技场LMSYS基准中,Grok-3得分最高1400分,远远超过了其竞争对手Claude 3,约1360分和GPT-4的得分约为1340分。

根据XAI的最新公共信息,在对AGI Core Engine的纯粹盲目测试中,用户在不知道答案的来源并对两个不同模型的答案进行投票而提交相同的查询。结果表明,在此测试中,Grok-3的早期版本得分为1,400 ELO点,远远超过了其他竞争对手,例如Claude 3和GPT-4。这种盲测方法仅检查模型自己的推理能力,而不是依靠外部数据或提示。

除了Grok-3和Grok-3 Mini外,XAI团队还推出了两种专门用于推理的型号。其中,Grok-3迷你推理相对成熟,而Grok-3推理Beta仍处于Beta阶段。

在现场演示中,马斯克和研发团队测试了两例物理和游戏案例。

首先,团队只进入一条说明,要求Grok-3编写代码,生成一个3D动画,该动画模拟从地球发射的火箭发射,降落在火星上,然后在适当的发射窗口中返回地球。在考虑了开普勒定律之后,Grok-3不仅生成了可以绘制动画的代码,而且还产生了一个3D动画,可以模拟火箭的启动轨迹。

_马斯克之日_马斯克的至暗时刻

马斯克解释说:“格罗克(Grok)正在模拟两个不同的行星 - 地球和火星。绿色球体代表飞船,在地球和火星之间穿梭。您可以看到从地球到火星的旅程,最终可以安全地返回。”

同时,他还插话:“如果一切顺利,SpaceX将在未来两年内将星际飞船火箭送往火星,并携带Optimus机器人和Grok。”

Grok-3的第二个问题是设计一个混合游戏,将俄罗斯方块和宝石迷宫游戏结合在一起。提示是该代码可能更长,并且还需要“疯狂地”。经过思考,Grok 3设计了一款具有俄罗斯方块消除机制和宝石迷宫的游戏。

马斯克之日__马斯克的至暗时刻

XAI还让Grok-3进行Aime 2025比赛。最后,Grok-3推理beta得分为93分,Grok-3 Mini推理得分也得分90分,均领先于其他参与模型。相比之下,O3Mini(高精度版本)得分87,O1为79,DeepSeek-R1是75,而Gemini-2 Flash Thinky仅得分仅获得54分。

马斯克之日__马斯克的至暗时刻

乍一看,Grok-3似乎在数学推理领域牢固地掌握了“头把交椅”。但是仔细考虑,这些结果真的可以证明Grok-3的绝对领先地位吗?毕竟,得出结论并不容易,测试环境和数据集的选择可能会影响结果,而单个测试不能完全反映模型的全面性能。同时,Grok-3推理Beta仍处于测试阶段,其稳定性和可靠性尚未得到广泛验证。

此外,XAI还推出了一个名为DeepSearch的新的智能搜索引擎。它可以搜索网页,查找信息,推测用户意图并进行思考,并确保在交叉启动后返回正确的信息。

马斯克说:“ Grok-3可以减少AI的幻想。”实现方法是重复检查数据并确保逻辑一致。他还透露,训练Grok-3期间使用的计算能力远大于以前的版本,并且使用了大量的合成数据。自2023年7月成立XAI以来,XAI于2023年11月和2024年8月发布了Grok-1和Grok-2。前者有3140亿个参数,成为当时具有最大参数的开源大型模型。

XAI宣布Grok-3将于周一在美国正式推出。第一批体验者是X的Premium Plus订户,还推出了一项名为Super Grok的独立订阅服务,为忠实的粉丝提供了高级功能和最新功能访问。

最后,马斯克预览了Grok-3将在一周内启动语音模式。后来,Grok-3将通过XAI的Enterprise API提供和DeepSearch功能。

2。马斯克最近很忙

马斯克最近增加了另一种身份,即政府效率部现任部长(DOGE)。

马斯克之日__马斯克的至暗时刻

马斯克释放政府效率部(DOGE)徽标

自上任以来,马斯克将国际开发局,教育部和国土安全部等机构一一锤击。我不仅在办公室里睡觉,还带领我的几个下属每天工作17个小时。它的网站表示,Doge最近宣布减少了550亿美元的支出。

同时,他与Openai的“怨恨”并不闲置。

就在本月,由马斯克(Musk)领导的一个投资联盟向Openai提出了974亿美元的收购,称其将“重新定位为非营利性研究机构”。根据收购计划,交易后,OpenAI将与XAI合并。

Openai首席执行官塞缪尔·奥特曼(Samuel Altman)随后在X上回答:“不,谢谢。但是,如果您愿意,我们愿意以97.4亿美元的价格收购Twitter。”

马斯克和奥特曼进行了许多法律和公共关系战争。去年,马斯克起诉阿尔特曼(Altman),然后Openai发表了一篇题为“ Openai and Elon Musk”的博客文章,以回应指控。马斯克不会被淘汰,在社交媒体上说,如果将名称更改为“封闭”,他将撤回对Openai的诉讼。

马斯克之日_马斯克的至暗时刻_

高端商业战争通常是如此简单。

当Grok-3发布时,我不知道这是否是故意的。 Ultraman还在同一天宣布,GPT4.5进入了测试阶段,AGI的时间到了,正式发布就在临近。

马斯克之日__马斯克的至暗时刻

同时,Anthropic还宣布将很快发布Claude-4系列。随着Openai,Anthropic,Meta和Google继续推出更高级的AI产品,将来的竞争只会变得越来越激烈。

近年来,人工智能领域的每一个突破似乎都被标记为夸张的标签,例如“世界第一”,“革命性”和“破坏性”。从Openai的GPT系列到Google的双子座,再到Xai的Grok-3,媒体已将每个新车型的发行都包装为“改变游戏规则”的里程碑。但是,需要客观地思考真正的科学和技术创新。只有这样,我们才能深刻理解其背后的复杂性和实用应用价值。

实际上,您还可以举办产品发布会,而无需添加诸如“世界第一”和“表面上最聪明的AI”之类的属性。当AI被“世界排名第一”淹没时,我们会迷失在华丽的言论中吗?

至于谁能真正脱颖而出并成为行业领导者,它仍然需要时间和市场才能验证。

(文章中的图片全部来自XAI或X)

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/274327.html

联系我们

在线咨询:点击这里给我发消息

微信号:13588888888

工作日:9:30-18:30,节假日休息