大型语言模型 (LLM) 最近在各种数学基准测试中取得了很高的成绩,通常达到 90% 以上的准确率,似乎在数学世界中占据主导地位。然而Epoch AI再也看不下去了,联手60多位顶尖数学家,拿出了一个大招——FrontierMath,一种专门用LLM解决各种问题的全新数学推理测试!结果是灾难性的。 LLM集体“翻车”,准确率不足2%!
看看 Epoch AI 是如何做到的
FrontierMath是用于评估人工智能高级数学推理能力的基准测试。 Epoch AI 与 60 多位顶尖数学家合作,创造了数百个原创且具有挑战性的数学问题。 FrontierMath 涵盖了现代数学的大多数主要分支 - 从数论中的计算密集型问题到代数几何和范畴论中的抽象问题,其目标是捕捉当代数学的概况。即使是经验丰富的数学专家也必须绞尽脑汁,花费数小时甚至数天的时间来解决。
FrontierMath 有三个关键的设计原则:1)所有问题都是新的且未发布的,以防止数据污染; 2)解决方案可自动验证,实现高效评估; 3)问题是“防猜测”的,在没有正确推理的情况下解决问题的可能性很低。
评估结果
评估了六种领先型号,包括 o1、Claude 3.5 Sonnet、GPT-4o、Grok 和 Gemini 1.5 Pro。即使有更长的思考时间(10,000 个令牌)、Python 访问权限以及运行实验的能力,成功率仍然低于 2% — 相比之下,传统基准测试的成功率超过 90%
Epoch AI指出,现有的数学基准,例如GSM8K和MATH,早已被LLM毁掉了。分数高的原因很大一部分是数据污染——说白了,LLM们背大量的“考古题”“为了提高分数,真考的时候当然会很容易!FrontierMath完全不一样”所有的题目都是全新的,没有发表过,所以LLM是没有办法作弊的,现在的LLM自然就暴露了他们的真实水平。
就连菲尔兹奖获得者也深信不疑
为了进一步验证FrontierMath的难度,Epoch AI还专门采访了多位菲尔兹奖(数学界的最高荣誉)获得者,包括陶哲轩(2006年)、蒂莫西·高尔斯(1998年)、理查德·博·赫兹(1998年)、国际数学家奥林匹克(IMO)教练陈埃文(Evan Chen)。这些大佬一致认为FrontierMath的题目非常具有挑战性,需要深厚的专业知识和强大的推理能力才能解决。
Andrej Karpathy 谈 FrontierMath:LLM 评估中的 Moravec 悖论
莫拉维克悖论是人工智能和机器人学者发现的符合常识的现象。与传统的假设不同,人类特有的高阶智力能力需要很少的计算能力,例如推理,但无意识的技能和直觉需要巨大的计算能力。 Hans Moravec、Rodney Brooks、Marvin Minsky 等人在 20 世纪 80 年代解释了这一概念。正如莫拉维克所写; “让计算机像成年人一样下棋相对容易,但让计算机像一岁孩子一样感知和行动却非常困难甚至不可能。
Andrej Karpathy 对这个新的尖端数学基准的反应(LLM 只解决了 2%):
引入该基准是因为大型模型越来越多地超越现有的数学基准。有趣的是,尽管在很多方面(/评估)大型模型正在晋升为顶级专家(例如数学和编码等),但你不会雇佣他们,而是让他们做最卑微的工作。如果你把问题描述整齐地放在盘子上,它们就能解决复杂的封闭式问题,但它们却很难将长长的、自主的、解决问题的序列连贯起来,而人类却觉得如此容易。
这是 Moravec 悖论的变体,他在 30 多年前观察到,对于人类来说容易/困难的事情和对于计算机来说容易/困难的事情可能会非常、非直观地不同。例如,人类对计算机下国际象棋印象深刻,但国际象棋对于计算机来说很容易,因为它是一个封闭的、确定性的系统,具有离散的动作空间、完全的可观察性等等。反之亦然,人类根本不需要太多思考就可以系鞋带或叠衬衫,但这是一项极其复杂的感觉运动任务,对硬件和软件的技术水平都提出了挑战。这就像不久前OpenAI发布的魔方一样。大多数人专注于解决魔方本身(这是微不足道的),而不是使用机器人手转动魔方一侧的实际极其困难的任务。
所以我非常喜欢这个 FrontierMath 基准测试,所以我们应该做更多的事情。但我也认为如何对所有“简单”但实际上很难的事情进行评估是一个有趣的挑战。长上下文窗口、连贯性、自主性、常识、高效的多模式输入/输出……我们如何建立良好的“初级工作”评估?您对团队中的初级实习生有何期望
结论:
无论如何,数学为评估复杂推理提供了一个独特的理想环境。它需要创造力和精确逻辑的延伸链 - 通常涉及复杂的证明 - 必须仔细计划和执行,但允许对结果进行客观验证
衡量人工智能解决创造性问题和在多个步骤中保持精确推理的能力,可以深入了解科学研究所需的系统性、创新性思维的进展。
探索前沿数学:
发布了带有详细答案、专家评论和研究论文的样题
⭐加星AI寒武纪,好内容不要错过⭐
告诉我你喜欢什么以及你在看什么~
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/271516.html