大型语言模型在数学推理测试中集体翻车，FrontierMath 基准测试揭示真相-模具钢网

大型语言模型 (LLM) 最近在各种数学基准测试中取得了很高的成绩，通常达到 90% 以上的准确率，似乎在数学世界中占据主导地位。然而Epoch AI再也看不下去了，联手60多位顶尖数学家，拿出了一个大招——FrontierMath，一种专门用LLM解决各种问题的全新数学推理测试！结果是灾难性的。 LLM集体“翻车”，准确率不足2%！

看看 Epoch AI 是如何做到的

FrontierMath是用于评估人工智能高级数学推理能力的基准测试。 Epoch AI 与 60 多位顶尖数学家合作，创造了数百个原创且具有挑战性的数学问题。 FrontierMath 涵盖了现代数学的大多数主要分支 - 从数论中的计算密集型问题到代数几何和范畴论中的抽象问题，其目标是捕捉当代数学的概况。即使是经验丰富的数学专家也必须绞尽脑汁，花费数小时甚至数天的时间来解决。

FrontierMath 有三个关键的设计原则：1）所有问题都是新的且未发布的，以防止数据污染； 2）解决方案可自动验证，实现高效评估； 3）问题是“防猜测”的，在没有正确推理的情况下解决问题的可能性很低。

评估结果

评估了六种领先型号，包括 o1、Claude 3.5 Sonnet、GPT-4o、Grok 和 Gemini 1.5 Pro。即使有更长的思考时间（10,000 个令牌）、Python 访问权限以及运行实验的能力，成功率仍然低于 2% — 相比之下，传统基准测试的成功率超过 90%

Epoch AI指出，现有的数学基准，例如GSM8K和MATH，早已被LLM毁掉了。分数高的原因很大一部分是数据污染——说白了，LLM们背大量的“考古题”“为了提高分数，真考的时候当然会很容易！FrontierMath完全不一样”所有的题目都是全新的，没有发表过，所以LLM是没有办法作弊的，现在的LLM自然就暴露了他们的真实水平。

就连菲尔兹奖获得者也深信不疑

为了进一步验证FrontierMath的难度，Epoch AI还专门采访了多位菲尔兹奖（数学界的最高荣誉）获得者，包括陶哲轩（2006年）、蒂莫西·高尔斯（1998年）、理查德·博·赫兹（1998年）、国际数学家奥林匹克（IMO）教练陈埃文（Evan Chen）。这些大佬一致认为FrontierMath的题目非常具有挑战性，需要深厚的专业知识和强大的推理能力才能解决。

Andrej Karpathy 谈 FrontierMath：LLM 评估中的 Moravec 悖论

莫拉维克悖论是人工智能和机器人学者发现的符合常识的现象。与传统的假设不同，人类特有的高阶智力能力需要很少的计算能力，例如推理，但无意识的技能和直觉需要巨大的计算能力。 Hans Moravec、Rodney Brooks、Marvin Minsky 等人在 20 世纪 80 年代解释了这一概念。正如莫拉维克所写； “让计算机像成年人一样下棋相对容易，但让计算机像一岁孩子一样感知和行动却非常困难甚至不可能。

Andrej Karpathy 对这个新的尖端数学基准的反应（LLM 只解决了 2%）：

引入该基准是因为大型模型越来越多地超越现有的数学基准。有趣的是，尽管在很多方面（/评估）大型模型正在晋升为顶级专家（例如数学和编码等），但你不会雇佣他们，而是让他们做最卑微的工作。如果你把问题描述整齐地放在盘子上，它们就能解决复杂的封闭式问题，但它们却很难将长长的、自主的、解决问题的序列连贯起来，而人类却觉得如此容易。

这是 Moravec 悖论的变体，他在 30 多年前观察到，对于人类来说容易/困难的事情和对于计算机来说容易/困难的事情可能会非常、非直观地不同。例如，人类对计算机下国际象棋印象深刻，但国际象棋对于计算机来说很容易，因为它是一个封闭的、确定性的系统，具有离散的动作空间、完全的可观察性等等。反之亦然，人类根本不需要太多思考就可以系鞋带或叠衬衫，但这是一项极其复杂的感觉运动任务，对硬件和软件的技术水平都提出了挑战。这就像不久前OpenAI发布的魔方一样。大多数人专注于解决魔方本身（这是微不足道的），而不是使用机器人手转动魔方一侧的实际极其困难的任务。

所以我非常喜欢这个 FrontierMath 基准测试，所以我们应该做更多的事情。但我也认为如何对所有“简单”但实际上很难的事情进行评估是一个有趣的挑战。长上下文窗口、连贯性、自主性、常识、高效的多模式输入/输出……我们如何建立良好的“初级工作”评估？您对团队中的初级实习生有何期望

结论：

无论如何，数学为评估复杂推理提供了一个独特的理想环境。它需要创造力和精确逻辑的延伸链 - 通常涉及复杂的证明 - 必须仔细计划和执行，但允许对结果进行客观验证

衡量人工智能解决创造性问题和在多个步骤中保持精确推理的能力，可以深入了解科学研究所需的系统性、创新性思维的进展。

探索前沿数学：

发布了带有详细答案、专家评论和研究论文的样题

⭐加星AI寒武纪，好内容不要错过⭐

告诉我你喜欢什么以及你在看什么~

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://mjgaz.cn/fenxiang/271516.html

大型语言模型在数学推理测试中集体翻车，FrontierMath 基准测试揭示真相

相关推荐

联系我们