2024国际IMO竞赛: GG DeepMind的AI答题达银牌水平却鲜受媒体关注-模具钢网

数学竞赛赛事__近期数学竞赛

► 潘宇，文库者网专栏作家

今年，一场数学竞赛的初步成绩传出圈外，引起媒体关注和全社会讨论。在那次事件发生后不久，实际上还有另一个数学竞赛结果，其影响深远，意义重大，但媒体关注度却要低得多。那就是2024年国际数学奥林匹克竞赛（IMO）。其中的主角还有科技和互联网巨头。谷歌DeepMind的人工智能AlphaProof和AlphaGeometry 2正确回答了6个问题中的4个，首次获得IMO银牌得主。等级。

AlphaProof 解决了 2 道代数问题和 1 道数论问题，其中包括本次 IMO 中最难的问题，只有 5 名参赛者解决了。 AlphaGeometry 2证明了几何问题，而AI未能解决的2个组合问题。每题最多 7 分，总分 42 分。 AI最终得分为28分，每题都是满分，相当于银牌类别的顶级水平，而今年的金牌起跑分数为29分。

这一结果表明人工智能在处理复杂数学推理的能力上取得了显着的飞跃。数学推理是人类认知能力的重要方面，促进科学发现和技术进步。

对于中国来说，这一结果也意味着重大机遇和挑战。

中国人工智能企业在图像识别等一些领域处于领先地位。这是因为人脸识别、物体检测、医学图像分析等多项技术成果已经应用于支付、安防、智慧零售、交通监控、智慧医疗等领域。与人工智能的其他应用领域相比，它们是最先落地的。得益于中国庞大的人口规模和丰富的应用场景，以及对基础设施项目的政策和资金支持，中国企业可以积累大量的图像数据，进而促进模型训练和算法优化，参与各种国际比赛。领先。

中国下一个可以广泛应用于实际场景的AI领域在哪里？有潜力的肯定包括智能网联汽车、文化体育教育等，这些也是国内企业投资的重点。中国社会历来高度重视教育，家庭对教育投入巨大。学区房、课外辅导、留学费用占据了很多家庭的大部分支出。人工智能对教育的变革将对中国社会产生深远影响。数学作为一门被中国人视为重中之重的基础学科，是我们观察这种影响的另一个窗口。

从计算到证明

尽管数学一直被称为人类思维的荣耀，但几千年来人类一直在使用机器作为数学的辅助工具。

早在公元前2400年，算盘等工具就已被发明。 17 世纪的科学家和发明家布莱斯·帕斯卡发明了一种早期的机械计算器，一种可以执行简单加法和减法运算的机器。 20世纪60年代，第一台电子计算器问世。早在20世纪70年代和80年代，世界上一些高中和大学考试就开始允许学生使用计算器。从20世纪90年代开始，许多国家的教育系统开始正式使用计算器作为教学工具，并编写了相应的课程。，鼓励学生使用计算器进行复杂的运算。

美国的SAT数学考试于1994年首次允许学生使用计算器。目前，世界上许多国家的标准化数学考试，如AP数学考试、SAT、ACT以及国际数学竞赛，都允许考生使用特定类型的计算器。使用计算器可以帮助学生专注于理解数学概念而不是繁琐的计算，这一点已经不再有争议。中国的基础数学教育以严格、系统着称。中国学生在PISA等国际数学评估中表现出色。虽然我们注重学生的计算能力，但我们也不排斥在高考中使用计算器。

人们普遍认为，无论是在日常生活、教学还是科学研究中，机器帮助人类解决数学计算。 MATLAB、Mathematica、Maple等强大的数学计算工具已经是很多人工作中的必备工具，而适合简单数学运算和统计分析的Excel更是受到人们的青睐。在数学证明方面，机器也发挥着越来越重要的作用。这是一个巨大变化的开始。

数学竞赛赛事__近期数学竞赛

此次在IMO 2024上，数学家陶哲轩发表演讲，回顾了数学研究从早期计算工具到现代机器学习的范式转变。他讲了很多例子，这里心理观察中心根据他自己的理解做一些总结和评论。

第一个例子是一个表格。数学领域的许多重要结果首先是通过数论中的表格发现的，许多猜想也是通过大量的表格发现的。表可以理解为数据库，计算机的基本用途之一就是构建这些有用的数据库。例如，许多数学家，包括陶哲轩本人，都使用一个名为“在线整数序列百科全书（OEIS）”的数据库。

第二个例子是科学计算。例如，利用计算机对各种事物进行建模并求解大量的线性方程或偏微分方程几乎是现代科学研究和工程应用的基石，从天气预报到风洞实验，从新材料和药物的开发到期权定价和核反应堆。设计，它的应用无处不在。

另一种类型的科学计算是 SAT 求解器，它可以解决一些逻辑难题（布尔可满足性问题）。其原理是检查大量的布尔变量，找出是否存在对一组变量的赋值使得整个布尔公式为真。通俗地说，比如给你 1000 个陈述，有些是真的，有些是假的，并且给你一些约束、变量和规则，让你证明某些句子的组合在逻辑上是正确的。通过将数学问题（例如毕达哥拉斯三元问题）转换为布尔逻辑问题，并利用SAT求解器强大的组合求解能力，可以有效地找到整数解。

第三个例子是形式证明协助。四色定理的证明（任何只使用四种颜色的地图都可以将相邻国家涂上不同的颜色）和开普勒猜想（在三维空间中堆叠球体以最大程度地填充空间的最有效方法），都是计算机辅助证明的著名例子。

数学竞赛赛事_近期数学竞赛_

为了更简洁地形式化复杂的证明过程，数学家开始使用Lean平台。精益用形式化语言表达数学命题，并通过计算机进行验证，从而使每一个推理步骤都能被自动检查。这为数学研究提供了极大的便利，降低了证明复杂定理的错误率。目前，本科数学课程的基本内容，如微积分、群论或拓扑的基本概念等已经正式化，更多数学领域的内容也正在被添加到这个图书馆中。

数学家彼得·舒尔茨（Peter Scholze）试图用精益来形式化地验证他的先进数学理论。这些理论需要高水平的数学背景和对非常抽象概念的理解，涉及现代代数几何、范畴论、同源代数和拓扑的深入知识。掌握。舒尔茨对他的证明心存疑虑，而且没有人有能力详细检查细节。如果Lean的形式化证明能够成功，就意味着形式数学可以处理现代数学的前沿问题。利用精益证明费马大定理的项目也已获得资助并启动。

_近期数学竞赛_数学竞赛赛事

陶哲轩本人致力于通过众包的方式利用精益探索数学。方法是为一个庞大而复杂的证明写出蓝图，将证明分解成数百个小步骤，每个步骤可以单独形式化然后组合，最后将数万行形式化证明转换回人类—— read 为读取版本，最后一步也是由计算机自动生成的。

这样做的好处是证明过程更加开放，让数学家能够更好地分工和合作。每个人处理任务图中他负责的部分，这通常是他擅长解决的部分，而不需要理解整个证明。由于精益可以自动检查，因此可以确保每个人的工作都符合质量标准。另外，遇到修改时，编译器会自动指出相关的地方，而不需要用传统的方式重写整个证明，大大提高了效率。

最后一个例子就是目前很热门的机器学习。

AI的数学能力

像ChatGPT这样的大型语言模型在简单的算术计算中会出错，因为模型不是从基本原理得出答案，而是根据输入猜测最可能的输出。这个方法有时不起作用。 GPT-4 研究人员测试了数百个国际数学奥林匹克 (IMO) 级别的问题，发现成功率仅为 1%，只有一个特定的简化问题得到正确回答。大型语言模型在生成响应时依赖于在训练数据中学习的模式，尽管训练数据集非常大，但它们可能不包含足够的逻辑推理或数学证明的示例。

DeepMind 的 AlphaProof 和 AlphaGeometry 2 这两个更专业的系统这次表现得更好。

AlphaProof 是一个用于形式数学推理的系统，它结合了预先训练的语言模型和 AlphaZero 强化学习算法，这是之前在国际象棋、将棋和围棋中自学的算法。它通过精益训练来证明数学陈述，并通过自动将自然语言陈述翻译成形式数学语言陈述来创建不同难度的形式化问题库。 AlphaProof 通过搜索 Lean 可能的证明步骤，然后证明或反驳它们来生成候选解决方案。在 IMO 竞赛之前的几周内，它证明或反驳了数百万个问题来进行自我训练，涵盖不同的难度级别和广泛的数学领域。

AlphaGeometry 是一个神经符号系统，由神经语言模型和符号推演引擎组成，它们共同寻找复杂几何定理的证明。一个系统提供快速、“直观”的想法，而另一个系统则提供经过深思熟虑的、理性的决策。

近期数学竞赛_数学竞赛赛事_

语言模型擅长识别数据中的一般模式和关系，并且可以快速预测潜在有用的结构，但通常缺乏严格推理或解释其决策的能力。符号推演引擎基于形式逻辑并使用显式规则得出结论，但速度慢且不灵活。语言模型引导符号推演引擎找到几何问题的可能解决方案，从无限的可能性中预测哪些新的几何结构（如点、线或圆）将是最有用的。如果找不到解决方案，语言模型会添加一个潜在有用的结构，为符号引擎开辟新的派生路径。这个循环一直持续到找到解决方案为止。

这有点像诺贝尔奖获得者丹尼尔·卡尼曼在其著作《思考，快与慢》中提出的人类思维的两种系统。快思维系统是快速直观的思维方式，慢速思维系统是快速直观的思维方式。系统思维是一种缓慢的、需要集中注意力的逻辑思维方式。

AlphaGeometry 2 使用的符号引擎比上一代快两个数量级。当遇到新问题时，采用新的知识共享机制来实现不同搜索树的高级组合，以解决更复杂的问题。在今年的比赛之前，AlphaGeometry 2 可以解决过去 25 年来 83% 的历史 IMO 几何问题，而上一代的这一比例为 53%。在今年的 IMO 2024 上，AlphaGeometry 2 在收到形式化题后 19 秒内解决了第 4 题（下图，要求证明∠KIL 与 ∠XPY 之和等于 180°，AlphaGeometry 2 提出构造 E，即BI 上的一个点，使得 ∠AEB = 90°）。

近期数学竞赛_数学竞赛赛事_

训练 AlphaGeometry 不依赖人工示例。 AlphaGeometry 首先生成 10 亿个几何对象的随机图形，并穷举导出每个图形中的点和线之间的所有关系，找到每个图形中包含的所有证明，然后逆推找出需要哪些额外的几何图形（如果有）来导出这些证明。数据经过过滤以排除类似的示例，从而形成包含 1 亿个不同难度的独特示例的最终训练数据集。有了如此多经过验证的添加新几何结构的示例，AlphaGeometry 的语言模型可以在遇到奥数几何问题时为添加新结构提出很好的建议。

我们的教育准备好了吗？

教育对于个人成长、社会进步和国家发展至关重要。人工智能对教育的冲击已经到来，过去的运营模式和利益结构迟早会受到冲击。但或许是由于现有结构的根深蒂固，国内对此方面的讨论并不多。然而，如果你想一想同样长期处于垄断地位的媒体行业发生了多大的变化，就很难忽视这种变化的前景。

人工智能深刻地改变了媒体。当人们使用抖音、抖音、今日头条等应用获取信息时，算法主导了内容的个性化推荐和分发。这个结果对传媒行业的影响非常明显。报纸、电视台等传统垄断企业已经无法占据流量最大的传播渠道。

在教学方面，人工智能还能够通过分析学生的学习进度、错误模式和知识差距，提供个性化的学习路径和练习。

例如，可汗学院利用机器学习算法，根据学生的回答记录提供个性化的问题推荐，让学习更有针对性。 AI平台ALEKS通过自动反馈机制帮助学生在练习过程中获得即时指导，并通过不同题型进一步巩固知识。在线平台DreamBox Learning提供了自适应数学练习系统，可以根据学生的实时表现来调整学生的进度，以确保学习曲线与能力相匹配。

在问题解决和题库方面，人工智能也有很多实际应用。通过AI应用Socratic，学生可以对问题进行拍照，系统会自动识别问题并提供相应的答题技巧和详细的解题流程。 Edmentum利用人工智能生成各种练习和测试，帮助教师设计有针对性的评估，节省教师设计练习题的时间。

如今，谷歌DeepMind在解决高难度竞赛问题上取得了突破，这意味着对于数学等最重要的基础学科，通过AI的加持，优质教育资源可以得到充分提供，不再稀缺，技术障碍也不再存在。已基本被淘汰。清除。

谷歌正在开发基于Gemini的自然语言推理系统，这意味着它将不需要依赖人类专家将数学问题翻译成形式语言进行处理，并且可以与其他人工智能系统顺利集成。当人工智能用自然语言解决数学问题时，科学和教育系统的面貌必将发生改变。

中国教育有三大梦想：因材施教、教育公平、减负。

因材施教的障碍在于，如果不尽力而为，很多人就无法认清自己应该走哪条路，家长也不愿意接受孩子是“骡子还是马”。选择的迷雾加剧了赛道的狭窄性，而人工智能可以提供针对性的评估，有效提高个人才能和才能的识别效率，帮助每个人更早、更准确地定位和掌握自己的比较优势。无论是利用图像识别技术的运动评价，还是基于机器学习的数学评价，AI都会帮助你公正地评价自己。

人工智能的发展能否带来社会公平一直是一个颇具争议的问题。对于互联网科技公司来说，用户的增加意味着技术成本的摊薄。虽然不能绝对地说，但从以往的经验来看，人工智能提供的教育资源和其他互联网服务一样，很可能会朝着普及化的方向发展。这意味着人工智能除了带来个性化教学之外，还将促进教育公平。

人工智能在减轻负担方面也能发挥巨大作用。就像计算器对数学考试的影响一样，教学和考试中放弃了一些价值不大的计算，而更多地注重考察数学思维、概念的理解和应用。 AI的影响力也有望进一步优化教学和考试内容，减少中国学生在某些解题套路中依靠“题海战术”实现“肌肉记忆”的卷入消耗。

关注数学的人可能都知道今年国内的一些舆论。关于某项比赛初赛结果的争议已经完全出圈了，而关于某位数学大师领导的某学院的争议则一直在小圈子里流传。但由于涉及到中国教育的金字塔结构和招生录取的接力棒，后者实际上对家长和学生产生了相当大的影响。

如果把这两件事放在一起来看，那就说明数学竞赛的门槛非常高，数学研究的门槛就更高了。这条路只适合极少数人。这背后的讨论非常复杂，但结论大体上是正确的。

为了选拔这少数人，就需要大多数人的陪伴。这种陪伴不仅仅发生在基础教育阶段。许多数学竞赛的获奖者，在逃避高考并考入顶尖大学后，最终并没有选择从事数学研究。这也是网上“IMO金牌和菲尔兹奖”的老生常谈。但数学如此重要，以至于社会在一定程度上容忍了投机和内卷化，并形成了鼓励“天才少年”的文化。但对于每个个体来说，内卷化的代价必须单独承担。增长选择的容错率是有限的。不退路的攀登是不会长久的。 “一将成功，万骨枯萎”的局面损害了社会和国家的整体利益。为助教降温、防止家庭争夺教育资源“军备竞赛”的努力背后也有这样的考虑。

教育是强国之本。教育资源与住宅用地相同。人为的稀缺性可能会创造短期的产业繁荣，但也可能埋下看不见的长期隐患，比如人们反复讨论的原始创新的缺乏。考虑到人口结构的变化以及住房等受过高等教育的人口规模，中国优质教育资源稀缺的时代终将过去。

目前还很难说AI提供的丰富的教育资源和个性化辅导能否撼动中国教育的金字塔结构。教育领域“今日头条”这样的规则破坏者、秩序颠覆者何时出现也不得而知。。然而，人工智能技术的最新进展肯定会鼓励企业家和投资者做好准备，技术将再次领先于从业者和政策制定者。

来源|心灵观测站

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://mjgaz.cn/fenxiang/272707.html

2024国际IMO竞赛: GG DeepMind的AI答题达银牌水平却鲜受媒体关注

相关推荐

联系我们