吉文奇在2月8日报道说,DeepMind是Google领导下的AI顶级研究实验室,于2月7日发布了一篇论文。它开发了一个名为Alphageometry2的AI系统,以解决国际数学奥林匹克运动会(IMO)中的几何问题,并超过了平均水平的性能。金牌获得者。
Alphageometry2是DeepMind于去年1月发布的字母计量系统的升级版。在最近的一项研究中,Alphageometry2能够在过去25年中解决IMO中84%的几何问题,并且OpenAI的O1推理模型无法回答一个问题。 IMO是高中生的全球顶级数学竞赛。
根据DeepMind团队的说法,Alphageometry2整合了神经网络理论和符号AI方法。一方面,它采用了基于神经网络体系结构构建的Google Gemini系列模型,另一方面,它遵循符号AI的操作规则,以提高AI系统的理解和推理以及逻辑证明功能,为此开辟了新的想法,为实施一般AI。
实际上,今年夏天,DeepMind展示了一个组合字母测定2和字母隔板的系统,这是一种用于正式数学推理的AI模型。该系统在2024年成功解决了六个IMO问题中的四个。
那么,为什么DeepMind专注于高中数学竞赛?
DeepMind认为,解决复杂几何问题的新方法可能是开发更强大的AI系统,尤其是欧几里得几何学问题的关键。
证明数学定理,例如从逻辑上解释了为什么毕达哥拉斯定理是正确的,不仅需要推理能力,而且还需要从各种可能的解决方案中选择。 DeepMind认为,这种解决问题的能力可能会成为未来一般AI模型的核心组成部分。
此外,除了几何问题外,Alphageometry2方法还可以扩展到其他数学或科学领域,例如帮助复杂的工程计算。
1。考虑到逻辑推理和大规模数据处理,进行了双引擎核心工作
Alphageometry2包含多个关键组件,包括Google Gemini系列语言模型和“符号引擎”。同时,在双子座模型的帮助下,该符号引擎可以更好地利用数学规则来推导问题解决方案,从而为给定的几何定理找到可行的证据。
▲IMO考试中典型几何问题的示意图。 (照片来源:TechCrunch)
IMO中的几何问题通常需要添加辅助线,例如辅助结构,例如点,直线或圆圈。 Alphageometry2的双子座模型可以预测图表中需要添加哪些辅助线,然后基于这些辅助线的符号引擎的原因。
简而言之,Alphageometry2的Gemini模型使用正式的数学语言为符号引擎提供建议,可以根据特定规则检查这些步骤是否合乎逻辑。
此外,该系统配备了一种搜索算法,该算法支持对多个解决方案的并行搜索,并在公共知识库中存储潜在有用的发现。
Alphageometry2确定已经解决了问题的是,由此产生的答案可以与双子座模型的建议和符号引擎的已知原理结合使用。
此外,由于将几何证明转换为AI-Indemosed格式的过程相对复杂,因此对于几何问题而言,训练数据非常稀缺。为此,DeepMind创建了一个合成数据集,并生成了超过3亿个定理和不同复杂性的证明,以训练Alphageometry2的语言模型。
2。在过去25年中杀死比赛的几何问题,结果与金牌获得者相当
DeepMind的研究团队在过去25年中选择了45个IMO的几何问题,即2000年至2024年,并将这些问题转换为大量50个问题。在这45个几何问题中,有线性方程和方程涉及平面几何对象的运动。
但是,由于技术原因,当前大规模问题组中的某些问题需要分开和处理。
根据该论文,Alphageometry2在大问题组中成功解决了42个问题,超过了金牌得主的平均得分40.9分。
但同时,Alphageometry2也有一定的局限性。
尽管可以说得分很棒,但字母测定仍存在一些技术限制。例如,它无法暂时解决点变量,非线性方程和不平等问题的问题。
在另一组更困难的IMO问题中,Alphageometry2的表现稍差。 DeepMind研究团队选择了29个由数学专家提名但没有参加比赛的问题。 Alphageometry2仅成功解决了其中20个。
此外,Alphageometry2不是第一个达到几何金牌水平的AI系统,而是第一个在这样的大规模问题集上实现这一成就的AI系统。
3。符号AI和神经网络学校有不同的意见,DeepMind提出了一种新的融合方法
DeepMind的这项研究结果可能会加强有关AI系统是否应基于象征性操作的辩论。换句话说,如果AI系统使用规则来操作代表知识的符号,或者应该建立在更类似人类的神经网络上的符号。
Alphageometry2采用了混合方法,其双子座模型使用神经网络体系结构,而符号引擎基于规则。
神经网络理论支持者认为,从语音识别到图像产生,智能行为可以自发地通过大量数据和计算资源出现。
符号系统支持者认为,符号学通过定义专门针对特定任务的一组符号操作规则来解决问题,例如在文字处理软件中编辑一系列文本。神经网络需要在类似数据和大量示例上使用统计信息来学习如何解决任务。
一方面,神经网络是强大的AI系统(例如OpenAI O1推理模型)的基石。另一方面,符号AI支持者认为,神经网络不是万能的,符号AI可以有效地编码真实的知识,推理复杂的情况和自我指导的自力更生。验证和答案过程中有更多优势。
字母测定2的成功表明,这两种方法的组合可能是开发一般AI的有效途径。
实际上,根据DeepMind的论文,基于神经网络体系结构的OpenAI O1推理模型无法回答Alphageometry2解决的任何IMO问题。
但是,这可能不会永远持续下去。在论文中,深态团队说,他们发现了初步证据,即Alphageometry2的语言模型有时可以在没有符号引擎的帮助的情况下产生部分解决方案。
“这些结果在一定程度上支持了大型模型可以自给自足,而无需依靠外部工具(例如符号引擎),” DeepMind团队在论文中写道:“但是模型速度得到了改善,幻觉问题是有问题的。透明在完成完整的解决方案之前,这些外部工具对于AI数学应用将仍然至关重要。”
结论:AI更聪明地解决问题,但是简单的问题仍然是“凌乱”
DeepMind的AI系统Alphageometry2成功地挑战了IMO竞争金牌得主水平。一方面,它反映了AI数学,推理和逻辑证明能力的改善,并可以与高中生竞争;另一方面,它还为AI社区提供了新的AGI途径。在神经网络学校和象征性AI学校之间的辩论中,证明了两者共同努力提高AI推理效率的可行性。
同时,从纸到实用的演习还有很长的路要走。如何确保简单任务执行的准确性,扩大复杂任务处理的可能性,降低开发和部署成本等是AI参与者紧急解决的问题。
卡内基·梅隆大学(Carnegie Mellon University)的计算机科学教授文斯·科尼泽(Vince Conitzer)告诉TechCrunch,AI Systems继续在这些基准上取得了令人印象深刻的进展,但与此同时,语言模型和最近引入了具有推理功能的模型,在某些情况下仍将是。当与简单的常识问题挣扎时,这种对比令人惊讶。
他补充说,我认为所有这些都不会虚张声势,但这确实表明我们仍然不知道下一个AI系统的行为会是什么样。这也意味着这些AI系统可以产生重大影响,因此我们迫切需要深入了解它们以及它们可能带来的风险。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/273990.html