探索形式化推理新纪元：普林斯顿大学开源哥德尔证明器Goedel-Prover-模具钢网

最近，以DeepSeek-R1表示的大规模推理模型可以描述为“流行”，但总的来说，这些模型的推理都是非正式推理。也就是说，他们主要通过自然语言进行推论。

但是，此推论模型具有缺点：很难通过机器自动验证。因此，在实际应用中非正式推理的可靠性大大降低了。这也将使研究人员更难进一步改善推理模型。

解决方案也非常直观：正式推理。

最近，由普林斯顿大学（Chen Danqi），Sanjeev Arora和Jin Chi领导的一支团队为自动定理校对开了一个正式的推理模型，该模型是在自动形式上证明数学问题的情况下生成的。索塔（Sota）被任命。精益工作簿中发现的代码，模型和新证明都是开源的！

哥德尔-Prover超过DeepSeek-Prover，陈丹琦团队造出最强推理模型__哥德尔-Prover超过DeepSeek-Prover，陈丹琦团队造出最强推理模型

首先，让我们简要解释什么是形式上的推理：简单地说，正式的推理是以机器验证的格式进行推理。在此类别中，更知名的证明助手包括Lean，Isabelle和Coq，所有这些都有自己的正式语言，可以以机器验证的方式表达推理。因此，培训LLM以这些形式语言写作是很重要的。

但是，培训LLM的另一个主要挑战是使用正式语言证明定理，即缺乏正式的数学陈述和证明。

对于用正式语言表达的定理，为他们编写证据非常苛刻，需要大量的现场专业知识。

因此，当前发表的正式语言数据集的规模非常有限。例如，Lean Workbook数据集总共有140K的正式语句，并且正式语句使用LEAN来指出问题，但没有得到证明。在这些陈述中，只有15.7k条具有正式的证据，这是由Internlm2.5-Stepprover和Internlm-Math-Plus发现的。此外，开放的引导定理数据集包含107K语句，其证明来自Mathlib44。

但是，团队观察到，Mathlib4的分布与一般解决问题的基准（例如广泛使用的minif2f）的分布明显不同。例如，minif2f中的陈述主要来自高中数学，需要复杂的推理技能来解决，而Mathlib4中的陈述则集中在简单的操作上，这些操作对高级数学的概念。此外，他们发现将Mathlib4数据纳入培训并不能不断提高模型在minif2F上的性能。

与形式语言中数据的稀缺相比，用自然语言编写的数学问题具有大量的数据储备。 “五三”堆在高中生的桌子上是富裕的矿山。 Numina数据集包含860,000个高质量的问答对，包括国内和外国小学和中学数学问题，国际奥运会竞赛问题以及合成数据。

为了将这些数据转换为可用的正式语言，研究团队培训了两个正式的转换器。一个基于精益工作簿中的非正式语言对，另一个是使用Claude-Sonnet-3.5注释的语言对训练的。下图显示了这些正式转换器的训练过程。

哥德尔-Prover超过DeepSeek-Prover，陈丹琦团队造出最强推理模型_哥德尔-Prover超过DeepSeek-Prover，陈丹琦团队造出最强推理模型_

在这两个转换器完成正式化原始声明之后，该团队还使用LLM添加了验证，以确保正式的语句准确保留原始内容的含义，并成功地构建了一个包含164亿个正式语句的数据集。

使用这个大规模的正式定理数据集，研究小组采用了一种循环改进方法，称为专家迭代：首先使用现有最佳模型（DeepSeek-Prover-V1.5-RL）来尝试回答大量的数学问题，请收集正确的答案来训练新模型，然后使用新模型解决问题，不断重复该过程。经过8轮这样的“带来新的”训练，他们的新模型变得更加强大。下图显示了专家迭代的过程。

哥德尔-Prover超过DeepSeek-Prover，陈丹琦团队造出最强推理模型__哥德尔-Prover超过DeepSeek-Prover，陈丹琦团队造出最强推理模型

Goedel-Prover如何表现？

有多强大？如下图所示，在minif2f上，新模型的问题解决准确性比以前的最佳模型（DeepSeek-Prover-V1.5-RL）高7.6％。在@32、64和25600测试中，它们总是比DeepSeek-Prover-V1.5-RL更好。

哥德尔-Prover超过DeepSeek-Prover，陈丹琦团队造出最强推理模型_哥德尔-Prover超过DeepSeek-Prover，陈丹琦团队造出最强推理模型_

新模型在精益工作簿数学问题库中成功解决了29.7万个问题，该问题几乎是其他顶级型号（Interlm2.5-Stepprover和internlmmath-plus）的两倍。在Putnambench上，新模型解决了7个问题（通过@512），排名排名第一。

_哥德尔-Prover超过DeepSeek-Prover，陈丹琦团队造出最强推理模型_哥德尔-Prover超过DeepSeek-Prover，陈丹琦团队造出最强推理模型

普林斯顿的博士后研究员Yong Lin谈到该主题时说，他们目前正在开发Godel Piract的强化学习版本，并且还将拥有比以前更强大的检查点模型。此外，他们还将伴随164万个正式陈述，而开源此增强学习版本。

_哥德尔-Prover超过DeepSeek-Prover，陈丹琦团队造出最强推理模型_哥德尔-Prover超过DeepSeek-Prover，陈丹琦团队造出最强推理模型

真的很令人兴奋。

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://mjgaz.cn/fenxiang/274204.html

探索形式化推理新纪元：普林斯顿大学开源哥德尔证明器Goedel-Prover

相关推荐

联系我们