全新复杂数学评测集LiveMathBench及G-Pass@16指标揭示大模型数学推理能力真相-模具钢网

新模型在MATH（主要是数学竞赛）中经常得分80%甚至90%以上，但一用就没啥用。

这合理吗？？

上海模型公开赛__上海模型交流赛2020

为了真正测试模型的数学推理能力，上海人工智能实验室思南OpenCompass团队扩大了招募规模。

推出了新的复杂数学评估集LiveMathBench，使用新的性能指标G-Pass@16来持续评估模型的性能潜力和稳定性。

_上海模型公开赛_上海模型交流赛2020

好家伙！当团队模拟真实用户使用的采样策略并反复评估大模型的数学推理能力时，他们发现：

大多数型号的平均性能会下降50%以上。即使是最强的推理模型o1-mini也会下降36%，有的模型会下降90%。

上海模型交流赛2020_上海模型公开赛_

让我们看看接下来发生了什么。

新评价指标：G-Pass@k

研究团队重新思考了大型模型评估中常用的技术指标，例如传统上经常使用的Pass@k、Best-of-N、Majority Voting等。这些指标主要关注模型的性能潜力，缺乏对模型稳健性的评价。

在实际场景中，为了提高响应的多样性，模型常常使用采样解码进行推理，这也带来了很大的随机性。在复杂的推理任务中，这种随机性会严重影响模型的性能，用户期望模型在实际问题中稳定良好。

Pass@k 指标回顾

经典的 Pass@k 指标侧重于模型在多代中至少给出一次正确答案的概率。假设模型生成次数为，正确答案数为，c 代表正确解数，则 Pass@k 计算如下：

_上海模型公开赛_上海模型交流赛2020

G-Pass@K，兼顾性能潜力和稳定性的评估指标

Pass@k反映了模型的性能潜力，但不能反映模型的稳定性。为此，团队将Pass@k升级为Generalized Pass@k（以下简称G-Pass@k）。

通过引入阈值，这项工作重点关注模型在一代人中至少给出⎡·⎤次正确答案的概率。

一般来说，认为模型的每一代都是iid（独立同分布），那么模型给出的正确答案数服从二项式分布，可以用超几何分布来近似。据此，可以推导出G-Pass@k的定义：

上海模型交流赛2020__上海模型公开赛

当它很小时，G-Pass@k衡量模型的性能潜力；当它很大时，G-Pass@k衡量模型的稳定性，或者模型对问题的掌握程度，因此研究人员可以不断使用G-Pass@k地面观测模型的性能潜力和稳定性。

此外，研究团队还定义了mG-Pass@k用于模型性能的整体观察。

具体来说，mG-Pass@k 是-G-Pass@k 曲线下方的面积。为了更好地模拟真实场景，团队重点关注∊[0.5,0.1]的情况，即：

G-Pass@K 是 Pass@K 的广义形式

当⎡·⎤=1时，Pass@K等价于G-Pass@k，这意味着Pass@K是G-Pass@k的特例。读者可以参考论文附录中提供的证明。

研究团队对两者的关系进行了对比分析，如下图所示：

_上海模型交流赛2020_上海模型公开赛

图中显示了不同sum和c下Pass@K和G-Pass@k的值。可以看出，当它们很小时，两者就体现了模型的潜力。不过，这个分数可能偏高。 24/ 整体通过率为80时，Pass@K指标的数值可以接近80%。

但当关注更高的时候，你可以更好地观察模型实际生成时的真实性能。

LiveMathBench：避免数据污染的复杂数学基准

研究团队构建了新的基准LiveMathBench用于验证实验。

具体来说，他们收集了最近发布的中国数学奥赛、中国高考最新模拟题、美国数学竞赛和美国普特南数学竞赛最新题，以最大程度地减少数据污染的可能性。

整个 LiveMathBench（版本 202412）包括 238 个问题。每题都提供中/英文版本的试题，涵盖不同难度级别。研究团队计划继续更新LiveMathBench中的题目，继续观察LLM的真实数学水平。

此外，研究团队还在MATH500和AIME2024这两个公共基准上进行了实验。

对于MAH500，研究团队选择了难度为L5的题目，命名为MATH500-L5；对于AIME2024，研究团队使用了Part1和Part2中的全部45个问题，命名为AIME2024-45。

实验

在实验设置方面，对于每个问题，生成16*3=48次并报告G-Pass@16分数。研究团队在通用模型、数学模型和类O1模型三种不同类型的大模型中选择了具有代表性的大模型进行实验。

LiveMathBench性能对比如下：

_上海模型公开赛_上海模型交流赛2020

根据实验结果，我们可以看出：

Math-500-L5/AIME2024-45性能对比如下。

_上海模型交流赛2020_上海模型公开赛

对于开源数据集：

最后，模型对不同难度问题的能力分析如下。

下表显示了关键模型在 LiveMathBench 两个子集上的性能。

其中CCEE代表中国高考题，主要涉及基础高中数据知识；而 WLPMC 则代表 Putnam 竞赛的问题。普特南竞赛是美国享有盛誉的大学生数学竞赛，其题目比高考题还要难。。

上海模型公开赛_上海模型交流赛2020_

从实验结果可以看出，高级推理模型，如DeepSeek-V2.5、Qwen2.5-72B-Instruct、QwQ等，在Pass@16指标下在两个子集上都有较好的性能，但大多数。在 WLPMC 上模型的稳定性下降得更严重。

因此，可以推测推理模型很容易在训练数据中学习到琐碎的解决方案，从而导致 Pass@k 等指标的增加。然而，在困难问题上，这种改进与模型真实推理性能的提高无关。在强基模型的训练中，应更加注重推理稳定性的表现，以提高其真实的推理能力。

重要观察

观察一：闭源和开源模型都无法稳定地执行复杂的推理

研究人员测试了大约 20 个目前主流的模型，发现虽然大多数模型在贪婪解码中的 Greedy Accuracy 和 Pass@16 方面表现相对较好，但在使用 G-Pass@K 指标进行评估时，性能明显下降。

当设置为 1.0 时，要求模型在所有 16 个样本中提供正确答案，几乎所有模型的性能都会急剧下降。

例如，在LiveMathBench的评测中，Llama-3.1-8B-Instruct模型的准确率从18.1%下降到0.8%（G-Pass@16=1.0），降幅高达95.7%。即使是更大的模型，如 NuminaMath-72B-CoT，其准确率也从 34.45% 下降到 3.7%，下降了 89.3%。

在大约 20 个测试模型中，平均性能下降了 60%。即使是性能最稳定的 OpenAI o1-mini，其准确率也从 66.5% 下降到 42.0%，下降了 36.9%。

即使放宽到0.5，即只需要一半样本正确即可通过，通用模型、数学推理模型和类o1模型的平均性能下降仍然为14.0%、22.5%和4.8 ％分别。

这表明，在复杂条件下，大多数模型很难在多个样本之间保持一致的推理能力。

然而，当前的评估指标通常依赖于单一的贪婪解码，这可能无法完全反映这些模型在实际应用中的鲁棒性和稳定性。

因此，研究团队指出，需要对模型的推理能力进行更严格的评估，尤其是在需要跨多个采样的一致性和可靠性的重要应用中。

观察 2：增加模型大小对推理能力的提升有限

研究人员观察到，以同系列模型Qwen2.5-32B-Instruct和Qwen2.5-72B-Instruct为例，尽管它们的模型大小相差一倍以上，无论指标是否使用G-Pass@K或者贪婪精度，无论评估数据集是最新的LiveMathBench还是现有的开源数据集，两者的性能都是相似的。

另外，在较大的模型Mistral-Large-Instruct-2411（123B）上，虽然模型尺寸不断增大，但其性能和稳定性相比Qwen2.5-72B-Instruct有所下降。

这说明，对于需要深度理解和逻辑推理的任务，简单地增加参数并不能显着提高性能或稳定性。

这可能是因为这些任务要求模型不仅具有记忆和模式识别能力，还需要具有强大的推理和上下文理解能力。

观察 3：模型性能潜力与实际性能之间存在巨大差距

研究团队在评估模型性能时发现，多次采样下理论最大能力G-Pass@16→0、实际性能能力Greedy Accuracy、稳定能力G-Pass@16=1.0存在显着差距。

尽管该模型在理论上具有相当高的潜在性能，但在实际应用中未能充分展现这一水平，特别是在输出稳定性方面。一些模型在单次贪婪解码中表现出高精度，显示出处理特定任务的潜力，但在保持一致的高精度方面不稳定，并且远未达到最佳性能。

这反映了现有模型在推理稳定性和一致性方面的缺点，而这些缺点在训练和评估中往往被忽视。

该模型在单次推理性能中容易受到输入数据、初始化状态或随机采样变化的影响，导致不同样本的解码结果不一致。

研究人员指出，在可靠性和一致性要求较高的实际应用中，如何在保持接近最优性能的同时保证输出的稳定性是一个亟待解决的问题。

总结

本研究对当前大规模模型的数学推理能力进行了深入分析，并提出了新的性能指标G-Pass@16来持续评估模型的性能潜力和稳定性。

此外，LiveMathBench数据集旨在避免数据污染。

实验结果表明，当前的大规模模型在推理性能方面并没有达到预期，特别是在多次重复采样时，性能明显下降。研究团队希望学术界和工业界能够继续探索和推进推理能力鲁棒性的研究。

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://mjgaz.cn/fenxiang/273408.html

全新复杂数学评测集LiveMathBench及G-Pass@16指标揭示大模型数学推理能力真相

相关推荐

联系我们