学而不思则罔,思而不学则殆。
——《论语》
要是讲大模型的训练属于“学”的进程,那么各类基准测试便是大模型停顿下来“思”的瞬间 。
现在,模型训练所需的算力已远超碳基人类的范畴,其所需的电量也已远超碳基人类的范畴,AI的学习只需要更多的卡,AI的学习只需要更多的电。
AI学习不成问题,但是AI能「思」吗?
但是对于AI进行评估时 ,似乎存在一些“迷惘” ,那就是AI的基准测试究竟该如何设计 ,才能体现模型真正的能力 ?
来自datalearner.com的AI评测基准,只是其中一部分,还有很多其他内容 。
像DeepSeek-R1和OpenAI-o3等推理模型展现出了复杂推理能力,这些推理模型具备理解奥林匹克级别难题的能力,能够对其进行建模,还能够回答这些难题。
但是目前的这些基准,有点像是专门为了应付考试而制作的考卷,AI们只要在特定的数据集上完成训练,就能成为一个得高分的考生。
这如同那些从学校迈向社会的高分考生,他们不一定能够一下子从象牙塔适应到外部社会的弱肉强食环境中 。
既然AI的能力要延伸到现实生活当中,那么或许一个针对“物理”的评测指标更能够验证AI在现实中的可用性,不是吗?
最近,北大物理学院、人工智能研究院、计算科学研究中心、集成电路学院和元培学院共同组成了一个「天团」,这个「天团」推出了一个高质量基准,该基准用于评估大语言模型在物理情境中的推理能力,其名为PHYBench 。
值得一提的是,这其中有很多人都是物理竞赛金牌得主。
论文地址:
具体而言,PHYBench含有500个物理问题,这些问题是经过精心挑选的,且基于现实 。
它覆盖了力学、电磁学、热力学、光学、现代物理学以及高级物理学等方面,其难度范围包括高中习题、大学生问题,还有物理奥林匹克挑战题目 。
有没有想起被高中物理支配的恐惧?
怎样去评价一个评测基准是好还是坏,是适合还是不适合呢?在这种情况下,引用北大团队的一句话是再合适不过的了。
基准测试不会过分抬高模型,也不会刻意贬低模型,它们引领人类和人工智能一同朝着通用人工智能迈进。
先来看下目前的推理基准通常会有的三个问题:
模型性能越来越高,使得现有的基准不再足够,这就导致了过度简化的推理任务 。
过度抽象的问题在于,现有的基准测试虽通过抽象或建模建立了足够的推理难度,但其往往缺少物理现实和实际应用的基础。也就是说,评测过于抽象冷门,在现实中大概率不会遇到,即便通过了或许也无法指导现实。
缺乏精确的评估指标,当前的自动化评估方法在捕捉复杂推理的细微之处仍有欠缺,也就是说,评测结果不能简单地进行分段,最好能够具体到1 - 100这样比较精确的分数。
PHYBench的目的是解决这些问题,它涵盖了物理学中的多个领域,其使用明确定义的物理表达式作为答案。
这确保了对模型的物理感知和稳健推理能力的准确评估。
基于策划的数据集,进一步提出了表达式编辑距离(EED)得分,它是一种评估指标,利用树表达式和编辑距离,具有自动、细粒度的特点,展示了LLMs给出的表达式与真实值之间的「接近」程度。
有一个来自PHYBench的示例问题。评估模型性能会用到两个主要指标。这两个指标分别是表达式编辑距离得分,还有准确率。
上图展示了三个不同回答的得分,答案1是由DeepSeek-R1生成的,模型答案2是由GPT-4o生成的。
北大团队除了评估语言模型外,还通过招募北京大学物理系本科生来解决相同问题,建立了人类水平基线,不过这水平有点高了。
结果显示,机器和人类的能力之间存在显著的性能差距。
即便存在最先进的语言模型,即Gemini 2.5 Pro,其准确率也仅仅达到了36.9%,这一数值远远低于人类基线的61.9% 。
PHYBench基准测试
PHYBench的每道题目都基于一个具体的物理情景,该情景要求模型根据给定条件推导出关键物理量的符号表达式。
所有问题都存在明确的、标准的答案,并且这些答案都能够借助物理原理独立求解,求解过程不需要依赖外部知识。
真正的挑战在于,模型要能够依据文本描述精确构建空间以及相互作用关系,要能够有选择性地运用多条物理定律和定理,并且要在动态系统的演化与相互作用当中开展复杂计算。
此外,大多数题目涉及长链推理,模型必须在多步推导中剔除无关的物理作用,模型还必须在多步推导中排除不合理的代数解,以此避免计算复杂度急剧上升。
PHYBench注重的内容与以往不同,以往的基准测试注重高强度推理或穷举搜索空间,而PHYBench更加注重真实物理场景中的逐步感知与推理能力。
简单来讲,就是期望语言模型能像人那样开展逻辑推理,并非像“鸟枪法”那样的暴力求解方式 。
数据集整理
PHYBench基准测试题目是由面向人类的物理练习题改编而来的,其难度覆盖了高中物理竞赛水平,也覆盖了大学物理竞赛水平。
邀请了178名学生参与题目的贡献与打磨,这些学生来自北京大学物理学院 。
上图展示了数据整理的流程,数据来源包含非公开与公开的问题,这些题目不能借助直接的网络搜索或常规参考资料轻易获取。
在改编过程中,每一道题目都被当作一个具体的物理情景 。整理人员会确定一个核心物理量作为目标变量 ,还会设计问题 ,要求解题者依据给定条件推导出该物理量的符号表达式 。
随后,每道题目都要历经多轮审核,还要经过筛选,并且进行打磨。首先,所有题目会被存进内部平台托管的题库。接着,这些题目会被分配给审阅人员做评估。
审阅人员会检查题目,看其是否符合上述标准,若有不符合的地方,会进行修改,在必要时,会退回给原作者,让原作者进一步编辑。
在审核过程中,内部平台会展示多种由大语言模型生成的解答,这些解答供审阅人员参考,审阅人员据此判断题目表述是否清晰、全面,然后根据需要调整描述,直至不会再引发理解上的歧义。
一旦题目获得审阅人员批准并附上评语,就会进入审阅者题库。
题目进入审阅者题库后,还会经过多轮模型测试。
观察模型生成的答案,据此判断题目能不能促使模型产生符合标准的解答。
同时,使用GPT-4o检查题目的语法和格式。依据模型测试的结果,反复修订题目。直到所有题目的输出结果完全符合基准测试的格式要求。
最后,邀请了109位人类专家参与解题。
他们会进一步去评估题目的表述是不是恰当,还会依据专家反馈,对题目展开最终的细致打磨。
评估指标
正如最开始所介绍的那样,PHYBench运用了两个指标,其中一个称作表达式编辑距离得分(EED Score),另一个是准确率,这比较容易理解。
EED Score是一种评估指标,它具有自动化的特点,无需模型辅助,可用于判断AI生成解答的正确性。
EED Score评估两个符号表达式的相似性,它通过计算表达式树编辑距离来实现,针对的是两个符号表达式的表达式树 。
所谓表达式树编辑距离,是指把一个树状结构的表达式变换成另一个表达式,所需的最少节点级别编辑操作次数,这些操作包括插入、删除和更新。
请提供具体的句子内容,以便我按照要求进行改写。
Answer 2与标准答案相差较多,因此EED score明显低于第一个答案。
选择使用EED Score,而不是传统的二分类评分,这主要是为了更细致地反映模型解答的正确程度。
即便生成的答案有一些小的计算错误,即便生成的答案存在系数偏差,也能体现出模型对物理原理有部分理解,而不是完全错误。
模型实验
有了基准,就来看下各个模型的表现。
在PHYBench基准上对一系列不同类型的模型进行了测试,这些模型包含最先进的模型,还包括一些广泛应用的模型,以及一些具有代表性的模型。
在基于API的评估里,选取了GPT - 4o,选取了o1,选取了Gemini 2.0 Flash Thinking,选取了DeepSeek - V3,选取了DeepSeek - R1,选取了Qwen2.5 - max,选取了o3 - mini,选取了Grok 3 Beta,选取了Claude 3.7 Sonnet,选取了Claude 3.7 Sonnet Thinking,选取了Gemini 2.5 pro,选取了o4 - mini,还选取了o3。
其余模型,即DeepSeek-R1-Distill-Qwen-32B和QwQ-32B,在本地进行评估。
人类基线
招募了81名来自北京大学物理学院的学生,这些学生每人解答了8道取自PHYBench数据集的问题。
总共收集到了559份有效答卷,这些答卷与公开发布的PHYBench数据集范围内的问题相对应。
人类答题的平均准确率是61.9±2.1%,EED分数是70.4±1.8,这里的不确定性是借助10,000次重采样得到的自助法标准误。
在99%的置信水平这个条件下,专家组在两个指标方面,都显著地比所有参与评估的LLM更具优势 。
此外,人类成绩分布的上四分位数,其准确率达到了71.4%,EED分数为80.4 。
主要结果
在PHYBench数据集上对多个模型进行了评估,这些模型的准确率被可视化展示在下图,它们的EED分数也被可视化展示在下图。
结果显示,哪怕是最为先进的推理模型,其在物理推理任务里的表现依旧存在局限。
表现最好的模型是Gemini 2.5 pro,它的准确率为36.9%,EED分数为49.5,且仍明显低于人类基线。
这种差距凸显了基准测试的高度复杂性。
需要注意的是,专门为推理设计的模型在整体上比通用语言模型更具优势,然而,一些近期发布的通用模型,像是DeepSeek-V3、GPT-4.1以及Claude 3.7 Sonnet,同样展现出了具有竞争力的成绩,它们的准确率分别为13.6%、12.9%以及13.2% 。
此外,32B参数的模型有DeepSeek-Distill-32B和QwQ-32B,它们在PHYBench上的表现明显较弱,准确率分别只有2.6%和1.2%,EED分数分别为4.5和3.2,这与它们在其他基准测试中的强劲表现形成了鲜明对比。
各模型在不同领域有平均原始得分,其中缩写情况为:ALL代表所有问题,Mech.代表力学,Elec.代表电学,Thmo.代表热力学,Opt.代表光学,Mod.代表近代物理,Adv.代表高级内容。
大模型在PHYBench上表现不好,这或许可归因于任务具备长推理链特性,又或者是对物理直觉的挑战,而这些都超出了传统快速问答(QA)设置的能力范畴。
在数据集上采用了准确率和EED分数两种评估指标。
这两种指标在模型排序上几乎是一样的,不过EED分数能提供更广泛的数值分布,并且其统计不确定性更小 。
分析显示,EED指标在样本效率方面平均提升幅度达到304%,其标准差为80%。
也就是说,运用EED指标来评估500道题目的成效,这等同于用准确率指标去评估大约1500道题目的区分本领。
这种提升使得模型性能之间的差异可以更加可靠地体现出来。
不同领域下的模型性能
为了能更清晰地展示各模型在不同领域的相对优势,进而引入了两个指标,这两个指标分别是绝对优势和相对优势。
值得注意的是,相对优势是在对领域平均分进行归一化后计算得出的,如此做能够减小某些低分问题对整体结果的不成比例的影响。
对模型在不同物理领域下的得分分布情况做了进一步分析,在细分的领域当中:
经过分析可以发现,传统模型(像GPT-4o)在力学领域的表现比较差,这或许是由于它们在涉及三维几何和动态过程的数据方面训练不够充分 。
专注于推理能力的模型,比如o1,还有QwQ - 32B,在力学领域表现较好。
热力学问题一般会涉及多步推理,还会涉及复杂过程分析,在此处,推理型模型和非推理型模型之间的性能差异格外明显。
在近代领域,结果表明,各大语言模型在知识深度上存在显著差异。在高等物理领域,结果也表明,各大语言模型在知识深度上存在显著差异。
通用型模型GPT - 4.1在这些领域中,相比GPT - 4o展现出了明显的优势,相比GPT - 4o1也展现出了明显的优势,相比DeepSeek V3同样展现出了明显的优势,突出了其在科学问题解决任务中的卓越能力。
这一指标是相对优势,它突出了各模型的优势,这些优势是在特定领域内相对于同类模型而言的。
图4a中的雷达图展示了部分典型模型的相对优势,它直观地呈现了前文所讨论的各模型优势分布情况 。
图4b则展示了模型优势在不同问题难度等级下的分布情况。
错误分析
本节将详细分析在评估过程中发现的错误。
PHYBench基准测试评估的能力被分为两个主要维度,一个维度是物理感知,简称为PP,另一个维度是稳健推理,简称为RR 。
为了能更好地对这两个类别加以说明,对大型语言模型(LLMs)的推理过程展开了分析,尤其是DeepSeek-R1的表现 。
就如同上面的例子所展示的那样,DeepSeek-R1的推理过程能够显著地划分成两个阶段,这两个阶段分别与PP和RR相对应。
在各种模型里,都能够一致地观察到和这两个阶段有关的错误,这表明这两个分类具备很好的代表性。
此外,所提出的EED指标,能够对模型在PP方面的表现进行有效量化,也能够对模型在RR方面的表现进行有效量化。
理解模型推理过程
在对多个模型的解题过程展开分析时,发现它们的推理链条具备典型的结构特征,这一结构特征与定义的两个挑战类别高度对应 。
在这个阶段,模型要进行大量语义推理,会花费较多认知资源去识别相关物理对象、变量和动态过程,还需要定性判断哪些物理效应重要,哪些可忽略,物理感知主要体现在推理链中的关键决策节点上。
在稳健推理(RR)这个阶段,模型会推导出大量方程,还会进行符号推理,这一过程会把感知节点通过推理链条连接起来,RR主要包含连续的数学推导、解方程以及正确应用已知条件等环节。
从结构方面来看,PP对应着推理链里的关键决策点,RR是连接这些节点的推理链条 。
要是在PP节点出现错误,这有可能致使对物理情景产生根本性的误解,最终给出错误答案,与此同时,还可能引入不必要的物理效应,进而增加后续符号推理的复杂度。
RR阶段会出现错误,这些错误通常表现为推导表达式不一致,还表现为解方程错误,或者表现为条件应用不当,这些问题会不断累积,进而使最终的结果越来越偏离正确答案。
物理感知(Physical Perception)
第一个典型挑战来自对物理过程理解不足和建模能力欠缺。
如上图所示,示例问题1描述了一个经典力学场景,三颗小球被一根不可伸长的绳子连接在一起 。
大型语言模型(LLM)出现错误解答,原因是对这些小球之间的运动关系存在误解,尤其是错误地觉得中间绳段的角速度是零 。
即使后续符号推导过程是正确的,最终得到的答案依然是错误的。
这个问题里存在PP挑战,对于普通大学生而言不算困难,然而,哪怕是像Gemini - 2.5 - Pro、o3以及DeepSeek - R1这般最先进的模型,也没能正确解答这道运动学题目 。
实验有了进一步发现,32B参数规模的模型在PP阶段表现特别差,甚至在基础问题上也常常出错,这种失败不但暴露了模型在物理感知能力方面存在根本性局限,还反映出其在语义推理方面有不足。
PHYBench基准测试是特意设计的,其目的是区分出真正理解物理过程的模型,以及那些仅靠记忆或模式识别来解题的模型。
稳健推理(Robust Reasoning)
另一种常见错误出现在长且复杂的推理过程里,模型难以维持推理的一致性,或者在解方程的时候出现错误。
在上图示例问题2中,场景是镜子以相对论速度运动,镜子受到高能光子的反冲。LLM正确理解了物理设定,选用了恰当的方程,经过漫长的符号推导,最终未能得出正确解答。
这种情况典型地反映了模型在数学推理稳健性方面的不足。
物理问题一般需要进行大量的符号推导。因篇幅有限制,这里所展示的两个示例问题都相对较短。不过前文有提到,PHYBench中一份完整解答的平均长度约为3000字符,人工解答通常要使用几十步中间推导。
LLMs未经外部数学工具辅助,它往往比人类解答步骤更多,这就增加了出错的风险。
这一观察表明,物理问题本质上是一种长链推理任务,这种任务受到多种明确规则的约束。
实验结果表明,长链符号推理仍然是当前模型面临的重要挑战。
用EED指标捕捉错误
EED分数能有效捕捉模型在PP和RR两个阶段的错误。
PP阶段出现错误,通常会致使中间推导过程里的术语缺失或多余,小错误会引发系数偏差,大错误可能增添或遗漏整个术语,显著降低EED得分。
RR阶段会出现错误,这种错误表现为推导过程中表达式逐步偏离,EED能够平滑地捕捉到这种变化。
在PHYBench框架下对这些问题展开分析,这进一步验证了该基准测试的有效性,该基准测试用于评估AI模型的物理感知能力,也用于评估AI模型的逻辑推理能力 。
PHYBench提供真实且复杂的物理场景,这迫使模型展示其真正的理解与推理能力,这不仅提升了评估AI推理能力的标准,还为开发更先进的模型提供了方向,这些模型能够理解并与物理世界互动。
这些问题的分析也是PHYBench被创建的核心目标。
PHYBench呈现了真实复杂的物理情景,PHYBench考察了超越传统物理解题的推理能力。
这两种能力,即物理感知(PP)和稳健推理(RR),能够作为衡量AI模型在多规则推理任务中表现的重要指标,它不仅适用于物理学领域,还适用于更广泛的科学和工程任务。
它们反映了模型具备从现实信息中抽象出结构的能力,还反映了模型拥有执行复杂长链推理任务的能力。
因此,PHYBench为评估AI推理能力设定了新标准,它还为开发更高级模型提供了指导,这些更高级模型能够真正理解并与现实世界互动。
要使AI在真实环境里有效运作,仅仅依靠模仿视频或文本进行学习是不够的,只是单纯积累专家知识也是不够的,模型还必须拥有自主构建内部表示的能力,并且要通过合理推理推导出可靠物理关系。
参考资料:
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/275815.html