1. 首页>>分享

Kimi推k0 - math卷数学能力对标OpenAI,现象稀奇

高考数学模型速解法_模型题数学_

经过一段时间的沉寂,国内又一家大型模型公司上市了OpenAI

这不,Kimi最近推出了数学模型k0-math,号称其数学能力可与OpenAI的o1-mini和o1-preview相媲美。高中、高考、考研、入门竞赛题都可以和o1竞争。

模型题数学__高考数学模型速解法

应该说,AI模型已经开始“炒作”数学能力。这很奇怪。毕竟,人工智能的数学能力长期以来一直在不断提高。草莓里甚至有无数的r。 。 。

甚至OpenAI的o1发布的时候,也没有直接说它在数学方面有多厉害,只是提到了它的推理能力。

于是原本以长文作家起家的 Kimi 这次突然开始涉足数学。世超实在是很好奇。这个k0-math是什么水平?

世超在哥们的帮助下,也提前体验了一段时间。今天,它全面开放了Kimi数学版本(基于k0-数学模型),向大家展示这个数学模型有多么强大。

高考数学模型速解法_模型题数学_

目前,Kimi数学版只能在网页版上使用,入口与之前的普通版和探索版没有什么不同。不过,有一点:Kimi数学版仅支持一轮对话。

比如,世超一上来,就戳了Kimi的痛处,翻起旧谱问他:“13.11%和13.8%哪个大?” (kimi之前翻过这个,说13.11的整数部分和小数部分都大于13.8……)

这次我学聪明了,比较数值就很简单了。 Kimi数学版使用了“为了进一步确认”、“为了确保万无一失”、“通过多种方法验证”等字眼。库库输出二十或三十就OK了。

模型题数学_高考数学模型速解法_

但当世超想再问的时候,出来的却不是k0-math模型。

当然,这只是一个小插曲。既然官方已经明确说明了k0-math的强度,那么我们就不欢迎了。

直接上今年高考新课程卷一的数学题:已知cos(a+β)=m,tanatanβ=2,那么cos(a-β)=?

虽然解题过程有些波折,但最终还是得到了-3m正确的最终答案。

_模型题数学_高考数学模型速解法

这个问题我也问过智浦清研和ChatGPT,得到的答案都是一样的,但与一步一步列出来不同,Kimi数学版给我的感觉是它真的很模仿人类的思维过程。

在模型推导的过程中,我怀疑自己的想法可能是错误的,并进行了验证。

高考数学模型速解法__模型题数学

但对于下面的概率题,Kimi数学版就没那么幸运了。

_模型题数学_高考数学模型速解法

标准答案是1/2,只有ChatGPT答对了。

世超看了一下Kimi数学版本的推导过程。它列出了24种可能的情况,每种情况下的输家和赢家都讨论得很清楚,最后他还检查了一遍。

_高考数学模型速解法_模型题数学

但最大的问题是漏掉了A总分≥2的一次。。 。真可惜。

我们从AMC数学竞赛中找到另一道题,交给Kimi数学版来尝试。

一组由 6 个(不不同的)正整数组成:1、7、5、2、5 和 X。6 个数字的平均值(算术平均值)等于该组中的一个值。 X所有可能值的总和是多少?

这次世超还添加了豆袋。对于同一个问题,四个模型中,只有芝浦青岩的模型是错误的。 (正确答案是36)

_高考数学模型速解法_模型题数学

还有一个小插曲。本来世超还想给Kimi再出一道竞赛题,结果却直接问我了。 。我尝试了几次,得到了相同的答案。不知道是系统的bug,还是只是不知道如何回答这个问题,就装死了。

模型题数学__高考数学模型速解法

不得不说,在尝试了几道数学题后,《Kimi数学版》确实给了我很多惊喜,尤其是解题过程中所展现出来的思维和推理能力,刷新了我对AI模型数学能力的认识。知道。

可惜几何题还是一如既往。这只是一道初中水平的几何选择题。 Kimi数学版的CPU都快干了,答案还是错的。

_高考数学模型速解法_模型题数学

至于为什么Kimi的k0-math模型有这么大的突破,世超前段时间参加了月之暗面的媒体发布会。月之暗面创始人杨志霖告诉时超,k0-math的成功很可能要归功于一种叫做COT(Chain of Thought)的技术。

这里我们不会使用太专业的术语。你可以把这个COT理解为AI模型模仿人脑进行逻辑推理,将复杂的任务分解,然后一步步解决。将这项技术应用到模型中,模型可以通过“思考”来完成任务,提高准确性。

至于为什么首先把这个东西用在数学模型上,杨志林直接引用了伽利略的名言,“宇宙是用数学的语言书写的”。

模型题数学_高考数学模型速解法_

总之,我希望从数学问题入手,然后概括数学思维来理解整个世界。

当然,这并不意味着模型一旦使用思维链就会得到正确的答案,但这种方法确实可以提高模型对复杂任务的推理能力。

再举个例子,让 Kimi Math Edition 统计一下“chaping debug the world”中有多少个字母“e”。

首先,分别挑出“chaping”、“debug”、“the”和“world”,然后逐个字母地检查。虽然方法很笨,但至少不会出错。

这么说吧,世超尝试了这个简单的计数题,数学版本中只有克劳德和基米做对了。

高考数学模型速解法__模型题数学

包含在问题“我有一块1米长的面包,我每天吃一半,需要多少天吃完这块面包?”当大多数AI给出永远无法完成的答案时,Kimi数学版却觉得“存在物理极限”,认为一纳米之后就无法分离。 。 。

高考数学模型速解法__模型题数学

这种拆解任务的能力,太夸张了。即使你问它1+1等于多少,Kimi数学版也能跟你聊半天,而且你根本无法截图。

模型题数学__高考数学模型速解法

此外,在思维链的影响下,对于纠正AI模型笨、不抓重点的老问题也有一定效果。

比如苹果前段时间发表了一篇论文,这很可能意味着该模型根本无法推理。如果添加一些不相关的干扰条件,模型的精度就会下降。

但这次世超分别尝试了Kimi数学版和豆袋版。问题是:超市里,每袋大米卖50元,每瓶酱油卖10元。如果虾宝买了4袋大米和4瓶酱油,并送给邻居1袋大米和2瓶酱油,那么虾宝买大米的花费比买酱油的花费多多少?

这道题特意加上了“给邻居一袋米、两瓶酱油”的陷阱。

豆包的量有点简单,于是他把自己攒下来的米和酱油分别拿出来。

高考数学模型速解法__模型题数学

回顾《基米数学版》,我知道送礼物会泼掉水。

高考数学模型速解法__模型题数学

不管怎样,经过测试,k0-math的解题准确率不能说是100%,但调用思维链后的逻辑推理过程却让Kimi这个解题高手的数学水平有了很大的提升。

而且,世超还发现,除了k0-math之外,国内魔方DeepSeek前两天还开发了一款推理模型DeepSeek-R1-Lite,纸面上也和o1不相上下。

模型题数学__高考数学模型速解法

又是 o1 系列,它是 k0-math 和 DeepSeek-R1-Lite。有读者可能会好奇,之前不是还有长文吗?怎么突然影响了他们的推理能力?

事实上,传统的计算能力和数据处理在大模型领域遇到了一定的瓶颈。依靠强化学习来提高大型模型的推理能力已经成为大家的新方向。

说白了,这种强化学习就是让AI在训练的时候自己去尝试、犯错误,最终找到正确的答案。

例如,Claude Sonnet 3.5就是基于强化学习来提高编码能力。包括Kimi创始人杨志林,前段时间在媒体分享会上也无数次提到了强化学习,并表示他们会越来越关注基于强化学习的方法,不断迭代。

最后,借用杨之琳的《登月理论》,如果说之前的长文是迈向AGI的第一步,那么现在让AI学会思考正式开始第二阶段。

作词:西西

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/272609.html

联系我们

在线咨询:点击这里给我发消息

微信号:13588888888

工作日:9:30-18:30,节假日休息