Kimi推k0 - math卷数学能力对标OpenAI，现象稀奇-模具钢网

高考数学模型速解法_模型题数学_

经过一段时间的沉寂，国内又一家大型模型公司上市了OpenAI。

这不，Kimi最近推出了数学模型k0-math，号称其数学能力可与OpenAI的o1-mini和o1-preview相媲美。高中、高考、考研、入门竞赛题都可以和o1竞争。

模型题数学__高考数学模型速解法

应该说，AI模型已经开始“炒作”数学能力。这很奇怪。毕竟，人工智能的数学能力长期以来一直在不断提高。草莓里甚至有无数的r。。。

甚至OpenAI的o1发布的时候，也没有直接说它在数学方面有多厉害，只是提到了它的推理能力。

于是原本以长文作家起家的 Kimi 这次突然开始涉足数学。世超实在是很好奇。这个k0-math是什么水平？

世超在哥们的帮助下，也提前体验了一段时间。今天，它全面开放了Kimi数学版本（基于k0-数学模型），向大家展示这个数学模型有多么强大。

高考数学模型速解法_模型题数学_

目前，Kimi数学版只能在网页版上使用，入口与之前的普通版和探索版没有什么不同。不过，有一点：Kimi数学版仅支持一轮对话。

比如，世超一上来，就戳了Kimi的痛处，翻起旧谱问他：“13.11%和13.8%哪个大？” （kimi之前翻过这个，说13.11的整数部分和小数部分都大于13.8……）

这次我学聪明了，比较数值就很简单了。 Kimi数学版使用了“为了进一步确认”、“为了确保万无一失”、“通过多种方法验证”等字眼。库库输出二十或三十就OK了。

模型题数学_高考数学模型速解法_

但当世超想再问的时候，出来的却不是k0-math模型。

当然，这只是一个小插曲。既然官方已经明确说明了k0-math的强度，那么我们就不欢迎了。

直接上今年高考新课程卷一的数学题：已知cos(a+β)=m，tanatanβ=2，那么cos(a-β)=？

虽然解题过程有些波折，但最终还是得到了-3m正确的最终答案。

_模型题数学_高考数学模型速解法

这个问题我也问过智浦清研和ChatGPT，得到的答案都是一样的，但与一步一步列出来不同，Kimi数学版给我的感觉是它真的很模仿人类的思维过程。

在模型推导的过程中，我怀疑自己的想法可能是错误的，并进行了验证。

高考数学模型速解法__模型题数学

但对于下面的概率题，Kimi数学版就没那么幸运了。

_模型题数学_高考数学模型速解法

标准答案是1/2，只有ChatGPT答对了。

世超看了一下Kimi数学版本的推导过程。它列出了24种可能的情况，每种情况下的输家和赢家都讨论得很清楚，最后他还检查了一遍。

_高考数学模型速解法_模型题数学

但最大的问题是漏掉了A总分≥2的一次。。。真可惜。

我们从AMC数学竞赛中找到另一道题，交给Kimi数学版来尝试。

一组由 6 个（不不同的）正整数组成：1、7、5、2、5 和 X。6 个数字的平均值（算术平均值）等于该组中的一个值。 X所有可能值的总和是多少？

这次世超还添加了豆袋。对于同一个问题，四个模型中，只有芝浦青岩的模型是错误的。（正确答案是36）

_高考数学模型速解法_模型题数学

还有一个小插曲。本来世超还想给Kimi再出一道竞赛题，结果却直接问我了。。我尝试了几次，得到了相同的答案。不知道是系统的bug，还是只是不知道如何回答这个问题，就装死了。

模型题数学__高考数学模型速解法

不得不说，在尝试了几道数学题后，《Kimi数学版》确实给了我很多惊喜，尤其是解题过程中所展现出来的思维和推理能力，刷新了我对AI模型数学能力的认识。知道。

可惜几何题还是一如既往。这只是一道初中水平的几何选择题。 Kimi数学版的CPU都快干了，答案还是错的。

_高考数学模型速解法_模型题数学

至于为什么Kimi的k0-math模型有这么大的突破，世超前段时间参加了月之暗面的媒体发布会。月之暗面创始人杨志霖告诉时超，k0-math的成功很可能要归功于一种叫做COT（Chain of Thought）的技术。

这里我们不会使用太专业的术语。你可以把这个COT理解为AI模型模仿人脑进行逻辑推理，将复杂的任务分解，然后一步步解决。将这项技术应用到模型中，模型可以通过“思考”来完成任务，提高准确性。

至于为什么首先把这个东西用在数学模型上，杨志林直接引用了伽利略的名言，“宇宙是用数学的语言书写的”。

模型题数学_高考数学模型速解法_

总之，我希望从数学问题入手，然后概括数学思维来理解整个世界。

当然，这并不意味着模型一旦使用思维链就会得到正确的答案，但这种方法确实可以提高模型对复杂任务的推理能力。

再举个例子，让 Kimi Math Edition 统计一下“chaping debug the world”中有多少个字母“e”。

首先，分别挑出“chaping”、“debug”、“the”和“world”，然后逐个字母地检查。虽然方法很笨，但至少不会出错。

这么说吧，世超尝试了这个简单的计数题，数学版本中只有克劳德和基米做对了。

高考数学模型速解法__模型题数学

包含在问题“我有一块1米长的面包，我每天吃一半，需要多少天吃完这块面包？”当大多数AI给出永远无法完成的答案时，Kimi数学版却觉得“存在物理极限”，认为一纳米之后就无法分离。。。

高考数学模型速解法__模型题数学

这种拆解任务的能力，太夸张了。即使你问它1+1等于多少，Kimi数学版也能跟你聊半天，而且你根本无法截图。

模型题数学__高考数学模型速解法

此外，在思维链的影响下，对于纠正AI模型笨、不抓重点的老问题也有一定效果。

比如苹果前段时间发表了一篇论文，这很可能意味着该模型根本无法推理。如果添加一些不相关的干扰条件，模型的精度就会下降。

但这次世超分别尝试了Kimi数学版和豆袋版。问题是：超市里，每袋大米卖50元，每瓶酱油卖10元。如果虾宝买了4袋大米和4瓶酱油，并送给邻居1袋大米和2瓶酱油，那么虾宝买大米的花费比买酱油的花费多多少？

这道题特意加上了“给邻居一袋米、两瓶酱油”的陷阱。

豆包的量有点简单，于是他把自己攒下来的米和酱油分别拿出来。

高考数学模型速解法__模型题数学

回顾《基米数学版》，我知道送礼物会泼掉水。

高考数学模型速解法__模型题数学

不管怎样，经过测试，k0-math的解题准确率不能说是100%，但调用思维链后的逻辑推理过程却让Kimi这个解题高手的数学水平有了很大的提升。

而且，世超还发现，除了k0-math之外，国内魔方DeepSeek前两天还开发了一款推理模型DeepSeek-R1-Lite，纸面上也和o1不相上下。

模型题数学__高考数学模型速解法

又是 o1 系列，它是 k0-math 和 DeepSeek-R1-Lite。有读者可能会好奇，之前不是还有长文吗？怎么突然影响了他们的推理能力？

事实上，传统的计算能力和数据处理在大模型领域遇到了一定的瓶颈。依靠强化学习来提高大型模型的推理能力已经成为大家的新方向。

说白了，这种强化学习就是让AI在训练的时候自己去尝试、犯错误，最终找到正确的答案。

例如，Claude Sonnet 3.5就是基于强化学习来提高编码能力。包括Kimi创始人杨志林，前段时间在媒体分享会上也无数次提到了强化学习，并表示他们会越来越关注基于强化学习的方法，不断迭代。

最后，借用杨之琳的《登月理论》，如果说之前的长文是迈向AGI的第一步，那么现在让AI学会思考正式开始第二阶段。

作词：西西

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://mjgaz.cn/fenxiang/272609.html

Kimi推k0 - math卷数学能力对标OpenAI，现象稀奇

相关推荐

联系我们