明月来自奥飞寺
量子比特 |公众号QbitAI
Kimi新款来袭,一经发布即刻上线!
就在数学模型k0-math发布几天后,视觉思维模型k1问世,在多项思维推理测试中超越了Open AI o1。
官方表示,基于强化学习,k1原生支持端到端的图像理解和思维链技术。
也就是说,k1可以深入挖掘图片信息、剥茧、层层推理,从而解锁包括几何图形问题在内的更全面的数学能力。
模型思考答案的整个过程,就像:
而且K1的思维能力并不局限于数学领域。俗话说“学好数理化,走遍天下都不怕”。
在官方数学、物理和化学基准测试中,Kimi k1-preview 的表现优于 OpenAI o1、GPT-4o 和 Claude 3.5 Sonnect。
这次发布的Kimi新模型依然是可以直接在线玩的。在APP或网页版找到“Kimi视觉思维版”上传图片点击使用。
话不多说,我们来快速测试一下吧~
第一波数学、物理和化学的实用测量
首先,让我们用一个真正的研究生数学问题来测试你的技能。本题涉及的知识点包括曲面积分、高斯定理等:
在之前的量子比特实测中,这个问题难倒了GPT-4o。
Kimi视觉思维版通过一步一步详细推理,第一时间给出了正确答案。
该公司本身表示,已经进行了检查,没有发现任何错误,并且“对答案非常有信心”。
这是在 O1 上测试的另一道数学入门题。
外星人来到地球后,第一天有同等机会选择以下四件事中的一件要做:
自毁;分裂成两个外星人;分裂成三个外星人;什么也不做。
此后的每一天,每个外星人都会做出选择,而且他们是相互独立的。求地球上最终不存在外星人的概率。
Kimi视觉思维版也第一次就做对了:
读完数学技巧后,我们来尝试一些物理题。
以下问题是大学物理中的光学问题:
双缝干涉实验中,波长λ=550nm的单色平行光垂直入射到缝距为a=2×10⁻⁴m的双缝上,屏幕到双缝的距离为D = 2m。求中央明线两侧的两条 10 级明线中心之间的距离。
Kimi视觉思维版成功答对。
而事实上,它很早就给出了正确的答案,但它仍然严格地用不同的方法反复验证和确认答案,然后才给出答案。
最后,这是另一个“化学问题”(doge):
糖果,快乐,培根,可怕,大脑,房子
哪一个是奇怪的?
提示:化学
Kimi的视觉思维版本在推理过程中几经波折,但最终的答案是正确的(开心)。
除了发布新型号外,《月之暗面》还透露了 k1 背后的总体技术方向。
基于强化学习的新一代推理模型
据介绍,k1是他们基于强化学习技术的新一代模型,称为思维模型,真正实现了端到端的图像理解和思维能力。
从模型训练的角度来看,分为两个阶段:首先通过预训练得到基础模型,然后对基础模型进行强化学习和后训练。
最关键的是,k1遵循强化学习Scaling Law,进一步优化强化学习训练后的数据质量和学习效率。
传统的基于文本的推理模型要么不支持图像信息输入,要么需要使用外部OCR/视觉模型进行转换,导致效果损失明显。
由于Kimi视觉思维版是原生的端到端视觉推理模型,视觉+推理,因此可以直接理解图片信息并进行深度推理。
在“嘈杂”场景下,即图片模糊、字迹难以辨认等情况下,性能损失也更小。
既然如此,要打开我的思路,除了要求它做数学、物理、化学推理题之外,也许我还可以用一堆图片来帮助它推理出我想知道的东西。
例如,向其发送朋友“播放列表”的屏幕截图,并让它为我分析朋友的 MBTI。
更何况,k1的推理是有根据的。首先了解MBTI是什么,然后像侦探一样仔细分析和分类图中的曲目,然后寻找这些歌手和风格的相似之处。
即使给出了猜测,它甚至会“平衡矛盾的特征”并添加额外的“验证”步骤。
最终会给出更合理的猜测。
再比如,你也可以把这样一份字迹潦草的手写稿拿出来,让它帮我推断出是谁写的,笔记的内容是关于什么的。
想法又被打开了。
最后不得不说,最近几天国内外大型车型有了很多新动态。以前有谷歌,现在有基米。 OpenAI的“12天圣诞直播”可以说是被“狙击”了一次又一次。 “是的。
您觉得Kimi新车型的表现如何?有兴趣的童鞋不妨自己尝试一下~
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/273367.html