1. 首页>>分享

Kimi新模型k1发布即上线,超越OpenAI o1,全面支持图像理解和思维链技术

明月来自奥飞寺

量子比特 |公众号QbitAI

Kimi新款来袭,一经发布即刻上线!

就在数学模型k0-math发布几天后,视觉思维模型k1问世,在多项思维推理测试中超越了Open AI o1。

上线测试怎么做__软件开发测试上线需要多长时间

官方表示,基于强化学习,k1原生支持端到端的图像理解和思维链技术。

也就是说,k1可以深入挖掘图片信息、剥茧、层层推理,从而解锁包括几何图形问题在内的更全面的数学能力

上线测试怎么做_软件开发测试上线需要多长时间_

模型思考答案的整个过程,就像:

软件开发测试上线需要多长时间__上线测试怎么做

而且K1的思维能力并不局限于数学领域。俗话说“学好数理化,走遍天下都不怕”。

在官方数学、物理和化学基准测试中,Kimi k1-preview 的表现优于 OpenAI o1、GPT-4o 和 Claude 3.5 Sonnect。

_软件开发测试上线需要多长时间_上线测试怎么做

这次发布的Kimi新模型依然是可以直接在线玩的。在APP或网页版找到“Kimi视觉思维版”上传图片点击使用。

上线测试怎么做__软件开发测试上线需要多长时间

话不多说,我们来快速测试一下吧~

第一波数学、物理和化学的实用测量

首先,让我们用一个真正的研究生数学问题来测试你的技能。本题涉及的知识点包括曲面积分、高斯定理等:

在之前的量子比特实测中,这个问题难倒了GPT-4o。

Kimi视觉思维版通过一步一步详细推理,第一时间给出了正确答案。

上线测试怎么做_软件开发测试上线需要多长时间_

该公司本身表示,已经进行了检查,没有发现任何错误,并且“对答案非常有信心”。

这是在 O1 上测试的另一道数学入门题。

外星人来到地球后,第一天有同等机会选择以下四件事中的一件要做:

自毁;分裂成两个外星人;分裂成三个外星人;什么也不做。

此后的每一天,每个外星人都会做出选择,而且他们是相互独立的。求地球上最终不存在外星人的概率。

Kimi视觉思维版也第一次就做对了:

_上线测试怎么做_软件开发测试上线需要多长时间

读完数学技巧后,我们来尝试一些物理题。

以下问题是大学物理中的光学问题:

双缝干涉实验中,波长λ=550nm的单色平行光垂直入射到缝距为a=2×10⁻⁴m的双缝上,屏幕到双缝的距离为D = 2m。求中央明线两侧的两条 10 级明线中心之间的距离。

Kimi视觉思维版成功答对。

而事实上,它很早就给出了正确的答案,但它仍然严格地用不同的方法反复验证和确认答案,然后才给出答案。

软件开发测试上线需要多长时间__上线测试怎么做

最后,这是另一个“化学问题”(doge):

糖果,快乐,培根,可怕,大脑,房子

哪一个是奇怪的?

提示:化学

Kimi的视觉思维版本在推理过程中几经波折,但最终的答案是正确的(开心)。

软件开发测试上线需要多长时间_上线测试怎么做_

除了发布新型号外,《月之暗面》还透露了 k1 背后的总体技术方向。

基于强化学习的新一代推理模型

据介绍,k1是他们基于强化学习技术的新一代模型,称为思维模型,真正实现了端到端的图像理解和思维能力。

从模型训练的角度来看,分为两个阶段:首先通过预训练得到基础模型,然后对基础模型进行强化学习和后训练。

最关键的是,k1遵循强化学习Scaling Law,进一步优化强化学习训练后的数据质量和学习效率。

传统的基于文本的推理模型要么不支持图像信息输入,要么需要使用外部OCR/视觉模型进行转换,导致效果损失明显。

由于Kimi视觉思维版是原生的端到端视觉推理模型,视觉+推理,因此可以直接理解图片信息并进行深度推理。

在“嘈杂”场景下,即图片模糊、字迹难以辨认等情况下,性能损失也更小。

软件开发测试上线需要多长时间__上线测试怎么做

软件开发测试上线需要多长时间__上线测试怎么做

既然如此,要打开我的思路,除了要求它做数学、物理、化学推理题之外,也许我还可以用一堆图片来帮助它推理出我想知道的东西。

例如,向其发送朋友“播放列表”的屏幕截图,并让它为我分析朋友的 MBTI。

更何况,k1的推理是有根据的。首先了解MBTI是什么,然后像侦探一样仔细分析和分类图中的曲目,然后寻找这些歌手和风格的相似之处。

即使给出了猜测,它甚至会“平衡矛盾的特征”并添加额外的“验证”步骤。

软件开发测试上线需要多长时间_上线测试怎么做_

_上线测试怎么做_软件开发测试上线需要多长时间

最终会给出更合理的猜测。

_软件开发测试上线需要多长时间_上线测试怎么做

再比如,你也可以把这样一份字迹潦草的手写稿拿出来,让它帮我推断出是谁写的,笔记的内容是关于什么的。

软件开发测试上线需要多长时间_上线测试怎么做_

想法又被打开了。

_上线测试怎么做_软件开发测试上线需要多长时间

最后不得不说,最近几天国内外大型车型有了很多新动态。以前有谷歌,现在有基米。 OpenAI的“12天圣诞直播”可以说是被“狙击”了一次又一次。 “是的。

软件开发测试上线需要多长时间_上线测试怎么做_

您觉得Kimi新车型的表现如何?有兴趣的童鞋不妨自己尝试一下~

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/273367.html

联系我们

在线咨询:点击这里给我发消息

微信号:13588888888

工作日:9:30-18:30,节假日休息