1. 首页>>分享

机械姬中的艾娃非AI而是具身智能,你知道吗?

“你看过《机械姬》吗?那个会骗人的艾娃,真的是AI吗?”

朋友突然提出的问题使我开始思考。在电影中,艾娃的每一个眼神以及每一句对白都能让人感到毛骨悚然。她太像人类了,所以观众自然而然地就认为,这就是 AI 的最终形态。

但现实情况是,艾娃与我们现今所提及的 AI 有着本质的区别。她的能力存在于一个被称作具身智能的概念之中。

人形机器人视频_人形智能机器人_

具身智能是一种完全不同的技术路径,而非更高级的 AI。它不依靠大语言模型的尺度定律,而是凭借物理身体与环境进行互动,就如同婴儿学习世界那样。

但由于科幻片的兴起与传播,被误当成AI好多年。

今天,就让我们抛开刻板印象,聊一聊:

为什么具身智能与 AI 存在差异?我们距离真正的“艾娃”究竟还有多远?

一个来自科幻文化的误会

影视作品如《机械姬》中的机器人形象在潜移默化中强化了“具身智能就是 AI”的认知。

但实际上,这是一种误读。

具身智能并不等同于AI。

要理解具身智能是什么,首先要分清具身和离身两个概念。

存在或认知通过物理身体与环境交互得以实现,这就是具身,它强调身体经验的基础性作用,比如人类;存在或认知能够脱离物理载体而独立存在,这就是离身,它强调抽象形式的自主性,例如软件、算法。

传统 AI 如同 GPT 那般,属于离身智能,能够脱离物理实体进行符号逻辑的抽象推理,且能存在于各种终端。大语言模型凭借海量文本训练构建起词汇相关性网络,从而得出概率映射的最优解。然而,这种在虚拟环境中研发出来的智能,欠缺对物理世界的感知。它难以知晓拿起水杯需要何种力学控制,也不明白怎样避开突然出现的障碍物。

人形机器人视频_人形智能机器人_

具身智能注重与物理世界的互动。它把智能体的认知能力固定在特定的身体上,就如同“灵肉合一”一般。这个身体具备清晰的边界以及自我认知:其一,它必须是独一无二的,能够由自身进行移动和操控;其二,它能够与环境相互作用,并且在这个过程中积累经验、习得规律。这种身体化学习机制,使得具身智能的进化路径和纯数据驱动的 AI 是不一样的。这种身体化学习机制让具身智能的进化路径与纯数据驱动的 AI 有着显著的差异。这种身体化学习机制致使具身智能的进化路径和纯数据驱动的 AI 迥然不同。

而代表具身智能的人形机器人,更是与AI差了一万八千里。

人形机器人首先必须拥有能够与现实世界进行互动的物理身体。这并非仅仅是添加一个外壳这般简单,而是需要构建一套完整的感知与行动相互关联的闭环系统。

其次,这个身体需要具备活动能力。要让机器人的身体真正具备活力,需要攻克以下三大难关:一是实现精确的抓握控制,像能够拿起筷子或者豌豆之类的物品;二是具备动态平衡能力,以便在山坡、楼梯等不平坦的道路上行走;三是实现多任务协调,例如能够在走路的同时端着盘子等。

人形智能机器人__人形机器人视频

并且,要给予他与世界进行交互的多种模态的感官。具身智能需要构建比人工智能更丰富的感官体系,一方面要具备看的能力(计算机视觉),另一方面还要具备听的能力(声源定位),以及具备触的能力(力度反馈),甚至还要具备闻的能力(化学传感)。

最后,需要一个比大语言模型更为聪明的大脑,因为基于尺度定律的脑子难以理解因果。人形机器人的大脑应当走世界模型这条路径,通过与真实世界的交互来获取经验,从而超越概率,迈向规律。

综上,人形机器人是由多个顶尖级技术集成而成的。它是一个复杂的智能体。但这样一个复杂的智能体,真的就像网上营销所说的那样,离我们只有一步之遥吗?

人形机器人,困于技术沼泽

我们翻遍所有最顶尖人形机器人公司的 demo 后,只能看到一个人形巨物。它不停地跳舞、翻跟头,有时连苹果都拿不稳。它的电池续航通常不够 5 小时,经常电量告急。复杂的动作需要人工遥控,就像小孩的遥控赛车那样。而小孩的赛车只需几百块,一款机器人却需要几十万。

不得不说,这是一个炫技大于实用的概念。

我们想象中的人形机器人,得是像《机器人女友》里那样,既文武双全,又长得像绫濑遥那般美,还偶尔会露出反差萌的完美“恋人”才行。

人形智能机器人_人形机器人视频_

理想很丰满,然而现实却很骨感。AI 的发展如今陷入了固有技术方法论的沼泽之中。我们一味热衷于大语言模型,也热衷于强化学习,却恰恰忽略了这样一个事实,那就是它们仅仅教会了 AI 如何去模仿,却没有教会 AI 如何去理解真实且复杂的物理世界。

而这恰恰是人形机器人向强发展所需要克服的。

近日,图灵奖获得者杨立昆在巴黎 AI 峰会上阐述观点。他认为,若要研究人类级 AI,就需做到“不破不立”,具体而言要做到三个放弃:其一,放弃仅仅只会进行概率计算的大语言模型;其二,放弃如同拼图游戏般的对比学习;其三,放弃像驯狗般通过奖惩来训练 AI 的强化学习。

人形机器人的脑子需要的技术有世界模型,还有规划算法等,这些技术能够与环境进行交互;人形机器人的身体需要的有支持运动的仿生关节,有代表感官的传感器融合系统,有类似小脑的运动控制算法,还有作为心脏的高能量密度电池。

这些技术如同 2020 年之前的大语言模型那样。它们陷入了研究的瓶颈。

一方面,是因为太难;另一方面,是成本太高。

人类使用工具的能力是以数百万年进化形成的本体感知系统为基础的。当人类使用螺丝刀时,能够凭借触觉随时调整握力,并且能够预判旋转时扭矩的变化。而对于机器人来说,要达成同样的操作,就需要攻克三大难关,即 0.1 牛顿级的力控精度、高度灵敏的触觉解析以及避免自碰撞的运动规划协同。

人形智能机器人_人形机器人视频_

目前最先进的机器人,依然难以在不同场景中拿起同一个苹果。所有科技公司所展示的 Demo 大多是没有杂物的光滑桌子,或者是空旷且光线充足的实验室环境。倘若旁边多了一只梨子,又或者苹果不慎滚落到地板上,它们或许就会束手无策。

另一方面,波士顿动力的 Atlas 实验机人形机器人的研发成本普遍是 200 万美元以上。特斯莱自研的“大脑”主控芯片,每个的价格是 3.2 万;一个灵巧手的价格是 1.2 万元;作为感官的传感器系统,总计 11 万元;支持运动的线性关节,总成本约 15 万元。即使实现量产,后期也需要投入一大笔资金用于维修和保养,因为人形机器人有 30 个左右的关节,经过多次训练磨损后,会出现不灵便、卡壳等情况。

可以看出,发展人形机器人的目的就是为了造人。然而从工业场景方面来看,双足的效率不稳定,比轮式底盘和机械臂的组合效率低很多;并且技术还不够成熟,没有发展的路径,所以实在不能说是一门很划算的生意。

人形机器人的性价比如此之低,那么它的说法究竟是从哪里来的呢?同时,它又为什么会如此火热呢?

一场轮回破灭的资本幻境

人形机器人是一个被资本过度炒作的概念,它也是一场为了进行融资而进行的作秀狂欢。

2024 年 1 月到 10 月期间,全球人形机器人行业的融资事件一共有 69 起。这些融资事件的总金额超过了 110 亿元。在这 69 起融资事件中,有 56 起是发生在中国的。这些发生在中国的融资事件的总金额超过了 50 亿元。并且,不少头部企业在一轮融资中就融到了超过 10 亿元的资金。

但是,当前存在融资热潮。这一热潮源于资本的追捧,而非技术的成熟。部分公司的估值存在虚高的情况。为了能够吸引到融资,企业在社交媒体上持续进行营销活动,比如打拳、翻跟头等,这些功能并不实用。企业之间的同质化现象非常严重,产品价格高,能力差,落地也很困难。本质上是脱离了技术来谈论未来。

清醒后的资本热开始退潮。

人形机器人视频__人形智能机器人

一些企业已经衰落了。达闼科技曾有 30 亿美元的估值,如今却被曝出存在欠薪、裁员的情况,并且资金链断裂,陷入了停摆的危机;优必选素有“人形机器人第一股”的称号,在五年时间里亏损超过五十亿,市值蒸发了上千亿港元。

一些投资方进行了撤资行为。朱啸虎批量撤出了人形机器人领域。他退出的公司包含星海图以及松延动力。

这不是一个孤立的例子。这个由资本促使成熟的概念,在历史的进程中至少经历了三次破灭的情况。

1970 年代,早稻田的 WABOT - 1 首次实现了双足站立。不过,它的动作比较迟缓,并且能耗极高。当时,它只是在实验室里进行展示。

1990 年,有服务机器人泡沫。本田 ASIMO 的成本高达 200 万美元,它仅能端茶倒水。到 2018 年,本田终止了所有相关项目。

2010 年代的社交机器人神话是软银 Pepper。它存在对话机械的问题,价格也很昂贵,并且故障率较高。由于这些原因,它在 2023 年停产了。

2020 年代,AI 迅速走红,这再次引发了资本对人形机器人的狂热。然而,这并不能掩盖波士顿动力多次被谷歌、软银、现代收购的事实。另外,还有一家公司 Atlas,它因炫技视频与实际落地存在差距,导致其融资越来越少。

回望历史,人形机器人的发展始终遵循着一个轮回怪圈。一开始是惊艳的实验室 demo 吸引了资本的追捧,接着这种追捧催生了估值泡沫,最后因为商业化的失败,使得资金集体撤离。

无数企业和资方不断地重复着从满怀希望到彻底幻灭的故事。这个循环之所以反复出现,主要有以下三个原因:

人形机器人视频__人形智能机器人

首先,烧钱的力度很大,然而却没有构建起商业闭环,也没有找到市场对投资过度依赖的情况。制造一个人形机器人常常需要上百万,比工厂里使用的机械臂贵出几十倍。即便投资人投入再多的钱,也很难找到愿意为此买单的客户。就如同当年本田花费 3 亿美元研发的 ASIMO,最终只能在科技馆中进行端茶倒水的表演。

其次,现在的技术还无法支撑人形机器人的爆炸式发展,仍处于探索阶段。当前的 VLA(视觉-语言-动作)模型在动态环境中的错误率高达 40%,远远没有达到自主决策的水平。高功耗使得多数人形机器人连续工作时间不到 5 小时,远远低于工业需求。

首先,方向出现了偏差,其娱乐属性较强而工具属性较弱。其次,为了吸引投资,不停地进行作秀跳舞等行为,从而忽略了实用性。最后,那些无法在垂直场景减轻人类负担、提升总体效益的机器人,催生了更大的泡沫。

脱离技术而谈商业,那只是虚幻的景象。可以断定,即便这轮人形机器人不会破灭,也必定会像历史那样逐渐沉寂。毕竟,没人愿意花费几十万去购买一个仅仅只会跳舞的大型机械。然而,值得庆幸的是,我们距离那个会欺骗人类感情的“艾娃”还很遥远。

本文来自微信公众号 ,作者:珊瑚,36氪经授权发布。

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/275344.html

联系我们

在线咨询:点击这里给我发消息

微信号:13588888888

工作日:9:30-18:30,节假日休息