IT时报记者 孙妍
我曾在停车场担任交通疏导员,在汽车门店担任导购,在餐厅担任下单上菜的服务员,还在理发店帮顾客吹过头发……在商场里,人形机器人小麦正不断解锁着自身的多重角色。
3 月 26 日晚,召开了一场颇具硅谷风格的发布会,以直播形式进行。在圆桌论坛激烈讨论具身智能行业话题的同时,魔法原子推出了一系列产品和举措。包括密集推出人形机器人小麦、四足机器人,推出首个端到端“原子万象大模型”,还打造了 1000 个人形机器人落地场景,并将量产 400 台人形机器人投入工业、商业场景等。信息的含量非常大,这让人不禁联想到 OpenAI 所举办的那场持续了 12 天的发布会,就如同一场“大戏”一般。
小麦的成长历程:工人、主持人等1000种角色
开场时,小麦登场,它身高 174cm,长着自研的灵巧手,搭载着大语言模型“大脑”。在它的“生活空间”里,回顾了过去一年自己的成长历程。
最早是经典控制路线,之后有强化学习、模仿学习技术路线。小麦的运动能力在不断成长且越来越快,其走路速度从 0.3m/s 开始逐渐提升,目前持续跑步速度能达到 2m/s,走路的状态越来越像人,跑步的状态也越来越像人,并且能够在奔跑状态下适应马路、跑道、草地、山坡等多种不同的环境。今年 4 月,小麦会参加机器人马拉松比赛。到那个时候,看看它能否跑得快。看看它能否跑得稳。看看它能否跑得久。
2024 年 11 月,小麦进入追觅科技工厂成为产线“工人”。它在零部件上下料岗位进行实训,也在物料搬运、产品检测、点胶等岗位实训。小麦从最初的经典技术路线,即视觉识别、位姿估计和轨迹规划,进化到快慢双系统的技术路线,如今已成长为工厂中的“熟练工”。经过三个月的训练,小麦在高速数字马达上下料工序中的成功率提升了多倍,效率也提升了多倍。
2025 年 3 月,小麦成为江苏广电总台的特邀记者“苏小麦”。它前往北京参与全国两会报道。通过完成新闻播报这一工作任务,为两会报道增添了科技感。通过进行代表对谈这一工作任务,为两会报道注入了新鲜活力。通过开展市民街访这一工作任务,也为两会报道带来了新的气息。
前不久,小麦被邀请担任一场行业发布会的主持人。它参与了活动的开场环节,还参与了嘉宾对谈等主持环节。凭借其多模态交互能力,小麦掌控了全场的节奏。在 AWE2025 展台上,小麦成为了展会的顶流明星。
从小麦的成长历程能够看出,人形机器人的落地场景存在着千百种可能性。因此,在发布会上,魔法原子宣布要启动“千景共创计划”,并且会拓展 1000 个合作伙伴,以此来打造 1000 个人形机器人的落地应用场景。
小麦的职业规划:400个小麦正在进入工厂、商场
我会如同手机和汽车那样,时刻陪伴在大家身旁,并且给大家带来全新的生活方式。在谈及未来的职业规划时,小麦并不满足于仅仅当一名工厂打工人,商业场景以及家庭场景都将成为小麦得以落地应用的方向。
小麦正在进行量产。今年,预计有 400 台人形机器人将进入工业场景。今年,预计有 400 台人形机器人将进入商业场景。
在商场停车场,小麦担任交通疏导员这一职务,能够实时获取商场停车场的信息,并且能够有序地指引车流、指挥停车,同时还能引导顾客乘坐电梯。作为汽车导购的小麦机器人,凭借着 VLM 视觉语言大模型的能力,能够识别和分析用户的特征,预测用户的偏好,并且能够推荐相关的车型。在理发店,小麦在智能识别顾客的发质之后,能够主动地调节吹风机的工作模式,提供更具针对性的服务项目。餐厅服务员小麦借助大语言模型来与用户进行交流,能够依据顾客的喜好去推荐菜品,并且能够高效地完成下单和上菜的工作。这是因为小麦具备实时感知环境变化的能力,从而可以避免与拥挤的桌椅、设备以及顾客发生碰撞。
小麦头部和手部都很齐全,外观相对完整,身材与人类相近。它全身有 42 个自由度,能够高度模仿人类的动作与姿态。通过智能语音、智能化面部表情以及肢体动作,它可以与人类自然流畅地进行多模态交互。并且,小麦的机身采用高强度材料,经过轻量化处理和续航优化后,已经能够长时间提供服务,在工业、商业等场景中填补了人力缺口。
2024 年 12 月举办的中国电信数字科技生态大会上,魔法原子与中国电信达成了合作,进而成为了天翼数字生活公司的合作伙伴。在家庭场景方面,魔法原子正在和中国电信一同开发家庭服务解决方案,并且在探索居家养老以及日常协助等应用方向。
吴长征在发布会上提到,5 年之后人形机器人会进入普通人的家庭。
四足机器人化身导盲犬
技术的终极使命是向善。
在发布会的结尾部分有一个彩蛋环节。在这个环节中,魔法原子的全新项目“光引 001”被正式曝光了。并且,该项目的四足机器人化身成了导盲犬。
四足机器人在户外环境中可灵活自适应平地、草地等多种地形。魔法原子四足机器人能实时感知复杂环境,遇到障碍物时可引导视障人士进行避让,在通过路口等复杂场景中也能引导视障人士进行避让,并且还能通过语音进行提醒。
四足机器人在货柜前能引导视障人士挑选饮料。它还能探测到附近有评分较高的甜品店。基于智慧互联功能,四足机器人可以帮助视障人士下单一份草莓慕斯。并且它还能进行扫码支付。
系统显示车辆到达需 2 分钟。在路边,视障人士难以扬招出租车,他们出行主要依赖网约车。四足机器人能够帮忙下单轿车,并且会把车辆预计到达的时间确切地告知视障人士,使他们可以在路边安心等候车辆。
四足机器人不再仅仅具备表演跳舞、空翻等能力,它不再仅仅是由冰冷代码构成的。它成为了温暖的力量,能够在家庭陪伴的场景中提供情绪价值,能够在视障人士出行的场景中提供便捷方案,也能够在商业导览的场景中提供相应的帮助。
原子万象大模型 百万级真实数据
大模型充当着机器人的“大脑”。魔法原子的首个具身智能大模型是原子万象,它将视觉语言大模型与动作专家系统相融合,构建了快慢“双模”协同架构。
“快系统”基于动作专家模型,能够对环境变化做出响应,保障机器人各个部位快速适应环境;“慢系统”基于多模态大模型,负责理解复杂环境,并规划长期任务。在端到端框架里,基于快慢双模协同架构,把多模态感知、自主导航、操作抓取以及运动控制等功能融合在一起,同时与场景深度绑定,这样就能让人形机器人在各种垂直场景中实现自主规划和自主作业。
以商业服务场景作为例子,魔法原子借助商业垂直大模型,给予人形机器人小麦力量,让它能够结合商业产品知识库以及衣着信息等消费者的显性特征数据进行分析。它可以通过语音和动作等行为,主动向顾客问候和招揽顾客,并且把合适的产品推荐给顾客,从而完成商业场景的应用闭环。
大模型是机器人能力进化的智能引擎。吴长征指出:“搭载大模型的机器人,其智能化能力有百倍、千倍、万倍的增长机会。”为使机器人能自主进化并赋予它类人行为范式,原子万象大模型凭借实时理解场景的能力,生成实时运动指令。
大模型能够持续优化,是因为有数百万条高价值的训练样本。人形机器人需要在大规模、群体性的工序场景中进行数据采集、训练学习以及能力验证。因此,魔法原子与追觅科技达成了战略合作,通过持续采集生产环境中的真实数据,使得人形机器人从“能理解”发展到“能行动”。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/275171.html