作者 徐丽思
编辑莫莹
生成式人工智能的想象力正在从电子屏幕的数字世界转向物理世界。
贾奎所做的就是教生成式AI在模拟平台中学习物理,了解物理世界的运行规则和万千种可能性,让具身智能硬件能够直接与物理世界进行智能交互。
他是通用具身智能技术研发公司“跨维度智能”创始人,同时也是香港中文大学(深圳)教授。翻看他过往的履历,可以说是相当丰富:曾在中国科学院深圳先进技术研究院、香港中文大学、香港大学先进数字科学研究中心任教。伊利诺伊大学厄巴纳-香槟分校、澳门大学和华南理工大学,一直从事人工智能和生成研究。研究领域为3D建模与学习、3D感知大模型等领域。
贾奎带领团队成为国内第一批开始研究AI三维应用和物理智能的人。可利用全仿真数据完成模型训练和机器人抓取,成功率达99.9%以上,为行业首创。
目前,跨维智能的体现智能解决方案已在多个行业场景成功落地,并应用于美的、中车、五菱等企业的生产场景。公司今年营收可达数千万元,明年预计将达到过亿元。
不久前,机器人前瞻在深圳南山软件产业基地跨次元智能办公室见到了贾奎。他做事总是显得雷厉风行、精力充沛,日程安排满了科研、教学和创业。
贾奎凭借多年积累的热情和技术优势,引领跨维度智能在具身智能赛道上崭露头角,为机器人的工业应用提供了新思路。
▲跨次元智能创始人、香港中文大学(深圳)终身教授贾奎
1、用懂物理的AI感知,克服广泛制造的痛点,赢得联想创投青睐
2010年,人工智能、计算机视觉和自然语言处理从非深度学习转向深度学习,二维图像层次识别理解问题逐渐得到解决。
二维图像层面的识别和理解就像一个人的认知智能。例如,当您看到图像时,您可以知道图像中的内容。 2015年后,AI的应用渗透到AR、VR、元宇宙和机器人等领域,AI本身和深度学习的范式开始发生变化。
这是从二维平面空间到三维物理空间的转变。
趁着这个机会,2016年,贾奎回到国内,在华南理工大学任教,选择以克服三维感知的新型人工智能为研究方向。
2018年以来,贾奎一直在华南理工大学“几何感知与智能”实验室工作,尝试开发能够处理信号形式与物理世界关系的深度学习算法。以自主研发的Sim2Real技术为核心,通过物理引擎综合而成。 3D 模拟数据。
当时国内还没有公司涉足这一领域,该实验室成为国内第一个研究人工智能和三维空间应用问题的团队。这也是当今跨维度智能的雏形。
2020年,团队已经完成了从底层到应用的一些技术积累。贾奎也看到了生成式AI在三维感知层面潜在的商业化机会,并开始思考技术产业化的价值和实现方向。
它将降落在哪里?贾奎介绍,一般有三个方向:一是AR、VR、元宇宙,二是无人驾驶,三是机器人。
最终,贾奎选择将理解物理世界的AI应用到智能制造场景的机器人上进行产业落地。
“智能制造是迫切的需求,因为它有很多痛点。此前,在工业领域,基本上是找到行业痛点,通过项目研发来解决问题,但更重要的是用AI范式解决普遍性问题”,贾奎说,“我们希望机器人能够拥有‘大脑’和‘眼睛’,让它们能够在生产线上灵活、灵活地生产,无论是在汽车制造、 3C制造业、化工行业、家电行业等“”
与传统的单点项目研发相比,理解物理世界的人工智能可以极大地提高机器人的泛化能力,无论具体条件和场景如何,都可以带来研发成本、产品硬件成本和实施部署。成本显着降低。
从大学教师到企业家,杰奎坦言,由于长期处于“象牙塔”,他可能不了解这个行业,也不了解社会真正需要什么。 “这都是一个用锤子找钉子的过程。”
目前,跨维度智能已经建立了一支能够将AI生成从文本、图像、视频延伸到三维物理世界的强大团队,研发人员占比超过70%。
吴迪是资深传感器专家,负责摄像头等硬件的研发。曾任腾讯高级算法工程师,开发机器视觉产品。作为华为高级算法工程师,负责华为首款双摄手机的三维重建算法。他还曾在霍尼韦尔等公司担任高级算法工程师。高级工程师。
贾奎还邀请了曾主导多款机械臂、移动机器人、复合机器人研发和量产的前三星总工程师金一博士加入团队,担任CTO,负责加强机器人本体的协调性和灵活性控制。
自成立以来,宽维智能已完成四轮融资,并获得松鹤资本、真格基金、联创资本、联想创投等知名机构投资。目前,下一轮融资正在紧锣密鼓地进行中。
2、使用100%合成数据,爬取成功率达到99.9%
缺乏数据是阻碍生成式人工智能从二维向三维迈进的一堵高墙。
“以机器人为例,机器人需要结合真实物理环境相关的数据,采用多种信号形式进行处理。然而二维互联网上并没有三维物理世界的机器人数据,而这些数据无法通过互联网收集和传播。”Jacqui 说。
这也是跨维度智能在生成式AI与物理世界结合的过程中与传统AI路径的最大区别——它利用生成式AI根据物理定律合成的数据来训练大模型,然后将大模型进行组合该模型连接到机械臂和机器人等不同的实体智能硬件,使其能够学习智能操作。
为什么不是真实数据,而是合成数据?
“人工智能的智能来自于提供足够的数据,但对于实体智能来说,使用真实的数据收集方法不可能实现地面应用,”Jacqui 说。 “唯一能做到这一点的就是无人驾驶,因为道路上已经有大量车辆在运行,但对于机器人来说,还远没有达到这个数量级,所以需要一种成本更低、效率更高、速度更快的技术。”需要方法。”
目前业内大部分基于3D视觉的机械臂等产品均采用真实数据进行控制系统的算法训练。然而,不同场景下收集的数据很难实现通用。繁琐的数据采集、清洗、标注、增强等处理过程导致数据成本不断增加。
贾奎介绍,具身智能机器人需要三类数据:一是机器人上不同类型的传感器数据,如视觉传感器、扭矩传感器、触觉传感器等;三是机器人的数据。第二,机器人自身的状态数据,比如关节、角速度等自身的状态数据;第三个是驱动机器人执行各种动作时动作本身的数据。前两类数据是模型的输入,最后一类数据是模型的输出。
这三类数据将通过sim2real和物理引擎进行放大。例如,如果想让机器人学习咖啡拿铁艺术的动作,可以将轨迹动作嵌入到虚拟的物理世界中,然后改造各种物理环境、咖啡杯、咖啡机等条件,将数据放大数千个次,从而有效地让机器人学习咖啡拿铁艺术。
最重要的是,合成数据在训练效果上可以比真实数据更好。由于它是基于物理定律合成的,合成的数据天生就有绝对准确的标注,这意味着AI学习非常高效。此外,合成数据的“全面性”很难与真实数据相匹配。
跨维度智能无需使用任何真实照片,即可完成机械臂等复杂场景操作的3D视觉模型训练。在多个商业场景的毫米级、亚毫米级作业精度要求下,任务成功率超过99.9%。速度。
3、全自动拆装任务训练机器人已在工业制造和商业服务中落地
跨维智能开发的DexVerse™实体智能引擎可以解决3D数字资产生产、数字资产生成-GenAI、合成数据生成等问题。
在一些工业制造或者商业服务场景中,无需研发人员参与,只需要输入一个操作对象,引擎就可以利用大语言模型自动拆解所涉及的机器人技能和子技能,然后自动生成模拟要求。对象和场景等数字资产允许训练模型。
▲引擎正在拆解“搭积木小鹿”的任务
▲引擎自动生成模拟对象后,进行模型训练
▲模型训练完成后,导入双臂机器人进行实际操作。
再配合空间型和实体型智能传感器——DexSense系列,可以捕捉多种不同角度的图像,并在不同光线条件下实现稳定成像,解决了一直以来视觉上的难题——半透明物体的成像困难。行业。 ,最快可以达到每秒30帧的频率,接近人眼感知世界的方式。
跨维度智能将这样的“大脑”和“眼睛”结合起来,应用到机器人身上。已在汽车零部件、金属加工、工业物流、家电、光伏等30多个行业落地。应用于美的、中车等五菱、五菱等多家企业的生产场景,可赋能泛制造领域的无序排序、柔性装配等环节。
例如,在汽车平板件的装载过程中,冲压件的视觉特征很少,表面光滑且反光。跨维度智能3D视觉套件利用模型预训练进行现场模板匹配,可以应对产品表面反射、环境光等。采用干涉、快速成像和PickWiz工业软件进行模板匹配,参数五分钟即可完成调整,大幅降低生产更换成本。
▲机器人正在装卸汽车扁平件
在商业服务领域,也已在无人充电、卡车换电、按摩机器人等多个场景落地。
▲跨维度智能在无人充电场景中的应用
此外,跨维度智能也正在通过赋能人形机器人等其他硬件实体,在一些有利于家庭环境的场景中进行探索。例如,训练一个人形机器人如何自主煮方便面:
结论:押注具身智能是因为其落地有希望
贾奎认为,具身智能是一条比无人驾驶更大的赛道,也是一条周期更长、生命力更强的赛道。 “现在之所以能够‘炒作’具身智能,是因为大家都有诉求,都觉得AGI从认知层面到物理层面的落地是有希望的。”
虽然具身智能会有高峰和低谷,但相比于无人驾驶明确的落地场景——路面,具身智能机器人的落地场景要广泛得多,从工厂、写字楼、超市到家庭等,无穷无尽。机会。
这也对创业公司在技术与业务实施的平衡方面提出了更高的要求。
目前,跨维度智能正在将具身智能“大脑”快速拓展到行业之外的业务场景,并将目光投向了人形机器人。
贾奎透露,公司预计很快就会推出自己的人形机器人产品,由金毅博士开发。
“与工业机器人不同,人形机器人是一个全新的行业。目前很多企业还不是很成熟。我们希望打造一个更好的软硬件结合的人形机器人平台。”他说。
人形机器人将为整个行业带来一场范式革命,杰奎也有信心,已经走过了一些具身智能应用场景的跨维度智能,会在这条路上走得更快更好。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/273232.html