从春晚舞台上扭着秧歌的“演员”,到成为马拉松上的明星“跑者”,再到擂台上的硬核“拳手”……今年以来,人形机器人背后的“具身智能”成为高频热词,相关技术加速迭代,应用场景日趋多元,融资记录创出新高,并首次出现于政府工作报告中,上升为国家战略。作为人工智能的重要分支,具身智能被业界认为将掀起“大模型”之后的下一个浪潮。 近日,清华大学助理教授、具身智能明星企业星海图联合创始人许华哲做客“智荟中欧·科技沙龙”,他结合学者及创业者的双重身份,向中欧校友分享了自己的行业洞察及实践。
核心概览 ✦一个悖论:AI为何倒置人类能力金字塔 ✦三座“大山”:数据瓶颈、算法之争与成本红线 ✦几点思考:具身智能行业观 忽如一夜春风来。 在硬件成本下降与智能能力提升的双向奔赴下,越来越多的人开始相信,属于具身智能的“奇点时刻”就要来临:它将帮助机器人走进千家万户,做饭,洗衣服,甚至成为人类养老的好帮手。 然而,“进门”之前,如何“开门”却成了一道难题。 一个悖论 AI为何倒置人类能力金字塔 2015举办年的DARPA机器人挑战赛中,很多参赛机器人倒在了前三个环节:开车、下车、开门。如今十年过去了,在没有具身智能的加持下,有的机器人依然无法开门,有的则在开门后跪了下去。另一边的景象截然相反:2016年,AlphaGo便战胜了世界冠军李世石;高考刚刚结束,AI们就纷纷拿高考作文一展身手,文采斐然……为何人轻易做到的事AI却难以完成,而代表人类高阶智力的活动AI反而信手拈来?这便是人工智能领域的“莫拉维克悖论”。 究其原因,首先是进化负债,人类经过漫长进化,DNA中携带了大量先验信息,机器人的大脑则“一片空白”,需要数据填补。其次是数据断层,我们有海量的棋谱数据,无论是围棋、国际象棋或其他棋类,但类似开门这类行为的物理交互数据却几乎空白。此外还涉及精度陷阱,人类能够容忍机器人跳舞时手抬低两厘米,却无法接受它倒水时洒出一滴,这其实是在用人的标准要求AI。 我们期待突破莫拉维克悖论,实质上是期待机器人能够实现通用人工智能(AGI),即其具有高效的学习和泛化能力,能够根据所处的复杂动态环境自主产生并完成任务。简而言之就是能像人一样。 如今,星海图的技术已经能够帮助机器人完成拿起可乐、打开冰箱门、把可乐放进冰箱、关上冰箱门这一系列连贯的动作,但是它行动相对缓慢,对因用力过大反弹的冰箱门依然无可奈何……离真正走进家庭仍有相当的距离。 那么,我们离具身智能还有多远? 作为人工智能领域的先驱之一,加州大学伯克利分校的Jitendra Malik教授将其分为三个阶段:第一阶段为locomotion(移动),这一阶段的机器人可以实现行走、跳舞、翻跟头这类仅需身体与地面交互的动作,很多任务已经可以实现。第二阶段为Navigation(导航),这一阶段的机器人可以实现环境感知与路径规划,比如酒店或餐厅的机器人,可以完成送餐等任务,许多室内场景已经应用。第三阶段为Manipulation(操作),这一阶段的机器人可以实现物体抓取、精细操作,例如在厨房包饺子,在工厂里打螺丝等。目前,这类复杂任务还处于起步阶段。 三座“大山” 数据瓶颈、算法之争与成本红线 仅就技术层面,目前具身智能需要翻越“三座大山”:数据、算法及成本。 核心问题是数据。与大模型不同,具身智能需要的数据不仅包括视觉信息,还需要触觉、力觉等多模态数据。业内用数据金字塔来形容互联网数据、仿真数据及真实数据的数量及重要性关系,位于顶端的真实数据数量稀少,质量最高,这也是Manipulation(操作)阶段大量需要的数据。以缝合手术为例,医生缝合人体的数据最有价值,其次是缝合仿真肉的数据,最后则是通过缝合的视频获取的数据,但如此一来,缝合的具体数据就难以获取。此外,机器人在执行操作任务时,由于触觉传感器技术仍不完善,导致无法提供高精度的触觉反馈。 算法也面临路线之争。一方面,具身智能需要处理复杂的物理交互,这要求算法具有高度的适应性和泛化能力。另一方面,具身智能的任务往往涉及多个步骤,如制作果汁、清扫桌面等,这要求算法能够进行长期规划和决策。 早期,自动驾驶面临相同处境。如果采用传统的级联方案,也就是将一系列小模型进行串联,先得到物体的大小、位置等数据,再规划如何去做,最后去执行,例如工业机械臂的应用。如今,端到端方案被认为是代表未来方向的更优解,你只需输入指令便可得到结果,如AI的文本生成,但它需要消化海量的数据,而数据是昂贵的。 无论是数据质量还是路线选择,都涉及成本控制。具身智能的硬件成本较高,尤其是高精度的传感器和执行器,一个高精度的机械臂可能需要数万元,而一个简单的视觉传感器可能只需要数百元。此外,数据采集和标注的成本也较高,这限制了具身智能的大规模应用。 针对上述问题,全球顶尖学者已经达成共识,认为真实数据+模仿学习是最有可能通向通用具身智能的技术路线。通过模仿学习策略,约翰霍普金斯大学及斯坦福大学团队的机器人完成了缝合这样的外科手术操作任务。由于人体是软体、缝合线难以描述等原因,这一任务很难通过语言告知机器人,却可以通过数据还原,利用具身智能的神经网络进行拟合。原理正如你很难将AI应如何与人交流的要点一一总结后传递给它一样,但当你向它投喂海量的语料后,它说的话便迅速有了“人味”,甚至能够口吐莲花。 基于这一方法论,星海图利用目前最先进的模仿学习框架——扩散策略进行模仿学习,通过50-200次的真机演示,使得AI在空间、视角、外观等多方面展现出卓越的泛化性能。 实际上,为完成上述多种任务,具身智能同样需要大模型。此前,GPT的成功验证了一点:数据量的指数级增长会带来性能的线性提升,即Scaling Law(规模化法则),它被认为是大模型预训练第一性原理。大模型的存在可以减少数据的训练量,从而降低成本,未来不排除实现zero-shot(零样本学习)的可能。 几点思考 具身智能行业观 不同于大语言模型这类离身智能,具身智能的发展离不开硬件为其打造的“肉身”。从这一角度出发,它更像电动汽车领域。正如后者在国内的蓬勃发展一样,具身智能同样具备强大的产业优势和广阔的市场需求,是一条具备高增长潜力的赛道,并有望引领全球产业革命。 怎样才能“修炼”成具身智能赛道的特斯拉? 参考其成功经验,有能力整合产业链资源,并提供最终产品及服务的“链主”企业更有可能成为行业头部,这也是星海图一直在做的事。通过打造“整机+智能”的发展战略,我们致力于构建从硬件到软件的全栈服务,从而卡住行业关键生态位。 而无论对于“先行者”还是“后来人”,想要在具身智能赛道分得一杯羹,都需要了解以下三件事。 唯有先确定智能边界,才能赋予具身智能以身体。具身智能与传统的机器人学不同,后者聚焦于某项具体智能需求,追求极致的精度,原因在于一旦精度不够,预编程无法纠偏。但具身智能具备自适应能力,一定程度上可以通过智能定义本体,也就不必死磕精度。此外,对精度的追求还受限于成本,因此,本体的设计需要综合考虑通用性、效率及成本。 具身智能发展的核心不是算法,不是本体,而是构建物理世界的数据闭环。以特斯拉为例,它通过影子模式在全球超150万辆车上部署detector检测器,实时抓取现实中的各类数据,并配备专业团队对数据进行处理标注,为自动驾驶的安全性提供了重要支撑。 数据是人工智能的“石油”,对于具身智能企业同样如此。有了真实数据的反馈,才能形成机器人部署——采集真实数据——优化模型——提升效率——扩大部署的正向链路,而算法和本体都是为获取最快的数据闭环构建速度的手段。 智能的边际成本下降,新任务的学习成本下降是其规模化发展的表现。过往,许多AI企业采用项目制模式,针对特定需求投入大量人力和时间进行定制化开发,这一模式虽可在短期内实现盈利,但成本高昂且难以大规模复制。具身智能的目标是通过技术创新和数据驱动,将项目制模式转变为标准化的产品模式,即随着项目的增加,成本持续降低,最终实现用户根据说明书便可自行完成机器人的部署及使用这一目标。 可以说,边际成本的下降是项目和产品的分界点。 诚然,具身智能的发展仍然面临诸多挑战,例如缺乏数据,泛化能力不足,试错成本高昂等等,但其展现的巨大商业潜力让人无法抗拒,随着技术的进步,相信上述问题将会一一解决。 对于想要在这条赛道上分一杯羹的创业者们,我有两点小建议。一是具身智能的成功不仅仅取决于技术上的突破,还需要真正在商业上形成经济价值的闭环。高于人工成本的机器人在商业应用上将会受到限制。二是谁能率先触及具身智能的Scaling Law,谁就将从这条赛道脱颖而出。 或许机器人跑马拉松的画面让你至今印象深刻,但正如这项古老的体育运动所传递的智慧一样:在具身智能的赛道上,重要的不是瞬间的爆发力,而是持久的耐力与方向。