在前不久举办的2025张江具身智能开发者大会暨国际人形机器人技能大赛上,北京大学前沿计算研究中心助理教授、北京银河通用机器人有限公司创始人及CTO王鹤发表了题为《合成数据驱动的具身端到端大模型》的主题演讲。以下为演讲实录:
非常荣幸来到大会,去年第一次举办时我有幸参加,今年第二次来作报告,和大家探讨具身端到端大模型的最新进展。
通用人形机器人的核心是通过具身智能驱动高度仿人的本体,实现 “人干的活,机器人都能干”,这也是银河通用创立的初心。在硬件技术不断迭代的同时,我们一定要关心背后的具身智能。刚才江首席也提到,很多国际同行不约而同汇聚到 VLA 这条技术路线上,也就是用多模态的端到端大模型,以视觉和语言作为输入,给它任何指令后,它能不断进行闭环的视觉观测,最终高频输出动作来控制机器人的本体。这样的 VLA 大模型是在 LLM、VLM 之后,从数字世界跨入物理世界的关键具身大模型。
▍真实数据与合成数据博弈:具身智能发展的核心瓶颈
今天具身大模型面临的最大困难是数据不足。我们知道,大语言模型 LLM 和多模态大模型 VLM 的数据主要来自互联网,而 VLA 的数据主要是 action 数据,目前大家不得已在做大规模的真实世界数据采集。但在人形机器人刚刚开始量产的当下,依赖真实数据采集不可避免受限于机器人的台数、能雇佣的遥操工人数量和整体预算额度。国外像特斯拉这样的大厂可能有 500 台左右规模的数据采集,斯坦福联合 google 等机构做的 open embodiment X 数据集达到了 100 万条的规模。如果类比自动驾驶,头部车厂每天回流的数据大约在 1 亿条,今天我们最大的数据集在百万条规模,若完全依赖真实世界数据采集,要做到比自动驾驶更多的无穷无尽的任务,还需要等不短时间,这是具身智能发展的瓶颈。
所以从在北大,到创立银河通用,在智源研究院进行具身智能中心的研究,我们认为在人形机器人草创的当下,应该大力发展合成数据,用合成数据突破具身数据量不足、质不精的困境。我们的一系列工作,从物体资产的生成到灵巧手抓取轨迹姿态的生成,到弥合真实与虚拟 Sim 和 Real 之间的差异,到在大规模仿真环境中进行强化学习的大规模训练,都在试图在合成世界、仿真世界寻求数据突破。
▍端到端抓取基础大模型:合成数据的零样本泛化验证
今年早些时候,我们推出了全球首个完全基于合成大数据训练的 VLA 大模型 ——GraspVLA,基于 10 亿级别的合成大数据,远超任何真实数据集的规模,做了第一个端到端的抓取基础大模型 foundation model。
这个 foundation model 做到了不在真实世界采任何一条数据,直接在真实世界测试。用 10 亿的合成大数据,我们在 Vision、Language、Action 各个层面进行了充分的 zero shot 泛化。
在从来没见过的各种真实世界环境里,变换各种光照,只用一个自然语言指令比如 “抓取鸭子”,就能把从来没见过的小鸭子在各种不同的、从明入暗的具有挑战性的环境当中抓取起来。这种很强的分布外泛化,原因是我们有充分的训练数据,而不是只在测试场景里过拟合采一小部分数据只在这个场景工作。模型是我们自己开发的 2.7B 也就是 27 亿参数的端到端大模型,是闭环的,鸭子位置被人移动后,手会立即移动。
这个工作不只针对桌子,还可以换各种各样桌面的纹理、光照、背景,在桌子上放各种各样的东西,支持开放词汇,至少上万种物体的抓取。这里展示的购物车玩具、挖掘机玩具、游泳眼镜、测电笔,这些类别在合成数据里都不包括,属于多模态 VLM 的预训练过程中在互联网上见过的物体类别,在真实世界用语音说,它就能帮你抓起来。训练出的 27 亿参数大模型,完全没有训练过对干扰的抵抗,在真实世界里,让它抓的物体不断被各种东西干扰,它能稳稳抓住目标物体。这些能力都是在10 亿规模的合成数据上训练后自然涌现出来的,这让我们看到当有高精的物理仿真后,能达到的模型质量。
这样完全基于合成数据训练的模型,在真实世界部署时,可以用少量真实数据跟人的意图对齐。比如有一箱矿泉水,如果没在真实世界采集数据,合成环境里也没仿过一箱矿泉水,让模型去抓,它会随机抓一瓶,而我们希望它拆矿泉水时从左到右、从前到后一瓶一瓶拆。其实抓取能力在合成环境里已经完全学会,现在只需要演示给它看希望它从左到右从前到后的抓,这样的数据只需要 200 条,20 瓶矿泉水一共 200 条数据,一个人类遥操工人一天下午半天的工作量就能完成模型数据的采集。这比特斯拉做放电池少很多,特斯拉做放电池采集了 10 万条数据,40 个人采集了上月,我们是反过程,把密放盒子里的水瓶抽出来,难度相当,实现了 500 倍的数据效率。
不仅如此,大模型还能进行 zero shot 的零样本泛化,在从来没见过的同类型饮品上直接测试。左边是农夫山泉,右边是东方树叶,模型真正实现了泛化,瓶数从一排四瓶变成一排三瓶,盖子大小、颜色都变化了,模型能把饮品抓起来,这些都是涌现。
GraspVLA 的工作向全世界第一次证明了合成数据的效力,当它的精度、分布正确时,训练出的模型是真正的基座大模型,能用极少数据微调,实现在真实世界非常泛化的能力。
▍灵巧手操作与复杂任务:合成数据管线的全流程突破
基于这样的思路,我们进一步从二指夹爪到灵巧手。这是 2024 年的工作,合成大规模的灵巧手杂乱场景的抓取,在全世界率先实现多指灵巧手对任意杂乱场景的抓取,可以是透明的、黑色的、反光的。那时做的是抓取小模型,还没有语言,现在需要用语言形容手怎么抓。
这样的数据怎么合成呢,不是要人一个一个抓去标注或者戴遥操手套遥控灵巧手,今年银河通用全球第一个展示了人类所有 33 种功能性抓取一条管线全部合成。人类的手分类学家把人手的抓取模式分类成 33 种,从大尺度抓、小直径包、中尺度的握,包括大拇指竖力的摁,到使用剪刀、笔、筷子的抓法等等。我们自研的合成数据管线实现了一个管线合成任意物体、任意手上的任意 33 种之中的所有抓取姿势,这样的合成数据管线能让我们形容想怎么抓,模型就可以去相应的抓。
这里展示真机实验,对一盒药可以用 33 种的一个标签,第一种是握,模型就去握抓药盒;第二种是小直径的包,是这样的;对抓针的方式 24,它用抓针的方式去抓药盒。用这样的合成数据,就能训练出灵巧手抓取的 VLA,想让它怎么抓就怎么抓,直接对接下一步怎么用物体,因为灵巧手抓完后还要进行操作,只有第一步抓的方式对了,后面才能操作,这都是自研的合成数据管线支持的。
现在如果想标注一个物体怎么抓,管线支持点一个点,选择抓取模式,3 秒钟后抓取位姿就合成在物体上,可以想象整个操作过程,进行关键帧的抓取位姿标注,再用自动合成管线让手移动到这些过程,自动产生高精的轨迹,原先需要遥操的内容,现在点鼠标就能完成,相信只有不断推进合成数据,才能让人形机器人多快好省地快速发展。
不仅是抓取,银河通用对刚柔一体的混合仿真也进行了研究,自研的仿真管线能够把撑子塞到衣服里头再把衣服挂起来。银河通用的机器人只训练了合成数据,在真实世界里对各色颜色的衣服,都可以把撑子找角度插进衣服里头,不管是鸡心领、圆领,长袖、短袖,各种皱褶、颜色,模型都是充分泛化的,现场真实演示接待过副国级、正部级的各种领导,展现合成数据训练的模型的泛化性,很多衣服都是没见过的。合成大数据一口气生成了卫衣、裤子、短袖、跨栏背心、长袖等各种各样的衣服资产,在这之上进行高精的操作合成。
这是一个长程过程,有皱褶要顿平,在两边再顿平再进行叠,长程操作的合成数据,都自研管线进行合成。合成的叠衣服大数据再次实现完全没有真实数据采集,在真实世界对可以买到的各种各样的衣服进行真机叠放,模型是端到端的闭环模型,整个过程完全自主往前推怎么去叠,过程中如果有干扰,这是模型实时输出的末端轨迹,衣服被扒拉过去,它自己拽过来,再扒拉一下,它又去叠,整个闭环过程都是闭环的模型在合成大学习以后自己处理的。
▍导航与跟随:合成数据驱动的动态环境适应
其实今天不仅仅是上半身的各种操作,还有人形机器人的导航,银河通用去年在合成的 360 万的数据规模上训练的导航大模型 Uni-NaVid,给它说一句话,完全不见图,用视觉作为输入,实时的动作作为输出,它就能执行。比如跟着人走,跟着右边的人走,直到看到沙发后就别跟了,然后右转开始找电视。两个同学对狗进行了干扰,最后狗还是成功停在了电视面前。
在去年的时候,这个水平是实验室级别的东西,今年补充了大量跟人的合成大数据,现在机器狗完全在对人类的跟随上,实现了各种场景的鲁棒跟随,各种椅子腿试图别搭载了银河通用大模型的宇树四足机器狗 Go2,人做的动作很疯狂,模型实时像自动驾驶一样输出轨迹,对同学进行很好的跟随。这是第三视角,怕大家看不明白,狗会自动避让沙发,避让各种椅子腿,对人进行跟随,甚至人在画面里急跑跑出摄像头范围,自动驾驶仍能对人进行跟随。
大家都知道自动驾驶是上百万车主开出来的,但今天不管是人形机器人还是机器狗,没有人愿意驾驶它们,所以重做一遍,不搞真实数据,搞合成数据去训练。我们同学在北大里头进行常识的行走,在为民湖畔让机器狗跟着同学一直走,模型仍是 VLA 大模型,只要跟模型说一句话,跟着前面穿黑衣服黑裤子的同学,不是只跟一个同学,换衣服描述,就跟另外一个同学。跟随过程中遇到各种电动车、人流阻挡,机器狗陪着同学在北大里遛弯。
有人问这东西跟跟拍机怎么比,现在有 vlog 的跟拍机,它是对人做 object detect 目标检测,跟着检测框走,如果突然消失会怎么样。和商用的 vlog 跟拍机对比,在拐角消失时,跟拍机失败,机器狗还能继续跟随;人在路中间急转,跟拍机目标突然失踪,机器狗能跟踪。现在在万达的大商场里都进行了常识的测试,过几天会放出整个视频,让大家理解完全用合成数据训练的跟随模型能在真实世界达到什么水平。
▍商业化应用:合成数据支撑的多场景落地实践
今天银河通用结合在各种操作和全身控制跟随上的能力,训练的多技能的 VLA 大模型支撑了各种商用。我们的理念是合成数据是义务教育,用它免费进行基本教育,数采搭建的整套流程仅进行职业教育,相对于合成的百亿数据,它只是一部分,只有这样,才有望在百台千台级的真机采集上实现真实世界的商用。所以今天在零售、接待、康养和工厂里头有一系列的工作。
这是今天在张江大会现场给现场观众展示的商超的下货,在 ipad 上下单,人形机器人去送,感兴趣的来宾可以体验,还能上货,知道货往哪上,这套上下货的流程现在已经彻底商用了。在合作伙伴平台上进行下单,在店里人形机器人为人取货,这样的 24 小时无人药店可以解决夜间需要人一直睡在店里的问题,像这样的店,银河通用已经签了 100 家的订单,在北京已经实现了 6 家店常态化运营,9 家店完成选址,今年年底 100 家店全部开好。一个 40 平米的店里头,5000 个不同的药品,6000 多个不同的货到几万盒各种各样的药品,现在全是人形机器人一个人值守。
刚刚李区也讲到要探索真正可复制的商业模式,什么是真正可复制的商业模式,就是能在这些店里头快速部署,开一家店只需要两天,算法可以在一个新店里两天完成部署,场景里头既有开放式货架,又有需要精密抽取的货架,又有抽屉,都可以进行全部的自主操作,最终外卖员从货柜里头输入密码直接取走。今年也受到张江政府和集团的大力支持,在 25 年年底,将在张江部署 7 到 10 家无人药店,在整个上海部署 20 到 30 家无人药店,向公众展示真正可批量复制的人形机器人全天候解决方案。
最后简要介绍在工业里头的情况,比如在极氪的工厂里头进行的常识的物料搬运,完全基于视觉,没有二维码、没有建图,整个的料盘都是随机摆放的。在现代的工厂里头进行 SPS 分解,各种凌乱的零部件,ipad 端下单,人形机器人对它进行直接的拣选,过程中涉及全黑的物料,而且杂乱摆放,要进行精确的抓取。这边是韩国现在的三位 EVP 现场检验人形机器人干活的效果,得到了韩国现代集团的高度赞扬,他们收购了波士顿动力。这个视频后面还有对货箱捣乱,打乱位置,把旁边的泡沫塑料都拆下来,考验人形机器人能不能泛化处理,通过了韩国现代集团全面的考验,这应当也是当前代表着车厂 SPS 分拣的全球最高技术。
在阿布扎比运行的礼品店,银河通用的机器人去年圣诞节招待了上千的客户,今天在宜宾开展的具身智能示范区万象天地里头,银河通用成功开始了一个零售店的运营和咖啡店的运营,相信这些的泛化的取放能力将慢慢走入大家的日常生活进行常态化的展示。在今年的 CES2025 上,银河通的机器人也被入选了 14 个合作伙伴之一,并且作为最有特色四个人形机器人之一,举起了英伟达最新发布的显卡。相信人形机器人不仅将托举起芯片行业的未来,也会逐渐走入千行百业、千家万户。
谢谢大家!