浙大教授熊蓉报告:《知行融贯发育SPIRE:机器人高精准泛化应用引擎》
发布日期:2026-06-11 

6月5日上午,在2026第十二届恰佩克奖活动论坛报告环节中,浙江大学熊蓉教授围绕知行融贯发育SPIRE:机器人高精准泛化应用引擎这一主题,展开了精彩报告。

图片

以下为本次报告实录,经整理删改:

如何将传感信号有效落地,赋予机器人强大的行为智能,是当下具身智能领域的核心方向。

如今机器人已在多个行业实现规模化应用,但随着应用场景从工业制造延伸至日常生活,面对形态各异的物体、复杂的人机交互环境,传统依靠人工建模的方式已难以适配需求。

行业内逐渐形成共识:依托“具身智能”,以学习驱动机器人行为进化,是实现大范围泛化应用的核心路径。

结合行业调研不难发现,即便是自动化程度最高的汽车制造领域,依旧存在大量人工岗位。制造业柔性混线生产模式普及后,产品品类大幅增加,传统固定程序机器人无法快速换线、适配多元工件;产线调试高度依赖技术专家,应用成本居高不下。

在零部件、整车组装环节,机器人自动化率更是不足10%。狭窄空间装配、柔性线缆形变控制、多工具协同作业等难题,都无法依靠传统专家建模方式解决,行业迫切需要具备自主学习、泛化能力的新一代机器人技术。  

当前学术界与产业界围绕具身智能开展了大量探索,技术范式持续迭代。行业先后依托大模型、第一视角训练,让机器人掌握运动、操作、环境移动等基础能力,从语言视觉大模型生成自主程序,到端到端语言-视觉-行为策略,再到今年兴起的视觉动作融合模型WAM,视觉与行为模型走向共生发展,为具身智能落地打下了技术基础。  

但客观来看,现有技术距离产业化落地仍存在明显差距。工业场景对机器人提出“高精准、高可靠、高效率、低成本”四大硬性要求:部分工序精度需达到亚毫米级,甚至0.02毫米、0.03毫米;工业生产与人机交互场景,必须保障运行稳定、安全可靠;作业效率要对标人类水平;同时还要控制硬件与云端算力成本。  

目前主流模型还存在诸多短板:语言视觉大模型在复杂混杂场景中识别能力不足,二维视觉表征缺失三维空间信息,无法预判行为的可执行性,也难以适配物理交互场景;模型仅能学习简单物理规律,面对复杂工况束手无策;抓取力度、触感等非视觉类行为信息,无法通过视觉模型完成学习;此外,高质量规模化训练数据匮乏,也严重制约了技术突破。  

我从2000年开始深耕智能机器人研究,2018年转向基于学习的行为智能技术研发,2024年牵头建设浙江人形机器人创新中心,主攻双臂、手部及全身协同作业技术。

针对行业现存痛点,我们团队搭建了完整的具身智能体系——知行融贯发育SPIRE机器人高精准泛化应用引擎,形成了一套特色技术方案。  整套体系核心围绕视觉、力觉、触觉多源信息融合,实现物理交互预测与行为智能协同,坚持状态与行为联合建模训练,并借鉴人类思维逻辑打造机器人“大脑+小脑”分工架构。

在数据层面,我们打通“真人数据采集—仿真环境训练—真机落地优化”全流程,最大化发挥不同数据的价值。  

在数据构建环节,我们采用低成本传感器采集人类作业数据,再对真实场景、物体、动作进行高保真重构,导入仿真平台。通过修改纹理、光线、人员、物件等要素,生成海量多样化训练数据。目前已完成近百个真实场景、上千类物体的数据采集,仿真场景支持全维度编辑与动态模拟。真机端实现头、臂、手、腰全身协同一体化运算,求解时长低于10毫秒,运动跟踪精度小于1毫米。  

依托海量数据开展分层训练,我们分别强化基础视觉认知模型与具身行为模型,并推动二者深度融合。基础模型重点提升机器人物体识别、空间关系理解能力,面对复杂空间约束、物件转运等任务,作业成功率大幅提升。我们还将语义信息深度融入感知模型,摆脱传统稠密信息依赖,相关方案综合成功率突破50%。

针对导航、操作两类场景,搭建感知-动作联动视觉模型,预判人机、物物交互结果,支撑具身行为精准执行。

在“大脑+小脑”协同架构中,二者分工明确、紧密配合。“大脑主打环境认知与全局决策,适配开放、复杂、多变的场景,能够自主生成行为序列。当作业受阻时,可主动发起探索行为,并根据执行结果自主纠错、调整方案。目前,机器人在未知环境中的探索成功率可达94%。同时,我们打造出具备记忆迭代、持续进化能力的智能体,可理解长指令,自主完成多环节连续任务,并能自适应目标变化。  

小脑聚焦高精度执行,负责抓取、对准、装配等精细化动作。我们将传统专家控制模型与大模型学习相结合,攻克了传统控制算法参数调试繁琐的问题。如今机器人可稳定抓取各类物件,插孔、对准作业精度可达0.03毫米,在动态人流环境中也能安全顺畅移动。针对柔性布料折叠、透明液体分液、杂乱工件分拣等高难度任务,均实现高稳定作业,有效解决了传统方案分拣成功率不足20%的行业难题。

依托SPIRE引擎,我们研发出一体化机器人整机与配套工具链,末端执行精度最高可达0.02毫米,兼顾高精度、高实时性与高可靠性,同时降低了应用开发门槛。

目前整套技术已在多领域落地验证,工业领域,在头部车企完成料箱分拣、搬运、汽车前桥装配等全流程作业,装配精度达到亚毫米级;在3C行业实现柔性屏自动化上下料;实验室场景中,完成透明液体自动分液、精密检测等工作。 

服务领域,今年3月与方太合作打造商用烹饪机器人,可独立完成倒油、添料、翻炒、出锅等全套烹饪动作;通过百次实操训练,机器人已熟练掌握打鸡蛋等备餐工序。

机器人具身智能的发展之路仍有诸多挑战,未来期待与行业同仁、科研伙伴携手交流、协同攻关,共同推动机器人技术不断向前发展。

文章来源:中国机器人网