上海交通大学胡洁教授、戚进副研究员联合香港理工大学、复旦大学、瑞典皇家理工学院等机构,在领域顶刊《Robotics and Computer-Integrated Manufacturing》发表论文 “Empowering Natural Human–Robot Collaboration through Multimodal Language Models and Spatial Intelligence: Pathways and Perspectives”,首次将人机协作、多模态大模型与具身智能整合为统一研究框架,填补了现有研究中对人机共生及制造业场景探索的空白。博士生武对娣为第一作者,加拿大工程院院士、JMS及RCIM主编Lihui WANG 教授,香港理工大学郑湃教授为共同作者;胡洁教授、戚进副研究员为共同通讯作者。
在工业 5.0 倡导的以人为中心的智能制造背景下,人机协作的智能化需求日益凸显,而多模态大语言模型与具身智能的快速发展为其带来了前所未有的演进机遇。然而,现有研究普遍针对日常和通用任务,制造和工业领域专家模型的探索存在很大空白。本研究发挥多学科融合优势,面向实际工程需求,旨在以自然语言作为支点、以具身智能作为突破,由“人-计算机”交互智能迈向“人-机器人”技能迁移,实现“少样本、快速学习”和“低成本、一机多能”。 该论文以语言为枢纽连接人类与大模型,系统梳理了人在环中的“感知-认知-执行”前沿方法,为构建自然人机协作系统提供系统性路径。首先剖析了模型演进脉络,从基础模型到视觉-语言-动作模型,深入探讨了“交互-协作-共生”的人机关系演进,同时明确了“单一-通用-专用”的算法设计路线,总结分析了“空间-物理-具身”智能的耦合关联。本文提供了具身智能数据集和基准,以及构建特定任务仿真平台以实现空间技能学习的方法,建立起多维度理论基础。 针对工业场景中的实际挑战,该论文从“Why”、“How”、“What”、“Where”四个维度展开讨论。语言作为桥梁可打破语义壁垒、提升机器人自主性,而“视觉-语言-运动”融合范式能有效兼顾模型推理能力与物理世界动态约束。此外,论文还展望了数字表亲、增强现实等技术在产品生命周期、智能制造和脑机接口等场景中的潜力。论文相关资源已公开至GitHub(https://github.com/WuDuidi/MLLM-HRC-Survey)。本研究为学术界提供了跨领域的研究框架,为以人为中心的工业智能化开辟了多元应用方向。 论文链接: https://doi.org/10.1016/j.rcim.2025.103064
文章来源:上海交通大学全球创新研究院