漫谈具身智能：从大模型适配性、触觉感知到未知的应用边界

发布日期：2024-06-24

编者按

在人工智能领域，“具身智能”作为将虚拟世界映射到物理世界的关键技术，正受到关注。它不仅融合机器学习、自然语言处理和计算机视觉等众多跨学科方向，更是对探秘“类人智慧”发起了又一次深刻挑战。

具身智能的时代大门已悄然开启，未来世界将变成什么模样？北航机器人研究所名誉所长、中关村智友研究院院长王田苗预言，“在大模型、多模态传感器融合、全电驱动一体化关节等尖端技术的加持下，短期内（3年左右）具身智能一定会在商业场景、工业场景成功落地。从长远的视角看，也会走向家庭消费。未来，中国凭借其庞大且统一的市场规模、稳定且高效的供应链体系，定将支撑具身智能技术步入世界前列。”

近日，来自北京大学、清华大学、新加坡国立大学、加利福尼亚大学圣迭戈分校、宇树科技的一群年轻科学家们现身智源大会，他们围绕多模态大模型的“适配性”、优质且足量的数据来源、触觉感知系统、落地应用的满足条件等关键问题展开了一场尖锐的讨论。

以下为中关村智友研究院梳理的现场观点汇总：

机器人赛道，与其继续完善现有的大语言模型与多模态大模型，不如积极探索全新模型！？

现阶段，机器人在感知外部物理世界时，通常采取捕捉图像的方式进行，这背后是一系列深度识别和精确推理系统在发挥作用。具体而言，整个过程涵盖了对目标物体的准确辨识、对物体相对位置和距离的精准测定，以及基于物体信息及任务目标推理出的动作指令，以此来实现对外界环境的全面理解和有效响应。

然而，目前主流的多模态大模型在图像识别与推理方面存在局限性。尽管这些模型在文本处理、语音识别等领域取得了不少进展，但在处理图像信息时却暴露出了明显的不足。

新加坡国立大学助理教授邵林认为，对于视觉或图文多模态大模型在机器人领域的应用，其核心在于数据采集。由于机器人数据采集成本高昂，业内通常高度依赖成熟的数据集或规模适中的技能库。然而，当前的挑战是，现有的基础技能库已不足以支持机器人在大规模、多模态的应用场景中的广泛应用。

宇树科技创始人&CEO王兴兴认为，当前业内面临的是一个“先有鸡还是先有蛋”的问题：由于现有模型质量不高，导致机器人难以采集到高质量数据；而缺乏足够的数据，又制约了模型质量的提升。因此，无论是多模态大模型还是机器人模型，其结构仍有待进一步优化。

理想情况下，我们应该开发对数据需求较低的模型，类似于人类与动物的学习方式。例如，儿童在成长过程中，仅需少量数据即可掌握大量知识，包括语言能力。相较之下，当前的大语言模型对数据依赖性过强，与人类学习方式相去甚远。

现有的神经网络架构可能并非是最优选择，可以考虑研究脉冲神经网络等新型结构。因此，与其继续完善现有的大语言模型与多模态大模型，不如积极探索开发全新模型，以期实现更大的技术突破。

模拟器数据VS真实物理世界数据，到底孰优谁劣？

北京大学副教授，智源学者卢宗青认为，具身智能的训练数据主要来源于模拟器和真实世界。然而，这两个数据来源却面临各自的挑战，模拟器数据虽然容易获取，但其数据往往存在质量偏差的问题，为了提高模拟器的真实性，可能将导致其体积增大、开发难度提升、模拟效率降低等连锁反应；而真实世界数据的采集则因为难度较大且相对稀缺，这在一定程度上限制了模型的训练效果和泛化能力。

因此，目前的具身智能训练数据仍主要依赖人工采集或少量真实机器人采集，成本和速度均面临一定挑战。

王兴兴认为，如果希望机器人在更贴近真实的环境中进行操作，如烹饪、装配零部件等任务，就需要使用高精度仿真环境，这要求配备更高性能的仿真器和显卡设备。例如，更真实的RGB相机需要强大的显卡处理能力来支持，这无疑会增加成本投入。因此，与其投入大量资源在高度真实的仿真环境建设上，不如直接使用实际机器人进行操作，通过实际采集数据来进行训练，这样可以在保证训练效果的同时降低成本。

清华大学助理教授，视觉与具身智能实验室主任高阳则认为，不论哪种采集方式，两者在数据获取方面并没有绝对的优劣之分。在当前的技术背景下，对于简单的运动任务（如拾取、放置等），仿真环境已能有效解决，但涉及高度接触和动态变化的复杂任务（如转笔等），情况则截然不同。这类任务对精确度和实时响应的要求极高，导致仿真与现实之间即使只有细微差异，也可能显著影响策略的有效性。

因此，对于简单任务而言，仿真数据具有较高的实用价值，而对于复杂任务，则仍需依赖现实世界的数据进行训练和调整。

触觉感知，机器人泛化至复杂环境的重要一环。

触觉感知，不仅是构建机器人感知系统完整性的重要一环，还将是未来推动机器人进入复杂环境，实现精准识别、精细操作、安全性升级的关键所在。

王兴兴表示，他一直在思考是否需要为机器人增加足够的触觉感知，以提升其智能化水平和与外界交互的能力，但设计并实现覆盖整个机器人本体的触觉传感系统面临极大的挑战。由此，他进一步提出了需要更深入探讨的问题：在有限的触觉感知条件下，我们是否可能显著增强机器人的智能水平？

高阳认为，触觉是机器人在感知和操作环境中的物体时不可或缺的一种方式。他进一步提出，不必追求在机器人全身都配备复杂的传感器，只需在关键部位如手部和夹指上安装触觉传感器，便能在不增加过多成本的情况下显著提升机器人的感知和操作能力，进而提升机器人的智能水平。

卢宗青则表示，在演示机器人时，如果没有触觉感知，机器人很难学会抓取物体的技巧。触觉不仅仅是机器人进行物理操作的重要工具，更是机器人与真实世界进行交互的桥梁。没有触觉感知的机器人，就像是在玩一场虚拟游戏，无法真正融入现实世界。

从控制成本的角度出发，邵林认为降低机器人的成本是推广应用的关键。目前，高成本的机器人不仅限制了其在各个领域的广泛部署，还因成本高昂导致数据采集的困难，进而形成了一个阻碍发展的负反馈循环。因此，邵林期待未来能够打破这一成本瓶颈，实现机器人成本的显著降低，从而推动仿生人工智能技术的快速发展。

未来3-5年，将具身智能“照进”现实，还有四点要求需要满足。

未来三到五年，机器人成功融入实际业务场景中，还需满足以下几点：

第一，鉴于当前技术尚存局限，机器人尚无法胜任高度复杂的任务，所设定的目标任务应当简洁且直接。

第二，从成本效益的角度分析，机器人的整体成本应当低于人力成本，或适用于那些人力成本高昂甚至难以估量的领域，如排爆、飞机试飞等特殊场景。

第三，应用场景要具备较高的容错空间。由于现有技术条件下的机器人在执行任务时仍可能出现失误，并且在发生错误时可能无法像人类那样迅速作出反应和调整。

第四，安全性是不可或缺的要素。投入使用的机器人必须确保不会对人类构成任何伤害。

文章来源：中关村智友研究院