一文看懂机器人“大脑”：从感知、决策到动作生成

发布日期：2026-06-18

图源：豆包AI

有一种看似非常简单的方式可以描述“物理 AI”究竟是什么，而且任何具备 STEM 背景的人都能直觉地理解它。像所有其他 AI 模型一样，控制机器人的模型本质上也是一个函数。它接收观测输入（摄像头像素、关节角度、夹爪感受到的阻力等），并输出动作，也就是其电机下一组位置与扭矩指令。除此之外的所有内容——那些复杂的算法、训练方法，以及数据规模化理论——本质上都是在服务于一件事：产出这个函数的一个优良版本，并把它嵌入神经网络的权重之中。

本文来源于 An Overview of Modern AI Robotics from First Principles，翻译整理而来，仅供参考。如需查看英文原版及更多资料，可在文末获取。

图 1 · 策略函数

图 1 机器人的策略本质上是一个函数。观测信息从左侧持续流入，网络对其进行提炼，然后一组动作指令从右侧持续流出——机械臂的每一个关节、每一个自由度都对应一条指令。这个领域里其余的一切工作，都是为了让这一个函数变得足够优秀、足够快速。

如果你曾训练过一个将输入映射到输出的模型，那么你已经能够把握这个问题的大致形状。真正有意思的部分，在于当你把这种熟悉的结构放进一个持续运动、主动变化的世界中之后，会发生什么。

这套配方，以及打破它的那个维度

有两个要素可以提升这个函数的质量：算力和数据。数据是机器人智能的原始燃料，现实世界中的模式就藏在其中，像尚未加工的矿石一样。算力则负责训练这个函数，通过矩阵乘法把从数据中“开采”出来的模式嵌入进去。

这听起来和普通机器学习并没有太大区别，而且在一段时间里，你也确实可以假装它就是普通机器学习。但机器人领域引入了经典机器学习从未真正需要严格面对的第三个坐标轴：推理时间。

语言模型可以花三秒钟思考下一个 token，通常不会造成什么后果；但一个正在倒咖啡的机器人却不行。杯子已经在移动，动作必须在事件进行过程中实时生成。这个函数不仅要正确，还必须快到足以让“正确”在答案到达时仍然有意义。你的模型思考时，物理世界并不会暂停，它仍然持续运行。这就使得机器人领域出现了一些困难但也非常有意思的取舍。

把“大脑”拆成两部分

最自然的第一反应，是学习一个巨大的模型，直接把观测映射成动作。但在实践中，这个领域逐渐收敛到了一种更有意思的结构：现代机器人模型通常被分成两个部分——理解者和行动者。

其骨干是一个大型模型，通常是视觉-语言模型（VLM），也就是像 GPT-5 或 Gemini 这类在理解语言与图像时所使用的同一家族模型。它已经在海量互联网图文数据上完成训练，因此本身就已经“知道”这个世界。例如，它知道杯子无论颜色如何都是杯子，也知道“把东西收起来”意味着把它放回一个合理的位置。它内部携带着一个关于世界外观与运作方式的已学习表示。它是那个较慢、较审慎的规划者，负责理解环境。

接在它之上的，是一个小得多的动作专家：一个高速模型，它唯一的工作就是把骨干模型的理解进一步细化成实时、平滑的电机控制指令。

NVIDIA 在 2025 年发布的、面向人形机器人的开源基础模型 GR00T N1，就把这种拆分明确表达了出来：它的 System 2 VLM 负责对场景进行较慢而审慎的推理，而一个独立的 System 1 模块则几乎像本能一样生成实际动作，这两个部分被紧密地联合训练。Physical Intelligence 的 π₀ 也采用了相同的结构：一个负责理解的 VLM，加上一个负责行动的小型动作头。这种结构构成了所谓的视觉-语言-动作模型（VLA）。

图 2 · VLA 的内部结构

图 2 视觉-语言-动作模型是一个由两个紧密耦合部分组成的网络。大型 VLM 骨干网络读取图像、语言和机器人状态，并构建对场景的理解。小型动作专家则在此基础上，从噪声出发，并在一次前向传播中将其逐步细化为一个动作块（action chunk）：也就是一小段未来动作序列。

因此，我们就从一个单体的函数，转变为一种协同关系：一个模型负责持有对世界的图景，另一个更小的模型负责把这幅图景转化为运动。

动作究竟是如何输出的

那么，这个函数究竟以什么形式输出动作？有两种答案，而这个领域的发展历史，在很大程度上就是从第一种走向第二种的过程。

第一种是离散式（discrete）：动作头一次只产生一个动作。模型先观察，发出一条单独指令，执行它，然后再次观察。早期系统就是这样工作的。这种方式直观，而且对更简单的问题也有效，但它太慢了，而且微小误差会不断累积。每一个细小失误，都会把机器人轻轻推向一个比训练时见过的情况更陌生一点的位置；于是下一次预测会更差一点，再下一次更差。机器人会逐渐偏离它自身能力范围的边缘，最终导致失败。

第二种是分块（chunking）：模型一次性预测一小段未来动作序列，然后把它作为一个平滑整体执行完，再重新查询。这一思想在 2023 年由斯坦福 Tony Zhao 及其合作者提出，称为 Action Chunking with Transformers（ACT）。它借用了心理学中的“chunking（分块）”一词，在心理学里，这个词描述的是人类如何把一连串细小动作组织成一个流畅的整体动作。ACT 带来了显著提升：它仅用大约 10 分钟的示范数据，就能以 80%–90% 的成功率学会一些对精度要求很高的任务，例如打开半透明调味杯，或把电池插入卡槽。预测一个动作块，会缩短任务的有效长度，并缓解一步一步预测所固有的误差累积问题。

图 3 · 离散式 vs 分块式

图 3 切换模式并点击运行。在离散模式下，机器人一次只预测一步，微小误差会持续累积，因此它会逐渐偏离自身能力边界；而在分块模式下，它一次提交一小段动作序列，因此能够更紧密地贴合预期路径。

现代机器人学的很多部分都与人类行为相呼应。人类并不是每次只思考一个微小动作然后再执行它。我们是在连续流动的动作中，一边运动，一边思考。现代机器人学追求的是连续的、分块式的动作生成，在动作之间不留下“死空气”，这样运动看起来更像一种活物，而不是一具僵硬的木偶。

当前生成这种平滑动作块的最先进方法，叫做流匹配（flow matching）。这是一种通过扩散过程，将带噪的潜在表示逐步提炼为连贯轨迹的技术。无论是 π₀ 还是 GR00T，它们的动作专家模块都是从噪声出发，再逐步细化成一条连贯的运动轨迹。这与现代图像生成器所采用的方法属于同一家族，只不过这里生成的不再是像素，而是动作。

“大脑”放在哪里：边缘端还是云端？

当你拥有了这个函数之后，你还必须决定把它运行在哪里。这里会出现一个重要权衡：可用算力与时延之间的权衡。

你可以把模型放在边缘端（edge），也就是直接部署在连接机器人本体的计算机上。这样一来，时延几乎为零（前提是你的模型能装得进边缘设备），这很适合物理世界；但问题在于，你只能使用能够安装在机器人身上的那点硬件，因此往往不得不把模型做小。

或者你也可以把它放在**云端（cloud）**运行，把繁重计算卸载给强大的服务器，再通过互联网把动作回传回来。这样你就能运行非常巨大的模型，但每一个动作都必须在网络上往返一圈，时延就会成为敌人。

这个约束到底有多紧？以 π₀.₅ 为例：在一块高端 GPU 上，它完整的一次“感知—动作”循环大约需要 274 毫秒，而其中大约 80% 的时间，仅仅花在迭代式流匹配细化上。另一方面，在一个以 3 Hz 控制循环运行的小型边缘设备上，每一轮循环总共只有大约 330 毫秒 留给感知与动作生成，几乎没有任何余量。

这正是整个领域赖以平衡的核心问题：云端给你一个更大的大脑，边缘端给你一个更快的大脑，但你绝不能让“思考”和“行动”之间的间隔大到足以让世界从你脚下先一步移动开。

图 4 · 时延预算

图 4 在边缘端，模型直接在设备本地运行，不需要经过网络，但由于加速器较弱，因此计算模块更大。切换到云端后，更强的 GPU 会缩短计算时间，但每一个动作现在都必须额外包上一整次网络往返。把往返时延继续拉高，你就会看到总时间跨过 330 毫秒的截止线。

数据瓶颈

和许多深度学习问题一样，机器人学也受困于数据。但机器人领域尤其受困于数据的多样性。

最有价值的机器人数据通常来自遥操作（teleoperation）：由人类反复操控机器人完成任务。专家示范确实能够稳定地产生高质量策略，但这种方式无法扩展。每获得一小时数据，就需要投入一小时的人类劳动（有时甚至更多，因为示范质量本身就很重要）。更糟的是，不同机器人、不同夹爪、不同实验室通常都会产出彼此不兼容的小数据集。GR00T 团队把这种局面形容得很贴切：这不是一个统一、连贯、达到互联网规模的数据海洋，而是一片片彼此割裂的“数据孤岛”。

把它和 AI 其他领域的发展轨迹对比，你会发现，那个“魔法技巧”其实一直是一样的：把问题转化为一个能够随着算力扩展的问题。例如，语言建模之所以能够扩展，是因为文本数据极其丰富，而且具有可互换性。机器人学却没有这样的“数据消防水带”。因此，这个领域逐渐分裂出两条策略，用来“制造”它无法直接采集到的数据。

策略一：模拟这个世界

如果你无法采集足够多的真实世界数据，那就构建一个假的世界，让机器人在其中免费练习。这正是**世界模型（world models）和仿真（simulation）**登场的地方。

准确地说，仿真是一个更宽泛的概念：任何一个能够把世界建模得足够好、从而允许你在其中练习的系统，都可以算作仿真。世界模型则是一个神经网络：给定当前状态和一个动作，它预测世界接下来会变成什么样。它学习的是“采取行动之后会发生什么后果”，通常这种预测会以某种媒介表达出来，比如图像。更关键的是，它学习物理规律并不是靠手工编写规则，而是通过观察来学会，因此能够捕捉到那些对目标环境至关重要的关键动力学。

2025 到 2026 年间，这一方向的一次飞跃来自 Google DeepMind 的 Genie 3：这是一个世界模型，只需给它一个文本提示，它就能实时生成完全可交互、可导航的 3D 环境，并根据之前的帧持续预测后续每一帧。它与机器人学的相关性非常直接：你可以获得无限、廉价的训练场景，其中还包括那些你永远不想在现实中真的搭建出来的危险边缘情况。

Waymo 走的正是这条路线：它构建了一个 Waymo World Model，用于生成同步的摄像头与激光雷达驾驶场景，其中充满真实车辆几乎永远遇不到的罕见情境。NVIDIA 则发现，在 GR00T 的训练中混入合成数据，相比仅使用真实数据，性能提升了 40%。这个方向的梦想，是把数据问题转化为算力问题。一旦做到这一点，你就能继承 AI 其他领域已经享受到的一切优势。

策略二：向“作为人类的人类”学习

第二种策略更加巧妙，而且在我们看来，也更优美。最具可扩展性的机器人数据采集器，并不是机器人，而是一个戴着眼镜的人。

像 Meta 的 Ego4D（包含超过 3000 小时 的第一视角视频，记录人们做日常事情的过程）以及 Project Aria 眼镜这样的项目，几乎是从根本上重新定义了这个问题。佐治亚理工学院的一个系统 EgoMimic 给出了极其精炼的表述：当你看着一个巨大的第一视角人类数据集时，你看到的其实也是一个巨大的机器人数据集，只不过它是在人们正常生活的过程中被被动生成出来的。

你只需要戴上眼镜，照常过你的一天，你就在以“人类生活本身”的规模，持续产出操作数据。那项工作里最令人震撼的发现是：额外增加 1 小时 的人类手部数据，对机器人的提升，竟然比额外增加 1 小时 的机器人数据更大。

因此，相较于遥操作那种需要专门投入人力的方式，第一视角数据采集提供了一种前景：它能够在几乎不增加重大额外成本的情况下，把数据规模真正做大。

训练的阶梯

当架构和数据都已经具备之后，你究竟要如何真正构建出一个有能力的机器人？答案是：要分成若干个阶段来做，而每一个阶段都有不同的目标。

图 5 · 训练的阶梯

图 5 能力是分阶段建立起来的，每一个阶段都建立在前一个阶段之上。点击某一级台阶，就能看到它的目标：从一个能够理解世界的骨干网络，一路走到一个在某个具体房间里真正安全且有用的机器人。

预训练塑造的是 VLM 骨干网络。你要向它喂入海量关于空间推理以及世界一般如何运作的数据，目标是构建它对物理世界的理解与推理能力。

中期训练创造的是 动作专家（action expert）。目标是得到一个在几乎任何配置上都能“还算不错”运作的大脑，能够把自己的理解翻译成各种各样的动作，并适用于多种类型的机器人。这需要大量来自不同环境、不同机器人平台的机器人数据。

后训练（微调，fine-tuning）则是把这个通用心智调校到一个具体身体和少数几项任务上。你先拿一个通才模型，再把它专门化，例如适配到某一种特定的双臂机器人配置上，那么它就能够在这种具身形态下“开箱即用”地表现得相当不错。现实世界中挖掘来的数据，正是在这一阶段体现真正价值：遥操作数据和第一视角数据，都会在这里最直接地转化为真实表现。

部署训练的目标，是让机器人适应一个特定环境，直到它在那里真正安全且真正有用。它填补的是“一个在演示里能工作”的机器人，和“一个在你家厨房里也能工作”的机器人之间的鸿沟。很多原本看起来非常惊艳的系统，恰恰就是悄悄倒在了这一关。

π₀.₅ 之所以有意思，正是因为它试图缩小这道鸿沟：它被构建出来，是为了在训练中从未见过的家庭里清理厨房和卧室；而它往往确实能做到，虽然并不完美，但已经能让人看见一种熟悉的火花——那种人在面对陌生房间时所展现出的应变能力。

让机器人自己教会自己

但所有这一切，都存在一个天花板。一个只在示范数据上训练出来的机器人，最多也只能和它的示范一样好。它学会的是“理想路径”，却学不会如何从自己的错误中恢复，因为它根本从未真正见过这些错误。这就像一个人只通过观看“完美驾驶”的视频来学开车。一旦你第一次拐错弯，你就会束手无策。

摆脱这个天花板的方式，与人类学习的方式是一样的：练习，并接受批评者的反馈。这就是强化学习（reinforcement learning, RL）：让机器人去尝试，为结果打分，并强化那些有效的行为。

问题在于，你不可能在每一个时刻都监督机器人，也不可能为每一种可能情况都手把手提供示例。而且在现实世界中（不同于仿真器），尝试是串行的、缓慢的，而且往往需要一个人类来重置场景。因此，现实世界中的强化学习会变得极其困难。

另一种可行方式，是借助人类干预。当机器人进入糟糕或不安全的状态时，人类可以中断推理过程，把它拉回到一个更好的状态。这催生出了一系列基于 human-in-the-loop（人在回路中） 的学习算法，例如 HIL-SERL。

图 6 · 回顾闭环（The Recap Loop）

图 6 RECAP 将一个人掌握技能的完整过程编织成一个闭环。标记会在这个环中持续流动；点击任一节点，就能看到每一个阶段的作用：从观看示范，到对自己成千上万次尝试进行评分。

最近最生动的一个例子，就是 Physical Intelligence 的 π*₀.₆。它采用了一种他们称为 RECAP 的训练方法，这种方法把人类掌握技能的整个过程编织在一起：

Instruction（指导）：观看示范；
Coaching（辅导）：由人类遥操作员在实时过程中介入，纠正错误，教会它如何恢复；
Practice（练习）：机器人自主尝试任务成千上万次，自己给自己打分，并保留那些有效的方法。

这里甚至还有一个很巧妙的设计：流匹配模型无法直接使用标准强化学习的那套机制，因此 RECAP 改为训练模型去识别“好动作”和“坏动作”，并在部署时直接要求它输出“好”的动作。

这种方法带来了很强的效果：在折叠衣物、拉取浓缩咖啡这类困难任务上，吞吐量大约提升为原来的两倍，失败率减少了一半甚至更多，而且机器人可以几乎整天不间断地运行一个咖啡工作站。

因此，自我提升算法修复了机器人性能中的关键瓶颈，尤其是在泛化能力方面。

我们的位置

我们的使命，是在充满好奇的公众与机器人技术之间架起桥梁，并让任何人都能更容易地部署机器人。上面所讲的一切，正是我们希望变得清晰可理解、并且真正触手可及的世界——不只是面向那些拥有庞大工程师团队的实验室，也面向任何一个足够好奇、愿意亲手尝试的人。

如果这些内容与你产生共鸣，欢迎与我们一起建设。你可以加入我们的 Discord，也可以在 X 上关注我们的工作。

来源与延伸阅读

ACT / ALOHA — Zhao 等，Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware（2023）：https://arxiv.org/abs/2304.13705

π₀.₅ — Physical Intelligence，A VLA with Open-World Generalization（2025）：https://www.physicalintelligence.company/blog/pi05论文：https://arxiv.org/abs/2504.16054代码：https://github.com/Physical-Intelligence/openpi

GR00T N1 — NVIDIA，An Open Foundation Model for Generalist Humanoid Robots（2025）：https://arxiv.org/abs/2503.14734 发布说明：nvidianews.nvidia.com

VLA 推理时延 — SnapFlow（关于流匹配 VLA 的时延拆解）：https://arxiv.org/pdf/2604.05656

Genie 3（世界模型） — Google DeepMind：deepmind.google 世界模型 vs 仿真：Wikipedia

第一视角数据 — EgoMimic：https://egomimic.github.io/ Meta 关于 Project Aria + Ego4D：ai.meta.com

RL / 自我提升 — Physical Intelligence π*₀.₆ + RECAP：themoonlight.io 通俗解读：federicosarrocco.com

人在回路中的强化学习 — HIL-SERL：https://hil-serl.github.io/

文素材源自：https://interlatent.com/blog/interlatent-modern-ai-robotics-first-principles?utm_source=chatgpt.com

文章来源：AI工业