具身大脑，必将走向 Unify！从Lecun V-JEPA到 Pelican-Unify 1.0，再看COSMOS 3与李飞飞的共同印证

发布日期：2026-06-05

"世界并非由词语构成。" —— 这是李飞飞在最新长文里指向了 AI 的下一个核心命题。

而在人类的颅腔里，一个能够感知、预测、推理并行动的世界模型，早已默默运行了几百万年。

当你看到桌上一只杯子，在你的指尖触碰到它之前，它已经先在你的大脑里“发生”了一遍。而这，正是慧思开物平台最新发布的“大一统”模型正在尝试去实现的未来，那个通向具身智能“最强大脑”的未来。

在你伸手之前的几十毫秒里，大脑已经悄悄跑了一遍模拟——脑补出杯子大概多重，预判了握上去的触感，甚至演算了"如果手滑了它会怎样翻倒、洒出的水会流向哪里"。这一切都发生在动作之前。大脑不是世界的镜子，而是世界的建模者：它在颅内主动构建了一个关于世界如何运转的内部模型，并不断用它来预测、想象和推演。神经科学里的"预测加工"（predictive processing）说的正是这件事。

而人脑最了不起之处，并不只是它能在内部建模世界，而是将这套统一模型真正嵌入了行动之中。看到杯子是理解，脑补翻倒是想象，预判握力是推理，伸手端起是行动——它们并非四个割裂、串行调用的功能，而是共用同一套神经表征、相互约束、共同生长。亚里士多德说"灵魂从不离开意象而思考"，威廉·詹姆斯说"我的思考始终服务于我的行动"，指向的都是这个把感知、想象、推理与行动焊接成一体的统一世界模型。而北京人形的慧思开物平台也早早预见到了这一趋势，具身智能终将回归这样一个“大一统”的新阶段。

它是"世界模型"最原初、也最完整的形态——是生物进化亲手给出的、一个真实存在的存在性证明。

接下来，人工智能要做的，就是把它复刻出来。而过去一年，V-JEPA、北京人形慧思开物平台的Pelican-Unify 1.0、COSMOS 3 以及李飞飞对世界模型重新定义，都从不同方向给出了同一个答案：具身大脑，必将走向 Unify。

第一个方向，来自 Yann LeCun。

长期以来 LeCun 有一个鲜明且"逆主流"的判断：要让 AI 真正理解世界，不应该去预测像素。视频生成模型努力把每一帧画得逼真，但世界里大量细节（叶子怎么飘、水花怎么溅）本质上不可精确预测，硬去拟合像素只会浪费算力、学不到本质。真正该做的，是在抽象的表征空间里做预测——预测"接下来世界的状态会变成什么样"，而不是"接下来每个像素是什么颜色"。

这就是 JEPA（Joint Embedding Predictive Architecture，联合嵌入预测架构） 的核心思想，落到视频上就是 Meta 的 V-JEPA 2。它先在超过 100 万小时的自然视频上做自监督预训练，让编码器与预测器在隐空间里学会物体恒存、重力、运动轨迹这些物理直觉；再用仅仅 62 小时的机器人数据微调，就能在全新环境里通过模型预测控制（MPC）实现零样本机器人规划，任务成功率最高约 80%。(Meta AI, LinkedIn · Yann LeCun)

V-JEPA 倡导的世界模型，本质是一个理解与预测优先的世界模型：它把"看懂世界、预判世界如何演化"放在第一位，再让规划自然地长在这套表征之上。它给整个领域立下的判断是——世界模型的根基，是一套能预测未来的、抽象而统一的内部表征。这与人脑的"预测加工"惊人地一致。

如果说 V-JEPA 强调的是"在表征里预测"，那么北京人形机器人创新中心在"慧思开物"平台上发布的 Pelican-Unify 1.0，强调的是把表征里的预测真正闭合成行动——一条具身闭环统一路线。(arXiv 2605.15153)

它关注的不是单纯生成一段逼真视频，也不是单独预测一个动作，而是把具身智能最核心的四件事——理解、想象、推理、行动——放进同一个训练回路，让它们在同一套世界表征上共同运作。它的 unify 体现在三个层面：

回路很简单：VLM 把场景、指令、历史观测编码进共享语义空间，自回归生成思维链并投影成 z；UFG 以 z为条件，在同一个去噪过程里联合生成未来视频和未来动作。最有说服力的是成绩单——一个 checkpoint，三项能力同时在线：8 个 VLM 基准 64.7（同量级第一）、WorldArena 66.03（发布时综合第一，3D 准确率 98.12）、RoboTwin 93.5%。一句话：统一，并不意味着妥协。(arXiv 2605.15153)

世界模型在这里不再只是"生成未来画面"的模型，而是一个把感知、推理、想象与行动连接起来的具身基础模型——从机器人任务出发，把世界模型真正放回到"智能体如何在世界中行动"这一闭环里。

几乎同一时间，NVIDIA 在 GTC Taipei 发布了 COSMOS 3，从第三个方向推进统一——一条全模态世界基础模型路线。(NVIDIA Newsroom)

它是首个完全开放的 omnimodel，基于Transformer Mixture-of-Transformers架构：一个推理 Transformer 搭配一个专家生成 Transformer，让模型先理解物体交互、运动与时空关系，再生成视频与动作轨迹。它把文本、图像、视频、环境声音、动作放进同一个框架，一个模型可以同时当三种角色用：(NVIDIA Newsroom, NVIDIA)

作为 VLM，跨模态理解和推理物体、交互与意图；
作为世界模型，模拟物理环境、预测未来世界状态；
作为 World Action Models 的骨干，训练机器人执行具体任务。

COSMOS 3 给出的判断是：一个真正的世界模型，应当具备跨模态的世界理解、世界生成与行动预测能力。

三股工程力量都在往"统一"里冲，可"世界模型"这个词本身，已经被用滥了——能生成视频的、能做物理仿真的、能规划动作的，都被叫作世界模型。

于是李飞飞在《世界模型的功能分类法》（A Functional Taxonomy of World Models）里，从功能出发，给世界模型重新下了定义。她开篇就写："世界并非由词语构成。"语言模型学的是文本的统计结构，而世界模型真正要学的，是现实世界中的空间、时间、几何、物理与行动规律。沿着"智能体—行动—状态—观测"这条最基本的交互回路，她把世界模型切成三个核心角色：(Dr. Fei-Fei Li, Substack)

渲染器追求视觉保真度，让世界"看起来像"；模拟器追求结构保真度，让世界在几何和物理上"真的对"，是她眼中的枢纽（"如果语言是世界的抽象、像素是世界的投影，那么几何、物理与动力学，就是世界本身"）；规划器则把观测和目标转化为行动。而她真正指出的终点是：(Dr. Fei-Fei Li, Substack)

一个统一的世界模型（a unified world model）：一个基础模型，既能渲染照片级真实的画面，又能产出物理上精确的结构，还能规划动作序列，并根据下游消费者的不同自由切换输出模态。

这套定义的价值，在于把"世界模型"从一个模糊的热词，重新拉回清晰的功能坐标系：渲染、模拟、规划，最终要在同一个模型里合一。但它仍是一张概念地图——回答了"世界模型应该是什么"，却没有回答"它该如何训练、如何组织表征、如何真正跑通"。而这，正是前面三股工程力量在各自方向上回答的问题。

至此，五个"世界模型"终于可以放在同一条主线上理解：

人脑里的世界模型，是生物进化给出的存在性证明——它证明统一的内部世界模型不仅可能，而且已真实运转在我们每个人颅腔里。它是终极参照系。
Pelican-Unify 1.0 倡导的世界模型，从具身闭环切入：把理解、想象、推理、行动统一进同一套表征与训练回路，让未来视频生成与动作预测在同一块世界表征上相互影响。
COSMOS 3 倡导的世界模型，从全模态生成与模拟切入：把文本、图像、视频、声音、动作统一进一个 omnimodal world model。
李飞飞定义的世界模型，是从概念层面给出的坐标系与北极星——渲染、模拟、规划三合一的 unified world model，回答"应该是什么"。
V-JEPA 倡导的世界模型，从表征与预测切入：在抽象表征空间里预测世界演化，奠定统一表征这一根基。

更有趣的是，把这五者放进同一张表，每个功能角色都能彼此对应、严丝合缝：

一条清晰的脉络由此浮现：人脑证明了统一世界模型真实存在，李飞飞定义了它的逻辑终点，而 V-JEPA、COSMOS 3、Pelican-Unify 1.0 正从表征、全模态、具身闭环三个方向同时逼近这个终点。它们共同指向同一个趋势——世界模型的终点，不是一个更强的视频生成器、一个更准的物理模拟器、或一个更好的动作规划器，而是一个把渲染、模拟与规划统一起来的基础模型。真正的世界模型，正在从"看见世界"走向"理解世界"，再走向"在世界中行动"。

具身大脑，必将走向 Unify。

回到那个起点——人脑里的世界模型。

人脑之所以强大，不只是因为它能理解、能想象、能推理、能行动，而是因为这些能力从来不是彼此割裂的：视觉、语言、运动、记忆和行动意图，在同一个内部世界中相互牵引、彼此校正。

北京人形在"慧思开物"平台上发布的Pelican-Unify 1.0 做出的第一步，是把"理解—想象—推理—行动"这条回路统一到同一套表征空间里。但真正的 unify，不会止步于此。还做了另一件事：对规划器更深入的分析——文本、视觉等模态各自的表征究竟如何对齐，规划器又如何从这些表征中提取有效信息并转化为可执行动作，模型结构上该如何真正地"长在一起"。我们希望不止让梯度在一块潜变量上博弈，而是真正从表征和模型结构两个最底层的维度，把这些模态彻底 unify 起来。

就在不久前，Pelican-Unify 1.0作为首个“具身大一统”模型就在World Arena综合评测中实现登顶，以行业领先的技术前瞻性，结合高效的落地实践效率，推开了具身大脑领域中通往“最强大脑”的那扇门。

自成立以来，作为国家级具身智能创新中心的北京人形就围绕通用机器人平台"具身天工"和通用具身智能平台"慧思开物"为双核心，构建起了覆盖"本体—大脑—小脑—平台—生态"的全栈式闭环体系，让顶尖的模型融入真实的生产与服务场景，释放其真正的价值。具身智能下一阶段的关键词，是形成更完整的闭环和大脑各部分能力的协同进化。

而现在，从人脑里的内部世界，到V-JEPA系列模型主张，到Pelican-Unify 1.0的提出，最后到COSMOS 3 与李飞飞教授的主张——世界模型走向统一的主线，已经逐渐清晰。

而真正的 unify，才刚刚开始。关于未来，北京人形邀请大家共同见证。

文章来源：北京人形机器人创新中心