具身大脑,必将走向 Unify!从Lecun V-JEPA到 Pelican-Unify 1.0,再看COSMOS 3与李飞飞的共同印证
发布日期:2026-06-05 
图片

"世界并非由词语构成。" —— 这是李飞飞在最新长文里指向了 AI 的下一个核心命题。

而在人类的颅腔里,一个能够感知、预测、推理并行动的世界模型,早已默默运行了几百万年。

图片

图片

当你看到桌上一只杯子,在你的指尖触碰到它之前,它已经先在你的大脑里“发生”了一遍。而这,正是慧思开物平台最新发布的“大一统”模型正在尝试去实现的未来,那个通向具身智能“最强大脑”的未来。

在你伸手之前的几十毫秒里,大脑已经悄悄跑了一遍模拟——脑补出杯子大概多重,预判了握上去的触感,甚至演算了"如果手滑了它会怎样翻倒、洒出的水会流向哪里"。这一切都发生在动作之前。大脑不是世界的镜子,而是世界的建模者:它在颅内主动构建了一个关于世界如何运转的内部模型,并不断用它来预测、想象和推演。神经科学里的"预测加工"(predictive processing)说的正是这件事。

而人脑最了不起之处,并不只是它能在内部建模世界,而是将这套统一模型真正嵌入了行动之中。看到杯子是理解,脑补翻倒是想象,预判握力是推理,伸手端起是行动——它们并非四个割裂、串行调用的功能,而是共用同一套神经表征、相互约束、共同生长。亚里士多德说"灵魂从不离开意象而思考",威廉·詹姆斯说"我的思考始终服务于我的行动",指向的都是这个把感知、想象、推理与行动焊接成一体的统一世界模型。而北京人形的慧思开物平台也早早预见到了这一趋势,具身智能终将回归这样一个“大一统”的新阶段。

图片

它是"世界模型"最原初、也最完整的形态——是生物进化亲手给出的、一个真实存在的存在性证明。

接下来,人工智能要做的,就是把它复刻出来。而过去一年,V-JEPA、北京人形慧思开物平台的Pelican-Unify 1.0、COSMOS 3 以及李飞飞对世界模型重新定义,都从不同方向给出了同一个答案:具身大脑,必将走向 Unify。

图片

第一个方向,来自 Yann LeCun。

长期以来 LeCun 有一个鲜明且"逆主流"的判断:要让 AI 真正理解世界,不应该去预测像素。视频生成模型努力把每一帧画得逼真,但世界里大量细节(叶子怎么飘、水花怎么溅)本质上不可精确预测,硬去拟合像素只会浪费算力、学不到本质。真正该做的,是在抽象的表征空间里做预测——预测"接下来世界的状态会变成什么样",而不是"接下来每个像素是什么颜色"。

这就是 JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构) 的核心思想,落到视频上就是 Meta 的 V-JEPA 2。它先在超过 100 万小时的自然视频上做自监督预训练,让编码器与预测器在隐空间里学会物体恒存、重力、运动轨迹这些物理直觉;再用仅仅 62 小时的机器人数据微调,就能在全新环境里通过模型预测控制(MPC)实现零样本机器人规划,任务成功率最高约 80%。(Meta AI, LinkedIn · Yann LeCun)

图片

V-JEPA 倡导的世界模型,本质是一个理解与预测优先的世界模型:它把"看懂世界、预判世界如何演化"放在第一位,再让规划自然地长在这套表征之上。它给整个领域立下的判断是——世界模型的根基,是一套能预测未来的、抽象而统一的内部表征。这与人脑的"预测加工"惊人地一致。

图片

如果说 V-JEPA 强调的是"在表征里预测",那么北京人形机器人创新中心在"慧思开物"平台上发布的 Pelican-Unify 1.0,强调的是把表征里的预测真正闭合成行动——一条具身闭环统一路线。(arXiv 2605.15153)

它关注的不是单纯生成一段逼真视频,也不是单独预测一个动作,而是把具身智能最核心的四件事——理解、想象、推理、行动——放进同一个训练回路,让它们在同一套世界表征上共同运作。它的 unify 体现在三个层面:

图片
图片

回路很简单:VLM 把场景、指令、历史观测编码进共享语义空间,自回归生成思维链并投影成 z;UFG 以 z为条件,在同一个去噪过程里联合生成未来视频和未来动作。最有说服力的是成绩单——一个 checkpoint,三项能力同时在线:8 个 VLM 基准 64.7(同量级第一)、WorldArena 66.03(发布时综合第一,3D 准确率 98.12)、RoboTwin 93.5%。一句话:统一,并不意味着妥协。(arXiv 2605.15153)

世界模型在这里不再只是"生成未来画面"的模型,而是一个把感知、推理、想象与行动连接起来的具身基础模型——从机器人任务出发,把世界模型真正放回到"智能体如何在世界中行动"这一闭环里。

图片

几乎同一时间,NVIDIA 在 GTC Taipei 发布了 COSMOS 3,从第三个方向推进统一——一条全模态世界基础模型路线。(NVIDIA Newsroom)

图片

它是首个完全开放的 omnimodel,基于Transformer Mixture-of-Transformers架构:一个推理 Transformer 搭配一个专家生成 Transformer,让模型先理解物体交互、运动与时空关系,再生成视频与动作轨迹。它把文本、图像、视频、环境声音、动作放进同一个框架,一个模型可以同时当三种角色用:(NVIDIA Newsroom, NVIDIA)

  • 作为 VLM,跨模态理解和推理物体、交互与意图;

  • 作为世界模型,模拟物理环境、预测未来世界状态;

  • 作为 World Action Models 的骨干,训练机器人执行具体任务。

COSMOS 3 给出的判断是:一个真正的世界模型,应当具备跨模态的世界理解、世界生成与行动预测能力。

图片

三股工程力量都在往"统一"里冲,可"世界模型"这个词本身,已经被用滥了——能生成视频的、能做物理仿真的、能规划动作的,都被叫作世界模型。

于是李飞飞在《世界模型的功能分类法》(A Functional Taxonomy of World Models)里,从功能出发,给世界模型重新下了定义。她开篇就写:"世界并非由词语构成。"语言模型学的是文本的统计结构,而世界模型真正要学的,是现实世界中的空间、时间、几何、物理与行动规律。沿着"智能体—行动—状态—观测"这条最基本的交互回路,她把世界模型切成三个核心角色:(Dr. Fei-Fei Li, Substack)

图片

渲染器追求视觉保真度,让世界"看起来像";模拟器追求结构保真度,让世界在几何和物理上"真的对",是她眼中的枢纽("如果语言是世界的抽象、像素是世界的投影,那么几何、物理与动力学,就是世界本身");规划器则把观测和目标转化为行动。而她真正指出的终点是:(Dr. Fei-Fei Li, Substack)

图片

一个统一的世界模型(a unified world model):一个基础模型,既能渲染照片级真实的画面,又能产出物理上精确的结构,还能规划动作序列,并根据下游消费者的不同自由切换输出模态。

这套定义的价值,在于把"世界模型"从一个模糊的热词,重新拉回清晰的功能坐标系:渲染、模拟、规划,最终要在同一个模型里合一。但它仍是一张概念地图——回答了"世界模型应该是什么",却没有回答"它该如何训练、如何组织表征、如何真正跑通"。而这,正是前面三股工程力量在各自方向上回答的问题。

图片

至此,五个"世界模型"终于可以放在同一条主线上理解:

  • 人脑里的世界模型,是生物进化给出的存在性证明——它证明统一的内部世界模型不仅可能,而且已真实运转在我们每个人颅腔里。它是终极参照系。

  • Pelican-Unify 1.0 倡导的世界模型,具身闭环切入:把理解、想象、推理、行动统一进同一套表征与训练回路,让未来视频生成与动作预测在同一块世界表征上相互影响。

  • COSMOS 3 倡导的世界模型,从全模态生成与模拟切入:把文本、图像、视频、声音、动作统一进一个 omnimodal world model。

  • 李飞飞定义的世界模型,是从概念层面给出的坐标系与北极星——渲染、模拟、规划三合一的 unified world model,回答"应该是什么"。

  • V-JEPA 倡导的世界模型,表征与预测切入:在抽象表征空间里预测世界演化,奠定统一表征这一根基。

更有趣的是,把这五者放进同一张表,每个功能角色都能彼此对应、严丝合缝:

图片

一条清晰的脉络由此浮现:人脑证明了统一世界模型真实存在,李飞飞定义了它的逻辑终点,而 V-JEPA、COSMOS 3、Pelican-Unify 1.0 正从表征、全模态、具身闭环三个方向同时逼近这个终点。 它们共同指向同一个趋势——世界模型的终点,不是一个更强的视频生成器、一个更准的物理模拟器、或一个更好的动作规划器,而是一个把渲染、模拟与规划统一起来的基础模型。真正的世界模型,正在从"看见世界"走向"理解世界",再走向"在世界中行动"。

具身大脑,必将走向 Unify。

图片

回到那个起点——人脑里的世界模型。

人脑之所以强大,不只是因为它能理解、能想象、能推理、能行动,而是因为这些能力从来不是彼此割裂的:视觉、语言、运动、记忆和行动意图,在同一个内部世界中相互牵引、彼此校正。

北京人形在"慧思开物"平台上发布的Pelican-Unify 1.0 做出的第一步,是把"理解—想象—推理—行动"这条回路统一到同一套表征空间里。但真正的 unify,不会止步于此。还做了另一件事:对规划器更深入的分析——文本、视觉等模态各自的表征究竟如何对齐,规划器又如何从这些表征中提取有效信息并转化为可执行动作,模型结构上该如何真正地"长在一起"。我们希望不止让梯度在一块潜变量上博弈,而是真正从表征和模型结构两个最底层的维度,把这些模态彻底 unify 起来。

图片

就在不久前,Pelican-Unify 1.0作为首个“具身大一统”模型就在World Arena综合评测中实现登顶,以行业领先的技术前瞻性,结合高效的落地实践效率,推开了具身大脑领域中通往“最强大脑”的那扇门。

图片

自成立以来,作为国家级具身智能创新中心的北京人形就围绕通用机器人平台"具身天工"和通用具身智能平台"慧思开物"为双核心,构建起了覆盖"本体—大脑—小脑—平台—生态"的全栈式闭环体系,让顶尖的模型融入真实的生产与服务场景,释放其真正的价值。具身智能下一阶段的关键词,是形成更完整的闭环和大脑各部分能力的协同进化。

而现在,从人脑里的内部世界, 到V-JEPA系列模型主张,到Pelican-Unify 1.0的提出,最后到COSMOS 3 与李飞飞教授的主张——世界模型走向统一的主线,已经逐渐清晰。

而真正的 unify,才刚刚开始。关于未来,北京人形邀请大家共同见证。

文章来源:北京人形机器人创新中心