李飞飞亲自撰文厘清世界模型定义：渲染、模拟、规划三大功能

2026/06/04 08:44阅读量 2

李飞飞近日发表长文，批评“世界模型”是当前AI领域最被滥用的术语之一，并给出清晰的功能分类：渲染器、模拟器、规划器。她强调模拟器是连接渲染和规划的桥梁，三类模型正在融合，最终目标是一个统一的世界模型。当前核心挑战是数据，特别是模拟器和规划器所需的三维和机器人数据严重不足。

事件概述

李飞飞近日亲自撰文，对“世界模型”这一热门但定义混乱的概念进行了系统梳理。她指出世界模型是当今人工智能领域最重要也最被滥用的术语之一，并提出了以功能为维度的分类框架：渲染器、模拟器、规划器。

三大功能详解

1. 渲染器 (Renderer)

渲染器输出供人类观看的观察结果，核心指标是视觉保真度。代表作包括谷歌的Genie 3和李飞飞团队World Labs的RTFM。渲染器是目前商业上最成熟的技术（如Nano Banana），但其优化目标是视觉逼真而非物理精确，生成的画面可能视觉效果极佳，但经不起物理检验，不适合建筑设计或机器人训练等需要与现实世界结合的领域。

2. 规划器 (Planner)

规划器输入观察和目标，输出下一步动作。VLA模型和新一代世界动作模型属于此类，它们决定了智能体在非结构化环境中应该做什么。规划器最吸引人、发展潜力最大，与具身智能紧密相关，大量热钱正在涌入。但目前许多令人印象深刻的机器人演示仍局限于高度受限的实验室环境，任务周期短，无法在真实世界的复杂性和可变性下充分验证。

3. 模拟器 (Simulator)

模拟器输出可计算、可交互的状态，强调几何、物理和动态一致性。它要求结构经得起检验，符合物理定律。模拟器服务于两类用户：需要超越视觉逼真度精确度的专业人士（建筑师、设计师等），以及需要大规模训练场的强化学习/机器人/自动驾驶等领域。李飞飞认为模拟器是连接渲染器和规划器的桥梁。

商业前景广阔（例如英伟达Omniverse瞄准超万亿美元市场），但核心瓶颈是数据：具有明确几何、材料和物理标注的三维数据比渲染器所用的互联网视频少几个数量级。此外，模拟本身与现实存在差距，生成式模拟器可能产生“视觉正确但物理错误”的结果，大规模多物理场模拟成本极高。World Labs的Marble旨在突破这一瓶颈，支持文本/图像/视频多模态输入，生成可探索3D环境及碰撞网格，但李飞飞强调这仅仅是开端。

边界正在消融

三类模型正在相互融合。李飞飞认为，渲染一个世界、模拟一个世界、在一个世界中行动所需的知识在很大程度上是同一套知识。如果一个模型真正理解一个杯子放在桌上的几何、材料、受力反应，就应能同时渲染它、模拟推动它的结果、规划如何拿起它。近期研究已证明视频渲染器可作为联合预测和规划骨干，暗示了渲染器和规划器之间的桥梁。Marble同时输出Gaussian splats和碰撞网格，体现了渲染器与模拟器边界的消融。

终极目标是一个统一的世界模型——既能渲染照片级真实视图，又能生成物理准确的结构，并规划行动序列。核心挑战仍是数据：渲染器有海量互联网视频，模拟器和规划器却缺乏3D资产和机器人演示数据。追求视觉美感可能牺牲机器人或高保真模拟所需的精度，如何在单一架构中调和这些矛盾是当前最核心的开放问题。但李飞飞乐观地表示方向已经清楚，三条原本独立的研究线索正驱动着数十亿美元产业，并开始表现出同一性。

阅读原文详情