VAST 用「状态与渲染解耦」架构,走世界模型新路线
AI 公司 VAST 近期完成近 2 亿美元融资,推出 Project Eden 世界模型,采用“状态与渲染原生解耦”架构:底层独立维护世界状态,上层按需生成画面。该方案解决了环境持久化、多人共享与确定性交互等难题,成为全球首个可独立维护世界状态的模型。
事件概述
AI 公司 VAST(旗下拥有通用 3D 大模型 Tripo)在完成近 2 亿美元 A+ 及 A++ 轮融资后,正式发布世界模型研究预览 Project Eden。其首席科学家曹炎培指出,当前主流世界模型存在“画面流畅不等于世界在运转”的问题,因此 VAST 选择了一条不同于五大门派(杨立昆 JEPA、李飞飞 World Labs、DeepMind Genie 等)的技术道路:将世界状态与画面渲染彻底解耦。
核心技术架构
Project Eden 采用三层算法结构:
- 底层结构化状态:独立维护场景几何、物体身份、事件逻辑等世界状态,不依赖任何视角。
- 中间转换层:根据当前观察者视角,将世界状态转换为局部条件信息。
- 上层生成式渲染:基于条件信息负责画面生成(光照、材质、动态细节)。
这种架构的关键优势在于:状态持续存在,物体离开镜头不会消失;同一状态可支持多人同时渲染不同视角,实现真正的多人并交互;用户对世界的修改会永久记录在状态中。
训练数据与能力验证
训练数据方面,VAST 利用 Tripo 的 3D 基础模型对海量互联网 2D 视频进行反向解构(恢复深度、相机位姿、几何轨迹),同时从游戏引擎获取合成数据(物体坐标、碰撞关系、动作输入),形成“状态-结果”对应数据。
目前已实现的 Demo 能力包括:
- 环境持久化:进入场景后活动不丢失上下文。
- 多人共享:两人推箱子、两辆赛车竞速,共享同一底层状态,渲染各自视角。
- 确定性交互:打靶可精确计算是否击中并记录得分。
- 泛化动作:赶羊、灭火、划船等动作可由状态推演学习。
商业化与行业影响
曹炎培将路线划为三个里程碑:第一阶段验证状态与渲染解耦(已通过 Project Eden Demo 完成);第二阶段攻克状态预测泛化;第三阶段解决多人并发与推理成本工程问题。商业化被定位为中长期目标。
远景上,Project Eden 有望颠覆传统 DCC 工具(如 Blender)和游戏引擎(UE/Unity),成为 AI 原生的沙盒平台——用户通过自然语言或简易动作即可创作多人共享、具备物理逻辑的互动世界。同时,它也可作为具身智能训练与性能评测的高质量仿真基座。在商业模式上,可能从单次生成收费转向类似云服务或游戏引擎的运行时座席模式。
