阿里、Momenta、英伟达的“世界模型”截然不同:数字沙盘、真实预判与虚拟片场

2026/06/26 07:47阅读量 2

阿里Qwen-AgentWorld、Momenta自动驾驶系统、英伟达Cosmos 3均自称为“世界模型”,但本质完全不同:阿里构建数字沙盘让AI模拟操作电脑,Momenta用量产车实现真实道路预判,英伟达生成合成数据为其他AI提供训练素材。三者在应用场景、数据闭环和进化路径上互不干扰。

事件概述

近期阿里、Momenta、英伟达先后发布或升级其“世界模型”,引发关注。但三者目标、数据来源和落地方式差异巨大,并非同一技术方向。

三款“世界模型”的定位

  • 阿里 Qwen-AgentWorld:虚拟数字沙盘。将浏览器、桌面、手机界面、代码编辑器等环境打包,让AI先在此虚拟空间试错,再执行真实操作。训练数据基于超1000万条真人操作电脑记录(写代码、搜索、填表格等)。其“世界”是电脑内的数字空间。
  • Momenta 自动驾驶系统:已量产的物理世界预判系统。核心是让AI预测未来几秒的交通演变(前车减速意图、行人动向等)。基于90万辆量产车、100亿公里真实驾驶数据积累,形成“感知-预测-规划”闭环。其“世界”是真实马路、车辆、行人、天气。
  • 英伟达 Cosmos 3:虚拟片场/合成数据生成器。可生成逼真视频(如暴雨天路面反光),供机器人和自动驾驶AI做练习题。开源模型权重,处理文字、图片、视频、声音、动作指令五种信息,训练量达20万亿token。其“世界”是仿真环境,不直接开车或操作电脑,只提供训练素材。

关键区别:闭环决定进化路径

三者虽都做“预测”或“模拟”,但预测对象完全不同:

  • Qwen预测数字环境中的操作后果,数据成本低、迭代快,闭环在真实电脑操作反馈中。
  • Momenta预测物理世界交通演变,数据成本极高(需要真车跑),但真实世界反馈不可替代,闭环最扎实。
  • Cosmos 3预测仿真画面参数,闭环在虚拟环境内部,但“仿真到现实”的鸿沟尚未打通。

值得关注

  • 学界同样头疼定义混乱。6月初李飞飞团队在MIT Technology Review发文指出视频生成、机器人和NVIDIA等均自称世界模型。智源研究院院长王仲远将世界模型分为四大类(语言、像素、三维结构、视觉表征),说明顶尖研究者亦未统一口径。
  • 未来三线分化:数字世界模型(Qwen、OpenAI、Claude主导)、物理世界模型(Momenta、Tesla、华为主导)、基础设施线(NVIDIA作为“卖铲子”者提供合成数据)。
  • 判断领先与否的关键指标是“闭环”——AI在真实环境中使用后能否将结果反馈回来自我优化。Momenta(真车反馈)、Qwen(真人操作反馈)均具备扎实真实闭环,而Cosmos 3的虚拟闭环仍需跨过仿真-现实鸿沟。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。