火猫 AI

核心服务定制优势系统升级 AI 智能体 Skills 定制开发

AI 工具扣子智能体

精选案例资讯中心

安全保障关于我们联系我们

每日 AI 资讯

阿里、Momenta、英伟达的“世界模型”截然不同：数字沙盘、真实预判与虚拟片场

2026/06/26 07:47阅读量 2

阿里Qwen-AgentWorld、Momenta自动驾驶系统、英伟达Cosmos 3均自称为“世界模型”，但本质完全不同：阿里构建数字沙盘让AI模拟操作电脑，Momenta用量产车实现真实道路预判，英伟达生成合成数据为其他AI提供训练素材。三者在应用场景、数据闭环和进化路径上互不干扰。

事件概述

近期阿里、Momenta、英伟达先后发布或升级其“世界模型”，引发关注。但三者目标、数据来源和落地方式差异巨大，并非同一技术方向。

三款“世界模型”的定位

阿里 Qwen-AgentWorld：虚拟数字沙盘。将浏览器、桌面、手机界面、代码编辑器等环境打包，让AI先在此虚拟空间试错，再执行真实操作。训练数据基于超1000万条真人操作电脑记录（写代码、搜索、填表格等）。其“世界”是电脑内的数字空间。
Momenta 自动驾驶系统：已量产的物理世界预判系统。核心是让AI预测未来几秒的交通演变（前车减速意图、行人动向等）。基于90万辆量产车、100亿公里真实驾驶数据积累，形成“感知-预测-规划”闭环。其“世界”是真实马路、车辆、行人、天气。
英伟达 Cosmos 3：虚拟片场/合成数据生成器。可生成逼真视频（如暴雨天路面反光），供机器人和自动驾驶AI做练习题。开源模型权重，处理文字、图片、视频、声音、动作指令五种信息，训练量达20万亿token。其“世界”是仿真环境，不直接开车或操作电脑，只提供训练素材。

关键区别：闭环决定进化路径

三者虽都做“预测”或“模拟”，但预测对象完全不同：

Qwen预测数字环境中的操作后果，数据成本低、迭代快，闭环在真实电脑操作反馈中。
Momenta预测物理世界交通演变，数据成本极高（需要真车跑），但真实世界反馈不可替代，闭环最扎实。
Cosmos 3预测仿真画面参数，闭环在虚拟环境内部，但“仿真到现实”的鸿沟尚未打通。

值得关注

学界同样头疼定义混乱。6月初李飞飞团队在MIT Technology Review发文指出视频生成、机器人和NVIDIA等均自称世界模型。智源研究院院长王仲远将世界模型分为四大类（语言、像素、三维结构、视觉表征），说明顶尖研究者亦未统一口径。
未来三线分化：数字世界模型（Qwen、OpenAI、Claude主导）、物理世界模型（Momenta、Tesla、华为主导）、基础设施线（NVIDIA作为“卖铲子”者提供合成数据）。
判断领先与否的关键指标是“闭环”——AI在真实环境中使用后能否将结果反馈回来自我优化。Momenta（真车反馈）、Qwen（真人操作反馈）均具备扎实真实闭环，而Cosmos 3的虚拟闭环仍需跨过仿真-现实鸿沟。

阅读原文详情

准备好启动您的定制项目了吗？

现在咨询，即可获得免费的业务梳理与技术架构建议方案。

联系我们查看案例