NVIDIA 发布 Cosmos 3 世界基础模型,融合视觉推理与动作生成
NVIDIA 发布 Cosmos 3,一个将视觉推理、多模态生成和动作预测结合于一体的开放世界基础模型,旨在帮助机器人、自动驾驶车辆和视觉 AI 系统在行动前理解场景并预测结果。该模型采用混合变换器架构,支持原生动作数据生成,已在多个基准测试中排名领先,并以 OpenMDW 1.1 许可证开源。
事件概述
NVIDIA 于 COMPUTEX 的 GTC Taipei 大会上宣布推出 Cosmos 3,一种新型世界基础模型(world foundation model),专为物理 AI 系统设计。它整合了视觉推理、文本-视频-图像-环境音-动作的多模态生成,让实体 AI 能理解场景动因并预测下一步,从而在真实世界中自主运行。
核心能力与架构
Cosmos 3 采用混合变换器(mixture-of-transformers)架构,包含一个“推理块”(reasoning block)和一个“生成块”(generation block)。推理块先解析场景中的物体运动、路径交叉和未来状态;生成块则依据解析结果产生物理上合理的输出,包括合成视频、密集字幕、场景变化预测以及机器人任务数据。
模型具备原生动作生成能力,可直接输出数值动作数据,如关节角度、夹爪位置和轨迹点,用于指导机器人完成拾取放置等任务。开发者可基于 Cosmos 3 微调,使其适配特定机器人形态、相机布局、工作空间或任务。
应用案例
- 机器人动作数据生成:NVIDIA GEAR 团队正利用 Cosmos 3 开发视频动作模型,帮助具身智能体在游戏、仿真和真实机器人环境中学习推理与行动。Agile Robots 使用 Cosmos 3 为其中的人形机器人(如 Thor 3、FR3)生成动作条件数据,用于策略开发和大规模多样轨迹生成。
- 智能城市与工业空间推理:Cosmos 3 可识别移动物体、预测路径交叉和未来状态,为交通、工厂、仓库等场景的视觉 AI 代理提供异常检测和根因分析。Linker Vision 借助 Cosmos 3 的视觉语言推理能力分析数千路摄像头实时流,理解空间上下文,提取洞察并优化城市运营。
- 长尾罕见场景生成:模型能生成物理上合理的视频序列,用于训练人形机器人、机械臂等在真实世界中难以安全、重复捕获的碰撞和边缘案例,支持合成数据流程和未来状态预测。
基准测试与开源
Cosmos 3 在多个开放权重排行榜上位列第一:在智能基础设施场景理解的 VANTAGE-Bench 和交通异常推理的 TAR 挑战中排名领先;在 Artificial Analysis 的开放权重排行、Physics-IQ、R-Bench 和 PAI-Bench 等世界生成基准测试中也位居榜首。
该模型以 Linux 基金会的 OpenMDW 1.1 许可证开放,涵盖权重、架构、文档、数据集、基准和代码,允许训练、修改、贡献、再分发和部署。开发者可在 build.nvidia.com 试用,从 Hugging Face 下载,并在 GitHub 上自定义和生成合成数据。
