NVIDIA 发布 Cosmos 3 世界基础模型，融合视觉推理与动作生成

2026/06/01 12:45阅读量 6

NVIDIA 发布 Cosmos 3，一个将视觉推理、多模态生成和动作预测结合于一体的开放世界基础模型，旨在帮助机器人、自动驾驶车辆和视觉 AI 系统在行动前理解场景并预测结果。该模型采用混合变换器架构，支持原生动作数据生成，已在多个基准测试中排名领先，并以 OpenMDW 1.1 许可证开源。

事件概述

NVIDIA 于 COMPUTEX 的 GTC Taipei 大会上宣布推出 Cosmos 3，一种新型世界基础模型（world foundation model），专为物理 AI 系统设计。它整合了视觉推理、文本-视频-图像-环境音-动作的多模态生成，让实体 AI 能理解场景动因并预测下一步，从而在真实世界中自主运行。

核心能力与架构

Cosmos 3 采用混合变换器（mixture-of-transformers）架构，包含一个“推理块”（reasoning block）和一个“生成块”（generation block）。推理块先解析场景中的物体运动、路径交叉和未来状态；生成块则依据解析结果产生物理上合理的输出，包括合成视频、密集字幕、场景变化预测以及机器人任务数据。

模型具备原生动作生成能力，可直接输出数值动作数据，如关节角度、夹爪位置和轨迹点，用于指导机器人完成拾取放置等任务。开发者可基于 Cosmos 3 微调，使其适配特定机器人形态、相机布局、工作空间或任务。

应用案例

机器人动作数据生成：NVIDIA GEAR 团队正利用 Cosmos 3 开发视频动作模型，帮助具身智能体在游戏、仿真和真实机器人环境中学习推理与行动。Agile Robots 使用 Cosmos 3 为其中的人形机器人（如 Thor 3、FR3）生成动作条件数据，用于策略开发和大规模多样轨迹生成。
智能城市与工业空间推理：Cosmos 3 可识别移动物体、预测路径交叉和未来状态，为交通、工厂、仓库等场景的视觉 AI 代理提供异常检测和根因分析。Linker Vision 借助 Cosmos 3 的视觉语言推理能力分析数千路摄像头实时流，理解空间上下文，提取洞察并优化城市运营。
长尾罕见场景生成：模型能生成物理上合理的视频序列，用于训练人形机器人、机械臂等在真实世界中难以安全、重复捕获的碰撞和边缘案例，支持合成数据流程和未来状态预测。

基准测试与开源

Cosmos 3 在多个开放权重排行榜上位列第一：在智能基础设施场景理解的 VANTAGE-Bench 和交通异常推理的 TAR 挑战中排名领先；在 Artificial Analysis 的开放权重排行、Physics-IQ、R-Bench 和 PAI-Bench 等世界生成基准测试中也位居榜首。

该模型以 Linux 基金会的 OpenMDW 1.1 许可证开放，涵盖权重、架构、文档、数据集、基准和代码，允许训练、修改、贡献、再分发和部署。开发者可在 build.nvidia.com 试用，从 Hugging Face 下载，并在 GitHub 上自定义和生成合成数据。

阅读原文详情

事件概述

核心能力与架构

应用案例

基准测试与开源

准备好启动您的定制项目了吗？