NVIDIA Research 在 CVPR 2026 发布三项突破：通用抓取、高效自动驾驶推理与大规模虚拟智能体训练

2026/06/03 23:00阅读量 2

NVIDIA Research 在 CVPR 2026 上提出三项成果，共同强调大规模训练对泛化的作用：GraspGen-X 是首个零样本通用抓取基础模型，通过 20 亿次模拟抓取训练，可适配任意夹爪；LCDrive 用紧凑潜在表示替代文本推理，使自动驾驶在车载硬件上推理速度更快，同时保持输出质量；NitroGen 基于 Isaac GR00T 架构，在超 1000 个游戏和 4 万小时交互中训练，使具身智能体在低数据条件下性能提升最高 52%。

事件概述

NVIDIA Research 在 2026 年计算机视觉与模式识别大会（CVPR）上发表了三篇论文，分别解决机器人抓取、自动驾驶推理和虚拟智能体训练中的关键挑战。三者的共同主题是：大规模训练使 AI 系统能够在多样化的应用场景中实现泛化。

核心发现

GraspGen-X：首个零样本抓取基础模型

问题：现有抓取 AI 多为专用模型，针对特定夹爪（如两指夹爪）训练的策略无法直接用于其他构型夹爪，每换一种夹爪就需要重复训练。
方法：GraspGen-X 是首个为消除上述瓶颈而构建的抓取基础模型。给定新夹爪的几何信息和未知目标物体，模型能直接生成可靠的抓取姿态候选，无需额外训练。
训练数据：研究者生成了 20 亿次模拟抓取，覆盖数千种物体形状和合成夹爪配置，模拟了实际部署中可能遇到的各种形态。
应用：可即插即用于多种常见夹爪，搭配新的 CUDA 加速运动规划库 curoboV2 即可在未知环境中执行抓取。
相关进展：基于 GraspGen 研究基础的另一论文 Grasp-MPC（发表于 ICRA 2026）推进了从抓取生成到闭环抓取执行的下一个步骤。

LCDrive：紧凑潜在推理加速自动驾驶决策

问题：文本链式思维推理（CoT）生成每个单词都需要时间，在车载嵌入式硬件上 token 数量严重限制系统响应速度。
方法：LCDrive 用紧凑的潜在表示（latent representations）取代文本词元。系统在压缩的潜在空间中“思考”，交替进行候选动作提议和世界状态预测，利用预测结果细化下一步决策。
效果：与文本推理相比，产生相当质量的输出轨迹，但只需大约一半的 token 数量。模型基于 NVIDIA Alpamayo 构建，使用现有车辆数据监督训练。

NitroGen：基于 GR00T 的虚拟环境智能体基础模型

背景：NVIDIA Isaac GR00T 是针对人形机器人设计的开放基础模型，原理是让模型暴露足够多样的情境以泛化到未见情况。
方法：NitroGen 将 GR00T 架构扩展到虚拟环境，在超过 1000 个游戏和 4 万小时交互数据上训练，使智能体学会跨环境泛化，涵盖动作角色扮演、平台跳跃、Roguelike、开放世界等多种类型游戏，展现战斗、导航、探索等行为。
价值：在低数据场景（仅见少量新环境样本）下，以 NitroGen 作为初始模型可使性能比此前最优方法提升最高 52%。该模型已在 GitHub 和 Hugging Face 上开源。
潜在应用：可为游戏中更自适应的 NPC、AI 同伴、游戏机制以及复杂游戏环境的测试提供支持，未来还可用于训练处理真实世界指令（如“把物品放到食品柜”）的机器人。

值得关注

GraspGen-X 和 curoboV2 的组合有望大幅降低机器人公司部署不同夹爪时的训练成本。
LCDrive 展示了在计算受限平台上实现基于推理的自动驾驶决策的可行路径。
NitroGen 证明了将 GR00T 架构从机器人扩展到虚拟角色训练的潜力，且开源特性有利于社区进一步开发。

阅读原文详情