NVIDIA Research 在 CVPR 2026 发布三项突破:通用抓取、高效自动驾驶推理与大规模虚拟智能体训练

2026/06/03 23:00阅读量 2

NVIDIA Research 在 CVPR 2026 上提出三项成果,共同强调大规模训练对泛化的作用:GraspGen-X 是首个零样本通用抓取基础模型,通过 20 亿次模拟抓取训练,可适配任意夹爪;LCDrive 用紧凑潜在表示替代文本推理,使自动驾驶在车载硬件上推理速度更快,同时保持输出质量;NitroGen 基于 Isaac GR00T 架构,在超 1000 个游戏和 4 万小时交互中训练,使具身智能体在低数据条件下性能提升最高 52%。

事件概述

NVIDIA Research 在 2026 年计算机视觉与模式识别大会(CVPR)上发表了三篇论文,分别解决机器人抓取、自动驾驶推理和虚拟智能体训练中的关键挑战。三者的共同主题是:大规模训练使 AI 系统能够在多样化的应用场景中实现泛化。

核心发现

GraspGen-X:首个零样本抓取基础模型

  • 问题:现有抓取 AI 多为专用模型,针对特定夹爪(如两指夹爪)训练的策略无法直接用于其他构型夹爪,每换一种夹爪就需要重复训练。
  • 方法:GraspGen-X 是首个为消除上述瓶颈而构建的抓取基础模型。给定新夹爪的几何信息和未知目标物体,模型能直接生成可靠的抓取姿态候选,无需额外训练。
  • 训练数据:研究者生成了 20 亿次模拟抓取,覆盖数千种物体形状和合成夹爪配置,模拟了实际部署中可能遇到的各种形态。
  • 应用:可即插即用于多种常见夹爪,搭配新的 CUDA 加速运动规划库 curoboV2 即可在未知环境中执行抓取。
  • 相关进展:基于 GraspGen 研究基础的另一论文 Grasp-MPC(发表于 ICRA 2026)推进了从抓取生成到闭环抓取执行的下一个步骤。

LCDrive:紧凑潜在推理加速自动驾驶决策

  • 问题:文本链式思维推理(CoT)生成每个单词都需要时间,在车载嵌入式硬件上 token 数量严重限制系统响应速度。
  • 方法:LCDrive 用紧凑的潜在表示(latent representations)取代文本词元。系统在压缩的潜在空间中“思考”,交替进行候选动作提议和世界状态预测,利用预测结果细化下一步决策。
  • 效果:与文本推理相比,产生相当质量的输出轨迹,但只需大约一半的 token 数量。模型基于 NVIDIA Alpamayo 构建,使用现有车辆数据监督训练。

NitroGen:基于 GR00T 的虚拟环境智能体基础模型

  • 背景:NVIDIA Isaac GR00T 是针对人形机器人设计的开放基础模型,原理是让模型暴露足够多样的情境以泛化到未见情况。
  • 方法:NitroGen 将 GR00T 架构扩展到虚拟环境,在超过 1000 个游戏和 4 万小时交互数据上训练,使智能体学会跨环境泛化,涵盖动作角色扮演、平台跳跃、Roguelike、开放世界等多种类型游戏,展现战斗、导航、探索等行为。
  • 价值:在低数据场景(仅见少量新环境样本)下,以 NitroGen 作为初始模型可使性能比此前最优方法提升最高 52%。该模型已在 GitHub 和 Hugging Face 上开源。
  • 潜在应用:可为游戏中更自适应的 NPC、AI 同伴、游戏机制以及复杂游戏环境的测试提供支持,未来还可用于训练处理真实世界指令(如“把物品放到食品柜”)的机器人。

值得关注

  • GraspGen-X 和 curoboV2 的组合有望大幅降低机器人公司部署不同夹爪时的训练成本。
  • LCDrive 展示了在计算受限平台上实现基于推理的自动驾驶决策的可行路径。
  • NitroGen 证明了将 GR00T 架构从机器人扩展到虚拟角色训练的潜力,且开源特性有利于社区进一步开发。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。