GTC 2026揭示机器人趋势:显式中间层被抛弃,感知直接映射动作

GTC 2026显示机器人技术正从依赖语言等显式中间层的分层架构,转向感知与动作的直接端到端映射。以 Fast-WAM 为代表的研究证实,移除推理阶段的“未来想象”步骤可显著降低延迟(约4倍至190毫秒)且性能影响微小。这一变革由大规模仿真、算力提升及数据闭环机制的成熟共同推动,标志着机器人系统从“理解优先”向“控制优先”的工程化转型。

事件概述

在 GTC 2026 上,英伟达展示了机器人技术的最新演进方向:减少对语言、任务分解等“显式中间层”的依赖,转而通过统一表示空间实现从感知到动作的直接决策。这一趋势旨在解决传统架构中因多层转换导致的延迟高、误差积累等问题,同时保持甚至提升系统性能。

核心事实与技术细节

1. 架构变革:从分层推理到直接映射

  • 传统 VLA 模型局限:以往视觉 - 语言 - 动作(VLA)模型依赖语言作为任务拆解的中间层,导致高层低频决策与底层高频控制之间存在时间尺度不匹配,引发延迟和跨层误差。
  • 新路径特征:新版系统将视觉输入、环境状态与任务条件直接送入策略模型,在隐空间完成推理并输出连续控制信号(如关节角速度),不再需要生成显式的语义指令。
  • 世界模型(WAM)的简化:参考清华大学交叉信息研究院与 Galaxea AI 发布的《Fast-WAM: Do World Action Models Need Test-time Future Imagination?》论文,研究者验证了在推理阶段移除“未来想象”(即预测未来轨迹)的可行性。
    • 实验结论:移除 test-time imagination 后,对任务性能影响微乎其微;但移除视频训练则会导致性能显著下降。
    • 效率提升:Fast-WAM 将推理延迟降低至约 190 毫秒,相比需进行未来想象的方案提升了约 4 倍。

2. 技术驱动因素

  • 仿真与数据生成:基于 NVIDIA Isaac Sim 的大规模仿真能力,使得在虚拟环境中生成包含成功/失败标签的高质量交互数据成为可能,降低了对昂贵真实数据的依赖。
  • 算力与模型结构:GPU 算力的提升及时序 Transformer、扩散策略等模型结构的进步,支持了隐式决策模型在统一表示空间中的稳定运行。
  • 数据闭环机制:训练模式从依赖人工语言标注转向依赖交互反馈(轨迹、奖励信号)。系统通过“执行 - 反馈 - 再训练”循环优化,削弱了中间层组织决策的必要性。

3. 工程化取舍与挑战

  • 优势:响应速度显著提升,系统结构更紧凑(如神经策略直接输出关节控制信号)。
  • 代价
    • 可解释性下降:端到端或隐式模型难以像分层系统那样定位具体错误环节。
    • 调试难度增加:问题诊断从模块接口转向数据分布、奖励函数设计及仿真与现实差异(Sim-to-Real Gap)。
    • 泛化限制:隐式表达更依赖训练数据分布,跨任务迁移能力仍面临挑战。
  • 适用场景:目前该方法在仓储、制造等结构相对稳定的场景中表现更佳。

行业启示

机器人领域正经历从“以理解为中心”向“以控制为中心”的范式转移。语言和未来想象并未完全消失,而是退居为训练阶段的监督信号或约束条件,不再作为实时决策的必要步骤。这种从规则符号、感知规划到直接感知 - 动作映射的演进路径,与智能驾驶技术的发展轨迹高度相似。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。