GTC 2026揭示机器人趋势：显式中间层被抛弃，感知直接映射动作

2026/03/19 17:27阅读量 18

GTC 2026显示机器人技术正从依赖语言等显式中间层的分层架构，转向感知与动作的直接端到端映射。以 Fast-WAM 为代表的研究证实，移除推理阶段的“未来想象”步骤可显著降低延迟（约4倍至190毫秒）且性能影响微小。这一变革由大规模仿真、算力提升及数据闭环机制的成熟共同推动，标志着机器人系统从“理解优先”向“控制优先”的工程化转型。

事件概述

在 GTC 2026 上，英伟达展示了机器人技术的最新演进方向：减少对语言、任务分解等“显式中间层”的依赖，转而通过统一表示空间实现从感知到动作的直接决策。这一趋势旨在解决传统架构中因多层转换导致的延迟高、误差积累等问题，同时保持甚至提升系统性能。

核心事实与技术细节

1. 架构变革：从分层推理到直接映射

传统 VLA 模型局限：以往视觉 - 语言 - 动作（VLA）模型依赖语言作为任务拆解的中间层，导致高层低频决策与底层高频控制之间存在时间尺度不匹配，引发延迟和跨层误差。
新路径特征：新版系统将视觉输入、环境状态与任务条件直接送入策略模型，在隐空间完成推理并输出连续控制信号（如关节角速度），不再需要生成显式的语义指令。
世界模型（WAM）的简化：参考清华大学交叉信息研究院与 Galaxea AI 发布的《Fast-WAM: Do World Action Models Need Test-time Future Imagination?》论文，研究者验证了在推理阶段移除“未来想象”（即预测未来轨迹）的可行性。
- 实验结论：移除 test-time imagination 后，对任务性能影响微乎其微；但移除视频训练则会导致性能显著下降。
- 效率提升：Fast-WAM 将推理延迟降低至约 190 毫秒，相比需进行未来想象的方案提升了约 4 倍。

2. 技术驱动因素

仿真与数据生成：基于 NVIDIA Isaac Sim 的大规模仿真能力，使得在虚拟环境中生成包含成功/失败标签的高质量交互数据成为可能，降低了对昂贵真实数据的依赖。
算力与模型结构：GPU 算力的提升及时序 Transformer、扩散策略等模型结构的进步，支持了隐式决策模型在统一表示空间中的稳定运行。
数据闭环机制：训练模式从依赖人工语言标注转向依赖交互反馈（轨迹、奖励信号）。系统通过“执行 - 反馈 - 再训练”循环优化，削弱了中间层组织决策的必要性。

3. 工程化取舍与挑战

优势：响应速度显著提升，系统结构更紧凑（如神经策略直接输出关节控制信号）。
代价：
- 可解释性下降：端到端或隐式模型难以像分层系统那样定位具体错误环节。
- 调试难度增加：问题诊断从模块接口转向数据分布、奖励函数设计及仿真与现实差异（Sim-to-Real Gap）。
- 泛化限制：隐式表达更依赖训练数据分布，跨任务迁移能力仍面临挑战。
适用场景：目前该方法在仓储、制造等结构相对稳定的场景中表现更佳。

行业启示

机器人领域正经历从“以理解为中心”向“以控制为中心”的范式转移。语言和未来想象并未完全消失，而是退居为训练阶段的监督信号或约束条件，不再作为实时决策的必要步骤。这种从规则符号、感知规划到直接感知 - 动作映射的演进路径，与智能驾驶技术的发展轨迹高度相似。

阅读原文详情