朱玉可提出数据金字塔与「数据海绵」策略,破解人形机器人数据瓶颈

2026/06/04 15:08阅读量 2

德克萨斯大学奥斯汀分校副教授朱玉可在ICRA 2026主题演讲中指出,人形机器人规模化部署的最大瓶颈是数据。他提出三层数据金字塔策略:互联网视频、合成数据与真实机器人数据,并通过世界模型作为“数据海绵”整合所有数据。关键成果包括基于人类动捕的全身控制器SONIC、基于第一人称视频的EgoScale三阶段训练方案,以及DreamZero世界动作模型——AI生成的虚拟轨迹训练价值几乎100%等效于真实数据。

事件概述

2026年6月3日,德克萨斯大学奥斯汀分校副教授、NVIDIA GEAR团队负责人朱玉可(Yuke Zhu)在ICRA 2026大会发表主题演讲,系统性地拆解了人形机器人当前面临的最大瓶颈——数据,并提出了以“数据金字塔”为框架、以“世界模型”为引擎的规模化路径。

核心策略:数据金字塔与数据海绵

朱玉可指出,真实机器人数据质量最高但极其稀缺,仿真数据可无限生成却存在仿真到真实的鸿沟。他提出三层数据金字塔策略:

  • 底层:海量的互联网人类视频数据(被动获取)
  • 中层:可无限生成的合成数据
  • 顶层:真实机器人数据
    核心观点是不押注单一数据源,而是以异质方式汇集三种数据,同时让世界模型扮演“数据海绵”,吸收并整合所有类型数据。

关键成果

SONIC:基于人类动捕的全身控制器

利用大规模人类动作捕捉数据训练人形机器人全身控制器。通过运动跟踪目标大幅简化强化学习的奖励函数设计,实现万小时级别的规模化训练。模型参数量从120万提升到4200万,训练数据量1亿帧(超过10700小时),使用9000个GPU小时。模型可接受遥操作、基础模型输出甚至人类视频作为高级指令,已部署在宇树G1机器人上,全部开源。

EgoScale:第一人称视角视频三阶段训练

从第一人称视角的人类视频中学习,三阶段方案:

  1. 预训练(获取人类知识):仅从人类视频预测手部运动
  2. 对齐训练(压缩知识):在配对的人机数据上对齐表征
  3. 后训练(表达知识):用少量真实机器人数据精调
    当视频数据从1000小时扩展到20000小时,模型性能呈对数线性提升。预训练越好,后训练所需数据越少——最终只需不到1%的真实机器人数据即可完成复杂操作任务。

DreamZero:世界动作模型(World Action Model, WAM)

将视频生成模型转化为动作生成器。从初始帧出发,通过去噪生成清晰视频,并增加扩散通道同步生成动作。测试时仅提取动作执行。纯AI生成的虚拟轨迹在训练价值上几乎100%等效于真实物理数据,显著增强视角泛化能力和样本效率。在此基础上训练的GR00T基础模型(如N1.7)可闭环完成复杂工业装配任务,无需人工干预。

开源与展望

朱玉可强调推动领域前进必须依靠开源。NVIDIA已开源GR00T基础模型、Isaac仿真框架及相关数据集,并发布了首个H2 Plus参考平台。他认为人形机器人技术各要素正在汇聚,但大规模部署仍面临挑战,需要更广泛的研究社区参与。

Q&A(摘录)

听众:如何让基础模型在特定领域达到90%的成功率?
朱玉可:预训练只是第一阶段,后训练和对齐同样关键。需要用高质量领域数据精调,并建立严格评估基准和标准化测试协议。预训练提供泛化底座,后训练提供领域深度,两者缺一不可。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。