朱玉可提出数据金字塔与「数据海绵」策略，破解人形机器人数据瓶颈

2026/06/04 15:08阅读量 2

德克萨斯大学奥斯汀分校副教授朱玉可在ICRA 2026主题演讲中指出，人形机器人规模化部署的最大瓶颈是数据。他提出三层数据金字塔策略：互联网视频、合成数据与真实机器人数据，并通过世界模型作为“数据海绵”整合所有数据。关键成果包括基于人类动捕的全身控制器SONIC、基于第一人称视频的EgoScale三阶段训练方案，以及DreamZero世界动作模型——AI生成的虚拟轨迹训练价值几乎100%等效于真实数据。

事件概述

2026年6月3日，德克萨斯大学奥斯汀分校副教授、NVIDIA GEAR团队负责人朱玉可（Yuke Zhu）在ICRA 2026大会发表主题演讲，系统性地拆解了人形机器人当前面临的最大瓶颈——数据，并提出了以“数据金字塔”为框架、以“世界模型”为引擎的规模化路径。

核心策略：数据金字塔与数据海绵

朱玉可指出，真实机器人数据质量最高但极其稀缺，仿真数据可无限生成却存在仿真到真实的鸿沟。他提出三层数据金字塔策略：

底层：海量的互联网人类视频数据（被动获取）
中层：可无限生成的合成数据
顶层：真实机器人数据
核心观点是不押注单一数据源，而是以异质方式汇集三种数据，同时让世界模型扮演“数据海绵”，吸收并整合所有类型数据。

关键成果

SONIC：基于人类动捕的全身控制器

利用大规模人类动作捕捉数据训练人形机器人全身控制器。通过运动跟踪目标大幅简化强化学习的奖励函数设计，实现万小时级别的规模化训练。模型参数量从120万提升到4200万，训练数据量1亿帧（超过10700小时），使用9000个GPU小时。模型可接受遥操作、基础模型输出甚至人类视频作为高级指令，已部署在宇树G1机器人上，全部开源。

EgoScale：第一人称视角视频三阶段训练

从第一人称视角的人类视频中学习，三阶段方案：

预训练（获取人类知识）：仅从人类视频预测手部运动
对齐训练（压缩知识）：在配对的人机数据上对齐表征
后训练（表达知识）：用少量真实机器人数据精调
当视频数据从1000小时扩展到20000小时，模型性能呈对数线性提升。预训练越好，后训练所需数据越少——最终只需不到1%的真实机器人数据即可完成复杂操作任务。

DreamZero：世界动作模型（World Action Model, WAM）

将视频生成模型转化为动作生成器。从初始帧出发，通过去噪生成清晰视频，并增加扩散通道同步生成动作。测试时仅提取动作执行。纯AI生成的虚拟轨迹在训练价值上几乎100%等效于真实物理数据，显著增强视角泛化能力和样本效率。在此基础上训练的GR00T基础模型（如N1.7）可闭环完成复杂工业装配任务，无需人工干预。

开源与展望

朱玉可强调推动领域前进必须依靠开源。NVIDIA已开源GR00T基础模型、Isaac仿真框架及相关数据集，并发布了首个H2 Plus参考平台。他认为人形机器人技术各要素正在汇聚，但大规模部署仍面临挑战，需要更广泛的研究社区参与。

Q&A（摘录）

听众：如何让基础模型在特定领域达到90%的成功率？
朱玉可：预训练只是第一阶段，后训练和对齐同样关键。需要用高质量领域数据精调，并建立严格评估基准和标准化测试协议。预训练提供泛化底座，后训练提供领域深度，两者缺一不可。

阅读原文详情