北大董豪:仅停留在数据层面的Scaling Law,教不出通用机器人

2026/06/16 10:27阅读量 2

北大副教授董豪提出具身智能的“二维横向Scaling Law”新思路,认为当前模仿学习、强化学习、仿真数据各有硬伤;需在数据量之外增加任务数量维度,通过世界模型和生成式数据增强降低采集成本,加速通用机器人规模化落地。

事件概述

北大副教授、上纬启元首席科学家董豪在百度智能云具身智能论坛上分享了对具身智能模型技术路线的观点。他指出当前主流方法(模仿学习、强化学习、仿真数据)均有显著短板,并提出了“数据量×任务量”的二维横向Scaling Law,作为通往通用具身智能的关键路径。

核心信息

  • 模仿学习的局限:模仿学习可快速冷启动,但其训练样本全为正确轨迹,缺失错误样本分布;机器人在真实场景出错后缺乏自主调整能力。北京智源研究院基于15款异构双臂机器人构建了多模态数据集训练的VLA模型,上海人工智能实验室推出的纯仿真数据集InternData-A1在多项任务中成功率甚至超过真机数据,但这些仍属于一维数据缩放逻辑。
  • 强化学习的补充:强化学习可补齐模仿学习的容错短板。董豪以经典Dagger框架为例,说明需引入故障场景样本,通过人工干预纠错后纳入训练。其团队已实现机器人全自主洗衣流程,失败时可主动重试,无需人工介入。
  • 二维横向Scaling Law:传统一维Scaling Law(仅数据量维度)无法支撑通用具身智能的长期增长。董豪提出增加“任务数量”坐标轴,形成二维增长曲线。理想状态下,数据集扩充时新任务初始完成率同步上升,达成高成功率所需样本量持续下降(即“越学越省”)。世界模型、Umi、人类视频预训练等热门技术,底层目标均为加速该曲线成型。
  • 数据增强与低成本采集:团队利用世界模型和生成式AI,单条真机采集轨迹可生成50条物体摆放、空间位置差异化的等效训练数据。通过穿戴式手持相机记录人类操作视频,可直接转化为机器人训练轨迹,大幅降低采集成本。模型已可识别各类家电,接收“焖米饭、榨橙汁”等指令后自主操作。

值得关注

董豪强调,行业需跳出传统一维Scaling Law思维,以二维视角重构研发思路。在稳定任务成功率的前提下,通过增量数据持续拓展机器人可执行任务边界,是通用具身智能、家用服务机器人规模化商业化的必要前提。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。