具身智能进入数据深水区:200位从业者共识——先想透问题,再谈堆数据

2026/04/28 12:27阅读量 6

2026年具身智能行业焦点从硬件本体转向数据模型,近200位从业者指出当前面临认知对齐难、真机数据利用率低及仿真与物理世界存在鸿沟等核心挑战。蚂蚁灵波乐聚机器人等机构通过构建包含2万小时真机数据的预训练闭环,并联合举办挑战赛推动基准测试标准化。专家强调数据质量优于数量,需建立统一标准以解决莫拉维克悖论,未来将向无感化数据采集与分工协作生态演进。

事件概述

2026年4月,量子位联合蚂蚁灵波与乐聚机器人举办沙龙,汇聚近200位具身智能一线从业者与研究员。会议核心议题聚焦于具身智能如何突破实验室瓶颈,真正走向物理世界。与会者普遍认为,行业已从“堆砌硬件”阶段进入“数据模型”攻坚期,但大规模数据采集、标注、评测及训练效率仍面临严峻挑战。

核心事实与发现

1. 数据供给的三大瓶颈

  • 难以获取:依赖真机采集且需人工参与,成本高、效率低。
  • 跨本体复用难:数据包含视觉、位姿、力反馈等多维信息,格式复杂,缺乏统一标准。
  • 流转割裂:采集、处理与训练链路未打通,缺乏规模化生产能力。

2. 关键数据洞察

  • 有效数据稀缺:上海交通大学李永露指出,约12万小时的Ego-centric人类行为数据中,真正可用于VLA(视觉-语言-动作)预训练的数据不足5000小时;某机构公开的11万小时工厂视频数据,可用比例乐观估计仅3%。
  • 利用率极低:北京智源研究院姚国才计算称,人每天交互10小时持续10年仅约3万小时,而10岁儿童利用这些数据已能完成海量任务,说明当前范式对数据利用率过低。
  • 认知对齐困难:北京人形机器人创新中心车正平强调,大规模采集中最难的是让数采员理解算法需求,多相机视角与自然视角的差距导致数据无法支撑精细操作。

3. 模型与架构进展

  • LingBot-VLA实践:蚂蚁灵波郑可成介绍,其模型基于2万小时真机数据预训练,覆盖9种机器人构型。通过引入深度模型蒸馏技术,解决了透明、反光物体的深度估计难题。Scaling实验显示增加数据量有助于加速后训练收敛,但尚未完全证明Scaling Law在具身领域成立。
  • GM-100评测基准:上海交大李永露发布GM-100基准,包含100个涵盖长尾物理过程的任务(如串糖葫芦、弹球入框)。Pi 0.5得分仅13分,LingBot-VLA + Depth得分17分,整体成功率偏低。李永露认为“低分未必代表好”,高门槛基准才能反映真实能力。

4. 仿真与真机的关系

  • 物理鸿沟:蚂蚁灵波黄用韬指出,仿真与真机在末端执行器接触交互上存在难以弥合的物理Gap。
  • VIP标准:车正平提出VIP仿真标准(Visual视觉、Interactive交互、Physical物理),认为若策略在仿真中成功率达90%,零样本迁移至真机应至少达到60%-70%才算合格。仿真无法替代真机,但可大幅压缩真机依赖。

值得关注:赛事与生态建设

  • 天池第一届具身智能操作任务挑战赛:由乐聚、阿里云与蚂蚁灵波联合举办,总奖金50万人民币,预计2026年7月公布结果,聚焦3个真实工业场景。
  • ICRA 2026 REAL-I挑战赛:2026年1月启动,6月维也纳决赛,设置小件翻面、包裹称重分拣等3个工业任务,官方推荐基线为LingBot-VLA。
  • 未来路径:库帕思曹宇预判行业将从封闭全链路走向分工协作生态(场景方开放、数据方沉淀、模型方迭代);采集方式将向无感化演进,类似自动驾驶车辆自动回传数据。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。