具身智能进入数据深水区：200位从业者共识——先想透问题，再谈堆数据

2026/04/28 12:27阅读量 6

2026年具身智能行业焦点从硬件本体转向数据模型，近200位从业者指出当前面临认知对齐难、真机数据利用率低及仿真与物理世界存在鸿沟等核心挑战。蚂蚁灵波乐聚机器人等机构通过构建包含2万小时真机数据的预训练闭环，并联合举办挑战赛推动基准测试标准化。专家强调数据质量优于数量，需建立统一标准以解决莫拉维克悖论，未来将向无感化数据采集与分工协作生态演进。

事件概述

2026年4月，量子位联合蚂蚁灵波与乐聚机器人举办沙龙，汇聚近200位具身智能一线从业者与研究员。会议核心议题聚焦于具身智能如何突破实验室瓶颈，真正走向物理世界。与会者普遍认为，行业已从“堆砌硬件”阶段进入“数据模型”攻坚期，但大规模数据采集、标注、评测及训练效率仍面临严峻挑战。

核心事实与发现

1. 数据供给的三大瓶颈

难以获取：依赖真机采集且需人工参与，成本高、效率低。
跨本体复用难：数据包含视觉、位姿、力反馈等多维信息，格式复杂，缺乏统一标准。
流转割裂：采集、处理与训练链路未打通，缺乏规模化生产能力。

2. 关键数据洞察

有效数据稀缺：上海交通大学李永露指出，约12万小时的Ego-centric人类行为数据中，真正可用于VLA（视觉-语言-动作）预训练的数据不足5000小时；某机构公开的11万小时工厂视频数据，可用比例乐观估计仅3%。
利用率极低：北京智源研究院姚国才计算称，人每天交互10小时持续10年仅约3万小时，而10岁儿童利用这些数据已能完成海量任务，说明当前范式对数据利用率过低。
认知对齐困难：北京人形机器人创新中心车正平强调，大规模采集中最难的是让数采员理解算法需求，多相机视角与自然视角的差距导致数据无法支撑精细操作。

3. 模型与架构进展

LingBot-VLA实践：蚂蚁灵波郑可成介绍，其模型基于2万小时真机数据预训练，覆盖9种机器人构型。通过引入深度模型蒸馏技术，解决了透明、反光物体的深度估计难题。Scaling实验显示增加数据量有助于加速后训练收敛，但尚未完全证明Scaling Law在具身领域成立。
GM-100评测基准：上海交大李永露发布GM-100基准，包含100个涵盖长尾物理过程的任务（如串糖葫芦、弹球入框）。Pi 0.5得分仅13分，LingBot-VLA + Depth得分17分，整体成功率偏低。李永露认为“低分未必代表好”，高门槛基准才能反映真实能力。

4. 仿真与真机的关系

物理鸿沟：蚂蚁灵波黄用韬指出，仿真与真机在末端执行器接触交互上存在难以弥合的物理Gap。
VIP标准：车正平提出VIP仿真标准（Visual视觉、Interactive交互、Physical物理），认为若策略在仿真中成功率达90%，零样本迁移至真机应至少达到60%-70%才算合格。仿真无法替代真机，但可大幅压缩真机依赖。

值得关注：赛事与生态建设

天池第一届具身智能操作任务挑战赛：由乐聚、阿里云与蚂蚁灵波联合举办，总奖金50万人民币，预计2026年7月公布结果，聚焦3个真实工业场景。
ICRA 2026 REAL-I挑战赛：2026年1月启动，6月维也纳决赛，设置小件翻面、包裹称重分拣等3个工业任务，官方推荐基线为LingBot-VLA。
未来路径：库帕思曹宇预判行业将从封闭全链路走向分工协作生态（场景方开放、数据方沉淀、模型方迭代）；采集方式将向无感化演进，类似自动驾驶车辆自动回传数据。

阅读原文详情