宿迁数据前线：世界模型争夺战中的“先上再说”

2026/05/30 00:31阅读量 2

全球训练世界模型需百亿小时数据，目前仅积累不到5%。中国在宿迁等地通过Ego头环大规模采集人类第一视角数据，形成低成本、通用化的数据底座，与美国的算法优势形成对峙。但数据质量缺乏标准，当前策略是先全量采集再让市场筛选。

事件概述

全球具身智能训练面临数据荒：训练类似ChatGPT-5级别的系统需百亿小时语料，而当前可用具身数据仅约50万小时，缺口巨大。由于物理世界交互数据没有互联网文本那样的现成存量，行业需从零开始采集。宿迁作为数据采集前线，展示了中国如何通过基层动员和低成本方案填补这一缺口。

当前行业有四条路线并行：

中国优势：硬件本体与供应链领先。智元机器人2026年3月已完成10000台远征A3下线并外供；中国机器人成本仅为美国同类的十分之一，供应链以周为单位迭代。Ego数据的通用性适配多本体并行生态，形成“共享数据底座+分散试错+周更供应链”的体系。
美国优势：在算法架构（如特斯拉FSD、xAI Grok）上仍有积累，但数据生成速率极低，受限于高成本、隐私合规和供应链短板。算法无法在真实场景中验证。
组织能力差异：美国通过多层代理管理无法高效推进非标准化数据采集；中国在宿迁等地能规模化动员普通民众参与日常场景采集（如工厂车间、果园、养老院），延续了“先全采全收，让模型自己筛选”的策略。

数据质量目前无法提前定义。行业普遍认为高质量数据需从海量数据中自然生成。目前市场交易机制已形成，数据定价约200元/小时，但采集员实际时薪仅30-50元。价格信号倒逼数据筛选，但整体仍处于“迷雾中全速前进”的状态。截至2026年，全球具身数据积累不足需求的5%。

宇树科技机器人2026年春晚表演出圈，但其2026年Q1营收增速从335%骤降至68%，现金流下降85%，早期投资人面临退出压力。高光与阴影并存，赛道仍处于早期布局阶段。