机器人“吃数据”:从印度数据工厂到百亿美元人形机器人的隐秘数据供应链
具身智能行业正面临巨大数据缺口,催生出一条从低成本人力采集到真机遥操的机器人数据产业链。英伟达EgoScale研究证明了人类第一视角数据(Ego Data)规模化对灵巧手能力的稳定提升,推动大量初创公司进入数据采集领域。数据按价值分为互联网数据、Ego Data、感知数据、仿真数据和真机数据,价格从几十元到上千元/小时不等。产业链形成五类玩家:低成本数据工厂(如印度Neocambrian AI)、动作采集层、真机数据服务商、仿真合成公司、数据标准平台。机器人公司采用“分层采购”策略:基础通用数据外包,具身适配数据自采,部署失败数据作为核心壁垒。行业期待出现类似Scale AI的机器人数据引擎。
事件概述
具身智能行业(尤其是人形机器人)正在面临训练数据极度稀缺的瓶颈。模型能力迟迟无法突破,核心制约在于数据规模不足。这使得围绕机器人训练数据的采集、标注、合成等产业链迅速形成,从印度等低成本地区的Ego Data(人类第一视角视频)工厂,到遥操真机数据服务商,再到仿真合成数据公司,已出现多层次的“卖水人”。
数据缺口:机器人为何缺数据
与大语言模型(LLM)依赖互联网海量文本不同,机器人的物理世界动作数据无法自动产生。即使互联网上有大量人类工作视频,但质量和规模不足以训练具身模型。Figure创始人Brett Adcock直言,如果能瞬间获得海量数据,通用机器人即可实现。英伟达今年2月发布的EgoScale研究证明,使用超2万小时带动作标注的人类第一视角视频预训练模型,再以少量机器人数据微调,可让灵巧手完成拧瓶盖、叠衣服等任务,且模型表现随人类数据规模稳定提升。这为具身模型提供了可Scaling的数据路线,推动了Ego Data产业链加速发展。
数据金字塔:从低成本到高价值
机器人训练数据按价值和成本可形成金字塔结构:
- 互联网数据:几乎免费,可帮助机器人“知道”物体样貌,但无法教其“做到”。
- 人类Ego Data:头戴或胸戴摄像头拍摄的第一视角视频,提供人类完成任务的过程经验。价格约几十元/小时,适合大规模预训练。
- 感知数据(数据手套等):记录手部精细动作(力度、轨迹等),成本迅速上升,可帮助模型理解如何执行动作。
- 仿真数据:数字孪生环境中高速生成,量大便宜,但存在“Sim-to-Real Gap”,真实环境表现可能下降。
- 真机数据:通过遥操作机器人本体采集,包含视觉、动作、传感器状态,质量最高、最稀缺,价格数百至上千元/小时。
产业链玩家:五类数据公司
- 低成本数据工厂:集中在印度、泰国等地,组织人力佩戴摄像设备按标准SOP采集Ego Data。例如Neocambrian AI在印度启动机器人数据工厂。优势是快速规模化,但壁垒低、易商品化。
- 动作采集与对齐层:提供数据手套、动捕、手部追踪、动作重定向等技术,解决人类动作到机器人动作的映射问题。核心价值是稳定的“动作翻译”。
- Robot-Native数据层:第三方遥操和真机数据服务商,深度绑定特定机器人硬件,提供操作员、场地和机器人本体采集能力。
- 仿真合成数据公司:不仅生产仿真数据,还帮助客户分析任务失效原因,迭代数据策略。英伟达GR00T路线强调真实数据与合成数据组合。
- 数据标准与平台层:推动具身数据标准化、协同采集,解决格式碎片化问题,提升数据流通性。
机器人公司的采购策略:分层采购
- 基础通用数据(如厨房收纳):外包给低成本数据工厂,因为这类数据属于通用物理世界认知,自己搭建团队成本高。
- 具身适配数据:机器人公司倾向于自采,因为每家公司机器人本体差异大(灵巧手、自由度不同),动作逻辑难以通用,接近模型核心竞争力。
- 部署数据与失败数据:在真实环境中产生,极具价值但难以提前设计。头部公司将其视为核心壁垒,不对外分享。
行业展望:机器人版Scale AI?
类似2022年大模型催生Scale AI这样的数据服务巨头,机器人数据领域可能出现“数据工厂”与“数据引擎”两种路径。数据工厂依赖人力快速产生现金流,但壁垒有限;数据引擎则专注于任务分类、结构搭建、动作重定向、仿真迭代,致力于让机器人持续变聪明。目前行业仍处于早期,谁能解决数据供给的标准化和持续性问题,谁就有可能占据主动权。
