机器人“吃数据”：从印度数据工厂到百亿美元人形机器人的隐秘数据供应链

2026/06/13 11:19阅读量 2

具身智能行业正面临巨大数据缺口，催生出一条从低成本人力采集到真机遥操的机器人数据产业链。英伟达EgoScale研究证明了人类第一视角数据（Ego Data）规模化对灵巧手能力的稳定提升，推动大量初创公司进入数据采集领域。数据按价值分为互联网数据、Ego Data、感知数据、仿真数据和真机数据，价格从几十元到上千元/小时不等。产业链形成五类玩家：低成本数据工厂（如印度Neocambrian AI）、动作采集层、真机数据服务商、仿真合成公司、数据标准平台。机器人公司采用“分层采购”策略：基础通用数据外包，具身适配数据自采，部署失败数据作为核心壁垒。行业期待出现类似Scale AI的机器人数据引擎。

事件概述

具身智能行业（尤其是人形机器人）正在面临训练数据极度稀缺的瓶颈。模型能力迟迟无法突破，核心制约在于数据规模不足。这使得围绕机器人训练数据的采集、标注、合成等产业链迅速形成，从印度等低成本地区的Ego Data（人类第一视角视频）工厂，到遥操真机数据服务商，再到仿真合成数据公司，已出现多层次的“卖水人”。

数据缺口：机器人为何缺数据

与大语言模型（LLM）依赖互联网海量文本不同，机器人的物理世界动作数据无法自动产生。即使互联网上有大量人类工作视频，但质量和规模不足以训练具身模型。Figure创始人Brett Adcock直言，如果能瞬间获得海量数据，通用机器人即可实现。英伟达今年2月发布的EgoScale研究证明，使用超2万小时带动作标注的人类第一视角视频预训练模型，再以少量机器人数据微调，可让灵巧手完成拧瓶盖、叠衣服等任务，且模型表现随人类数据规模稳定提升。这为具身模型提供了可Scaling的数据路线，推动了Ego Data产业链加速发展。

数据金字塔：从低成本到高价值

机器人训练数据按价值和成本可形成金字塔结构：

互联网数据：几乎免费，可帮助机器人“知道”物体样貌，但无法教其“做到”。
人类Ego Data：头戴或胸戴摄像头拍摄的第一视角视频，提供人类完成任务的过程经验。价格约几十元/小时，适合大规模预训练。
感知数据（数据手套等）：记录手部精细动作（力度、轨迹等），成本迅速上升，可帮助模型理解如何执行动作。
仿真数据：数字孪生环境中高速生成，量大便宜，但存在“Sim-to-Real Gap”，真实环境表现可能下降。
真机数据：通过遥操作机器人本体采集，包含视觉、动作、传感器状态，质量最高、最稀缺，价格数百至上千元/小时。

产业链玩家：五类数据公司

低成本数据工厂：集中在印度、泰国等地，组织人力佩戴摄像设备按标准SOP采集Ego Data。例如Neocambrian AI在印度启动机器人数据工厂。优势是快速规模化，但壁垒低、易商品化。
动作采集与对齐层：提供数据手套、动捕、手部追踪、动作重定向等技术，解决人类动作到机器人动作的映射问题。核心价值是稳定的“动作翻译”。
Robot-Native数据层：第三方遥操和真机数据服务商，深度绑定特定机器人硬件，提供操作员、场地和机器人本体采集能力。
仿真合成数据公司：不仅生产仿真数据，还帮助客户分析任务失效原因，迭代数据策略。英伟达GR00T路线强调真实数据与合成数据组合。
数据标准与平台层：推动具身数据标准化、协同采集，解决格式碎片化问题，提升数据流通性。

机器人公司的采购策略：分层采购

基础通用数据（如厨房收纳）：外包给低成本数据工厂，因为这类数据属于通用物理世界认知，自己搭建团队成本高。
具身适配数据：机器人公司倾向于自采，因为每家公司机器人本体差异大（灵巧手、自由度不同），动作逻辑难以通用，接近模型核心竞争力。
部署数据与失败数据：在真实环境中产生，极具价值但难以提前设计。头部公司将其视为核心壁垒，不对外分享。

行业展望：机器人版Scale AI？

类似2022年大模型催生Scale AI这样的数据服务巨头，机器人数据领域可能出现“数据工厂”与“数据引擎”两种路径。数据工厂依赖人力快速产生现金流，但壁垒有限；数据引擎则专注于任务分类、结构搭建、动作重定向、仿真迭代，致力于让机器人持续变聪明。目前行业仍处于早期，谁能解决数据供给的标准化和持续性问题，谁就有可能占据主动权。

阅读原文详情