宿迁千人采集“数字燃料”:京东如何用人类经验喂养机器人大脑

2026/05/22 20:27阅读量 2

京东在宿迁启动大规模具身数据采集,动员10万居民采集千万小时第一视角人类操作数据,解决机器人训练的数据荒。京东利用自身物流、零售、家政等场景优势,构建采存标训全链路数据基础设施,并开放数据平台,目标成为具身智能时代的基础设施提供商。

事件概述

京东在江苏宿迁启动全球最大规模具身数据采集项目,计划两年内采集1000万小时人类真实场景视频数据,以解决具身智能产业面临的“数据荒”瓶颈。该项目依托京东自身零售、物流、家政等场景优势,动员本地居民参与数据采集,并构建全链路数据基础设施。

核心信息

  • 数据短缺是具身智能关键瓶颈:训练泛化能力强的具身大模型需要数千万至数亿小时训练数据,而全行业可用数据集仅几十万小时,相差两个数量级。物理AI真机交互数据量不足大语言模型的1/20000。原始视频对机器人训练无效,需要精细处理为结构化数据。
  • 第一视角数据是稀缺资源:相比互联网视频,第一视角数据记录视线移动、手眼协同、空间关系、动作修正等隐性信息,是机器人模仿学习的基础。英伟达EgoScale框架等研究证实,数据规模越大,VLA模型任务成功率越高。
  • 京东的独特优势:京东拥有3600多个智能库房、超万家线下门店、5万名家政人员等真实产业场景,覆盖零售、物流、健康、家政、工业,能够持续获得跨场景人类操作数据。京东自研JoyEgoCam采集设备,结合云AI数据湖处理,模型训练效率提升3.5倍。基于此训练的JoyAI-RA模型在仿真与真机测评中任务成功率73.5%,超过英伟达GR00T N1.6等模型。
  • 宿迁模式:宿迁是刘强东老家,京东在此投资超200亿元。数据采集居民分布在果园、服装厂、康养机构等,日常劳作被采集为训练数据。市民成为“机器人老师”,同时催生数据采集师、标注师等新职业,实现本地化就业。
  • 开放数据生态:京东上线具身智能数据交易平台,首批开放EgoLive高精标注数据集(60FPS,300余任务场景)。京东定位为行业基础设施,邀请合作伙伴共建数据生态。
  • 产业落地:零售侧JoyInside方案已与近200个品牌合作,2026年助力机器人品牌销售额破百亿元;物流侧搭建机器人售后维修生态,工程师团队扩至万人;工业侧打造一站式供应链服务。

值得关注

京东此举将人类操作经验转化为可复用的数字资产,标志着具身智能竞争从模型能力转向数据基础设施规模。宿迁模式体现了数字经济与本地就业的结合,未来可能复制到更多城市。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。