国内首个!具身数采「黑箱」正式开源,具身数据昂贵的时代结束了
自变量机器人(X-Square Robot)开源了无本体机器人数据采集系统XRZero-G0,包含完整数采链路与2000+小时、覆盖3000个任务的多模态数据集。系统通过三摄像头、虚拟限位器、真机回放三层安检机制,将数据入库有效率提升至85%以上。关键实验表明,仅用50条真机数据混合500条无本体数据训练,效果与500条纯真机数据相当,成本降至传统方式的二十分之一,且模型可实现零样本跨本体迁移。
事件概述
自变量机器人(X-Square Robot)近日开源了国内首个无本体机器人数据采集系统 XRZero-G0,同时打包发布了超过2000小时、覆盖3000个任务的多模态无本体数据集。该系统不仅提供数据采集方案,还包含质检、训练到真机评测的完整链路,有望大幅降低具身智能行业的数据采集门槛和成本。
核心信息
1. 三层数据质量安检机制
- 三摄像头布局:操作员佩戴PICO VR头显,头顶安装全局相机,左右手腕各挂一个相机,配合背包边缘计算实现时空对齐,位姿精度≤4毫米,有效解决遮挡和漂移问题。
- 虚拟限位器(IK验证):自动过滤超出机器人关节极限的动作,避免遥操作时损坏电机。
- 真机回放验证:随机抽取部分数据直接在真实双臂机器人上做开环回放,只有任务成功完成的数据才入库。
经过三层筛选,数据入库有效率超过85%。采集速度上,简单任务从35秒压缩到15秒(提速2.33倍),复杂任务提速1.71倍,峰值可达93.2条轨迹/小时。
2. 数据混合训练的“黄金比例”
团队进行了系统性对比实验:
- 500条纯真机数据(基线)
- 500条真机+500条无本体(1:1)
- 50条真机+500条无本体(1:10)
结果发现,1:10混合方案的成功率与500条纯真机基线持平甚至更高,意味着真机数据用量可砍掉90%,总成本降至传统方式的二十分之一。论文将这种现象解释为“少样本物理锚定效应”。
3. 零样本跨本体迁移能力
由于XRZero-G0采用背包式采集,操作员走动过程中视角、高度、光照天然动态变化,模型因此练就强鲁棒性。将混合数据训出的模型直接部署到未见过的机器人本体(如EX001和CX001)上,无需真机数据,即可完成插花、叠毛巾、装香肠等任务。
值得关注
XRZero-G0 背后的公司是自变量机器人(X-Square Robot),该公司从成立之初便选择端到端大模型路线,同时探索VLA、WM、WUM等多条技术路径,并持续建设基础设施(此前已有WALL-OSS等开源项目)。不到两年完成9轮融资,估值过百亿元,投资方包括字节、美团、阿里、小米等。此次开源旨在推动全行业数据飞轮转动,加速具身智能“ChatGPT时刻”的到来。
项目地址:https://github.com/X-Square-Robot/XRZero-G0
论文地址:https://arxiv.org/abs/2604.13001
