2.7TB高质量数据开源，蚂蚁灵波打造空间智能SOTA新基座

2026/03/31 13:53阅读量 62

蚂蚁灵波开源了规模达2.71TB的LingBot-Depth-Dataset数据集，包含300万对RGB-D标注数据，涵盖真实场景与合成数据。该数据集基于6款主流深度相机采集，有效解决了透明及反光物体感知难题，并支撑模型在多项基准测试中达到SOTA水平。此举标志着具身智能行业从依赖堆砌硬件转向以数据和算法为核心的发展路径。

事件概述

具身智能领域长期面临高质量三维数据匮乏的瓶颈，导致机器人难以应对玻璃、镜面等复杂场景。为此，蚂蚁灵波（Ant Lingbo）正式开源了全栈空间智能数据基建 LingBot-Depth-Dataset，旨在通过软件手段提升机器人的空间感知能力，减少对昂贵硬件传感器的过度依赖。

核心信息

1. 数据集规模与构成

总规模：2.71TB（约2700GB）。
数据总量：包含300万对标注RGB-D数据。
数据分布：
- 真实数据（RobbyReal）：约200万对。其中140万对来自多台RGB-D相机采集的真实室内场景（住宅、教室、博物馆、医院等），58万对来自机器人在VLA任务中的采集数据（RobbyVla）。
- 合成数据（RobbySim）：约100万对，由双相机视角渲染生成，用于覆盖边缘场景并降低成本。
- 验证集（RobbySimVal）：3.8万条仿真数据。

2. 技术特性与多样性

多传感器覆盖：数据采集使用了 Orbbec 335/335L 以及 Intel RealSense D405/D415/D435/D455 共6款主流深度相机。不同设备的成像特性、噪声模式和深度精度差异，使数据集天然具备多传感器分布特征，增强了模型的泛化能力。
解决痛点：针对传统RGB-D相机在透明物体（镜子、玻璃门）、反光表面及低纹理墙面失效的问题，该数据集提供了高质量的“真值深度图”作为训练底座，帮助模型学会识别和补全这些困难场景。

3. 模型成果与应用

基于该数据集训练的模型已实现业界领先（SOTA）：

LingBot-Depth：在 iBims、NYUv2 和 DIODE 等多项权威深度补全基准测试中取得第一。部署后能驱动机器人稳健抓取透明和反光物体。
LingBot-VLA：打通视觉、语言与动作，实现决策规划。
LingBot-World：提供仿真训练场。
LingBot-VA：实现世界模型直接驱动机器人动作，达成“边推演，边执行”。

值得关注

行业范式转变：此次开源体现了物理AI（Physical AI）领域的共识——优先通过高质量数据和算法架构升级来提升空间感知能力，而非单纯堆砌更多或更贵的传感器。这一思路与自动驾驶行业的发展路径高度一致，有望降低具身智能的商业化门槛。
生态建设：蚂蚁灵波正逐步构建从感知到决策的具身智能“大脑平台”，其开源策略为行业提供了可复用的数据基座，有助于加速整个生态的技术迭代。

阅读原文详情