BEV 杀入具身智能：跨维用 Dexterity-BEV 统一机器人数据空间

2026/06/12 12:11阅读量 2

跨维智能提出 Dexterity-BEV，将 BEV（鸟瞰视图）方法系统应用于具身智能数据基建，构建统一空间坐标系，对齐多源、多本体、多视角的机器人数据。实验显示，该方法在视角变化、机器人基座扰动、场景布局变化及跨平台迁移等挑战下，模型泛化能力显著优于传统 2D VLA 方法，为具身智能规模化训练提供了关键数据基础设施。

事件概述

具身智能正面临与自动驾驶数年前类似的困境：机器人数据来自不同相机、不同本体、不同坐标系，缺乏统一的空间基准，导致数据难以互通、难以统一训练、难以跨机迁移。跨维智能提出的 Dexterity-BEV，模仿自动驾驶中 BEV（Bird's-Eye View，鸟瞰视图）的范式，将视觉输入、机器人状态和目标动作对齐到同一个 BEV 三维参考系，试图为具身智能建立可规模化的数据秩序。

核心方法

统一 BEV 对齐坐标系：不再让每个相机各自为政，而是将所有感知结果转换到一个虚拟俯视空间，使不同视角、不同机器人的数据变得可比较、可复用。
轻量 3D 空间编码：保留多视角 RGB 输入，复用已有 2D 视觉编码器和视觉语言模型，同时通过 顶点图（vertex map） 和 顶点谱（vertex spectrum） 为每个视觉 token 注入三维空间位置。对于有深度信息的设备可利用深度图生成像素级三维顶点表示；对于纯 RGB 相机，通过顶点谱机制为每个像素构建一组三维位置假设，再编码进视觉特征，从而在不重造重型 3D 系统的前提下补上空间坐标。
动作对齐到同一参考系：模型不直接学习关节角度，而是学习末端执行器在统一 BEV 空间中的目标位置、姿态和移动方式，从而解耦本体硬件差异，实现跨机器人平台的动作迁移。
跨轨迹时序对齐：对不同操作者、不同机器人执行同一任务的轨迹进行时间尺度规整，消除“谁操作得快、谁操作得慢”带来的无效差异，使模型更专注于任务的核心动作顺序与空间关系。

实验验证

在仿真环境（LIBERO、RoboTwin 2.0）和真实机器人上，Dexterity-BEV 与 π0、X-VLA 等基线对比。当相机视角、机器人基座、场景布局被大幅扰动时，传统 2D VLA 方法成功率明显下降，而 Dexterity-BEV 仍能保持稳定表现。真实机器人实验覆盖四类双臂平台和多种长程任务，包括折叠纸盒、折布、舀爆米花、递书等涉及刚体、柔性物体、颗粒物及双臂协同的场景，表明模型真正学到了物理世界中的任务理解而非仅记忆固定视角的图像模式。

值得关注

Dexterity-BEV 的意义不限于单点模型提升，更代表了具身智能从“堆数据”阶段进入“建数据秩序”阶段。它先建立统一物理空间，再谈数据规模化，类似于 BEV 对自动驾驶的变革——将杂乱的多相机感知统一为可消费的物理坐标。这种数据基建可能是具身模型真正 scaling 前必须补齐的一环。

阅读原文详情

事件概述

核心方法

实验验证

值得关注

准备好启动您的定制项目了吗？