北大与银河通用推出 LDA-1B:重构训练逻辑,让“非标准”数据驱动机器人理解物理规律
北京大学、银河通用等团队提出 LDA-1B 模型,通过统一隐空间动力学建模和通用数据摄取机制,解决了传统行为克隆范式难以利用低质量及无标注数据的瓶颈。该模型在 EI-30k 数据集上训练,实验证明利用包含次优轨迹的混合数据反而比仅用高质量数据性能提升 10%,实现了从“学习动作”到“学习物理规律”的范式转变。LDA-1B 在真实机器人部署中展现出跨本体迁移能力,为异构数据规模化利用提供了新路径。
事件概述
北京大学、银河通用等团队联合提出了LDA-1B(Latent Dynamics Action)模型,旨在解决当前机器人基础模型在行为克隆(Behavior Cloning)路径上面临的“数据困境”。传统范式高度依赖高质量专家数据,导致大量包含关键物理信息(如物体运动、接触发生)的“非标准数据”被丢弃。LDA-1B 通过重构训练逻辑,将不同质量的数据协同纳入统一建模,推动机器人模型从单纯“学习动作”转向“学习物理规律”。
核心创新与技术架构
1. 训练逻辑重构:从过滤到分工
LDA-1B 的核心突破在于将“数据质量”从一个筛选条件转化为一个建模维度,提出了通用数据摄取机制,实现数据的“分工使用”:
- 高质量数据:同时用于策略学习与动力学建模。
- 低质量轨迹:专门用于学习动力学特性。
- 无动作标注视频:专注于视觉预测任务。
这种机制使得模型不再要求所有数据具备完整监督信号,允许不同来源、不同保真度的数据共同参与训练。
2. 统一隐空间动力学建模
模型摒弃了直接在像素空间预测未来状态的传统做法,转而基于DINO 特征构建的隐空间表示中学习状态演化。这一设计显著减少了对光照、纹理等视觉外观的依赖,使模型更关注由动作引起的物理变化,从而增强对因果关系的理解。
3. 多模态扩散 Transformer 架构
LDA-1B 采用多模态扩散 Transformer,在同一框架内联合预测动作序列和未来视觉潜变量。其关键技术点包括:
- 联合优化目标:涵盖策略、前向动力学、逆动力学和视觉预测。
- 异步对齐机制:通过共享注意力层融合时间上不完全同步的视觉与动作流。
- 动作条件注意力:模型能自动聚焦于接触区域和运动方向,忽略背景干扰。
数据集支撑:EI-30k
为支撑模型训练,团队构建了EI-30k具身交互数据集,规模超过3万小时。该数据集具有高度异构性,涵盖四类数据:
- 真实机器人操作数据
- 仿真环境数据
- 带动作标注的人类示范
- 无动作人类视频
所有数据统一转换为LeRobot格式,并在动作层面对齐至共享坐标系。预训练阶段冻结 VLM 与 DINO 编码器,仅更新动力学与策略模块,大幅降低了数据获取成本。
实验验证与关键发现
真实世界部署表现
LDA-1B 在多种机器人本体上进行了测试,包括配备二指夹爪的 Galbot G1、搭载灵巧手的 Galbot G1(22自由度)以及宇树 G1(BrainCo 灵巧手,10自由度):
- 简单抓取放置任务:成功率达到 80%-90%,展现出良好的跨本体迁移能力。
- 清理垃圾任务:成功率为 35%,优于 GR00T-N1.6 和 π0.5 等基线模型。
“低质”数据带来性能提升
一项关键实验挑战了行业共识。在仿真实验中,团队构建了包含专家轨迹和次优轨迹(含暂停、重试、低效动作)的混合数据集。结果显示:
- 仅使用高质量数据的基线模型达到了基础性能。
- LDA-1B 利用混合数据(含次优轨迹)进行后训练,性能反而提升了 10%。
这证明了“低质量”数据可作为动力学学习的差异化燃料,帮助模型更好地适应真实世界的复杂性和不规则性。
局限性与未来展望
尽管 LDA-1B 在异构数据利用上展现了竞争力,但仍存在一定边界:
- 依赖固定的 DINO 视觉特征。
- 主要采用第一视角相机视角,可能限制对新视觉视角和多模态信号的泛化能力。
总体而言,LDA-1B 代表了一种系统级的方法论校正,表明在机器人领域,优化数据利用方式比盲目追求完美数据更能推动模型的规模扩展与落地应用。
