银河通用 LDA-1B 定义全域数据利用新范式,开启具身智能规模化时代

2026/04/29 10:23阅读量 4

银河通用推出 1.6B 参数跨本体隐式世界 - 动作基础模型 LDA-1B,登顶机器人顶会 RSS 并全面开源。该模型首创“全量数据摄入”范式,首次实现虚实、人机、高低质量及有无标签数据的统一高效训练,打破具身智能长期受困的数据割裂难题。实验证明,随着数据规模从 5000 小时扩展至 30000 小时,模型性能持续单调提升,标志着具身智能正式进入可规模化进化的新阶段。

事件概述

具身智能行业长期面临两大技术流派(纯 VLA 模型与世界模型)的局限:前者依赖高质量专家数据难以规模化,后者在像素级细节上算力消耗大且难以直接转化为动作。面对这一僵局,银河通用创新推出 LDA-1B(1.6B 参数跨本体「隐式世界 - 动作基础模型」),采用自研的 WAM(World-Action Model,世界 - 动作融合)路线,成功登顶今年仅录用 210 篇论文的机器人顶会 RSS,代码已全面开源。

核心信息

1. 全域数据利用范式:告别“挑食”

LDA-1B 首次在数据层面实现了虚实共融、人机混合、质量参差、有无动作标签的统一有效利用。其核心突破在于构建了金字塔式五层数据结构(银河星数 AstraData),将以往被视为“无用”或“低质”的数据纳入训练体系:

  • 底层:互联网图像/视频/文本数据(低成本构建基础感知)。
  • 次底层:人类行为数据(连接视觉认知与行为语义)。
  • 中间层:多本体合成仿真数据(物理一致性约束下的可控交互)。
  • 高层:真实遥操作数据(高质量动作示范)。
  • 顶层:真实机器人自主运行数据(闭环反馈驱动优化)。

差异化策略

  • 高质量专家轨迹:同时学习策略和动力学。
  • 低质量/噪声数据:仅用于前向和逆向动力学(即使动作错误,物理响应依然真实)。
  • 无动作标注的人类视频:用于视觉预测(捕捉时序结构和交互模式)。

关键结论:没有垃圾数据,只有因框架限制被“错付”的数据。通过系统性重组,每一帧数据都有价值。

2. 规模化验证:解锁具身 GPT-2 时刻

传统行为克隆(BC)和世界模型方法在引入低质量数据后性能往往退化,而 LDA-1B 展现了独特的 Scaling 能力:

  • 数据规模效应:当训练数据从 5000 小时 扩展至 30000 小时,LDA-1B 的动作预测误差持续下降,呈现稳定的单调改善趋势。
  • 无标签数据增益:在有动作标注数据耗尽后,继续加入超过 10000 小时 无动作标注的人类视频,模型性能依然持续提升。
  • 反直觉发现:在下游微调中加入大量失败和不稳定操作的遥操作数据,基线模型(如 π0.5)性能下降,而 LDA-1B 性能反而提升 10%

这标志着具身智能不再受限于高质量专家数据的稀缺性,海量异构数据成为模型能力持续增长的动力。

3. 技术架构:WAM 统一框架

LDA-1B 在单一扩散模型框架内融合了四大核心能力,构建“感知—决策—交互—反馈”闭环:

  1. 策略学习:根据观测生成动作(VLA 能力)。
  2. 前向动力学:预测下一时刻视觉状态(世界模型能力)。
  3. 逆向动力学:反推中间执行动作。
  4. 视觉预测:无需动作输入,直接预测未来视觉轨迹。

技术亮点

  • 采用 MM-DiT(多模态扩散 Transformer)统一建模。
  • 在紧凑的 DINO 潜空间(Latent Space)中建模动力学,而非像素空间,专注于物体结构与动作本质。
  • 在处理复杂操控任务时,性能较其他模型提升高达 48%

4. 跨本体泛化与落地场景

  • 严格少样本测试:测试使用的机器人本体(Galbot G1、Unitree G1 等)均未出现在预训练数据集中。LDA-1B 在夹爪取放、物体交接等高难度长程任务上表现远超 GR00T-N1.6 和 π0.5。
  • 快速自适应:仅需 1 小时 后训练,即可实现跨不同形态机器人的自适应操控。
  • 产业落地
    • 工厂工业:适配复杂产线,完成柔性搬运、精密操作、巡检运维。
    • 家庭起居:覆盖家务打理、老人儿童陪护、安全巡检等日常需求。
    • 零售领域:货架分拣、物品整理等。

值得关注

  • 开源生态:基于公开数据训练的 LDA-1B 版本已开源,旨在打破行业封闭迭代壁垒,提供通用高效的技术底座。
  • 资本认可:截至 2026 年 4 月,银河通用估值超 200 亿元,是国内估值最高的未上市具身智能企业。
  • 历史沿革:该成果基于去年提出的 WAM 框架(论文《DyWA: Dynamics-adaptive World Action Model》),进一步验证了世界模型与动作模型统一的可行性。

LDA-1B 的成功证明了具身智能可以复刻大语言模型的规模化逻辑,从海量异构数据中持续认知世界并迭代进化,正式拉开了具身智能规模化、通用化、产业化的序幕。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。