银河通用 LDA-1B 定义全域数据利用新范式，开启具身智能规模化时代

2026/04/29 10:23阅读量 4

银河通用推出 1.6B 参数跨本体隐式世界 - 动作基础模型 LDA-1B，登顶机器人顶会 RSS 并全面开源。该模型首创“全量数据摄入”范式，首次实现虚实、人机、高低质量及有无标签数据的统一高效训练，打破具身智能长期受困的数据割裂难题。实验证明，随着数据规模从 5000 小时扩展至 30000 小时，模型性能持续单调提升，标志着具身智能正式进入可规模化进化的新阶段。

事件概述

具身智能行业长期面临两大技术流派（纯 VLA 模型与世界模型）的局限：前者依赖高质量专家数据难以规模化，后者在像素级细节上算力消耗大且难以直接转化为动作。面对这一僵局，银河通用创新推出 LDA-1B（1.6B 参数跨本体「隐式世界 - 动作基础模型」），采用自研的 WAM（World-Action Model，世界 - 动作融合）路线，成功登顶今年仅录用 210 篇论文的机器人顶会 RSS，代码已全面开源。

核心信息

1. 全域数据利用范式：告别“挑食”

LDA-1B 首次在数据层面实现了虚实共融、人机混合、质量参差、有无动作标签的统一有效利用。其核心突破在于构建了金字塔式五层数据结构（银河星数 AstraData），将以往被视为“无用”或“低质”的数据纳入训练体系：

底层：互联网图像/视频/文本数据（低成本构建基础感知）。
次底层：人类行为数据（连接视觉认知与行为语义）。
中间层：多本体合成仿真数据（物理一致性约束下的可控交互）。
高层：真实遥操作数据（高质量动作示范）。
顶层：真实机器人自主运行数据（闭环反馈驱动优化）。

差异化策略：

高质量专家轨迹：同时学习策略和动力学。
低质量/噪声数据：仅用于前向和逆向动力学（即使动作错误，物理响应依然真实）。
无动作标注的人类视频：用于视觉预测（捕捉时序结构和交互模式）。

关键结论：没有垃圾数据，只有因框架限制被“错付”的数据。通过系统性重组，每一帧数据都有价值。

2. 规模化验证：解锁具身 GPT-2 时刻

传统行为克隆（BC）和世界模型方法在引入低质量数据后性能往往退化，而 LDA-1B 展现了独特的 Scaling 能力：

数据规模效应：当训练数据从 5000 小时 扩展至 30000 小时，LDA-1B 的动作预测误差持续下降，呈现稳定的单调改善趋势。
无标签数据增益：在有动作标注数据耗尽后，继续加入超过 10000 小时 无动作标注的人类视频，模型性能依然持续提升。
反直觉发现：在下游微调中加入大量失败和不稳定操作的遥操作数据，基线模型（如 π0.5）性能下降，而 LDA-1B 性能反而提升 10%。

这标志着具身智能不再受限于高质量专家数据的稀缺性，海量异构数据成为模型能力持续增长的动力。

3. 技术架构：WAM 统一框架

LDA-1B 在单一扩散模型框架内融合了四大核心能力，构建“感知—决策—交互—反馈”闭环：

策略学习：根据观测生成动作（VLA 能力）。
前向动力学：预测下一时刻视觉状态（世界模型能力）。
逆向动力学：反推中间执行动作。
视觉预测：无需动作输入，直接预测未来视觉轨迹。

技术亮点：

采用 MM-DiT（多模态扩散 Transformer）统一建模。
在紧凑的 DINO 潜空间（Latent Space）中建模动力学，而非像素空间，专注于物体结构与动作本质。
在处理复杂操控任务时，性能较其他模型提升高达 48%。

4. 跨本体泛化与落地场景

严格少样本测试：测试使用的机器人本体（Galbot G1、Unitree G1 等）均未出现在预训练数据集中。LDA-1B 在夹爪取放、物体交接等高难度长程任务上表现远超 GR00T-N1.6 和 π0.5。
快速自适应：仅需 1 小时 后训练，即可实现跨不同形态机器人的自适应操控。
产业落地：
- 工厂工业：适配复杂产线，完成柔性搬运、精密操作、巡检运维。
- 家庭起居：覆盖家务打理、老人儿童陪护、安全巡检等日常需求。
- 零售领域：货架分拣、物品整理等。

值得关注

开源生态：基于公开数据训练的 LDA-1B 版本已开源，旨在打破行业封闭迭代壁垒，提供通用高效的技术底座。
资本认可：截至 2026 年 4 月，银河通用估值超 200 亿元，是国内估值最高的未上市具身智能企业。
历史沿革：该成果基于去年提出的 WAM 框架（论文《DyWA: Dynamics-adaptive World Action Model》），进一步验证了世界模型与动作模型统一的可行性。

LDA-1B 的成功证明了具身智能可以复刻大语言模型的规模化逻辑，从海量异构数据中持续认知世界并迭代进化，正式拉开了具身智能规模化、通用化、产业化的序幕。

阅读原文详情