银河通用张直政:LDA统一VLA与世界模型,打通具身智能数据壁垒
2026/05/19 19:26阅读量 6
银河通用发布LDA(Latent Dynamics Action Model),首次在隐空间中统一世界模型与VLA,实现跨本体动作基础模型。该技术可融合高质量与低质量、有无动作标签的异构数据,降低对标注数据的依赖。团队已构建五层全量数据金字塔,并将核心算法开源。张直政认为,头部具身公司应聚焦打通软硬件闭环,并通过真实场景落地验证技术路线。
事件概述
银河通用机器人联合创始人张直政在接受专访时,详细介绍了其团队发布的新技术LDA(Latent Dynamics Action Model)。LDA是一种在隐空间中统一世界模型与VLA的跨本体动作基础模型,首次实现多种异构数据(虚实共融、人机混合、质量参差、有无动作标签)的统一有效利用。该工作已被机器人顶会RSS 2026录用(仅210篇),且核心代码已开源。
核心信息
- 技术融合路径:张直政指出,行业常将VLA(直接学习策略)与世界模型(预测环境状态转移)视为对立路线。LDA在一个统一的隐空间内协同训练四个任务:前向动力学、逆向动力学、策略学习与视觉预测。通过联合训练,模型既能理解“该做什么”,又能建模“环境如何变化”,两者相互增益。
- 区别于其他世界模型:与李飞飞、LeCun等聚焦于“世界应如何表征和预测”不同,LDA更侧重“世界演化如何直接服务于动作生成”。具身世界模型要求在预测准确性的基础上,根据任务目标有选择性地预测与动作相关的环境变化,并利用预测结果辅助动作输出。
- 数据策略与优势:银河通用构建了五层全量数据金字塔(AstraData),从互联网数据、人类行为数据、仿真合成数据、真实遥操数据到真机自主运行数据,层层咬合。LDA可以利用低质量或含噪声的数据进行环境状态转移建模,从而大幅降低对高质量成功标注数据的依赖。
- 跨本体泛化能力:LDA具备少样本跨本体泛化能力,仅需约1小时的后训练数据即可适应新硬件的运动学特性,打破以往硬件升级需重新训练模型的困境。
- 商业化方向:公司优先推进工厂场景(生产力),再进家庭(服务力)。目前已实现太空舱项目、即时零售项目等长期稳定规模化运行。
- 行业判断:张直政认为,支撑头部具身公司估值有两层逻辑:一是公司目标与行动契合(有真实落地场景优于仅演示视频);二是前沿研发与商业化落地的技术路线一致。他判断,最终拥有基模和行业闭环能力的具身公司不会超过3家,工业、零售等场景进入下半场(应用层爆发)已近在眼前。
值得关注
- LDA通过统一四种任务的方式,探索了具身智能中“策略学习”与“世界建模”的深度融合,为利用大规模异构数据进行训练提供了可行方案。
- 银河通用在数据采集上坚持自建金字塔体系,注重仿真合成数据与真实闭环数据的结合,并强调失败/低质量数据的利用价值。
- 张直政对具身行业泡沫的看法:泡沫在于目标与技术水平的时间错配,只要有人真正推动技术进步将幻想转化为现实,就不是泡沫。
