蚂蚁灵波LingBot-VA论文被RSS 2026接收:让机器人具备“边推演边行动”能力
2026/05/25 14:26阅读量 4
蚂蚁灵波科技与香港科技大学等合作的论文《Causal World Modeling for Robot Control》被机器人顶会RSS 2026接收。论文提出因果世界建模框架,并开源全球首个自回归视频-动作世界模型LingBot-VA,使机器人能在执行任务时持续预测环境变化并生成下一步动作。在仿真和真实任务中取得优异成功率,数据效率显著。
蚂蚁灵波科技与香港科技大学等高校合作的研究论文《Causal World Modeling for Robot Control》被国际机器人顶级学术会议 Robotics: Science and Systems(RSS)2026 接收。RSS 是全球机器人领域公认的顶级会议,录用标准严格,此次接收意味着该研究获得国际机器人共同体高度认可。
事件概述
论文的核心是提出面向机器人控制的因果世界建模框架,并基于此开发了LingBot-VA模型——全球首个开源的自回归视频-动作世界模型。该模型让机器人不再只是执行指令,而是在行动前预测环境变化,再根据预测结果生成下一步动作指令,实现类似人类“边观察、边判断、边行动”的能力。
核心创新
- 因果世界建模:模型严格按真实时间顺序,根据此前观察和动作一步步推演未来,生成的是可用于控制决策的因果轨迹,而非单纯视频预测。这增强了长期记忆能力,对长时序、多步骤任务尤为关键。
- Mixture-of-Transformers(MoT)架构:将视频预测和动作生成统一到同一自回归扩散框架中。
- 闭环推演机制:在任务执行中持续接收真实环境反馈,减少长时间预测的误差累积。
性能验证
- 仿真基准:在 RoboTwin 2.0 的 50 个双臂操作任务中,LingBot-VA 在 Easy 和 Hard 设置下分别取得 92.0% 和 91.1% 的平均成功率;在 LIBERO 基准上达到 98.5%。
- 真实世界评测:面对长时序、高精度以及柔性与关节物体操控三大类共 6 项高难度挑战,仅需 50 条真实示范数据即可完成适配,整体成功率较业界基线 π0.5 提升超过 20 个百分点,展现出良好的数据效率和泛化能力。
开源状态
LingBot-VA 已在今年早些时候开放模型权重、训练与推理代码。研究人员和开发者可在 Model Scope、Hugging Face 和 GitHub 访问下载。
论文链接:https://arxiv.org/abs/2601.21998
项目主页:https://technology.robbyant.com/lingbot-va
