蚂蚁灵波LingBot-VA论文被RSS 2026接收：让机器人具备“边推演边行动”能力

2026/05/25 14:26阅读量 4

蚂蚁灵波科技与香港科技大学等合作的论文《Causal World Modeling for Robot Control》被机器人顶会RSS 2026接收。论文提出因果世界建模框架，并开源全球首个自回归视频-动作世界模型LingBot-VA，使机器人能在执行任务时持续预测环境变化并生成下一步动作。在仿真和真实任务中取得优异成功率，数据效率显著。

蚂蚁灵波科技与香港科技大学等高校合作的研究论文《Causal World Modeling for Robot Control》被国际机器人顶级学术会议 Robotics: Science and Systems（RSS）2026 接收。RSS 是全球机器人领域公认的顶级会议，录用标准严格，此次接收意味着该研究获得国际机器人共同体高度认可。

事件概述

论文的核心是提出面向机器人控制的因果世界建模框架，并基于此开发了LingBot-VA模型——全球首个开源的自回归视频-动作世界模型。该模型让机器人不再只是执行指令，而是在行动前预测环境变化，再根据预测结果生成下一步动作指令，实现类似人类“边观察、边判断、边行动”的能力。

核心创新

因果世界建模：模型严格按真实时间顺序，根据此前观察和动作一步步推演未来，生成的是可用于控制决策的因果轨迹，而非单纯视频预测。这增强了长期记忆能力，对长时序、多步骤任务尤为关键。
Mixture-of-Transformers（MoT）架构：将视频预测和动作生成统一到同一自回归扩散框架中。
闭环推演机制：在任务执行中持续接收真实环境反馈，减少长时间预测的误差累积。

性能验证

仿真基准：在 RoboTwin 2.0 的 50 个双臂操作任务中，LingBot-VA 在 Easy 和 Hard 设置下分别取得 92.0% 和 91.1% 的平均成功率；在 LIBERO 基准上达到 98.5%。
真实世界评测：面对长时序、高精度以及柔性与关节物体操控三大类共 6 项高难度挑战，仅需 50 条真实示范数据即可完成适配，整体成功率较业界基线 π0.5 提升超过 20 个百分点，展现出良好的数据效率和泛化能力。

开源状态

LingBot-VA 已在今年早些时候开放模型权重、训练与推理代码。研究人员和开发者可在 Model Scope、Hugging Face 和 GitHub 访问下载。

论文链接：https://arxiv.org/abs/2601.21998
项目主页：https://technology.robbyant.com/lingbot-va

阅读原文详情

事件概述

核心创新

性能验证

开源状态

准备好启动您的定制项目了吗？