复旦等提出GuidedVLA:为机器人动作生成注入三类显式引导,提升可控性与可解释性

2026/06/08 10:41阅读量 3

复旦大学等机构提出GuidedVLA,针对视觉-语言-动作模型(VLA)动作生成过程隐式、难解释的问题,在动作解码器中引入目标定位、任务阶段识别和空间几何三类显式引导。实验表明,该方法在仿真和真实机器人平台上的成功率均显著提升,同时提供了可观察的中间因素,便于诊断失败原因。该工作已被RSS 2026接收。

事件概述

复旦大学可信具身智能研究院联合上海交通大学、香港大学OpenDriveLab等机构提出GuidedVLA,已被机器人领域顶级会议RSS 2026接收。该工作旨在解决VLA模型在动作生成时因高度隐式而难以解释和调试的问题,通过显式引入三类任务相关因素,提升机器人操作的可控性和可解释性。

核心机制

GuidedVLA在已有VLA的动作解码器中,将部分注意力头指定为三类可检查的分工:

  • Object Head:负责目标定位,引导模型稳定关注任务相关物体区域,减少背景干扰。
  • Skill Head:识别任务阶段(如抓取、移动、放置),防止跳步或阶段错误。
  • Depth Head:通过冻结深度编码器特征补充空间几何信息,提升高度、距离等操作精度。

采用类似ControlNet的残差适配思路,新增因子特定控制分支并通过zero-initialized projection与主分支融合,避免破坏原有能力。同时设计了自动因子标注流水线,利用Qwen3-VL和SAM2生成物体掩码和技能标签,无需人工深度标注。实验显示,92%的episodes无需人工修正,标注50个episodes自动流水线约需4分钟,人工约需43.5分钟。

实验结果

LIBERO-Plus仿真基准上,π0基线总成功率68.2%,GuidedVLA达到75.4%。单类分工优势与任务类型对应:Object Head在物体相关任务更强,Skill Head在阶段相关任务更强,Depth Head在空间相关任务更强。

RoboTwin 2.0上,GuidedVLA将π0平均成功率从77.38%提升到90.63%。其中Click Bell任务(需精确Z轴控制)成功率从35%提升到63%;Beat Hammer Block(高度对齐)从78%到96%。

真实机器人实验覆盖ALOHA AgileX(家庭任务)和PSI-Bot RealMan(实验室操作,聚焦透明刚性物体和紧几何约束)。每个任务进行20次试验,结果显示:

  • In-Domain average:Base Policy 55.8%,GuidedVLA 75.8%
  • Scene average:Base Policy 44.2%,GuidedVLA 67.5%(相对提升约52.7%)
  • Lighting average:Base Policy 57.5%,GuidedVLA 79.2%

可解释性分析

GuidedVLA验证了可解释分工与任务成功的相关性:

  • Object Head落在目标区域内的注意力比例从0.25增至1.0时,成功率从61.3%提升到77.4%
  • Skill Head技能识别准确率提高时,成功率从66.2%提升到77.7%
  • Depth Head中真实深度特征比例从0增至1.0时,成功率从15.0%提升到76.2%

这表明GuidedVLA不仅提升最终分数,还将“为何成功”拆解为可观察的中间因素,便于诊断和改进。

项目资源

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。