复旦等提出GuidedVLA：为机器人动作生成注入三类显式引导，提升可控性与可解释性

2026/06/08 10:41阅读量 3

复旦大学等机构提出GuidedVLA，针对视觉-语言-动作模型（VLA）动作生成过程隐式、难解释的问题，在动作解码器中引入目标定位、任务阶段识别和空间几何三类显式引导。实验表明，该方法在仿真和真实机器人平台上的成功率均显著提升，同时提供了可观察的中间因素，便于诊断失败原因。该工作已被RSS 2026接收。

事件概述

复旦大学可信具身智能研究院联合上海交通大学、香港大学OpenDriveLab等机构提出GuidedVLA，已被机器人领域顶级会议RSS 2026接收。该工作旨在解决VLA模型在动作生成时因高度隐式而难以解释和调试的问题，通过显式引入三类任务相关因素，提升机器人操作的可控性和可解释性。

核心机制

GuidedVLA在已有VLA的动作解码器中，将部分注意力头指定为三类可检查的分工：

Object Head：负责目标定位，引导模型稳定关注任务相关物体区域，减少背景干扰。
Skill Head：识别任务阶段（如抓取、移动、放置），防止跳步或阶段错误。
Depth Head：通过冻结深度编码器特征补充空间几何信息，提升高度、距离等操作精度。

采用类似ControlNet的残差适配思路，新增因子特定控制分支并通过zero-initialized projection与主分支融合，避免破坏原有能力。同时设计了自动因子标注流水线，利用Qwen3-VL和SAM2生成物体掩码和技能标签，无需人工深度标注。实验显示，92%的episodes无需人工修正，标注50个episodes自动流水线约需4分钟，人工约需43.5分钟。