HIL-ResRL:1小时真机训练成功率超95%,VLA模型即插即用强化学习适配器
2026/06/24 18:38阅读量 4
华为云CloudRobo团队提出HIL-ResRL,一种模型无关的残差强化学习微调方法。它冻结预训练VLA模型作为基础策略,仅训练轻量残差网络,结合人类在线干预,1小时内真机训练成功率突破95%,显著优于现有真机RL基线。
事件概述
华为云CloudRobo团队在arXiv发表论文,提出HIL-ResRL(Human-in-the-Loop Residual Reinforcement Learning),一种即插即用的VLA模型适配器。该方法无需修改基座VLA模型内部权重,仅需1小时真机在线训练即可将任务成功率提升至95%以上,并大幅降低训练过程中的安全风险。
核心方法
- 残差策略(Residual Policy):冻结预训练VLA模型(如Diffusion Policy、π0.5)作为基础策略,输出基础动作a_base;另外训练一个极轻量的残差网络,输出修正动作a_res。最终执行动作a_t = a_base + a_res。
- 人机协同(Human-in-the-Loop):人类操作员通过3D SpaceMouse实时监控,在基础模型产生分布外输出(抖动、发散)时给出微小干预信号a_int,并提供成功/失败标签和紧急重置。干预数据与残差网络自主探索数据按1:1混合,使用SAC算法优化。
- 模型无关性:残差适配器可无缝集成到任何VLA模型(包括基于Diffusion或Flow Matching的架构),无需接触内部参数或生成范式。
实验结果
在UR5e机械臂上测试三项工业任务:
| 任务 | 基础模型基线成功率 | HIL-ResRL后成功率 | 训练时间 |
|---|---|---|---|
| 抓取放置 | 50%-80% | >90% | 40-90分钟 |
| 垂直放置 | 50%-80% | >95% | 40-90分钟 |
| 多孔插网线 | 50%-80% | >95% | 40-90分钟 |
对比当前顶尖真机RL框架HIL-SERL,HIL-ResRL在需要同时控制位置和姿态的复杂任务上表现断层式领先,且训练中紧急急停次数从15次降至2次(以插网线任务为例)。
此外,通过接入六轴力/力矩传感器信号,HIL-ResRL可将高精度插头任务成功率从仅视觉的50%提升至93%,展示了多模态触觉反馈的有效融合。
意义与价值
HIL-ResRL以轻量、安全、高效的方式解决了VLA模型真机落地的分布偏移和误差累积问题,证明无需大规模重训基座模型,仅需一个懂得“人类协作”的残差小脑,即可在1小时内将通用模型转化为工业级高精度策略。该架构为柔性制造场景下机器人的快速部署提供了可行路径。
