HIL-ResRL：1小时真机训练成功率超95%，VLA模型即插即用强化学习适配器

2026/06/24 18:38阅读量 4

华为云CloudRobo团队提出HIL-ResRL，一种模型无关的残差强化学习微调方法。它冻结预训练VLA模型作为基础策略，仅训练轻量残差网络，结合人类在线干预，1小时内真机训练成功率突破95%，显著优于现有真机RL基线。

事件概述

华为云CloudRobo团队在arXiv发表论文，提出HIL-ResRL（Human-in-the-Loop Residual Reinforcement Learning），一种即插即用的VLA模型适配器。该方法无需修改基座VLA模型内部权重，仅需1小时真机在线训练即可将任务成功率提升至95%以上，并大幅降低训练过程中的安全风险。

核心方法

残差策略（Residual Policy）：冻结预训练VLA模型（如Diffusion Policy、π0.5）作为基础策略，输出基础动作a_base；另外训练一个极轻量的残差网络，输出修正动作a_res。最终执行动作a_t = a_base + a_res。
人机协同（Human-in-the-Loop）：人类操作员通过3D SpaceMouse实时监控，在基础模型产生分布外输出（抖动、发散）时给出微小干预信号a_int，并提供成功/失败标签和紧急重置。干预数据与残差网络自主探索数据按1:1混合，使用SAC算法优化。
模型无关性：残差适配器可无缝集成到任何VLA模型（包括基于Diffusion或Flow Matching的架构），无需接触内部参数或生成范式。

实验结果

在UR5e机械臂上测试三项工业任务：

任务	基础模型基线成功率	HIL-ResRL后成功率	训练时间
抓取放置	50%-80%	>90%	40-90分钟
垂直放置	50%-80%	>95%	40-90分钟
多孔插网线	50%-80%	>95%	40-90分钟

对比当前顶尖真机RL框架HIL-SERL，HIL-ResRL在需要同时控制位置和姿态的复杂任务上表现断层式领先，且训练中紧急急停次数从15次降至2次（以插网线任务为例）。

此外，通过接入六轴力/力矩传感器信号，HIL-ResRL可将高精度插头任务成功率从仅视觉的50%提升至93%，展示了多模态触觉反馈的有效融合。

意义与价值

HIL-ResRL以轻量、安全、高效的方式解决了VLA模型真机落地的分布偏移和误差累积问题，证明无需大规模重训基座模型，仅需一个懂得“人类协作”的残差小脑，即可在1小时内将通用模型转化为工业级高精度策略。该架构为柔性制造场景下机器人的快速部署提供了可行路径。

阅读原文详情

事件概述

核心方法

实验结果

意义与价值

准备好启动您的定制项目了吗？