中山大学郭裕兰团队提出MangoBench:揭示多智能体离线强化学习协作瓶颈与目标驱动新路径
2026/04/22 15:14阅读量 2
中山大学郭裕兰团队发布MangoBench基准,针对多智能体在数据充足但训练失败的痛点,指出稀疏奖励和责任分配不清是核心障碍。研究对比发现,分层方法(如IHIQL)和引入目标的驱动方式显著优于传统集中式训练,有效提升了复杂任务下的泛化与协作能力。该成果为自动驾驶、仓储物流等高风险场景的离线多智能体系统提供了新的技术范式。
事件概述
中山大学郭裕兰团队在CVPR 2026相关研究中提出MangoBench,这是一个用于评估多智能体在多目标任务中协作能力的离线基准。该研究聚焦于“数据充足却训练失败”的行业难题,通过实验揭示了多智能体离线强化学习(Offline MARL)失效的根本原因,并验证了从“奖励驱动”转向“目标驱动”及采用“分层策略”的有效性。
核心发现与事实
1. 多智能体训练的两大核心瓶颈
研究指出,现有方法在复杂离线场景中失效并非单纯因为模型能力不足,而是受限于以下两个根本障碍:
- 学习信号稀疏:真实任务中奖励信号极少,导致模型难以判断哪一步操作正确,Q函数难以收敛。
- 责任分配模糊:在多智能体协作成功后,难以量化具体是哪个智能体起到了关键作用,导致梯度更新错误,协作失败。
2. 方法性能对比:分层优于集中,目标优于奖励
团队在导航、机械臂同步/异步协作等任务中进行了广泛测试,得出以下结论:
- 分层方法优势明显:以IHIQL为代表的分层强化学习方法表现最稳。在中等难度导航任务中成功率达80%-95%,而在高难度任务中仍能保持30%-40%的成功率;相比之下,ICRL、GCMBC等方法在复杂任务下表现急剧下降甚至接近0%。
- 分布式 vs 集中式:分布式方法(如IHIQL)在任务规模扩大时表现更稳健(超大规模任务仍保持约50%成功率)。而集中训练方法(如HIQL-CTDE)因需处理全局状态,信息过载导致训练不稳定,任务稍变复杂即失效(成功率跌至1%)。
- 目标驱动的必要性:将任务改写为“目标驱动”(Goal-Conditioned),让模型围绕特定状态而非稀疏奖励进行学习,显著提升了泛化能力。单目标测试下表现平平的方法,在多目标评估下成功率大幅提升(例如IHIQL从78%升至82%)。
3. 协作模式的适应性
- 分工灵活性:IHIQL在不同分工设置(如2×4或4×2)下均能稳定维持约90%的成功率,证明其掌握了任务本质而非死记硬背固定分工。
- 时序配合挑战:在强调先后顺序的异步协作任务(如放置食物)中,基于对比学习的方法(ICRL)表现最佳(30%-40%),且训练效率比模仿学习高出约93%,说明不同任务特性需要匹配不同的算法策略。
技术路径创新
从奖励驱动到目标驱动
研究团队对原始离线数据进行了重构,将原本仅包含“状态-动作”的数据转化为“状态-动作-目标-奖励”的形式:
- 机制:从历史轨迹中随机抽取状态作为目标,自动生成对应的奖励信号。
- 效果:同一批数据可被反复用于不同目标的学习,大幅增加了学习信号的密度和多样性,使模型能从“盲目追逐奖励”转变为“明确向目标靠近”。
为何CTDE(集中训练分散执行)失效?
尽管CTDE在训练时拥有全局信息,但研究分析认为其失效原因在于:
- 状态空间爆炸:全局状态将所有智能体状态拼接,导致问题复杂度剧增。
- 训练与执行不一致:训练依赖全局信息,执行仅靠局部信息,导致策略迁移困难。
- 目标冲突:全局目标与局部目标难以对齐,造成优化过程混乱。
应用前景
该研究为解决无法实时试错的高风险场景提供了新思路,潜在应用场景包括:
- 自动驾驶:多车协同避障与通行。
- 智慧物流:仓库机器人集群的分拣与搬运。
- 工业自动化:多机械臂的精密装配。
- 医疗辅助:手术机器人与护理机器人的协同作业。
论文与团队信息
- 论文标题:《MangoBench A Benchmark for Multi-Agent Goal-Conditioned Offline Reinforcement Learning》
- 论文地址:https://wendyeewang.github.io/MangoBench/
- 核心团队:中山大学郭裕兰教授团队,主要贡献者包括博士生汪怡、本科生钟柠泽、西澳大学博士符智恒、中山大学博士后王龙光及副研究员张晔等。
