中山大学郭裕兰团队提出MangoBench：揭示多智能体离线强化学习协作瓶颈与目标驱动新路径

2026/04/22 15:14阅读量 2

中山大学郭裕兰团队发布MangoBench基准，针对多智能体在数据充足但训练失败的痛点，指出稀疏奖励和责任分配不清是核心障碍。研究对比发现，分层方法（如IHIQL）和引入目标的驱动方式显著优于传统集中式训练，有效提升了复杂任务下的泛化与协作能力。该成果为自动驾驶、仓储物流等高风险场景的离线多智能体系统提供了新的技术范式。

事件概述

中山大学郭裕兰团队在CVPR 2026相关研究中提出MangoBench，这是一个用于评估多智能体在多目标任务中协作能力的离线基准。该研究聚焦于“数据充足却训练失败”的行业难题，通过实验揭示了多智能体离线强化学习（Offline MARL）失效的根本原因，并验证了从“奖励驱动”转向“目标驱动”及采用“分层策略”的有效性。

核心发现与事实

1. 多智能体训练的两大核心瓶颈

研究指出，现有方法在复杂离线场景中失效并非单纯因为模型能力不足，而是受限于以下两个根本障碍：

学习信号稀疏：真实任务中奖励信号极少，导致模型难以判断哪一步操作正确，Q函数难以收敛。
责任分配模糊：在多智能体协作成功后，难以量化具体是哪个智能体起到了关键作用，导致梯度更新错误，协作失败。

2. 方法性能对比：分层优于集中，目标优于奖励

团队在导航、机械臂同步/异步协作等任务中进行了广泛测试，得出以下结论：

分层方法优势明显：以IHIQL为代表的分层强化学习方法表现最稳。在中等难度导航任务中成功率达80%-95%，而在高难度任务中仍能保持30%-40%的成功率；相比之下，ICRL、GCMBC等方法在复杂任务下表现急剧下降甚至接近0%。
分布式 vs 集中式：分布式方法（如IHIQL）在任务规模扩大时表现更稳健（超大规模任务仍保持约50%成功率）。而集中训练方法（如HIQL-CTDE）因需处理全局状态，信息过载导致训练不稳定，任务稍变复杂即失效（成功率跌至1%）。
目标驱动的必要性：将任务改写为“目标驱动”（Goal-Conditioned），让模型围绕特定状态而非稀疏奖励进行学习，显著提升了泛化能力。单目标测试下表现平平的方法，在多目标评估下成功率大幅提升（例如IHIQL从78%升至82%）。

3. 协作模式的适应性

分工灵活性：IHIQL在不同分工设置（如2×4或4×2）下均能稳定维持约90%的成功率，证明其掌握了任务本质而非死记硬背固定分工。
时序配合挑战：在强调先后顺序的异步协作任务（如放置食物）中，基于对比学习的方法（ICRL）表现最佳（30%-40%），且训练效率比模仿学习高出约93%，说明不同任务特性需要匹配不同的算法策略。

技术路径创新

从奖励驱动到目标驱动

研究团队对原始离线数据进行了重构，将原本仅包含“状态-动作”的数据转化为“状态-动作-目标-奖励”的形式：

机制：从历史轨迹中随机抽取状态作为目标，自动生成对应的奖励信号。
效果：同一批数据可被反复用于不同目标的学习，大幅增加了学习信号的密度和多样性，使模型能从“盲目追逐奖励”转变为“明确向目标靠近”。

为何CTDE（集中训练分散执行）失效？

尽管CTDE在训练时拥有全局信息，但研究分析认为其失效原因在于：

状态空间爆炸：全局状态将所有智能体状态拼接，导致问题复杂度剧增。
训练与执行不一致：训练依赖全局信息，执行仅靠局部信息，导致策略迁移困难。
目标冲突：全局目标与局部目标难以对齐，造成优化过程混乱。

应用前景

该研究为解决无法实时试错的高风险场景提供了新思路，潜在应用场景包括：

自动驾驶：多车协同避障与通行。
智慧物流：仓库机器人集群的分拣与搬运。
工业自动化：多机械臂的精密装配。
医疗辅助：手术机器人与护理机器人的协同作业。

论文与团队信息

论文标题：《MangoBench A Benchmark for Multi-Agent Goal-Conditioned Offline Reinforcement Learning》
论文地址：https://wendyeewang.github.io/MangoBench/
核心团队：中山大学郭裕兰教授团队，主要贡献者包括博士生汪怡、本科生钟柠泽、西澳大学博士符智恒、中山大学博士后王龙光及副研究员张晔等。

阅读原文详情