厦门大学与港科大提出MAGE算法：让离线强化学习实现从局部到全局的规划突破

2026/04/06 13:35阅读量 44

针对现有生成式离线强化学习方法在长程规划中易陷入“局部合理但全局偏航”的痛点，厦门大学与香港科技大学联合提出了多尺度自回归生成算法MAGE。该算法采用“自顶向下、由粗到细”的策略，先构建宏观轨迹轮廓再细化微观动作，有效解决了长序列任务中的全局连贯性问题。实验显示，MAGE在5个基准测试中全面超越15种基线算法，且推理速度比同类扩散模型快数十倍，满足实时控制需求。

事件概述

面对复杂连续任务的长程规划，现有的生成式离线强化学习方法常因过度关注局部步骤而忽略全局目标，导致轨迹出现“局部合理但全局偏航”的问题。为突破这一瓶颈，厦门大学空间感知与计算实验室（ASC Lab）与香港科技大学合作提出了一种名为 MAGE (Multi-scale Autoregressive Generation) 的新算法，旨在通过多尺度建模实现从宏观规划到微观执行的无缝衔接。

核心机制：从画大纲到扣细节

MAGE 摒弃了传统的单向或固定分层生成模式，采用了符合人类直觉的“自顶向下、由粗到细”生成策略：

**多尺度轨迹自编码器 **(MTAE)：将长序列轨迹转化为多尺度的离散 Token。粗粒度 Token 负责掌控全局长程结构，细粒度 Token 则用于建模短期动态细节。
多尺度条件引导自回归生成：利用 Transformer 序列化生成上述 Token。在每一层生成过程中，严格以“目标回报”和“初始状态”作为条件约束，确保智能体每一步都朝向最终目标前进。
条件引导细化与动作决策：为解决连续世界离散化导致的起点偏离问题，MAGE 在解码器中集成了轻量级适配器（adapter），并引入条件引导损失函数 $L_{cond}$，强制解码出的初始状态与环境真实对齐，最后通过潜在逆动力学模型决定具体动作。

实验验证与性能表现

研究团队在包含 Adroit、Franka Kitchen、AntMaze 等在内的 5 个离线强化学习基准测试中，将 MAGE 与 15 种代表性基线算法进行了对比评估：

1. 长序列任务全面超越

迷宫导航：在需要全局空间理解的“迷宫吃金币”实验中，传统方法如 Decision Transformer 因缺乏全局上下文迷失方向；Decision Diffuser 虽能到达终点但遗漏关键目标；Hierarchical Diffuser 则因结构僵硬出现物理违规。MAGE 凭借多尺度架构成功规划出完整路径，在所有数据集上取得最佳性能。
高维控制：在稀疏奖励的 Adroit 机械臂任务和强调顺序执行的 Franka Kitchen 组合任务中，MAGE 均大幅优于对比方法，展现出捕获全局结构与局部细节的双重能力。

2. 极高的推理效率

MAGE 在保持高性能的同时实现了优异的计算效率平衡：

速度优势：运行速度比 Hierarchical Diffuser 快约 50 倍，比 Decision Diffuser 快 80 倍。
实时性：每步推理时间稳定在 27 毫秒，完美满足真实机器人控制所需的 20 Hz 实时运行门槛。

资源链接

论文链接：https://arxiv.org/abs/2602.23770
开源代码：https://github.com/xmu-rl-3dv/MAGE

阅读原文详情