图灵奖得主Sutton新作:用1967年公式解决流式强化学习核心缺陷
2026/05/10 14:11阅读量 6
来自Openmind研究院和阿尔伯塔大学的研究团队提出“意图更新”方法,将1967年NLMS算法思想引入深度强化学习,通过直接控制函数输出变化量而非参数移动量,解决了流式训练(batch=1)中梯度不稳定的问题。该方法无需回放缓冲区,在MuJoCo任务中性能接近SAC,计算量仅为后者的1/140,且超参数通用性强。
事件概述
2026年5月,图灵奖得主Richard Sutton与同事发表论文,提出“意图更新”(Intentional Updates)方法,针对流式强化学习(streaming RL)中的核心缺陷——步长选择问题给出新方案。该工作基于1967年Nagumo和Noda提出的归一化最小均方差(NLMS)算法思想,将其推广到深度神经网络场景。
核心信息
- 问题根源:传统梯度步长固定参数移动量,在流式训练(批量大小=1)中导致输出变化不可控,引发训练震荡崩溃。此前2024年的StreamX方法依赖精细超参数调优和多种稳定化技巧才勉强跨越“流式壁垒”。
- 解决方案:将步长选择从“参数移动多少”转为“函数输出变化多少”。每次更新前先设定期望的输出变化比例(如价值函数误差缩小5%),再根据梯度范数反推步长。与RMSProp对角缩放和资格迹结合,形成Intentional TD(λ)、Intentional Q(λ)和Intentional Policy Gradient三个算法,代码已开源。
- 性能表现:
- 在MuJoCo连续控制任务中,Intentional AC性能接近SAC,但单次更新计算量仅为SAC的1/140。
- 在Atari/MinAtar离散动作任务中,同一套超参数适用于所有游戏,无需调参。
- 实际更新量与预期更新量比值标准差仅0.016–0.029,99分位数≤1.07,更新精度可控。
- 局限性:策略学习中步长依赖当前采样动作,可能引入方向偏差。在Ant-v4任务中策略梯度方向对齐度降至0.63,未来需开发动作无关的步长选择策略。
值得关注
该方法特别适合机器人、边缘设备等需要实时在线学习的低算力场景,无需大容量回放缓冲区和GPU集群,实现真正的“边做边学”。Sutton作为图灵奖得主,将奖金投入Openmind研究院支持此类基础研究,延续了TD学习和策略梯度框架的创新脉络。
