图灵奖得主Sutton新作:用1967年公式解决流式强化学习核心缺陷

2026/05/10 14:11阅读量 6

来自Openmind研究院和阿尔伯塔大学的研究团队提出“意图更新”方法,将1967年NLMS算法思想引入深度强化学习,通过直接控制函数输出变化量而非参数移动量,解决了流式训练(batch=1)中梯度不稳定的问题。该方法无需回放缓冲区,在MuJoCo任务中性能接近SAC,计算量仅为后者的1/140,且超参数通用性强。

事件概述

2026年5月,图灵奖得主Richard Sutton与同事发表论文,提出“意图更新”(Intentional Updates)方法,针对流式强化学习(streaming RL)中的核心缺陷——步长选择问题给出新方案。该工作基于1967年Nagumo和Noda提出的归一化最小均方差(NLMS)算法思想,将其推广到深度神经网络场景。

核心信息

  • 问题根源:传统梯度步长固定参数移动量,在流式训练(批量大小=1)中导致输出变化不可控,引发训练震荡崩溃。此前2024年的StreamX方法依赖精细超参数调优和多种稳定化技巧才勉强跨越“流式壁垒”。
  • 解决方案:将步长选择从“参数移动多少”转为“函数输出变化多少”。每次更新前先设定期望的输出变化比例(如价值函数误差缩小5%),再根据梯度范数反推步长。与RMSProp对角缩放和资格迹结合,形成Intentional TD(λ)、Intentional Q(λ)和Intentional Policy Gradient三个算法,代码已开源。
  • 性能表现
    • 在MuJoCo连续控制任务中,Intentional AC性能接近SAC,但单次更新计算量仅为SAC的1/140。
    • 在Atari/MinAtar离散动作任务中,同一套超参数适用于所有游戏,无需调参。
    • 实际更新量与预期更新量比值标准差仅0.016–0.029,99分位数≤1.07,更新精度可控。
  • 局限性:策略学习中步长依赖当前采样动作,可能引入方向偏差。在Ant-v4任务中策略梯度方向对齐度降至0.63,未来需开发动作无关的步长选择策略。

值得关注

该方法特别适合机器人、边缘设备等需要实时在线学习的低算力场景,无需大容量回放缓冲区和GPU集群,实现真正的“边做边学”。Sutton作为图灵奖得主,将奖金投入Openmind研究院支持此类基础研究,延续了TD学习和策略梯度框架的创新脉络。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。