图灵奖得主Sutton新作：用1967年公式解决流式强化学习核心缺陷

2026/05/10 14:11阅读量 6

来自Openmind研究院和阿尔伯塔大学的研究团队提出“意图更新”方法，将1967年NLMS算法思想引入深度强化学习，通过直接控制函数输出变化量而非参数移动量，解决了流式训练（batch=1）中梯度不稳定的问题。该方法无需回放缓冲区，在MuJoCo任务中性能接近SAC，计算量仅为后者的1/140，且超参数通用性强。

事件概述

2026年5月，图灵奖得主Richard Sutton与同事发表论文，提出“意图更新”（Intentional Updates）方法，针对流式强化学习（streaming RL）中的核心缺陷——步长选择问题给出新方案。该工作基于1967年Nagumo和Noda提出的归一化最小均方差（NLMS）算法思想，将其推广到深度神经网络场景。

核心信息

问题根源：传统梯度步长固定参数移动量，在流式训练（批量大小=1）中导致输出变化不可控，引发训练震荡崩溃。此前2024年的StreamX方法依赖精细超参数调优和多种稳定化技巧才勉强跨越“流式壁垒”。
解决方案：将步长选择从“参数移动多少”转为“函数输出变化多少”。每次更新前先设定期望的输出变化比例（如价值函数误差缩小5%），再根据梯度范数反推步长。与RMSProp对角缩放和资格迹结合，形成Intentional TD(λ)、Intentional Q(λ)和Intentional Policy Gradient三个算法，代码已开源。
性能表现：
- 在MuJoCo连续控制任务中，Intentional AC性能接近SAC，但单次更新计算量仅为SAC的1/140。
- 在Atari/MinAtar离散动作任务中，同一套超参数适用于所有游戏，无需调参。
- 实际更新量与预期更新量比值标准差仅0.016–0.029，99分位数≤1.07，更新精度可控。
局限性：策略学习中步长依赖当前采样动作，可能引入方向偏差。在Ant-v4任务中策略梯度方向对齐度降至0.63，未来需开发动作无关的步长选择策略。

值得关注

该方法特别适合机器人、边缘设备等需要实时在线学习的低算力场景，无需大容量回放缓冲区和GPU集群，实现真正的“边做边学”。Sutton作为图灵奖得主，将奖金投入Openmind研究院支持此类基础研究，延续了TD学习和策略梯度框架的创新脉络。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？