Apple ML Research：熵保持强化学习算法提升策略多样性与训练稳定性

2026/03/30 08:00阅读量 36

Apple Machine Learning Research 提出在强化学习训练中主动监控和控制熵，以解决传统策略梯度算法导致探索轨迹多样性下降的问题。研究团队通过形式化分析指出了影响熵动态的关键因素，并提出了 REPO 和 ADAPO 等具体算法机制。实验表明，采用这些熵保持方法训练的模型能维持全程多样性，最终策略性能更优且具备在新环境中进行序列学习的可训练性。

事件概述

针对当前策略梯度算法（Policy Gradient Algorithms）在训练过程中自然降低熵值、导致探索轨迹多样性受限的问题，Apple Machine Learning Research 发表了一篇题为《Entropy-Preserving Reinforcement Learning》的论文。该研究主张在训练全周期内主动监控并控制熵，以维持策略的探索能力。

核心发现与分析

问题根源：现有的许多策略梯度算法在训练过程中会自然地减少熵，使得策略逐渐丧失探索新轨迹的能力，限制了其生成多样化及创造性解决方案的潜力。
影响因素：研究对主流策略梯度目标的熵动态进行了形式化分析，识别出数值精度（numerical precision）等实证因素对熵行为有显著影响。
提出的解决方案：
- REPO：一类通过修改优势函数（advantage function）来调节熵的算法家族。
- ADAPO：一种自适应的非对称截断（asymmetric clipping）方法。

实验结论与价值

采用上述熵保持方法训练的模型表现出以下特性：

全程多样性：在训练过程中能够维持策略的多样性。
性能提升：生成的最终策略（final policies）具有更高的性能表现。
持续可训练性：保留了在新环境中进行序列学习（sequential learning）的能力。

该成果已发表于 ICLR 会议，相关作者包括 Aleksei Petrenko, Ben Lipkin, Kevin Chen, Erik Wijmans, Marco Cusumano-Towner, Raja Giryes 及 Philipp Krähenbühl。

阅读原文详情

事件概述

核心发现与分析

实验结论与价值

准备好启动您的定制项目了吗？