Apple ML Research:熵保持强化学习算法提升策略多样性与训练稳定性
2026/03/30 08:00阅读量 2
Apple Machine Learning Research 提出在强化学习训练中主动监控和控制熵,以解决传统策略梯度算法导致探索轨迹多样性下降的问题。研究团队通过形式化分析指出了影响熵动态的关键因素,并提出了 REPO 和 ADAPO 等具体算法机制。实验表明,采用这些熵保持方法训练的模型能维持全程多样性,最终策略性能更优且具备在新环境中进行序列学习的可训练性。
事件概述
针对当前策略梯度算法(Policy Gradient Algorithms)在训练过程中自然降低熵值、导致探索轨迹多样性受限的问题,Apple Machine Learning Research 发表了一篇题为《Entropy-Preserving Reinforcement Learning》的论文。该研究主张在训练全周期内主动监控并控制熵,以维持策略的探索能力。
核心发现与分析
- 问题根源:现有的许多策略梯度算法在训练过程中会自然地减少熵,使得策略逐渐丧失探索新轨迹的能力,限制了其生成多样化及创造性解决方案的潜力。
- 影响因素:研究对主流策略梯度目标的熵动态进行了形式化分析,识别出数值精度(numerical precision)等实证因素对熵行为有显著影响。
- 提出的解决方案:
- REPO:一类通过修改优势函数(advantage function)来调节熵的算法家族。
- ADAPO:一种自适应的非对称截断(asymmetric clipping)方法。
实验结论与价值
采用上述熵保持方法训练的模型表现出以下特性:
- 全程多样性:在训练过程中能够维持策略的多样性。
- 性能提升:生成的最终策略(final policies)具有更高的性能表现。
- 持续可训练性:保留了在新环境中进行序列学习(sequential learning)的能力。
该成果已发表于 ICLR 会议,相关作者包括 Aleksei Petrenko, Ben Lipkin, Kevin Chen, Erik Wijmans, Marco Cusumano-Towner, Raja Giryes 及 Philipp Krähenbühl。
