Goldilocks RL:通过动态调整任务难度突破推理中的稀疏奖励瓶颈
Apple Machine Learning Research 提出 Goldilocks RL,一种基于教师模型的数据采样策略,旨在解决强化学习在语言模型推理训练中因奖励稀疏导致的样本效率低下问题。该方法遵循“金发姑娘原则”,由教师模型预测题目难度并仅选择适合学生当前能力的中等难度样本进行训练,同时利用 GRPO 算法持续适应学生能力的变化。在 OpenMathReasoning 数据集上的实验表明,在相同计算预算下,该策略显著提升了标准 GRPO 模型的推理性能。
事件概述
针对大语言模型(LLM)在强化学习(RL)训练中面临的奖励稀疏和搜索空间巨大导致的样本效率低下的挑战,Apple Machine Learning Research 提出了 Goldilocks RL 方法。该方法通过动态调整任务难度,优化数据采样过程,从而提升模型的推理能力。
核心机制
- 教师驱动采样策略:引入一个教师模型(Teacher Model),用于预测每个问题对学生模型(Student Model)的难度。
- 金发姑娘原则(Goldilocks Principle):教师模型筛选出既不过于简单也不过于困难的“适中”难度的问题供学生模型训练,避免陷入无效探索或无法学习的困境。
- 自适应调整:教师模型根据学生模型在已见样本上的表现,持续更新对难度的预测,以适应学生能力的动态变化。
- 训练算法:学生模型采用 GRPO (Group Relative Policy Optimization) 算法进行训练。
实验结果与结论
- 数据集:OpenMathReasoning。
- 对比基准:使用标准 GRPO 训练的模型。
- 关键发现:在相同的计算预算(compute budget)约束下,采用 Goldilocks 数据采样策略的模型,其性能优于仅使用标准 GRPO 的模型。
- 意义:该方法为缓解强化学习中稀疏奖励带来的样本效率问题提供了一条有效路径,无需依赖复杂的课程学习顺序预设。
研究背景
经典课程学习(Curriculum Learning)试图通过按复杂度排序数据来缓解上述问题,但在具体场景下,针对特定模型的最佳排序往往难以确定。Goldilocks RL 通过实时预测和动态调整,解决了这一不确定性问题。
