Apple ML 提出 P-GRPO:解决大模型个性化对齐中的群体偏差问题
2026/04/02 08:00阅读量 2
针对现有强化学习人类反馈(RLHF)及组相对策略优化(GRPO)方法在个性化场景中因假设样本可交换而导致的少数偏好被抑制问题,Apple Machine Learning Research 提出了个性化 GRPO(P-GRPO)。该方法通过将优势估计与即时批次统计解耦,改为基于特定偏好群体的奖励历史进行归一化,从而保留区分不同偏好的对比信号。实验表明,P-GRPO 在多样化任务中比标准 GRPO 收敛更快、获得更高奖励,能有效对齐异构的人类偏好而不牺牲通用能力。
事件概述
Apple Machine Learning Research 团队发表新论文,提出了一种名为 Personalized Group Relative Policy Optimization (P-GRPO) 的新型对齐框架,旨在解决大型语言模型(LLMs)在处理多样化个体偏好时的对齐失效问题。
核心问题与挑战
- 全局目标局限:现有的后训练方法(如 RLHF)通常优化单一的全局目标,难以适配多样化的个人偏好。
- GRPO 的隐式假设缺陷:广泛采用的组相对策略优化(GRPO)框架基于“所有样本可交换”的假设进行组内归一化。这种机制混淆了不同的用户奖励分布,导致学习过程系统性地向主导偏好倾斜,同时压制了少数派信号的提取。
P-GRPO 技术方案
为突破上述限制,P-GRPO 引入了以下关键改进:
- 解耦优势估计:将优势估计从即时的批次统计中解耦出来。
- 分组归一化策略:不再使用并发生成组的统计数据进行归一化,而是针对每个偏好群体特定的奖励历史(preference-group-specific reward histories)进行计算。
- 保留对比信号:通过上述调整,保留了学习 distinct preferences(独特偏好)所必需的对比信号,确保模型能准确捕捉异构偏好。
实验结果与结论
- 性能提升:在多样化任务评估中,P-GRPO 展现出比标准 GRPO 更快的收敛速度和更高的奖励值。
- 对齐效果:该方法显著增强了模型恢复和匹配异构偏好信号的能力。
- 核心结论:在优化层面考虑奖励的异质性(reward heterogeneity),对于构建既能忠实对齐多样化人类偏好、又不牺牲通用能力的模型至关重要。
