RVPO:通过方差正则化实现风险敏感的模型对齐

2026/05/08 08:00阅读量 13

苹果研究团队提出RVPO(奖励方差策略优化)方法,通过惩罚多目标奖励之间的方差来解决现有RLHF方法中的约束忽视问题。在医学推理和工具调用任务中(模型规模1.5B-14B),RVPO在HealthBench上提升显著(14B模型得分0.261 vs 0.215),同时保持GPQA-Diamond准确率且避免后期退化。

事件概述

苹果机器学习研究团队发布新论文《RVPO: Risk-Sensitive Alignment via Variance Regularization》,提出一种风险敏感的模型对齐方法——奖励方差策略优化(RVPO),旨在解决当前无评论家RLHF(基于人类反馈的强化学习)方法在多目标奖励聚合时容易出现的“约束忽视”问题。

核心信息

  • 问题背景:现有RLHF方法通常使用算术平均来聚合多个目标的奖励,这会导致一个目标的高分可以数值上抵消其他目标(如安全或格式)的严重失败,从而掩盖低分“瓶颈”奖励,影响可靠的多目标对齐。
  • 方法核心:RVPO在优势聚合过程中惩罚奖励之间的方差,将目标从“最大化总和”转变为“最大化一致性”。通过泰勒展开,研究者发现LogSumExp(SoftMin)算子可以有效充当平滑的方差惩罚项。
  • 实验设置:评估基于两个场景:
    • 医学和科学推理任务,使用最多17个由LLM(大语言模型)评判的奖励信号(模型Qwen2.5-3B/7B/14B);
    • 工具调用任务,使用基于规则的约束(模型Qwen2.5-1.5B/3B)。
  • 关键结果
    • 在HealthBench上,14B模型的RVPO得分0.261,显著优于GDPO的0.215(p<0.001);
    • 在GPQA-Diamond上保持具有竞争力的准确率,且没有出现其他多奖励方法在后期阶段的性能退化;
    • 表明方差正则化能在不同模型规模下缓解约束忽视,且不牺牲通用能力。

值得关注

该方法通过简单的方差正则化,为多目标奖励优化提供了一种轻量且有效的风险控制手段,尤其适用于需要同时满足多项约束(如安全、格式、事实准确性)的实际应用场景。

来源:Apple Machine Learning Research
返回列表

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。