RVPO：通过方差正则化实现风险敏感的模型对齐

2026/05/08 08:00阅读量 13

苹果研究团队提出RVPO（奖励方差策略优化）方法，通过惩罚多目标奖励之间的方差来解决现有RLHF方法中的约束忽视问题。在医学推理和工具调用任务中（模型规模1.5B-14B），RVPO在HealthBench上提升显著（14B模型得分0.261 vs 0.215），同时保持GPQA-Diamond准确率且避免后期退化。

事件概述

苹果机器学习研究团队发布新论文《RVPO: Risk-Sensitive Alignment via Variance Regularization》，提出一种风险敏感的模型对齐方法——奖励方差策略优化（RVPO），旨在解决当前无评论家RLHF（基于人类反馈的强化学习）方法在多目标奖励聚合时容易出现的“约束忽视”问题。

核心信息

问题背景：现有RLHF方法通常使用算术平均来聚合多个目标的奖励，这会导致一个目标的高分可以数值上抵消其他目标（如安全或格式）的严重失败，从而掩盖低分“瓶颈”奖励，影响可靠的多目标对齐。
方法核心：RVPO在优势聚合过程中惩罚奖励之间的方差，将目标从“最大化总和”转变为“最大化一致性”。通过泰勒展开，研究者发现LogSumExp（SoftMin）算子可以有效充当平滑的方差惩罚项。
实验设置：评估基于两个场景：
- 医学和科学推理任务，使用最多17个由LLM（大语言模型）评判的奖励信号（模型Qwen2.5-3B/7B/14B）；
- 工具调用任务，使用基于规则的约束（模型Qwen2.5-1.5B/3B）。
关键结果：
- 在HealthBench上，14B模型的RVPO得分0.261，显著优于GDPO的0.215（p<0.001）；
- 在GPQA-Diamond上保持具有竞争力的准确率，且没有出现其他多奖励方法在后期阶段的性能退化；
- 表明方差正则化能在不同模型规模下缓解约束忽视，且不牺牲通用能力。

值得关注

该方法通过简单的方差正则化，为多目标奖励优化提供了一种轻量且有效的风险控制手段，尤其适用于需要同时满足多项约束（如安全、格式、事实准确性）的实际应用场景。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？