从最优传输角度训练奖励模型:让 RLHF 学会「忽略错误偏好」

2026/06/15 15:39阅读量 2

针对 RLHF 中偏好数据普遍存在噪声、导致奖励模型学偏的问题,浙江大学、小红书、北京大学等机构提出 SelectiveRM 框架,基于最优传输将奖励模型训练从点对点拟合重构为选择性分布对齐。该方法通过部分最优传输自动排除与语义一致性冲突的噪声偏好,在多个数据集上优于现有降噪方法,并能提升下游 RLHF 的安全性与鲁棒性。

事件概述

大语言模型对齐方法(RLHF、RLAIF、GRPO 等)依赖偏好数据训练奖励模型,然而人工标注、众包反馈或 LLM-as-a-Judge 收集的偏好数据普遍包含噪声(如标注疲劳、主观分歧、随机失误等)。标准监督学习假设偏好标签干净且可信,但在噪声环境下会同时拟合真实偏好与错误偏好,导致奖励模型失真,并进一步引发策略模型的 Reward Hacking。

核心方法:SelectiveRM

研究团队提出 SelectiveRM,将奖励模型训练重构为分布对齐问题,而非简单的点对点回归。其核心思想是:定义数据经验联合分布与模型诱导联合分布,利用最优传输(Optimal Transport)衡量两者差异,传输代价同时考虑语义距离(样本在语义空间中的接近程度)和偏好差异(偏好值是否一致),使模型在全局上学习“语义-偏好”的一致结构。

但标准最优传输要求所有样本必须匹配,仍会强迫模型拟合噪声样本。为此,SelectiveRM 引入部分最优传输(Partial Optimal Transport),通过质量松弛(Mass Relaxation)机制,只匹配低代价、高一致性的可靠样本,自动排除与语义一致性明显冲突的高成本噪声偏好。理论证明,该优化目标比标准经验风险更紧的 clean-risk 上界,具有严格理论支撑。

实验验证

  • 数据集与对比:在 HelpSteer、UltraFeedback、PKU-SafeRLHF 等多个公开偏好数据集上,SelectiveRM 在奖励模型指标上均优于标准训练方式(Naive baseline)以及基于噪声转移矩阵、样本筛选等现有降噪方法。
  • 消融实验:联合代价与部分传输两个关键组件各自有效,二者结合达到最佳表现,说明优势来自“语义一致性判断 + 选择性匹配机制”的协同作用。
  • 泛化能力:在 Qwen2.5 和 LLaMA2 系列不同参数规模模型(7B 至 72B)上,SelectiveRM 均稳定带来性能增益,体现模型无关性。
  • 下游 RLHF 影响:使用不同奖励模型为 GRPO 提供信号,在 HarmBench、FFT、DAN 等安全基准上,SelectiveRM 训练得到的奖励模型显著提升策略模型的安全得分,并抑制 Reward Hacking 传播。

值得关注

SelectiveRM 重新审视了奖励模型训练中一个根本问题:当监督信号本身不可靠时,学习目标不应只是“更好地拟合数据”,而应进一步回答“哪些数据值得被学习”。该方法所倡导的“选择性分布对齐”思想,为在噪声反馈下学习可靠奖励函数提供了一种更具原则性的训练范式。论文已被 ICML 2026 接收。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。