DSO:一种基于强化学习的直接导向优化方法,用于缓解生成模型偏见
2026/04/29 08:00阅读量 3
Apple Machine Learning Research 提出了一种名为 DSO(Direct Steering Optimization)的新方法,利用强化学习寻找线性变换以在推理阶段直接优化激活向量,从而缓解视觉语言模型(VLMs)和大型语言模型(LLMs)中的偏见。该方法解决了现有导向技术难以实现跨人口统计群体结果等概率分布的问题,同时允许用户根据需求在去偏见与保持模型性能之间进行可控权衡。实验表明,DSO 在公平性与模型能力之间的平衡上达到了最先进水平,优于依赖预定义启发式规则的传统方法。
DSO: Direct Steering Optimization for Bias Mitigation
事件概述
针对生成模型(如视觉语言模型 VLMs 和大型语言模型 LLMs)在决策时受输入数据人口统计属性影响而产生偏见的问题,Apple Machine Learning Research 团队提出了 DSO (Direct Steering Optimization) 方法。该研究旨在解决现有推理时控制手段(Activation Steering)在纠正偏见方面的不足,特别是在需要确保不同人口统计群体间结果等概率分布的场景下。
核心机制与技术路径
- 问题背景:现有的 Activation Steering 方法虽然能诱导大语言模型产生更安全的行为,但在处理需要严格公平性(即跨群体结果概率相等)的偏见修正任务时表现不佳。
- 解决方案:DSO 采用 强化学习 (Reinforcement Learning) 来自动搜索最优的线性变换矩阵,用于调整模型的激活向量(activations)。
- 优化目标:该方法直接针对“去偏见”这一目标进行优化,而非依赖预设的启发式规则(heuristics),从而在减少偏见的同时,保留对模型整体性能的精细控制。
关键成果与结论
- 性能表现:在 VLMs 和 LLMs 上的实验显示,DSO 实现了公平性(Fairness)与模型能力(Capabilities)之间最佳的权衡(trade-off)。
- 可控性:为从业者提供了推理时的动态控制能力,允许根据具体应用场景调整去偏见程度与模型性能损失之间的平衡点。
- 方法论优势:研究证明,直接针对模型行为进行优化的导向策略,比依赖预定义规则的间接方法能更有效地干预模型偏见。
发布信息
- 发表会议:CVPR
- 发表时间:2026 年 4 月
- 主要作者:Lucas Monteiro Paes, Nivedha Sivakumar, Oliver Wang, Masha Fedzechkina, Barry-John Theobald, Luca Zappella, Nicholas Apostoloff
- 机构关联:部分作者来自卡内基梅隆大学(Carnegie Mellon University),部分工作期间隶属于 Apple。
- 开源资源:相关代码已发布于 GitHub。
