SFT别急着接RL!你的多模态大模型可能一直在“带伤训练”

2026/05/17 11:42阅读量 2

研究发现,多模态大模型在SFT后直接进行强化学习,可能因SFT引入的分布偏移导致性能不升反降。香港科技大学等团队提出PRISM方法,在SFT与RL之间加入分布对齐阶段,通过混合专家判别器分别纠正感知与推理偏差。实验表明,该方案可使模型在数学推理与通用多模态基准上获得显著提升。

事件概述

多模态大模型(MLLM)后训练长期遵循“先SFT再RL”的两阶段范式。但香港科技大学(广州)、南洋理工大学、清华大学等机构的最新研究PRISM指出,SFT不仅没有为RL铺好路,反而可能引入分布偏移,导致模型性能下降,使后续RL沦为“还债”而非“提升”。

核心信息

  • SFT带来性能下降:以Qwen3-VL为例,SFT后模型在7个多模态基准上的平均准确率下降,8B模型从63.3%降至58.1%(下降5.2个百分点);经过GRPO后仅回升至63.3%,恰好回到原始基线水平。
  • 问题根源:SFT在token级loss下将过程与结果同权处理,导致模型“表面模仿”而非真正推理;同时多模态场景下感知漂移(视觉定位错误)与推理漂移(逻辑推导错误)在同一loss中被混淆,难以区分纠正。
  • 现有RL算法局限性:GRPO、DAPO等仅优化RL阶段内部效率,未修复SFT遗留的分布偏差。

PRISM方案

PRISM将后训练扩展为三阶段流水线:SFT → 分布对齐(PRISM) → RLVR。核心创新在中间的对齐阶段:

  • 混合专家判别器:由感知专家D_v(评估视觉描述一致性)和推理专家D_r(评估逻辑推导有效性)组成,通过加权组合提供解耦的纠正信号。
  • 黑盒蒸馏:仅需从强模型(如Gemini 3 Flash)采集响应作为正样本,无需访问logits,通过对抗博弈实现分布对齐。
  • 去掉KL正则化:避免将策略拉回有偏的SFT分布,直接修正偏移。

实验验证

在Qwen3-VL的4B和8B模型上,PRISM结合GRPO/DAPO/GSPO,覆盖4个数学推理基准和3个通用多模态基准:

  • 8B模型平均提升+6.0个百分点,4B提升+4.4个百分点,模型越强增益越大。
  • 消融实验显示:去掉对齐阶段掉4.4个点;用单一判别器替代混合专家掉3.4个点;仅用文本判别器(无视觉评估)掉3.9个点,说明感知与推理分开纠正不可或缺。

值得关注

PRISM揭示了SFT到RL之间被长期忽视的分布断层,提供了一种无需修改RL算法或增加数据量的可行补丁,对多模态大模型后训练范式具有重要参考意义。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。