火猫 AI

核心服务定制优势系统升级 AI 智能体 Skills 定制开发

AI 工具扣子智能体

精选案例资讯中心

安全保障关于我们联系我们

每日 AI 资讯

SFT别急着接RL！你的多模态大模型可能一直在“带伤训练”

2026/05/17 11:42阅读量 2

研究发现，多模态大模型在SFT后直接进行强化学习，可能因SFT引入的分布偏移导致性能不升反降。香港科技大学等团队提出PRISM方法，在SFT与RL之间加入分布对齐阶段，通过混合专家判别器分别纠正感知与推理偏差。实验表明，该方案可使模型在数学推理与通用多模态基准上获得显著提升。

事件概述

多模态大模型（MLLM）后训练长期遵循“先SFT再RL”的两阶段范式。但香港科技大学（广州）、南洋理工大学、清华大学等机构的最新研究PRISM指出，SFT不仅没有为RL铺好路，反而可能引入分布偏移，导致模型性能下降，使后续RL沦为“还债”而非“提升”。

核心信息

SFT带来性能下降：以Qwen3-VL为例，SFT后模型在7个多模态基准上的平均准确率下降，8B模型从63.3%降至58.1%（下降5.2个百分点）；经过GRPO后仅回升至63.3%，恰好回到原始基线水平。
问题根源：SFT在token级loss下将过程与结果同权处理，导致模型“表面模仿”而非真正推理；同时多模态场景下感知漂移（视觉定位错误）与推理漂移（逻辑推导错误）在同一loss中被混淆，难以区分纠正。
现有RL算法局限性：GRPO、DAPO等仅优化RL阶段内部效率，未修复SFT遗留的分布偏差。

PRISM方案

PRISM将后训练扩展为三阶段流水线：SFT → 分布对齐（PRISM） → RLVR。核心创新在中间的对齐阶段：

混合专家判别器：由感知专家D_v（评估视觉描述一致性）和推理专家D_r（评估逻辑推导有效性）组成，通过加权组合提供解耦的纠正信号。
黑盒蒸馏：仅需从强模型（如Gemini 3 Flash）采集响应作为正样本，无需访问logits，通过对抗博弈实现分布对齐。
去掉KL正则化：避免将策略拉回有偏的SFT分布，直接修正偏移。

实验验证

在Qwen3-VL的4B和8B模型上，PRISM结合GRPO/DAPO/GSPO，覆盖4个数学推理基准和3个通用多模态基准：

8B模型平均提升+6.0个百分点，4B提升+4.4个百分点，模型越强增益越大。
消融实验显示：去掉对齐阶段掉4.4个点；用单一判别器替代混合专家掉3.4个点；仅用文本判别器（无视觉评估）掉3.9个点，说明感知与推理分开纠正不可或缺。

值得关注

PRISM揭示了SFT到RL之间被长期忽视的分布断层，提供了一种无需修改RL算法或增加数据量的可行补丁，对多模态大模型后训练范式具有重要参考意义。

阅读原文详情

准备好启动您的定制项目了吗？

现在咨询，即可获得免费的业务梳理与技术架构建议方案。

联系我们查看案例