BalCapRL:用平衡强化学习框架优化多模态大模型图像描述质量
2026/05/11 08:00阅读量 2
Apple 研究团队提出 BalCapRL 平衡强化学习框架,联合优化实用性正确性、参考覆盖率和语言质量三项指标,解决现有 RL 方法在图像描述任务中产生的幻觉、冗长或过于通用等问题。在 LLaVA-1.5-7B 和 Qwen2.5-VL 3B/7B 模型上,该方法在 DCScore、CaptionQA 和 CapArena 指标上分别最高提升 +13.6、+9.0 和 +29.0。
事件概述
图像描述作为计算机视觉基础任务,在多模态大语言模型(MLLM)时代因开放端特性受到广泛关注。为追求更细致准确的描述,研究者近年转向强化学习(RL)。但现有 RL 图像描述方法和评价指标往往侧重单一质量维度,导致权衡问题:例如,面向实用性的目标可能鼓励噪声、幻觉或过长描述以提高下游问答性能但损害流畅性;而竞技场风格目标则可能偏向流畅但通用性有限的描述。
核心方法
Apple 团队提出 BalCapRL,一个平衡的 RL 框架,联合优化三个核心维度:
- 实用性正确性:确保描述有助于下游任务准确回答;
- 参考覆盖率:衡量描述与人工标注参考的匹配程度;
- 语言质量:保证描述流畅自然。
为有效优化这一连续多目标奖励公式,研究采用 GDPO 风格的奖励解耦归一化(reward-decoupled normalization),并证明其性能优于标准 GRPO。此外,引入长度条件奖励掩码,为图像描述任务提供更合适的长度惩罚。
实验结果
在 LLaVA-1.5-7B 和 Qwen2.5-VL(3B/7B)三个基础模型上,BalCapRL 一致提升描述质量,峰值增益为:
- DCScore 提升 +13.6
- CaptionQA 提升 +9.0
- CapArena 提升 +29.0
