BalCapRL:用平衡强化学习框架优化多模态大模型图像描述质量

2026/05/11 08:00阅读量 2

Apple 研究团队提出 BalCapRL 平衡强化学习框架,联合优化实用性正确性、参考覆盖率和语言质量三项指标,解决现有 RL 方法在图像描述任务中产生的幻觉、冗长或过于通用等问题。在 LLaVA-1.5-7B 和 Qwen2.5-VL 3B/7B 模型上,该方法在 DCScore、CaptionQA 和 CapArena 指标上分别最高提升 +13.6、+9.0 和 +29.0。

事件概述

图像描述作为计算机视觉基础任务,在多模态大语言模型(MLLM)时代因开放端特性受到广泛关注。为追求更细致准确的描述,研究者近年转向强化学习(RL)。但现有 RL 图像描述方法和评价指标往往侧重单一质量维度,导致权衡问题:例如,面向实用性的目标可能鼓励噪声、幻觉或过长描述以提高下游问答性能但损害流畅性;而竞技场风格目标则可能偏向流畅但通用性有限的描述。

核心方法

Apple 团队提出 BalCapRL,一个平衡的 RL 框架,联合优化三个核心维度:

  • 实用性正确性:确保描述有助于下游任务准确回答;
  • 参考覆盖率:衡量描述与人工标注参考的匹配程度;
  • 语言质量:保证描述流畅自然。

为有效优化这一连续多目标奖励公式,研究采用 GDPO 风格的奖励解耦归一化(reward-decoupled normalization),并证明其性能优于标准 GRPO。此外,引入长度条件奖励掩码,为图像描述任务提供更合适的长度惩罚。

实验结果

在 LLaVA-1.5-7B 和 Qwen2.5-VL(3B/7B)三个基础模型上,BalCapRL 一致提升描述质量,峰值增益为:

  • DCScore 提升 +13.6
  • CaptionQA 提升 +9.0
  • CapArena 提升 +29.0
来源:Apple Machine Learning Research
返回列表

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。