BalCapRL：用平衡强化学习框架优化多模态大模型图像描述质量

2026/05/11 08:00阅读量 2

Apple 研究团队提出 BalCapRL 平衡强化学习框架，联合优化实用性正确性、参考覆盖率和语言质量三项指标，解决现有 RL 方法在图像描述任务中产生的幻觉、冗长或过于通用等问题。在 LLaVA-1.5-7B 和 Qwen2.5-VL 3B/7B 模型上，该方法在 DCScore、CaptionQA 和 CapArena 指标上分别最高提升 +13.6、+9.0 和 +29.0。

事件概述

图像描述作为计算机视觉基础任务，在多模态大语言模型（MLLM）时代因开放端特性受到广泛关注。为追求更细致准确的描述，研究者近年转向强化学习（RL）。但现有 RL 图像描述方法和评价指标往往侧重单一质量维度，导致权衡问题：例如，面向实用性的目标可能鼓励噪声、幻觉或过长描述以提高下游问答性能但损害流畅性；而竞技场风格目标则可能偏向流畅但通用性有限的描述。

核心方法

Apple 团队提出 BalCapRL，一个平衡的 RL 框架，联合优化三个核心维度：

实用性正确性：确保描述有助于下游任务准确回答；
参考覆盖率：衡量描述与人工标注参考的匹配程度；
语言质量：保证描述流畅自然。

为有效优化这一连续多目标奖励公式，研究采用 GDPO 风格的奖励解耦归一化（reward-decoupled normalization），并证明其性能优于标准 GRPO。此外，引入长度条件奖励掩码，为图像描述任务提供更合适的长度惩罚。

实验结果

在 LLaVA-1.5-7B 和 Qwen2.5-VL（3B/7B）三个基础模型上，BalCapRL 一致提升描述质量，峰值增益为：

DCScore 提升 +13.6
CaptionQA 提升 +9.0
CapArena 提升 +29.0

阅读原文详情

事件概述

核心方法

实验结果

准备好启动您的定制项目了吗？