ERGO:基于强化学习的视觉语言模型高效高分辨率理解框架

Nota AI 团队提出 ERGO 框架,通过强化学习引导大视觉语言模型(LVLM)从“感知驱动”转向“推理驱动”,实现高效的高分辨率图像理解。该框架采用两阶段粗到细流程,利用上下文线索定位关键区域并仅对局部进行高分辨率编码,显著降低了视觉 Token 数量。实验表明,ERGO 在多个基准测试中超越了现有方法,在保持更高准确率的同时将推理延迟降低高达 3 倍。

事件概述

针对大视觉语言模型(LVLMs)在处理高分辨率图像时面临的计算开销大、延迟高以及低分辨率下细节丢失的问题,Nota AI 团队提出了 ERGO(Efficient High-Resolution Visual Understanding for Vision-Language Models)框架。该框架的核心创新在于引入强化学习(RL),使模型学会利用场景上下文和文本查询来主动推理并定位任务相关的视觉区域,从而改变传统模型必须全图高清感知才能推理的低效模式。

核心机制与方法

ERGO 采用了一种“由粗到细”的两阶段推理流水线,其训练目标明确对齐于视觉处理效率:

  1. 两阶段处理流程

    • 第一阶段(策略预测):策略模型结合文本查询与场景上下文,生成包含思维链的边界框坐标,预测任务相关的关键区域。
    • 第二阶段(精细编码):将原始图像中裁剪出的关键区域以原始分辨率重新编码,用于最终答案生成。
  2. 强化学习奖励设计
    为了引导模型选择最优区域而非盲目扩大视野,设计了组合奖励函数:

    • 区域验证奖励(Region-Verification Reward):仅基于裁剪后的区域和查询评估任务表现,迫使模型识别信息自洽且完整的区域。
    • 边界框调整奖励(Box Adjustment Reward):根据面积比例惩罚过大的裁剪框,防止模型采取“裁剪整张图”的平庸策略,鼓励灵活的区域选择。
    • 任务驱动上下文探索(TCE)奖励:综合上述两项,使模型学会利用周围上下文指导视觉探索。
    • 最终奖励公式:为线性组合形式,其中准确性奖励弥补了训练与测试的不匹配,格式奖励确保输出结构化。

实验结果与性能分析

在多个高分辨率基准测试中,ERGO 展现了显著的效能优势:

  • 精度与效率平衡:在控制输入像素约束的前提下,ERGO 的表现优于原始模型及现有的后训练优化方法。它并非通过处理更多视觉信息来提升成绩,而是通过更有效地分配视觉计算资源。
  • Token 数量大幅减少:相比传统方法随 Token 增加而提升准确率的趋势,ERGO 能用更少的 Token 实现更强的推理能力。
    • 仅需 1,632 个 视觉 Token 即可达到 83.8 的 V* 分数。
    • 即使压缩至 1,025 个 Token,仍能保持 81.7 的强性能。
  • 实际部署加速:ERGO 兼容 vLLM 等生产级引擎,实测推理延迟降低高达 3 倍,证明了其在实际应用场景中的落地价值。

消融研究与结论

消融实验证实,各奖励组件的加入均能持续提升性能,表明单纯的准确推理不足以替代有效的区域选择学习。ERGO 通过将范式从“感知驱动”转变为“推理驱动”,成功克服了图像降采样带来的局限。该框架不仅减少了计算开销,还通过聚焦有限视觉 Token 于最关键信息,实现了高精度与低延迟的双重突破,为复杂视觉语言任务的规模化部署提供了可扩展的解决方案。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。