ICML 2026:视觉自恢复+双奖励强化学习,提升受损图像理解

2026/06/16 10:48阅读量 2

Robust-U1 提出让多模态模型自主生成受损图像的恢复图,并采用像素结构(SSIM)和语义一致性(CLIP)双奖励强化学习约束恢复质量,再联合原图共同推理。在 R-Bench 等基准上,综合得分0.7398,显著优于基础模型 BAGEL(0.5770)和文本推理方法 Robust-R1(0.5017),尤其在图像描述和高强度退化场景下优势明显。

事件概述

多模态模型在受损图像(压缩、噪声、暗光、模糊)上常能写出流畅分析,但视觉细节已丢失时,推理往往基于错误观察。此前方法或让编码器适应噪声(特征对齐),或用文字描述退化影响(如 Robust-R1),但均无法重建像素级证据。Robust-U1 转而让模型自己生成恢复图,再将恢复结果与原始受损图共同用于问答,实现“先恢复视觉证据,再交叉校验推理”。

方法核心

Robust-U1 基于统一多模态模型 BAGEL(同时支持理解和图像生成),训练分三个阶段:

  1. 监督微调恢复:在 ImageNet-C 的75万组受损-干净图像对上训练,模型学习从受损图生成恢复图。
  2. 双奖励强化学习:采用 Flow-GRPO,使用两种奖励约束恢复质量:
    • 像素结构奖励(SSIM):衡量局部亮度、对比度和结构相似性。
    • 语义一致性奖励(冻结 CLIP 特征相似度):确保恢复图与干净图在语义层面一致。
      两者缺一不可:仅像素奖励可能产生清晰但语义错误的图;仅语义奖励可能忽略精细结构。
  3. 双图联合推理:将输入组织为“受损图—恢复图—问题”,模型在推理时同时参考两张图,通过语言生成链式回答。

实验与结果

  • R-Bench 基准:Robust-U1 综合得分 0.7398,高于 BAGEL(0.5770)和 Robust-R1(0.5017)。图像描述任务上差距最大,表明恢复图提供了场景级内容。
  • 高退化强度测试:在 MMMB 上从干净图到100%退化,Robust-U1 仅下降1.57分,而 BAGEL 下降3.44分,Robust-R1 下降6.06分。
  • 消融实验
    • 取消双图推理 → 得分降至 0.6623(恢复图未真正参与推理)。
    • 移除像素奖励 → 0.7257;移除语义奖励 → 0.7236;高强度退化下缺少语义奖励损失更大。
    • 外接专用图像修复器(如 Qwen2.5-VL-7B 预处理)最高仅 0.5511,说明修复器不保证问答所需证据。
  • 恢复质量:PSNR 从 BAGEL 的 14.37 提升至 21.49,SSIM 从 0.4722 提升至 0.6314,LPIPS 从 0.5092 降至 0.3223。

值得关注的点

Robust-U1 将多模态推理的中间过程从纯文本扩展到视觉空间:模型不是被动适应损坏,而是主动重建证据。恢复图提供了可观察的中间结果,便于调试和审核。

该方法对暗光驾驶、遥感、监控和医学影像等感知信息缺失场景有潜力,但也存在局限:

  • 恢复基于训练分布估计,仍有生成错误可能(论文报告答案一致率92.3%,未完全消除幻觉)。
  • 训练成本高:恢复监督阶段使用1920个 L20 GPU 小时;推理时额外生成图像增加延迟。
  • 依赖成对受损-干净图像训练;无干净参考时语义奖励效果下降(综合分0.6233)。
  • 当前限于静态图像,视频时间一致性、未知退化类型和风险场景下的校准仍需验证。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。