ICML 2026:视觉自恢复+双奖励强化学习,提升受损图像理解
2026/06/16 10:48阅读量 2
Robust-U1 提出让多模态模型自主生成受损图像的恢复图,并采用像素结构(SSIM)和语义一致性(CLIP)双奖励强化学习约束恢复质量,再联合原图共同推理。在 R-Bench 等基准上,综合得分0.7398,显著优于基础模型 BAGEL(0.5770)和文本推理方法 Robust-R1(0.5017),尤其在图像描述和高强度退化场景下优势明显。
事件概述
多模态模型在受损图像(压缩、噪声、暗光、模糊)上常能写出流畅分析,但视觉细节已丢失时,推理往往基于错误观察。此前方法或让编码器适应噪声(特征对齐),或用文字描述退化影响(如 Robust-R1),但均无法重建像素级证据。Robust-U1 转而让模型自己生成恢复图,再将恢复结果与原始受损图共同用于问答,实现“先恢复视觉证据,再交叉校验推理”。
方法核心
Robust-U1 基于统一多模态模型 BAGEL(同时支持理解和图像生成),训练分三个阶段:
- 监督微调恢复:在 ImageNet-C 的75万组受损-干净图像对上训练,模型学习从受损图生成恢复图。
- 双奖励强化学习:采用 Flow-GRPO,使用两种奖励约束恢复质量:
- 像素结构奖励(SSIM):衡量局部亮度、对比度和结构相似性。
- 语义一致性奖励(冻结 CLIP 特征相似度):确保恢复图与干净图在语义层面一致。
两者缺一不可:仅像素奖励可能产生清晰但语义错误的图;仅语义奖励可能忽略精细结构。
- 双图联合推理:将输入组织为“受损图—恢复图—问题”,模型在推理时同时参考两张图,通过语言生成链式回答。
实验与结果
- R-Bench 基准:Robust-U1 综合得分 0.7398,高于 BAGEL(0.5770)和 Robust-R1(0.5017)。图像描述任务上差距最大,表明恢复图提供了场景级内容。
- 高退化强度测试:在 MMMB 上从干净图到100%退化,Robust-U1 仅下降1.57分,而 BAGEL 下降3.44分,Robust-R1 下降6.06分。
- 消融实验:
- 取消双图推理 → 得分降至 0.6623(恢复图未真正参与推理)。
- 移除像素奖励 → 0.7257;移除语义奖励 → 0.7236;高强度退化下缺少语义奖励损失更大。
- 外接专用图像修复器(如 Qwen2.5-VL-7B 预处理)最高仅 0.5511,说明修复器不保证问答所需证据。
- 恢复质量:PSNR 从 BAGEL 的 14.37 提升至 21.49,SSIM 从 0.4722 提升至 0.6314,LPIPS 从 0.5092 降至 0.3223。
值得关注的点
Robust-U1 将多模态推理的中间过程从纯文本扩展到视觉空间:模型不是被动适应损坏,而是主动重建证据。恢复图提供了可观察的中间结果,便于调试和审核。
该方法对暗光驾驶、遥感、监控和医学影像等感知信息缺失场景有潜力,但也存在局限:
- 恢复基于训练分布估计,仍有生成错误可能(论文报告答案一致率92.3%,未完全消除幻觉)。
- 训练成本高:恢复监督阶段使用1920个 L20 GPU 小时;推理时额外生成图像增加延迟。
- 依赖成对受损-干净图像训练;无干净参考时语义奖励效果下降(综合分0.6233)。
- 当前限于静态图像,视频时间一致性、未知退化类型和风险场景下的校准仍需验证。
