ICML 2026：视觉自恢复+双奖励强化学习，提升受损图像理解

2026/06/16 10:48阅读量 2

Robust-U1 提出让多模态模型自主生成受损图像的恢复图，并采用像素结构（SSIM）和语义一致性（CLIP）双奖励强化学习约束恢复质量，再联合原图共同推理。在 R-Bench 等基准上，综合得分0.7398，显著优于基础模型 BAGEL（0.5770）和文本推理方法 Robust-R1（0.5017），尤其在图像描述和高强度退化场景下优势明显。

事件概述

多模态模型在受损图像（压缩、噪声、暗光、模糊）上常能写出流畅分析，但视觉细节已丢失时，推理往往基于错误观察。此前方法或让编码器适应噪声（特征对齐），或用文字描述退化影响（如 Robust-R1），但均无法重建像素级证据。Robust-U1 转而让模型自己生成恢复图，再将恢复结果与原始受损图共同用于问答，实现“先恢复视觉证据，再交叉校验推理”。

方法核心

Robust-U1 基于统一多模态模型 BAGEL（同时支持理解和图像生成），训练分三个阶段：

监督微调恢复：在 ImageNet-C 的75万组受损-干净图像对上训练，模型学习从受损图生成恢复图。
双奖励强化学习：采用 Flow-GRPO，使用两种奖励约束恢复质量：
- 像素结构奖励（SSIM）：衡量局部亮度、对比度和结构相似性。
- 语义一致性奖励（冻结 CLIP 特征相似度）：确保恢复图与干净图在语义层面一致。
  两者缺一不可：仅像素奖励可能产生清晰但语义错误的图；仅语义奖励可能忽略精细结构。
双图联合推理：将输入组织为“受损图—恢复图—问题”，模型在推理时同时参考两张图，通过语言生成链式回答。

实验与结果

R-Bench 基准：Robust-U1 综合得分 0.7398，高于 BAGEL（0.5770）和 Robust-R1（0.5017）。图像描述任务上差距最大，表明恢复图提供了场景级内容。
高退化强度测试：在 MMMB 上从干净图到100%退化，Robust-U1 仅下降1.57分，而 BAGEL 下降3.44分，Robust-R1 下降6.06分。
消融实验：
- 取消双图推理 → 得分降至 0.6623（恢复图未真正参与推理）。
- 移除像素奖励 → 0.7257；移除语义奖励 → 0.7236；高强度退化下缺少语义奖励损失更大。
- 外接专用图像修复器（如 Qwen2.5-VL-7B 预处理）最高仅 0.5511，说明修复器不保证问答所需证据。
恢复质量：PSNR 从 BAGEL 的 14.37 提升至 21.49，SSIM 从 0.4722 提升至 0.6314，LPIPS 从 0.5092 降至 0.3223。

值得关注的点

Robust-U1 将多模态推理的中间过程从纯文本扩展到视觉空间：模型不是被动适应损坏，而是主动重建证据。恢复图提供了可观察的中间结果，便于调试和审核。

该方法对暗光驾驶、遥感、监控和医学影像等感知信息缺失场景有潜力，但也存在局限：

恢复基于训练分布估计，仍有生成错误可能（论文报告答案一致率92.3%，未完全消除幻觉）。
训练成本高：恢复监督阶段使用1920个 L20 GPU 小时；推理时额外生成图像增加延迟。
依赖成对受损-干净图像训练；无干净参考时语义奖励效果下降（综合分0.6233）。
当前限于静态图像，视频时间一致性、未知退化类型和风险场景下的校准仍需验证。

阅读原文详情

事件概述

方法核心

实验与结果

值得关注的点

准备好启动您的定制项目了吗？