ICML 2026:Robust-U1 让多模态模型自己恢复受损图像
2026/06/16 10:48阅读量 2
ICML 2026 收录的 Robust-U1 提出让多模态模型自恢复受损图像,通过像素-语义双奖励强化学习和双图推理,显著提升在压缩、噪声等真实退化下的理解能力,R-Bench 综合得分从基线 0.577 提升至 0.740。
事件概述
ICML 2026 论文 Robust-U1 提出一种新范式:让多模态大语言模型(MLLM)在输入图像受损时,自行生成恢复后的图像,并联合原始受损图与恢复图进行推理。该方法解决了此前路线(特征对齐、文本描述退化)无法补充缺失视觉细节的根本限制。
核心方案
Robust-U1 基于统一多模态模型 BAGEL(同时支持理解和生成),分三阶段训练:
- 监督微调:在 ImageNet-C 的 75 万对受损-干净图像上训练生成模块,学习退化逆过程。
- 双奖励强化学习:采用像素结构奖励(SSIM)和语义一致性奖励(CLIP 特征对比),约束恢复图既清晰又语义正确。
- 双图推理:输入按“受损图—恢复图—问题”交错组织,模型同时观察两张图并生成推理链与答案。
关键实验结果
- 在 R-Bench 综合得分 0.7398,分别比基础模型 BAGEL(0.5770)和文本推理方法 Robust-R1(0.5017)提升超 16 和 23 个百分点。
- 图像描述任务提升最大,表明恢复图补充了场景级内容。
- 消融实验显示:移除双图推理得分降至 0.6623,移除像素或语义奖励分别降至 0.7257 和 0.7236。
- 外接专用修复模型预处理后最高仅得 0.5511,说明端到端自恢复更优。
- 恢复前后答案一致率 92.3%,语义奖励有效抑制幻觉。
值得关注
- 方向性变化:模型从被动容忍退化转向主动重建视觉证据,将中间推理过程从文本扩展到视觉空间。
- 可验证性:恢复图作为可观察的中间结果,便于检查模型依据。
- 局限性:恢复依赖训练分布,无法找回完全丢失的信息;训练成本高(恢复监督阶段 1920 L20 GPU 小时);推理时增加延迟;当前仅验证静态图像。
研究脉络
该项工作属于多模态鲁棒性研究的演进:从特征对齐(TeCoA 2023)、系统评测(R-Bench 2024)、编码器鲁棒化(Robust CLIP 2024)、端到端抗扰动(Robust LLaVA 2025)、视觉辅助推理(Thinking with Generated Images 2025)、文本化退化推理(Robust-R1 2026),到本工作将图像恢复纳入推理链。
