ICML 2026：Robust-U1 让多模态模型自己恢复受损图像

2026/06/16 10:48阅读量 2

ICML 2026 收录的 Robust-U1 提出让多模态模型自恢复受损图像，通过像素-语义双奖励强化学习和双图推理，显著提升在压缩、噪声等真实退化下的理解能力，R-Bench 综合得分从基线 0.577 提升至 0.740。

事件概述

ICML 2026 论文 Robust-U1 提出一种新范式：让多模态大语言模型（MLLM）在输入图像受损时，自行生成恢复后的图像，并联合原始受损图与恢复图进行推理。该方法解决了此前路线（特征对齐、文本描述退化）无法补充缺失视觉细节的根本限制。

核心方案

Robust-U1 基于统一多模态模型 BAGEL（同时支持理解和生成），分三阶段训练：

监督微调：在 ImageNet-C 的 75 万对受损-干净图像上训练生成模块，学习退化逆过程。
双奖励强化学习：采用像素结构奖励（SSIM）和语义一致性奖励（CLIP 特征对比），约束恢复图既清晰又语义正确。
双图推理：输入按“受损图—恢复图—问题”交错组织，模型同时观察两张图并生成推理链与答案。

关键实验结果

在 R-Bench 综合得分 0.7398，分别比基础模型 BAGEL（0.5770）和文本推理方法 Robust-R1（0.5017）提升超 16 和 23 个百分点。
图像描述任务提升最大，表明恢复图补充了场景级内容。
消融实验显示：移除双图推理得分降至 0.6623，移除像素或语义奖励分别降至 0.7257 和 0.7236。
外接专用修复模型预处理后最高仅得 0.5511，说明端到端自恢复更优。
恢复前后答案一致率 92.3%，语义奖励有效抑制幻觉。

值得关注

方向性变化：模型从被动容忍退化转向主动重建视觉证据，将中间推理过程从文本扩展到视觉空间。
可验证性：恢复图作为可观察的中间结果，便于检查模型依据。
局限性：恢复依赖训练分布，无法找回完全丢失的信息；训练成本高（恢复监督阶段 1920 L20 GPU 小时）；推理时增加延迟；当前仅验证静态图像。

研究脉络

该项工作属于多模态鲁棒性研究的演进：从特征对齐（TeCoA 2023）、系统评测（R-Bench 2024）、编码器鲁棒化（Robust CLIP 2024）、端到端抗扰动（Robust LLaVA 2025）、视觉辅助推理（Thinking with Generated Images 2025）、文本化退化推理（Robust-R1 2026），到本工作将图像恢复纳入推理链。

阅读原文详情

事件概述

核心方案

关键实验结果

值得关注

研究脉络

准备好启动您的定制项目了吗？