ICML 2026:用文本提示对视觉语言模型进行语义鲁棒性认证

2026/06/26 10:21阅读量 3

ICML 2026 收录的一项研究提出面向视觉语言模型(VLM)的语义鲁棒性认证框架。该方法利用文本 prompt 在 VLM 嵌入空间中定义语义变化方向,并通过决策边界的闭式几何结构解析计算预测保持不变的语义区间,无需额外训练生成模型。实验表明该方法在颜色、形状、风格等多种语义变化下能够稳定输出可证的预测区间。

事件概述

ICML 2026 论文《Semantic Robustness Certification for Vision-Language Models》提出了一个针对视觉语言模型(VLM)的语义级鲁棒性认证框架。核心思想是:利用 VLM 的开放词表能力,以文本 prompt 作为语义代理,在图文共享嵌入空间中定义语义变化方向;再利用 VLM 分类器决策边界的闭式几何结构,精确计算预测类别保持不变的 semantic extent interval。

核心方法

  1. 语义平面构造:使用一对 source/target 文本 prompt(如“a photo of a gyoza”与“a photo of triangular gyoza”)的 embedding 张成一个二维语义平面。图像 embedding 被分解为平面内分量与正交分量,语义变换仅修改平面内分量的角度。
  2. 语义 extent 控制:通过参数 φ 控制图像在语义平面内的角度位置,起点对应 source semantic,终点可由 text-specified(直接用 target prompt)或 image-specified(使用参考图像 embedding 投影)确定。
  3. 闭式区间认证:VLM 分类器的决策边界由类别 embedding 的 pairwise bisector 决定。将语义变换代入类别 margin 后,类别切换点可写为 φ 的闭式方程。排序所有切换点即可得到预测保持不变的区间。

实验结果与关键发现

  • 在 CLIP ViT-B/32 上的实验覆盖颜色、形状、材质、风格、纹理、背景、视角、光照等语义变化。定性结果展示了可解释的区间输出,例如“gyoza”图像在“triangular”方向上的预测在区间 0-0.77 内保持不变。
  • 定量评估引入 misalignment budget δ 模拟跨模态不对齐,结果显示证书边界整体偏保守但可靠。
  • 在合成和真实数据集(OxfordPets、Flowers102、Food101 等)上,该方法比 ExactLine 基线更稳定地对齐语义变化。I-Spec 使用参考图像表现更强,T-Spec 仅需文本 prompt,更轻量。

价值与限制

价值:将鲁棒性认证从像素扰动和少数几何变换推进到开放词表语义变化。可直接用于模型审计、语义漂移监控、prompt 选择和失败模式分析,无需额外训练生成模型或标注数据。

限制:证书质量依赖文本代理质量及图像/文本 embedding 对齐程度;真实世界语义变化难以完全隔离,证书仅对 prompt 指定方向和给定 misalignment 假设下的稳定性提供保证。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。