AI视觉能力存疑：无图也能“编”出高分诊断

2026/04/01 11:58阅读量 53

斯坦福大学最新研究揭示，当前主流多模态AI模型在缺失图像输入时，仍能通过文本模式“脑补”出详细的视觉描述和推理过程，这种现象被称为“海市蜃楼”。测试显示，GPT-5、Gemini-3-Pro等顶尖模型在无图情况下对医疗等复杂问题的回答准确率极高，甚至超过人类专家。更讽刺的是，一个仅3B参数的纯文本模型在去除图像依赖的基准测试中，表现优于千亿参数多模态模型，暴露了现有评测体系无法区分模型是否真正“看见”了图像。

事件概述

斯坦福大学近期发布论文指出，当前许多多模态AI模型存在严重的评估漏洞。当图像数据未被成功读取或完全缺失时，模型不会报错或提示错误，而是基于训练数据中的统计规律，虚构出一套完整的“观察 - 理解 - 推理”流程，并给出看似合理的高分答案。这一现象被研究者定义为“海市蜃楼”（Mirage），即模型在没有真实视觉输入的情况下，假装看到了图像并进行对话。

核心发现与实验数据

1. “海市蜃楼”现象普遍存在

研究人员将现有视觉理解题目中的图片全部移除，仅保留文字题目进行测试，结果令人震惊：

高概率幻觉：GPT-5、Gemini-3-Pro、Claude Opus 4.5等顶尖模型在超过60%的题目中给出了极其详细的视觉描述；加入特定提示词后，该概率甚至飙升至90%以上。
语气自信：AI在回答时无任何犹豫，其推理逻辑与有图时几乎一致，用户无法通过回答内容判断模型是否真的接收到了图像信息。
危险倾向：在医学领域（如胸部X光、脑部MRI、心电图等）测试中，无图状态下AI倾向于诊断出心肌梗死、黑色素瘤等严重且紧迫的疾病，可能导致误诊和不必要的恐慌。

2. 纯文本模型“吊打”多模态模型

为了验证模型是否真正依赖视觉信息，研究团队进行了极端对比实验：

实验设置：在ReXVQA（胸部放射学视觉问答基准）数据集上，训练了一个仅3B参数的纯文本模型（Qwen-2.5），该模型从未见过图像。
测试结果：该纯文本模型在测试中得分超过了所有前沿的多模态大模型，平均比人类放射科医生高出10%以上。
结论：模型生成的思维链和解释在专业性上与真实答案无异，证明当前的评测基准可能并未测试“视觉理解”，而是在测试模型对题目套路和文本线索的捕捉能力。

3. 问题根源：生成式补全机制

自回归本质：多模态模型的核心仍是预测下一个Token的语言模型。训练目标并非“必须使用图像”，而是寻找最可能的答案分布。
语言捷径：由于训练数据中包含大量“图像+问题=描述+答案”的模式，模型学会了直接复现这种输出模板。当图像缺失时，模型会自动根据上下文“填空”，假设图像存在并生成相应描述。
缺乏校验：生成式模型的目标是连贯性而非真实性，它不判断输入是否完整，只负责生成最像答案的内容。

解决方案与警示

B-Clean清洗框架

针对现有基准测试的漏洞，论文提出了名为B-Clean的事后清洗框架：

逻辑：如果一道题在去掉图像后，模型依然能答对，说明该题未测试真正的视觉能力，应予以剔除。
清洗结果：对三个主流视觉评测基准进行清洗后，约74%-77%的题目被判定为无效。
分数暴跌：许多在原始测试中得分80-90分的顶级模型，经过B-Clean清洗后，得分直接跌至20-30分甚至更低。

行业警示

信号失效：高分不再代表可靠的视觉理解能力，传统的评估指标已失效。
不可见风险：AI在关键场景（如自动驾驶、远程医疗）中可能 silently（沉默地）用虚构信息替换真实信息，且不发出任何警报。
未来挑战：当前的训练和评测体系奖励“看起来像理解”的行为，而非基于证据的推理。若不及时修正，未来的AI将越来越难以验证和解释，且在出错时人类可能毫无察觉。

阅读原文详情