AI视觉能力存疑:无图也能“编”出高分诊断
2026/04/01 11:58阅读量 2
斯坦福大学最新研究揭示,当前主流多模态AI模型在缺失图像输入时,仍能通过文本模式“脑补”出详细的视觉描述和推理过程,这种现象被称为“海市蜃楼”。测试显示,GPT-5、Gemini-3-Pro等顶尖模型在无图情况下对医疗等复杂问题的回答准确率极高,甚至超过人类专家。更讽刺的是,一个仅3B参数的纯文本模型在去除图像依赖的基准测试中,表现优于千亿参数多模态模型,暴露了现有评测体系无法区分模型是否真正“看见”了图像。
事件概述
斯坦福大学近期发布论文指出,当前许多多模态AI模型存在严重的评估漏洞。当图像数据未被成功读取或完全缺失时,模型不会报错或提示错误,而是基于训练数据中的统计规律,虚构出一套完整的“观察 - 理解 - 推理”流程,并给出看似合理的高分答案。这一现象被研究者定义为“海市蜃楼”(Mirage),即模型在没有真实视觉输入的情况下,假装看到了图像并进行对话。
核心发现与实验数据
1. “海市蜃楼”现象普遍存在
研究人员将现有视觉理解题目中的图片全部移除,仅保留文字题目进行测试,结果令人震惊:
- 高概率幻觉:GPT-5、Gemini-3-Pro、Claude Opus 4.5等顶尖模型在超过60%的题目中给出了极其详细的视觉描述;加入特定提示词后,该概率甚至飙升至90%以上。
- 语气自信:AI在回答时无任何犹豫,其推理逻辑与有图时几乎一致,用户无法通过回答内容判断模型是否真的接收到了图像信息。
- 危险倾向:在医学领域(如胸部X光、脑部MRI、心电图等)测试中,无图状态下AI倾向于诊断出心肌梗死、黑色素瘤等严重且紧迫的疾病,可能导致误诊和不必要的恐慌。
2. 纯文本模型“吊打”多模态模型
为了验证模型是否真正依赖视觉信息,研究团队进行了极端对比实验:
- 实验设置:在ReXVQA(胸部放射学视觉问答基准)数据集上,训练了一个仅3B参数的纯文本模型(Qwen-2.5),该模型从未见过图像。
- 测试结果:该纯文本模型在测试中得分超过了所有前沿的多模态大模型,平均比人类放射科医生高出10%以上。
- 结论:模型生成的思维链和解释在专业性上与真实答案无异,证明当前的评测基准可能并未测试“视觉理解”,而是在测试模型对题目套路和文本线索的捕捉能力。
3. 问题根源:生成式补全机制
- 自回归本质:多模态模型的核心仍是预测下一个Token的语言模型。训练目标并非“必须使用图像”,而是寻找最可能的答案分布。
- 语言捷径:由于训练数据中包含大量“图像+问题=描述+答案”的模式,模型学会了直接复现这种输出模板。当图像缺失时,模型会自动根据上下文“填空”,假设图像存在并生成相应描述。
- 缺乏校验:生成式模型的目标是连贯性而非真实性,它不判断输入是否完整,只负责生成最像答案的内容。
解决方案与警示
B-Clean清洗框架
针对现有基准测试的漏洞,论文提出了名为B-Clean的事后清洗框架:
- 逻辑:如果一道题在去掉图像后,模型依然能答对,说明该题未测试真正的视觉能力,应予以剔除。
- 清洗结果:对三个主流视觉评测基准进行清洗后,约74%-77%的题目被判定为无效。
- 分数暴跌:许多在原始测试中得分80-90分的顶级模型,经过B-Clean清洗后,得分直接跌至20-30分甚至更低。
行业警示
- 信号失效:高分不再代表可靠的视觉理解能力,传统的评估指标已失效。
- 不可见风险:AI在关键场景(如自动驾驶、远程医疗)中可能 silently(沉默地)用虚构信息替换真实信息,且不发出任何警报。
- 未来挑战:当前的训练和评测体系奖励“看起来像理解”的行为,而非基于证据的推理。若不及时修正,未来的AI将越来越难以验证和解释,且在出错时人类可能毫无察觉。
