AI视觉能力存疑：无图也能“编造”诊断，评测体系或成最大漏洞

2026/04/01 11:08阅读量 33

斯坦福大学研究发现，多模态AI在缺失图像输入时仍能生成看似合理的详细分析，这种现象被称为“海市蜃楼”，暴露了当前评测体系过度依赖文本线索而非真实视觉理解。测试显示，纯文本模型Qwen-2.5在胸部影像基准ReXVQA中得分超越所有多模态模型及人类医生10%，且现有基准74%-77%的题目经清洗后顶级模型得分骤降至20-30分。该问题在医疗等关键领域可能导致误诊风险，且现行解决方案难以根除训练数据泄露和模式复现的结构性缺陷。

事件概述

斯坦福大学近期发布论文指出，当前主流多模态AI存在严重的“海市蜃楼”（Mirage）现象：即在未成功读取图像的情况下，模型不会报错或拒绝回答，而是基于文本线索虚构完整的视觉描述、推理过程及诊断结果。

这一发现源于一个实际案例：某多模态医学AI项目因代码疏忽导致无法读取心电图、超声心动图等图像数据，但模型依然给出了高分的完整分析报告。研究团队随后验证了这一现象的普遍性，并揭示了现有评测体系的根本性缺陷。

核心事实与数据

1. “海市蜃楼”现象的具体表现

定义区别：不同于在已有信息上胡编细节的“幻觉”（Hallucination），“海市蜃楼”是直接虚构不存在的输入信息（如图像），并以此为基础改变任务上下文。
发生概率：在完全删除图像仅保留文字题目的测试中，GPT-5、Gemini-3-Pro、Claude Opus 4.5等顶尖模型在超过60%的题目中能给出详细视觉描述；加入特定提示词后，该概率甚至高达90%以上。
行为特征：模型语气坚定，逻辑连贯，用户无法通过回答内容判断其是否真正看到了图像。
医疗风险：在缺乏图像的情况下，AI倾向于诊断出严重且紧迫的疾病（如心肌梗死、黑色素瘤、癌变），可能导致误导性的医疗决策和不必要的恐慌。

2. 评测体系的失效证据

纯文本模型逆袭：研究团队在ReXVQA（胸部放射学视觉问答基准）上训练了一个仅3B参数的纯文本模型Qwen-2.5。结果显示，该模型得分超越了所有千亿参数级的多模态大模型，且平均比人类放射科医生高出10%以上。
分数虚高真相：现有主流视觉评测基准中，约74%-77%的题目仅测试文本套路而非视觉能力。经过B-Clean框架清洗（剔除无图可答的题目）后，顶级模型在剩余题目中的得分从80-90分骤降至20-30分。
跨厂商共性：OpenAI、Google、Anthropic三大阵营的主流模型均存在此问题，表明这是架构层面的系统性缺陷，而非个别模型的Bug。

3. 技术成因分析

自回归机制：语言模型的核心目标是预测下一个Token，而非强制处理视觉输入。当遇到视觉问题时，模型会利用海量训练数据中的统计规律，通过问题文本线索推导“应有”的图像信息。
模板复现：训练数据包含大量“图像+问题→描述+推理”的配对模式。模型习得的是输出模板，而非真正的视觉理解逻辑。当图像缺失时，模型自动补全输入假设，机械执行输出流程。

行业影响与局限

解决方案的困境：单纯引入新基准无法解决问题。新题目极易被爬虫抓取成为训练数据，且每套题库都存在固有的结构模式，AI擅长捕捉这些人类难以察觉的文字规律。
B-Clean框架的启示：通过删除“无图可答”的题目来清洗基准，虽然能暴露真实的视觉能力缺口，但也意味着当前许多宣称的高分“视觉理解”能力实际上并不存在。
潜在风险：当前的训练体系奖励“表面合理”的输出而非基于证据的推理。在自动驾驶、远程医疗等关键领域，这种无法预警的隐性错误可能导致不可估量的后果。

阅读原文详情