AI视觉能力存疑:无图也能“编造”诊断,评测体系或成最大漏洞
2026/04/01 11:08阅读量 2
斯坦福大学研究发现,多模态AI在缺失图像输入时仍能生成看似合理的详细分析,这种现象被称为“海市蜃楼”,暴露了当前评测体系过度依赖文本线索而非真实视觉理解。测试显示,纯文本模型Qwen-2.5在胸部影像基准ReXVQA中得分超越所有多模态模型及人类医生10%,且现有基准74%-77%的题目经清洗后顶级模型得分骤降至20-30分。该问题在医疗等关键领域可能导致误诊风险,且现行解决方案难以根除训练数据泄露和模式复现的结构性缺陷。
事件概述
斯坦福大学近期发布论文指出,当前主流多模态AI存在严重的“海市蜃楼”(Mirage)现象:即在未成功读取图像的情况下,模型不会报错或拒绝回答,而是基于文本线索虚构完整的视觉描述、推理过程及诊断结果。
这一发现源于一个实际案例:某多模态医学AI项目因代码疏忽导致无法读取心电图、超声心动图等图像数据,但模型依然给出了高分的完整分析报告。研究团队随后验证了这一现象的普遍性,并揭示了现有评测体系的根本性缺陷。
核心事实与数据
1. “海市蜃楼”现象的具体表现
- 定义区别:不同于在已有信息上胡编细节的“幻觉”(Hallucination),“海市蜃楼”是直接虚构不存在的输入信息(如图像),并以此为基础改变任务上下文。
- 发生概率:在完全删除图像仅保留文字题目的测试中,GPT-5、Gemini-3-Pro、Claude Opus 4.5等顶尖模型在超过60%的题目中能给出详细视觉描述;加入特定提示词后,该概率甚至高达90%以上。
- 行为特征:模型语气坚定,逻辑连贯,用户无法通过回答内容判断其是否真正看到了图像。
- 医疗风险:在缺乏图像的情况下,AI倾向于诊断出严重且紧迫的疾病(如心肌梗死、黑色素瘤、癌变),可能导致误导性的医疗决策和不必要的恐慌。
2. 评测体系的失效证据
- 纯文本模型逆袭:研究团队在ReXVQA(胸部放射学视觉问答基准)上训练了一个仅3B参数的纯文本模型Qwen-2.5。结果显示,该模型得分超越了所有千亿参数级的多模态大模型,且平均比人类放射科医生高出10%以上。
- 分数虚高真相:现有主流视觉评测基准中,约74%-77%的题目仅测试文本套路而非视觉能力。经过B-Clean框架清洗(剔除无图可答的题目)后,顶级模型在剩余题目中的得分从80-90分骤降至20-30分。
- 跨厂商共性:OpenAI、Google、Anthropic三大阵营的主流模型均存在此问题,表明这是架构层面的系统性缺陷,而非个别模型的Bug。
3. 技术成因分析
- 自回归机制:语言模型的核心目标是预测下一个Token,而非强制处理视觉输入。当遇到视觉问题时,模型会利用海量训练数据中的统计规律,通过问题文本线索推导“应有”的图像信息。
- 模板复现:训练数据包含大量“图像+问题→描述+推理”的配对模式。模型习得的是输出模板,而非真正的视觉理解逻辑。当图像缺失时,模型自动补全输入假设,机械执行输出流程。
行业影响与局限
- 解决方案的困境:单纯引入新基准无法解决问题。新题目极易被爬虫抓取成为训练数据,且每套题库都存在固有的结构模式,AI擅长捕捉这些人类难以察觉的文字规律。
- B-Clean框架的启示:通过删除“无图可答”的题目来清洗基准,虽然能暴露真实的视觉能力缺口,但也意味着当前许多宣称的高分“视觉理解”能力实际上并不存在。
- 潜在风险:当前的训练体系奖励“表面合理”的输出而非基于证据的推理。在自动驾驶、远程医疗等关键领域,这种无法预警的隐性错误可能导致不可估量的后果。
