AI诊疗两周内从“80%误诊”到“超越医生”：矛盾结论背后的真相

2026/05/14 08:56阅读量 2

哈佛医学院两个研究组分别在《JAMA》和《Science》发表论文，得出AI看病“误诊80%”和“比急诊医生强”的相反结论。差异源于测试场景与评判标准不同：《JAMA》模拟分步临床流程，考核每一步判断；《Science》一次性输入完整病历，只评最终诊断。文章指出，当前AI医疗研究应聚焦失败根源而非胜负对比，同时注意到AI模型自身也会在基础事实上犯错。

事件概述

哈佛医学院两个研究组在两周内分别发表论文：4月16日《JAMA》论文称AI在初步鉴别诊断环节误诊率超80%；4月30日《Science》论文称AI在急诊最终诊断上表现优于人类医生。两项结论看似矛盾，实则因测试场景与评判标准完全不同。

核心信息

《JAMA》研究：使用29个默沙东诊疗手册病例，模拟真实临床流程——从患者主诉、体检、化验结果逐步输入信息，在每个环节（初步鉴别诊断、实验检查、最终诊断、治疗方案）分别评分。AI在初步鉴别诊断环节失败率超过80%，但在最终诊断失败率仅为9%–39%。这反映了AI在信息不完整、需持续推理场景下的短板。
《Science》研究：侧重急诊最终诊断，将完整电子病历一次性输入AI，只考核最终诊断结果。结果显示AI优于急诊医生。
共同启示：两个研究都表明，信息越完整，AI诊断表现越好。

值得关注

研究方向：当前AI医疗研究应聚焦于定位失败根源——在哪一步出错、为何出错、改变什么变量可改进，而非重复“AI能否打败医生”的对比实验。两篇论文均未深入回答此问题。
AI自身缺陷：将两篇论文分别输入ChatGPT和Claude，两个模型虽能识别方法学差异，但均犯下基础事实错误：ChatGPT颠倒了两项研究的数据干净程度与模型表现的关系；Claude错误声称《JAMA》只用了普通模型、《Science》只用了o1推理模型。这警示：AI能生成逻辑通顺的答案，却可能在事实上出错。
媒体误读：NPR报道错误地将《JAMA》论文归因于使用了“更老的模型”，实则《JAMA》所用模型（包括o1推理模型）甚至比《Science》更新的模型。不应默认“下一代AI”会自动给出更准确的结果。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？