AI诊疗两周内从“80%误诊”到“超越医生”:矛盾结论背后的真相
2026/05/14 08:56阅读量 2
哈佛医学院两个研究组分别在《JAMA》和《Science》发表论文,得出AI看病“误诊80%”和“比急诊医生强”的相反结论。差异源于测试场景与评判标准不同:《JAMA》模拟分步临床流程,考核每一步判断;《Science》一次性输入完整病历,只评最终诊断。文章指出,当前AI医疗研究应聚焦失败根源而非胜负对比,同时注意到AI模型自身也会在基础事实上犯错。
事件概述
哈佛医学院两个研究组在两周内分别发表论文:4月16日《JAMA》论文称AI在初步鉴别诊断环节误诊率超80%;4月30日《Science》论文称AI在急诊最终诊断上表现优于人类医生。两项结论看似矛盾,实则因测试场景与评判标准完全不同。
核心信息
- 《JAMA》研究:使用29个默沙东诊疗手册病例,模拟真实临床流程——从患者主诉、体检、化验结果逐步输入信息,在每个环节(初步鉴别诊断、实验检查、最终诊断、治疗方案)分别评分。AI在初步鉴别诊断环节失败率超过80%,但在最终诊断失败率仅为9%–39%。这反映了AI在信息不完整、需持续推理场景下的短板。
- 《Science》研究:侧重急诊最终诊断,将完整电子病历一次性输入AI,只考核最终诊断结果。结果显示AI优于急诊医生。
- 共同启示:两个研究都表明,信息越完整,AI诊断表现越好。
值得关注
- 研究方向:当前AI医疗研究应聚焦于定位失败根源——在哪一步出错、为何出错、改变什么变量可改进,而非重复“AI能否打败医生”的对比实验。两篇论文均未深入回答此问题。
- AI自身缺陷:将两篇论文分别输入ChatGPT和Claude,两个模型虽能识别方法学差异,但均犯下基础事实错误:ChatGPT颠倒了两项研究的数据干净程度与模型表现的关系;Claude错误声称《JAMA》只用了普通模型、《Science》只用了o1推理模型。这警示:AI能生成逻辑通顺的答案,却可能在事实上出错。
- 媒体误读:NPR报道错误地将《JAMA》论文归因于使用了“更老的模型”,实则《JAMA》所用模型(包括o1推理模型)甚至比《Science》更新的模型。不应默认“下一代AI”会自动给出更准确的结果。
