AI诊断准确率超医生？Science研究揭示人机互补才是未来

2026/05/04 10:29阅读量 2

2026年4月30日Science发表的研究显示，大型语言模型o1-preview在疑难病例诊断和真实急诊鉴别诊断中表现优于或持平人类医生，但在危重疾病警觉性上与人类无显著差异。研究强调当前主流方向并非取代，而是探索AI与医生的互补协作模式，同时指出AI缺乏对非文本线索（如患者体征、情绪）的感知能力，且直接面向消费者的医疗AI存在分诊不足的风险。

事件概述

2026年4月30日，Science发表了一项由哈佛医学院、贝斯以色列女执事医疗中心等机构完成的研究（Brodeur et al.），系统评估了AI推理模型o1-preview在临床诊断推理任务中的表现。同期还配发了专家评论（Hopkins & Cornelisse），主张应聚焦人机协作模式的检验，而非简单讨论取代。

关键数据与对比

1. 经典CPC疑难病例测试

使用《新英格兰医学杂志》143个临床病理病例会议（CPC）病例，仅基于病历文本。
o1-preview将正确诊断列入候选列表的比例：78.3%；若计入“非常接近正确”的诊断，准确率高达97.9%。
历史上同类任务长期难以突破，此次表现接近“满分”。

2. 真实急诊鉴别诊断

从贝斯以色列女执事医疗中心随机抽取76例真实急诊病例，对比o1、GPT-4o和两位主治医师的诊断，由不知情评分者盲评。
分诊阶段（信息最有限）：o1准确率67.1%，两位医生分别为55.3%和50.0%。
收入病房/ICU后（信息更充分）：o1准确率81.6%，两位医生分别为78.9%和69.7%。
评分者无法区分AI与人类回答（94.4%情况下坦承“分不出来”），说明AI推理文本已接近资深医生水平。

3. 推理过程质量（R-IDEA量表）

使用《新英格兰医学杂志》Healer课程虚拟病例，评估四个维度（解读摘要、鉴别诊断、支持首要诊断、支持备选诊断）。
o1-preview得分接近满分，显著高于GPT-4和人类医生。

4. 危重疾病警觉性

测量识别“不容漏诊”疾病的敏感度：o1的中位比例0.92，与GPT-4、主治医师、住院医师无显著差异。
表明AI在“直觉性警觉”方面尚未超越人类。

5. 管理决策能力（Grey Matters病例）

管理病例（经25位专家共识评分）：o1得分中位数89%，GPT-4为42%，人类医生+GPT-4辅助为41%，仅用传统资源的医生为34%。
人类即使使用AI工具，并未显著提升自身表现，说明有效人机协作需要训练和流程设计。

AI与医生的互补逻辑

互补第一重：AI在信息匮乏、逻辑组合庞大的初始阶段，能弥补人类短期记忆和认知偏差，列出低概率高风险选项。
互补第二重：AI擅长穷举与结构化推理，人类擅长在模糊信号中触发警觉（临床第六感）。
互补第三重：AI处理文本信息，医生接触患者的视觉、听觉、触觉等全息线索（表情、呻吟、体格检查等）。当前AI几乎无法处理非文本信息，这是“全息感知鸿沟”。

挑战与警示

协作模式待验证：评论文章呼吁开展前瞻性临床试验，严格对照AI独立、医生独立、医生+AI协作三种模式，以找到最优分工。
直接面向消费者的风险：2026年初OpenAI推出ChatGPT Health，独立评估发现超过一半的紧急病例被给出分诊不足建议（如对糖尿病酮症酸中毒建议1-2天后就医），警示无监控的AI直接使用可能造成危害。
人类角色不可替代：未来医生的角色更像“主任审稿人”，对AI候选清单质疑，结合患者个体情况做最终决策，同时承担伦理把关和情感支持。

参考文献

Brodeur PG, Buckley TA, Kanjee Z, et al. Performance of a large language model on the reasoning tasks of a physician. Science. 2026;392(6797):524. doi:10.1126/science.adz4433
Hopkins AM, Cornelisse E. AI can reason like a physician—what comes next? Science. 2026;392(6797):466-467. doi:10.1126/science.aeg8766
Ledley RS, Lusted LB. Reasoning foundations of medical diagnosis. Science. 1959;130(3366):9-21.
Schaye V, et al. Development of a clinical reasoning documentation assessment tool. J Gen Intern Med. 2022;37(3):507-512.
Ramaswamy A, et al. Evaluation of ChatGPT Health for clinical triage. Nat Med. 2026. doi:10.1038/s41591-026-04297-7

阅读原文详情