AI诊断准确率超医生?Science研究揭示人机互补才是未来

2026/05/04 10:29阅读量 2

2026年4月30日Science发表的研究显示,大型语言模型o1-preview在疑难病例诊断和真实急诊鉴别诊断中表现优于或持平人类医生,但在危重疾病警觉性上与人类无显著差异。研究强调当前主流方向并非取代,而是探索AI与医生的互补协作模式,同时指出AI缺乏对非文本线索(如患者体征、情绪)的感知能力,且直接面向消费者的医疗AI存在分诊不足的风险。

事件概述

2026年4月30日,Science发表了一项由哈佛医学院、贝斯以色列女执事医疗中心等机构完成的研究(Brodeur et al.),系统评估了AI推理模型o1-preview在临床诊断推理任务中的表现。同期还配发了专家评论(Hopkins & Cornelisse),主张应聚焦人机协作模式的检验,而非简单讨论取代。

关键数据与对比

1. 经典CPC疑难病例测试

  • 使用《新英格兰医学杂志》143个临床病理病例会议(CPC)病例,仅基于病历文本。
  • o1-preview将正确诊断列入候选列表的比例:78.3%;若计入“非常接近正确”的诊断,准确率高达97.9%。
  • 历史上同类任务长期难以突破,此次表现接近“满分”。

2. 真实急诊鉴别诊断

  • 从贝斯以色列女执事医疗中心随机抽取76例真实急诊病例,对比o1、GPT-4o和两位主治医师的诊断,由不知情评分者盲评。
  • 分诊阶段(信息最有限):o1准确率67.1%,两位医生分别为55.3%和50.0%。
  • 收入病房/ICU后(信息更充分):o1准确率81.6%,两位医生分别为78.9%和69.7%。
  • 评分者无法区分AI与人类回答(94.4%情况下坦承“分不出来”),说明AI推理文本已接近资深医生水平。

3. 推理过程质量(R-IDEA量表)

  • 使用《新英格兰医学杂志》Healer课程虚拟病例,评估四个维度(解读摘要、鉴别诊断、支持首要诊断、支持备选诊断)。
  • o1-preview得分接近满分,显著高于GPT-4和人类医生。

4. 危重疾病警觉性

  • 测量识别“不容漏诊”疾病的敏感度:o1的中位比例0.92,与GPT-4、主治医师、住院医师无显著差异。
  • 表明AI在“直觉性警觉”方面尚未超越人类。

5. 管理决策能力(Grey Matters病例)

  • 管理病例(经25位专家共识评分):o1得分中位数89%,GPT-4为42%,人类医生+GPT-4辅助为41%,仅用传统资源的医生为34%。
  • 人类即使使用AI工具,并未显著提升自身表现,说明有效人机协作需要训练和流程设计。

AI与医生的互补逻辑

  • 互补第一重:AI在信息匮乏、逻辑组合庞大的初始阶段,能弥补人类短期记忆和认知偏差,列出低概率高风险选项。
  • 互补第二重:AI擅长穷举与结构化推理,人类擅长在模糊信号中触发警觉(临床第六感)。
  • 互补第三重:AI处理文本信息,医生接触患者的视觉、听觉、触觉等全息线索(表情、呻吟、体格检查等)。当前AI几乎无法处理非文本信息,这是“全息感知鸿沟”。

挑战与警示

  • 协作模式待验证:评论文章呼吁开展前瞻性临床试验,严格对照AI独立、医生独立、医生+AI协作三种模式,以找到最优分工。
  • 直接面向消费者的风险:2026年初OpenAI推出ChatGPT Health,独立评估发现超过一半的紧急病例被给出分诊不足建议(如对糖尿病酮症酸中毒建议1-2天后就医),警示无监控的AI直接使用可能造成危害。
  • 人类角色不可替代:未来医生的角色更像“主任审稿人”,对AI候选清单质疑,结合患者个体情况做最终决策,同时承担伦理把关和情感支持。

参考文献

  1. Brodeur PG, Buckley TA, Kanjee Z, et al. Performance of a large language model on the reasoning tasks of a physician. Science. 2026;392(6797):524. doi:10.1126/science.adz4433
  2. Hopkins AM, Cornelisse E. AI can reason like a physician—what comes next? Science. 2026;392(6797):466-467. doi:10.1126/science.aeg8766
  3. Ledley RS, Lusted LB. Reasoning foundations of medical diagnosis. Science. 1959;130(3366):9-21.
  4. Schaye V, et al. Development of a clinical reasoning documentation assessment tool. J Gen Intern Med. 2022;37(3):507-512.
  5. Ramaswamy A, et al. Evaluation of ChatGPT Health for clinical triage. Nat Med. 2026. doi:10.1038/s41591-026-04297-7

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。