从单轮到多轮追问:百川M4如何让通用AI跨过医疗门槛

2026/06/18 21:46阅读量 1

通用AI被患者大量用于医疗咨询,导致医生接诊负担加重。百川智能推出Baichuan-M4模型及C端产品百小医,通过多轮追问、循证引用、全病程记忆等能力重构医疗AI,在HealthBench等评测中领先GPT-5.5,并已在多家三甲医院临床验证。

事件概述

越来越多患者将症状、化验单丢给AI生成判断后去医院问诊,医生反映门诊中带AI结论的患者占比极高(如一个上午30个病人中25个自带AI结论)。通用大模型虽便捷但缺乏医疗可靠性,业界需要真正适合医疗场景的AI体系。

核心信息:Baichuan-M4的四大能力升级

百川智能发布的Baichuan-M4基于通用大模型进行结构性重构与医疗专项增强,核心升级包括:

  1. 多轮追问与动态问诊:从单次问答扩展到多轮访视,在信息不全时持续推进诊疗路径。SCAN-bench动态问诊评测中初诊79.0分、复诊74.7分,长上下文临床记忆86.9分(较M3提升21.1分)。C端产品百小医可对用户症状连续追问10轮,逐步锁定痛风等风险。

  2. 循证引用与证据锚定:将复杂指南拆解为1000余个可复用临床决策单元,覆盖200余种常见病。Baichuan-EBM评测中循证引用精度90.0,显著高于GPT-5.5的54.7,确保结论精确对应原文段落出处。

  3. Harness调度与全病程记忆:模型自主决定何时追问、检索证据、调取病史,并实时拦截违规操作。全病程记忆打通历史病历、多轮问诊、化验趋势与用药反馈,在长上下文评测中获86.9分。

  4. 多模态与稳定性:复杂检验报告结构化识别得分0.914,保证复杂信息输入下的稳定判断。

值得关注

  • HealthBench成绩:综合得分68.6,Hard任务49.7,幻觉率3.3%;Professional基础推理55.1(GPT-5.5为51.8)。
  • 百小医实测案例:通过家庭群中“走一圈就喘”的闲聊,结合长期健康记录预警早期心功能不全,推动及时就医。在中国医学科学院肿瘤医院等75个患者群测试中,百小医安全性99.6%,深度互动率60%-73%。
  • 未来生态:百川构建“双医模式”——医生负责诊断治疗,AI负责诊室外长期陪伴、信息整理与风险提醒,并有望连接药企、器械厂商等,形成AI家庭医生新生态。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。