上交大、创智学院、瑞金医院联合发布CX-Mind:胸片诊断进入可验证推理时代
上海交通大学、上海创智学院与瑞金医院联合发布胸片多模态大模型CX-Mind,首创可验证推理链,将诊断过程从单一标签输出转变为穿插影像证据的逐步推理。模型在23个数据集、超70万张影像上平均性能提升25.1%,并在真实世界测试Rui-CXR上经多中心医生评估五项维度全部排名第一。
事件概述
上海交通大学、上海创智学院与瑞金医院联合发布CX-Mind,这是一个面向胸部X光片诊断的多模态大模型,首次将诊断输出从单一结果升级为“可验证推理链”。模型不仅给出诊断结论,还展示每一步的影像证据、排除逻辑和结论来源,使医生能够复核AI的推理过程。
核心突破
CX-Mind设计了交错式推理(interleaved reasoning)机制,将诊断拆分为观察、鉴别、定位、报告生成等交错的think-answer单元,每一步都有影像证据支撑,而非传统模型的黑箱输出。
为训练该模型,团队构建了大规模胸片指令数据集CX-Set,整合23个公开数据集,包含708,473张影像和2,619,148条指令样本,并从中构建42,828条由真实放射学报告监督的高质量交错式推理样本。数据集覆盖视觉理解、文本生成和时空对齐三大能力域。
训练方法上,CX-Mind采用基于课程的强化学习(CuRL-VPR),同时使用格式奖励、最终结果奖励和过程奖励。过程奖励依据真实放射科报告核查中间推理步骤的影像证据一致性,确保模型不仅答案正确,推理路径也可靠。训练策略从封闭式任务(如二分类)逐步过渡到开放式诊断,增强稳定性和可迁移性。
评测结果
在跨23个数据集的综合评测中,CX-Mind在三大能力域上平均提升25.1%。
- 视觉理解:单疾病识别较CheXagent和ChestX-Reasoner平均提升19.5%和21.0%;多病共存诊断提升63.5%和21.2%。
- 报告生成:在Finding Generation任务中,与GPT-4o相比,BERTScore高1.6%、BLEU高7.6%、ROUGE平均高11.1%;在带indication的版本中,BERTScore、BLEU和ROUGE分别高出3.6%、21.7%和22%。Impression Generation的BERTScore达90.3%。
- 时空对齐:影像-文本匹配和疾病进展任务较最佳基线平均提升25.8%和30.2%;在RSNA数据集上定位mean IoU为38.5%。
在真实世界测试集Rui-CXR上(来自瑞金医院骨科2018-2023年80,648名患者,筛选出4,031张高质量胸片,覆盖14种疾病),CX-Mind在14种疾病诊断的mean recall@1领先第二名模型。报告生成中,标准Finding Generation的BERTScore达0.80,带indication版本达0.82。多中心医生(不同资历层级)在临床相关性、逻辑连贯性、证据支持、鉴别诊断覆盖和解释清晰度五个维度上均给予CX-Mind最高分。
意义与展望
CX-Mind将医学影像AI从“分类器”推进到“可审查的推理模型”,使模型输出不仅准确,还能被医生协作复核。该思路可迁移至CT、MRI、病理等其他医学影像场景,以及全流程临床智能体的构建。当前研究为临床部署奠定了基础,后续仍需前瞻性验证、泛化测试和工作流集成。
