上交大、创智学院、瑞金医院联合发布CX-Mind：胸片诊断进入可验证推理时代

2026/05/18 14:57阅读量 24

上海交通大学、上海创智学院与瑞金医院联合发布胸片多模态大模型CX-Mind，首创可验证推理链，将诊断过程从单一标签输出转变为穿插影像证据的逐步推理。模型在23个数据集、超70万张影像上平均性能提升25.1%，并在真实世界测试Rui-CXR上经多中心医生评估五项维度全部排名第一。

事件概述

上海交通大学、上海创智学院与瑞金医院联合发布CX-Mind，这是一个面向胸部X光片诊断的多模态大模型，首次将诊断输出从单一结果升级为“可验证推理链”。模型不仅给出诊断结论，还展示每一步的影像证据、排除逻辑和结论来源，使医生能够复核AI的推理过程。

核心突破

CX-Mind设计了交错式推理（interleaved reasoning）机制，将诊断拆分为观察、鉴别、定位、报告生成等交错的think-answer单元，每一步都有影像证据支撑，而非传统模型的黑箱输出。

为训练该模型，团队构建了大规模胸片指令数据集CX-Set，整合23个公开数据集，包含708,473张影像和2,619,148条指令样本，并从中构建42,828条由真实放射学报告监督的高质量交错式推理样本。数据集覆盖视觉理解、文本生成和时空对齐三大能力域。

训练方法上，CX-Mind采用基于课程的强化学习（CuRL-VPR），同时使用格式奖励、最终结果奖励和过程奖励。过程奖励依据真实放射科报告核查中间推理步骤的影像证据一致性，确保模型不仅答案正确，推理路径也可靠。训练策略从封闭式任务（如二分类）逐步过渡到开放式诊断，增强稳定性和可迁移性。

评测结果

在跨23个数据集的综合评测中，CX-Mind在三大能力域上平均提升25.1%。

视觉理解：单疾病识别较CheXagent和ChestX-Reasoner平均提升19.5%和21.0%；多病共存诊断提升63.5%和21.2%。
报告生成：在Finding Generation任务中，与GPT-4o相比，BERTScore高1.6%、BLEU高7.6%、ROUGE平均高11.1%；在带indication的版本中，BERTScore、BLEU和ROUGE分别高出3.6%、21.7%和22%。Impression Generation的BERTScore达90.3%。
时空对齐：影像-文本匹配和疾病进展任务较最佳基线平均提升25.8%和30.2%；在RSNA数据集上定位mean IoU为38.5%。

在真实世界测试集Rui-CXR上（来自瑞金医院骨科2018-2023年80,648名患者，筛选出4,031张高质量胸片，覆盖14种疾病），CX-Mind在14种疾病诊断的mean recall@1领先第二名模型。报告生成中，标准Finding Generation的BERTScore达0.80，带indication版本达0.82。多中心医生（不同资历层级）在临床相关性、逻辑连贯性、证据支持、鉴别诊断覆盖和解释清晰度五个维度上均给予CX-Mind最高分。

意义与展望

CX-Mind将医学影像AI从“分类器”推进到“可审查的推理模型”，使模型输出不仅准确，还能被医生协作复核。该思路可迁移至CT、MRI、病理等其他医学影像场景，以及全流程临床智能体的构建。当前研究为临床部署奠定了基础，后续仍需前瞻性验证、泛化测试和工作流集成。

阅读原文详情

事件概述

核心突破

评测结果

意义与展望

准备好启动您的定制项目了吗？