36.4万超声图文对!中国团队构建首个大规模超声专属数据集,让AI真正读懂临床诊断语义
2026/04/12 15:21阅读量 12
中国研究团队联合多所高校与医院,构建了全球首个100%专用于超声影像的大规模图文数据集US-365K,包含36.4万对高质量样本。团队同步提出Ultrasound-CLIP框架,通过引入超声诊断分类体系(UDT)和异质图编码器,解决了通用模型在超声领域面临的语义模糊与结构缺失难题。该成果已被CVPR 2026接收,并在多任务分类及检索任务中全面超越现有基线模型,相关代码与数据已开源。
事件概述
针对超声影像跨模态学习中存在的“数据缺口显著”、“语义模糊难对齐”及“缺乏临床结构先验”三大核心痛点,由浙大城市学院、浙江大学、香港城市大学、香港浸会大学及多家附属医院组成的联合团队,成功构建了首个大规模、100%专属的超声图像-文本数据集 US-365K,并提出了专为超声场景设计的语义感知对比学习框架 Ultrasound-CLIP。相关研究成果已被计算机视觉顶会 CVPR 2026 接收。
核心信息
1. 数据突破:US-365K 数据集
- 规模与构成:包含 36.4万对 超声图像与文本样本,覆盖 11,676个 真实临床病例,数据有效率超过90%。
- 标准化体系:团队首创 超声诊断分类体系(UDT),包含两大模块:
- 超声层级解剖分类(UHAT):梳理9大人体系统、52个器官的层级结构,解决解剖标注混乱问题。
- 超声诊断属性框架(UDAF):凝练身体系统、器官、形状、回声性等9大诊断维度,形成标准化的描述词汇表。
- 构建流程:从5个国际权威数据库收集数据,经视频帧分解、大模型+结构化提示提取标签、医疗专家逐例审核筛选后构建而成。
2. 模型创新:Ultrasound-CLIP 框架
为解决通用视觉语言模型难以理解超声专业逻辑的问题,该框架在经典双编码器基础上进行了两项关键创新:
- UDAF引导的异质图编码器:将文本标注转化为包含病灶与属性节点的异质图,利用图神经网络(GNN)编码节点关联,并通过交叉注意力机制融合进文本嵌入,使模型具备结构化临床推理能力。
- 基于UDAF的语义软标签:摒弃传统二进制硬标签,基于9大诊断维度构建连续语义相似度矩阵,实现细粒度的语义重叠识别,有效解决诊断报告表述多样带来的歧义。
- 双目标优化策略:结合对比损失(L(CLIP))与语义损失(L(semantic)),同时实现图像-文本精准对齐与语义特征的正则化。
3. 实验表现
在多项基准测试中,Ultrasound-CLIP 性能全面优于现有医疗 CLIP 基线模型:
- 多任务分类:平均准确率达 59.61%,其中病灶边缘识别准确率高达 84.44%,诊断结果识别准确率为 64.05%。
- 图像-文本检索:图像到文本检索(I2T)@10 达到 37.45%,文本到图像检索(T2I)@50 达到 80.22%。
- 泛化能力:在乳腺、胃肠超声等4个公开下游数据集的零样本、线性探测及全微调任务中均取得最优性能。
资源开源
为推动领域发展,团队已公开相关资源:
