36.4万超声图文对！中国团队构建首个大规模超声专属数据集，让AI真正读懂临床诊断语义

2026/04/12 15:21阅读量 108

中国研究团队联合多所高校与医院，构建了全球首个100%专用于超声影像的大规模图文数据集US-365K，包含36.4万对高质量样本。团队同步提出Ultrasound-CLIP框架，通过引入超声诊断分类体系（UDT）和异质图编码器，解决了通用模型在超声领域面临的语义模糊与结构缺失难题。该成果已被CVPR 2026接收，并在多任务分类及检索任务中全面超越现有基线模型，相关代码与数据已开源。

事件概述

针对超声影像跨模态学习中存在的“数据缺口显著”、“语义模糊难对齐”及“缺乏临床结构先验”三大核心痛点，由浙大城市学院、浙江大学、香港城市大学、香港浸会大学及多家附属医院组成的联合团队，成功构建了首个大规模、100%专属的超声图像-文本数据集 US-365K，并提出了专为超声场景设计的语义感知对比学习框架 Ultrasound-CLIP。相关研究成果已被计算机视觉顶会 CVPR 2026 接收。

核心信息

1. 数据突破：US-365K 数据集

规模与构成：包含 36.4万对 超声图像与文本样本，覆盖 11,676个 真实临床病例，数据有效率超过90%。
标准化体系：团队首创 超声诊断分类体系（UDT），包含两大模块：
- 超声层级解剖分类（UHAT）：梳理9大人体系统、52个器官的层级结构，解决解剖标注混乱问题。
- 超声诊断属性框架（UDAF）：凝练身体系统、器官、形状、回声性等9大诊断维度，形成标准化的描述词汇表。
构建流程：从5个国际权威数据库收集数据，经视频帧分解、大模型+结构化提示提取标签、医疗专家逐例审核筛选后构建而成。

2. 模型创新：Ultrasound-CLIP 框架

为解决通用视觉语言模型难以理解超声专业逻辑的问题，该框架在经典双编码器基础上进行了两项关键创新：

UDAF引导的异质图编码器：将文本标注转化为包含病灶与属性节点的异质图，利用图神经网络（GNN）编码节点关联，并通过交叉注意力机制融合进文本嵌入，使模型具备结构化临床推理能力。
基于UDAF的语义软标签：摒弃传统二进制硬标签，基于9大诊断维度构建连续语义相似度矩阵，实现细粒度的语义重叠识别，有效解决诊断报告表述多样带来的歧义。
双目标优化策略：结合对比损失（L(CLIP)）与语义损失（L(semantic)），同时实现图像-文本精准对齐与语义特征的正则化。

3. 实验表现

在多项基准测试中，Ultrasound-CLIP 性能全面优于现有医疗 CLIP 基线模型：

多任务分类：平均准确率达 59.61%，其中病灶边缘识别准确率高达 84.44%，诊断结果识别准确率为 64.05%。
图像-文本检索：图像到文本检索（I2T）@10 达到 37.45%，文本到图像检索（T2I）@50 达到 80.22%。
泛化能力：在乳腺、胃肠超声等4个公开下游数据集的零样本、线性探测及全微调任务中均取得最优性能。

资源开源

为推动领域发展，团队已公开相关资源：

论文地址：arxiv.org/abs/2604.01749
项目代码：github.com/ZJUDataIntelligence/Ultrasound-CLIP
数据集：huggingface.co/datasets/JJY-0823/US-365K

阅读原文详情