CVPR 2026 医学影像 AI 趋势梳理:从看懂影像到接管科研工作流
CVPR 2026 医学影像 AI 研究重点从标准数据集上的高指标转向实际科研流程中的高效适配、少数据微调和跨模态理解。关键方向包括:AI agent 自动优化工作流、数据筛选提升推理效率、轻量化视觉模型适配、三维CT基础模型、超声图文预训练、空间转录组预测、IMU-视频对齐、fMRI视频重建以及双视角X-ray推理等。
事件概述
CVPR 2026 医学影像 AI 研究趋势从“模型比人看得更准”转向“系统整体更有用”,重点涵盖少数据、少微调、少人工的轻量化适配,以及跨模态、多视角的联合推理。多篇论文展现了 AI agent 自动优化科研工具、数据筛选提升推理效率、视觉语言模型领域适配、三维 CT 基础模型、超声图文预训练、空间转录组预测、可穿戴传感器与视频对齐、fMRI 视频重建、双视角 X-ray 语义推理等前沿进展。
核心信息
少数据、少微调、少人工
-
Simple Agents(加州理工、康奈尔等):用简单的 LLM agent 为生物医学图像分析工作流自动编写预处理/后处理代码,在 Polaris、Cellpose、MedSAM 三个真实任务上超越专家手动优化方案,证明简单透明的 agent 在数据有限、目标明确的科研场景中足够有效。
-
DIQ(华东师范大学、穆罕默德·本·扎耶德人工智能大学等):提出 Difficulty-Influence Quadrant 方法,同时计算样本的医学推理难度和训练影响力,优先选择“高难度、高影响力”数据,只用 1% 的微调数据即可接近甚至超过全量微调效果,在 Huatuo、FineMed 等推理数据上优于随机选择等基线。
-
CRAFT(亚马逊云科技、UCLA):提出 Codebook Regulated Fine-Tuning,只微调离散视觉编码器并锚定到固定 codebook,不动大语言模型部分,避免跨模态错位。在 IconQA、VQA-RAD、Kvasir 等 10 个基准上平均提升 13.51%,强于 LoRA 等方案。
从三维 CT 到超声图文理解
-
SPECTRE(荷兰埃因霍温理工大学):面向三维 CT 的基础模型,采用“局部 ViT + 全局 ViT”两级纯 Transformer 架构,结合自监督学习和 CT-文本跨模态对齐。在肿瘤生物标志物预测、器官分割和文本-CT 检索上整体优于多数基线,使用公开数据训练并开源。
-
Ultrasound-CLIP(浙大城市学院、香港浸会大学等):构建大规模超声图文数据集 US-365K(36.4 万对,52 个解剖类别)和超声诊断分类体系 UDT,通过语义软标签和异构图编码器实现细粒度语义理解。平均分类准确率 59.61%,远超 BiomedCLIP 的 33.81%。
从病理、运动到 X-ray 双视角
-
HyperST(厦门大学、上海AI实验室等):从病理 H&E 全切片预测空间转录组基因表达,将图像和基因表达建模为 spot/niche 多层级表示,投影到双曲空间进行层次化对比对齐。在 HEST-1K 四个数据集上相对 TRIPLEX 的 PCC@200 提升约 10.95%~16.7%,并在结直肠癌 MSI 分类中验证零样本泛化能力。
-
MoBind(阿德莱德大学 AIIM):实现可穿戴 IMU 传感器信号与视频 2D 人体姿态的细粒度对齐,先用骨架姿态减少背景干扰,再将全身运动拆解为身体部位进行 token 级、局部级和全身级层次化对比学习。在 TotalCapture 和 EgoHumans 上时间同步平均误差仅 0.04
0.05 秒,200 ms 容忍范围内准确率达 0.981.00。 -
SemVideo(北京邮电大学、萨里大学):从人看视频时的 fMRI 脑活动中重建动态视觉内容,通过 SemMiner 提取静态锚点、运动叙事和整体摘要三层语义,再用语义对齐解码器和运动适配解码器生成视频。在 CC2017 和 HCP 7T 上 8/10 个指标最优,CC2017 上 2-way-V 达 0.865,EPE 为 4.788。
-
GSR(北京交通大学、北航):针对安检 X-ray 双视角违禁品检测,提出“第二视角图像作为语言”的跨模态推理方法,构建 DualXrayBench 基准(45,613 对图像)和 GSXray 数据集。基于 Qwen3-VL-MoE-8B 的 GSR-8B 准确率 65.4%,F1 70.6%,显著超过 GPT-4o、Gemini-2.5-Pro 等通用模型。
值得关注
- 多篇论文开始放弃“堆数据+堆参数”路线,转而用 agent、数据筛选、离散 codebook 等方法降低医学 AI 对标注数据和计算资源的依赖。
- 三维 CT、超声、空间转录组、IMU、fMRI 等跨模态研究持续扩展医学视觉模型的信息边界,且注重临床语义与几何结构的联合建模。
- 双视角 X-ray 推理将视觉语言模型从单图像语义理解推进到几何-语义联合推理,对安检、手术导航等场景有直接应用意义。
