CVPR 2026 医学影像 AI 趋势梳理：从看懂影像到接管科研工作流

2026/05/28 11:46阅读量 2

CVPR 2026 医学影像 AI 研究重点从标准数据集上的高指标转向实际科研流程中的高效适配、少数据微调和跨模态理解。关键方向包括：AI agent 自动优化工作流、数据筛选提升推理效率、轻量化视觉模型适配、三维CT基础模型、超声图文预训练、空间转录组预测、IMU-视频对齐、fMRI视频重建以及双视角X-ray推理等。

事件概述

CVPR 2026 医学影像 AI 研究趋势从“模型比人看得更准”转向“系统整体更有用”，重点涵盖少数据、少微调、少人工的轻量化适配，以及跨模态、多视角的联合推理。多篇论文展现了 AI agent 自动优化科研工具、数据筛选提升推理效率、视觉语言模型领域适配、三维 CT 基础模型、超声图文预训练、空间转录组预测、可穿戴传感器与视频对齐、fMRI 视频重建、双视角 X-ray 语义推理等前沿进展。

核心信息

少数据、少微调、少人工

Simple Agents（加州理工、康奈尔等）：用简单的 LLM agent 为生物医学图像分析工作流自动编写预处理/后处理代码，在 Polaris、Cellpose、MedSAM 三个真实任务上超越专家手动优化方案，证明简单透明的 agent 在数据有限、目标明确的科研场景中足够有效。
- 论文地址：https://arxiv.org/pdf/2512.06006v1
DIQ（华东师范大学、穆罕默德·本·扎耶德人工智能大学等）：提出 Difficulty-Influence Quadrant 方法，同时计算样本的医学推理难度和训练影响力，优先选择“高难度、高影响力”数据，只用 1% 的微调数据即可接近甚至超过全量微调效果，在 Huatuo、FineMed 等推理数据上优于随机选择等基线。
- 论文地址：https://arxiv.org/pdf/2508.01450v3
CRAFT（亚马逊云科技、UCLA）：提出 Codebook Regulated Fine-Tuning，只微调离散视觉编码器并锚定到固定 codebook，不动大语言模型部分，避免跨模态错位。在 IconQA、VQA-RAD、Kvasir 等 10 个基准上平均提升 13.51%，强于 LoRA 等方案。
- 论文地址：https://arxiv.org/pdf/2602.19449v1

从三维 CT 到超声图文理解

SPECTRE（荷兰埃因霍温理工大学）：面向三维 CT 的基础模型，采用“局部 ViT + 全局 ViT”两级纯 Transformer 架构，结合自监督学习和 CT-文本跨模态对齐。在肿瘤生物标志物预测、器官分割和文本-CT 检索上整体优于多数基线，使用公开数据训练并开源。
- 论文地址：https://arxiv.org/pdf/2511.17209v2
Ultrasound-CLIP（浙大城市学院、香港浸会大学等）：构建大规模超声图文数据集 US-365K（36.4 万对，52 个解剖类别）和超声诊断分类体系 UDT，通过语义软标签和异构图编码器实现细粒度语义理解。平均分类准确率 59.61%，远超 BiomedCLIP 的 33.81%。
- 论文地址：https://arxiv.org/pdf/2604.01749v1

从病理、运动到 X-ray 双视角

HyperST（厦门大学、上海AI实验室等）：从病理 H&E 全切片预测空间转录组基因表达，将图像和基因表达建模为 spot/niche 多层级表示，投影到双曲空间进行层次化对比对齐。在 HEST-1K 四个数据集上相对 TRIPLEX 的 PCC@200 提升约 10.95%~16.7%，并在结直肠癌 MSI 分类中验证零样本泛化能力。
- 论文地址：https://arxiv.org/pdf/2511.22107
MoBind（阿德莱德大学 AIIM）：实现可穿戴 IMU 传感器信号与视频 2D 人体姿态的细粒度对齐，先用骨架姿态减少背景干扰，再将全身运动拆解为身体部位进行 token 级、局部级和全身级层次化对比学习。在 TotalCapture 和 EgoHumans 上时间同步平均误差仅 0.04~~0.05 秒，200 ms 容忍范围内准确率达 0.98~~1.00。
- 论文地址：https://arxiv.org/pdf/2602.19004v1
SemVideo（北京邮电大学、萨里大学）：从人看视频时的 fMRI 脑活动中重建动态视觉内容，通过 SemMiner 提取静态锚点、运动叙事和整体摘要三层语义，再用语义对齐解码器和运动适配解码器生成视频。在 CC2017 和 HCP 7T 上 8/10 个指标最优，CC2017 上 2-way-V 达 0.865，EPE 为 4.788。
- 论文地址：https://arxiv.org/pdf/2602.21819v2
GSR（北京交通大学、北航）：针对安检 X-ray 双视角违禁品检测，提出“第二视角图像作为语言”的跨模态推理方法，构建 DualXrayBench 基准（45,613 对图像）和 GSXray 数据集。基于 Qwen3-VL-MoE-8B 的 GSR-8B 准确率 65.4%，F1 70.6%，显著超过 GPT-4o、Gemini-2.5-Pro 等通用模型。
- 论文地址：https://arxiv.org/pdf/2511.18385v1

值得关注

多篇论文开始放弃“堆数据+堆参数”路线，转而用 agent、数据筛选、离散 codebook 等方法降低医学 AI 对标注数据和计算资源的依赖。
三维 CT、超声、空间转录组、IMU、fMRI 等跨模态研究持续扩展医学视觉模型的信息边界，且注重临床语义与几何结构的联合建模。
双视角 X-ray 推理将视觉语言模型从单图像语义理解推进到几何-语义联合推理，对安检、手术导航等场景有直接应用意义。

阅读原文详情