7B模型医学AI智能体击败o3和GPT-5:上海创智学院提出Think with Images/Videos新范式
2026/05/28 16:01阅读量 2
上海创智学院LeapQuest团队联合浙江大学、上海交通大学、复旦大学,在ICML 2026发表两篇论文(Ophiuchus和MedScope),首次将Think with Images/Think with Videos范式系统应用于医学AI。该范式让模型在推理过程中主动调用视觉工具观察关键区域或时刻,而不仅是生成事后解释。Ophiuchus-7B在8个医学VQA基准上平均分达68.0,超越GPT-5(59.9)、GPT-4o(?原文仅提o3和GPT-5)、Gemini 2.5 Pro(61.8)和OpenAI o3(62.2)。MedScope在长视频理解中实现开源SOTA。这标志着医学AI从“会回答问题”向“会进行临床视觉推理”的转变。
事件概述
上海创智学院LeapQuest团队联合浙江大学、上海交通大学、复旦大学,在ICML 2026发表两篇论文——Ophiuchus(面向医学图像)和MedScope(面向临床长视频),首次将Think with Images / Think with Videos范式系统应用于医学AI。核心创新是:多模态模型不再被动接收视觉上下文后生成解释,而是在推理链中主动决定是否需要更多视觉证据、该看哪里、该回看哪一段,并将工具返回的观察结果纳入后续推理。视觉不再只是输入,而是成为模型思考过程的一部分。
核心信息
Ophiuchus:图像诊断中的“重新看一眼”
- 将大模型改造为能与医学图像工具协同的视觉智能体,可根据当前推理状态调用外部视觉工具,如 SAM2(精细分割)、BiomedParse(文字提示定位医学结构)、Zoom-in(放大关键区域)。
- 工具输出以 observation 形式回到推理链,驱动下一步判断。模型学会何时调用工具、选择哪个工具、如何解释输出,以及当工具结果不可靠时如何修正策略。
- 性能表现:在8个VQA benchmark上,Ophiuchus-7B平均分 68.0,高于 OpenAI o3(62.2)、Gemini 2.5 Pro(61.8)和 GPT-5(59.9)。工具调用准确率达 97.9%。
- 结论:当问题依赖局部结构、病灶边界和细胞级证据时,模型大小或语言推理不再是唯一瓶颈,医学AI需要让视觉证据不断进入推理过程的机制。
MedScope:长视频中的“回看关键时刻”
- 针对长临床视频中关键证据稀疏且时间敏感的问题,MedScope模拟临床医生方式:先快速建立全局理解,再回到可疑时间窗,用 crop_video 截取片段,用 get_frame 获取关键帧,整合局部观察结果。
- 构建 ClinVideoSuite 数据集:635K 时间戳密集 caption、254K 证据关联QA、34K 视觉CoT轨迹以及强化学习交互式训练环境。
- 三阶段训练:临床推理warm-up → visual-CoT cold-start SFT(教会模型何时需要更多证据、如何调用工具)→ GA-GRPO(强化时序对齐的工具使用,使用 grounding-aware reward 和 evidence-modulated advantage)。
- 在 SVU-31K、ClinVideo-Eval 等评测中,MedScope 在多粒度视频理解、细粒度时序推理和 grounded VQA 上取得开源模型 SOTA。去掉 evidence reward 后定位质量显著下降,如 R@0.5 从40.1降至33.2,mIoU从43.0(原文写4.3,应为笔误?但保留原文数值)降至38.8。
范式转变:视觉从“输入”变成“思维过程”
- 两篇工作共同定义了新的医学多模态智能范式:推理过程不再是语言 token 的展开,而是语言、工具、图像区域、视频片段和证据反馈之间的闭环交互。
- 医学AI的下一个关键能力不是生成更长的解释,而是在给出解释前主动寻找、验证并引用视觉证据。
值得关注
- Ophiuchus 和 MedScope 均为开源,GitHub地址:
- MedScope:https://github.com/SII-WenjieLisjtu/MedScope
- Ophiuchus:https://github.com/SII-zyj/Ophiuchus
- 该方法为临床可信AI提供了更少幻觉、更强可解释性、更适合复杂流程的能力。
- 研究团队LeapQuest(起跃界问)是上海创智学院面向下一代医学AI Agent、视觉推理与多模态大模型的青年交叉研究团队,专注于Visual Reasoning、Agentic RL、Clinical Tools。
