7B模型医学AI智能体击败o3和GPT-5：上海创智学院提出Think with Images/Videos新范式

2026/05/28 16:01阅读量 2

上海创智学院LeapQuest团队联合浙江大学、上海交通大学、复旦大学，在ICML 2026发表两篇论文（Ophiuchus和MedScope），首次将Think with Images/Think with Videos范式系统应用于医学AI。该范式让模型在推理过程中主动调用视觉工具观察关键区域或时刻，而不仅是生成事后解释。Ophiuchus-7B在8个医学VQA基准上平均分达68.0，超越GPT-5（59.9）、GPT-4o（？原文仅提o3和GPT-5）、Gemini 2.5 Pro（61.8）和OpenAI o3（62.2）。MedScope在长视频理解中实现开源SOTA。这标志着医学AI从“会回答问题”向“会进行临床视觉推理”的转变。

事件概述

上海创智学院LeapQuest团队联合浙江大学、上海交通大学、复旦大学，在ICML 2026发表两篇论文——Ophiuchus（面向医学图像）和MedScope（面向临床长视频），首次将Think with Images / Think with Videos范式系统应用于医学AI。核心创新是：多模态模型不再被动接收视觉上下文后生成解释，而是在推理链中主动决定是否需要更多视觉证据、该看哪里、该回看哪一段，并将工具返回的观察结果纳入后续推理。视觉不再只是输入，而是成为模型思考过程的一部分。

核心信息

Ophiuchus：图像诊断中的“重新看一眼”

将大模型改造为能与医学图像工具协同的视觉智能体，可根据当前推理状态调用外部视觉工具，如 SAM2（精细分割）、BiomedParse（文字提示定位医学结构）、Zoom-in（放大关键区域）。
工具输出以 observation 形式回到推理链，驱动下一步判断。模型学会何时调用工具、选择哪个工具、如何解释输出，以及当工具结果不可靠时如何修正策略。
性能表现：在8个VQA benchmark上，Ophiuchus-7B平均分 68.0，高于 OpenAI o3（62.2）、Gemini 2.5 Pro（61.8）和 GPT-5（59.9）。工具调用准确率达 97.9%。
结论：当问题依赖局部结构、病灶边界和细胞级证据时，模型大小或语言推理不再是唯一瓶颈，医学AI需要让视觉证据不断进入推理过程的机制。

MedScope：长视频中的“回看关键时刻”

针对长临床视频中关键证据稀疏且时间敏感的问题，MedScope模拟临床医生方式：先快速建立全局理解，再回到可疑时间窗，用 crop_video 截取片段，用 get_frame 获取关键帧，整合局部观察结果。
构建 ClinVideoSuite 数据集：635K 时间戳密集 caption、254K 证据关联QA、34K 视觉CoT轨迹以及强化学习交互式训练环境。
三阶段训练：临床推理warm-up → visual-CoT cold-start SFT（教会模型何时需要更多证据、如何调用工具）→ GA-GRPO（强化时序对齐的工具使用，使用 grounding-aware reward 和 evidence-modulated advantage）。
在 SVU-31K、ClinVideo-Eval 等评测中，MedScope 在多粒度视频理解、细粒度时序推理和 grounded VQA 上取得开源模型 SOTA。去掉 evidence reward 后定位质量显著下降，如 R@0.5 从40.1降至33.2，mIoU从43.0（原文写4.3，应为笔误？但保留原文数值）降至38.8。

范式转变：视觉从“输入”变成“思维过程”

两篇工作共同定义了新的医学多模态智能范式：推理过程不再是语言 token 的展开，而是语言、工具、图像区域、视频片段和证据反馈之间的闭环交互。
医学AI的下一个关键能力不是生成更长的解释，而是在给出解释前主动寻找、验证并引用视觉证据。

值得关注

Ophiuchus 和 MedScope 均为开源，GitHub地址：
- MedScope：https://github.com/SII-WenjieLisjtu/MedScope
- Ophiuchus：https://github.com/SII-zyj/Ophiuchus
该方法为临床可信AI提供了更少幻觉、更强可解释性、更适合复杂流程的能力。
研究团队LeapQuest（起跃界问）是上海创智学院面向下一代医学AI Agent、视觉推理与多模态大模型的青年交叉研究团队，专注于Visual Reasoning、Agentic RL、Clinical Tools。

阅读原文详情