全球首个医疗视频理解大模型开源:6000+精标数据与统一评测体系上线
2026/04/26 13:24阅读量 2
联影智能发布全球首个医疗视频理解大模型uAI Nexus MedVLM,并同步开源包含6245个视频-指令对的MedVidBench测试集及英雄榜。实测数据显示,该模型在手术安全评估、时空动作定位等核心任务上显著超越GPT-5.4、Gemini-3.1等通用大模型。此举标志着医疗视频理解领域首次拥有统一的公共评测标准,旨在推动全球开发者共同提升手术辅助AI能力。
事件概述
联影智能(UII-AI)正式开源了全球规模最大、性能最强的医疗视频理解大模型——uAI Nexus MedVLM(中文名:元智医疗视频理解大模型)。该模型及其配套的MedVidBench数据集和在线排行榜已在GitHub和Hugging Face平台上线,论文已被CVPR 2026收录。
这是业内首次公开大规模高质量医疗视频标注数据与模型,为长期缺乏统一标准的“手术视频理解”赛道建立了全球公共测评体系。
核心信息
1. 模型硬指标
- 数据规模:汇聚超53万条视频-指令数据进行训练。
- 参数规模:提供4B和7B两种版本,支持单卡部署。
- 覆盖场景:整合8个专业医学数据集,涵盖内镜、腹腔镜、开放手术、机器人手术及护理操作等多种临床场景。
- 任务类型:支持视频摘要(VS)、关键安全视野评估(CVS)、下一步操作预测(NAP)、技能评估(SA)、时间动作定位(TAG)、密集视频描述(DVC)、区域级描述(RC)和时空基础化(STG)共8项任务。
2. 实测性能表现
在定量实测中,uAI Nexus MedVLM的表现远超主流通用大模型:
- 手术安全评估准确率:达到89.7%(对比:GPT-5.4为16.4%,Gemini-3.1为24.2%)。
- 时空动作定位(mIoU):是GPT-5.4的47倍,Gemini-3.1的3.2倍。
- 视频报告生成质量:获得4.24分(满分5分),优于GPT-5.4(3.98分)及其他国产模型。
- 定性分析:在识别具体器械状态和操作时序上,能给出接近专家标准答案的描述,而通用模型常出现笼统描述或错误识别。
3. 技术优化成果
通过MedGRPO强化学习优化后,相比基座模型能力提升显著:
- 器械定位能力提升14%。
- 手术步骤识别能力暴涨52%。
- 手术描述质量提升16%~25%。
4. 行业痛点突破
此次开源解决了医疗视频理解领域的三大难题:
- 数据获取难:提供了经过专业医生标注的高质量数据集,降低数据门槛。
- 评测标准缺失:建立了统一的基准测试(MedVidBench),使不同模型效果可横向比较。
- 任务复杂度高:模型成功攻克了对空间、时序、语义的高精度理解挑战,如毫米级器械定位和严格的手术步骤逻辑判断。
值得关注
应用场景落地
- 术前:挖掘顶级专家手术规律,辅助制定方案。
- 术中:实时指引关键步骤,对违规操作进行毫秒级预警,充当医生“第三只眼”。
- 术后:自动生成结构化总结报告,沉淀经验用于教学与质控。
- 基层赋能:将三甲医院专家经验数字化,辅助基层医生提升手术水平。
开发者生态
联影智能发布了医疗视频理解大模型榜单,面向全球开发者开放挑战:
- 提交自有模型结果,系统基于标准自动评分并动态更新排行榜。
- 鼓励利用真实病例和复杂案例驱动技术迭代。
资源链接
- 在线Demo: https://huggingface.co/spaces/UII-AI/MedGRPO-Demo
- 推理代码: https://github.com/UII-AI/MedGRPO-Code
- 数据集 (MedVidBench): https://huggingface.co/datasets/UII-AI/MedVidBench
- 公开榜单: https://huggingface.co/spaces/UII-AI/MedVidBench-Leaderboard
- 论文: https://arxiv.org/abs/2512.06581
- 项目介绍: https://uii-ai.github.io/MedGRPO/
