全球首个医疗视频理解大模型开源：6000+精标数据与统一评测体系上线

2026/04/26 13:24阅读量 2

联影智能发布全球首个医疗视频理解大模型uAI Nexus MedVLM，并同步开源包含6245个视频-指令对的MedVidBench测试集及英雄榜。实测数据显示，该模型在手术安全评估、时空动作定位等核心任务上显著超越GPT-5.4、Gemini-3.1等通用大模型。此举标志着医疗视频理解领域首次拥有统一的公共评测标准，旨在推动全球开发者共同提升手术辅助AI能力。

事件概述

联影智能（UII-AI）正式开源了全球规模最大、性能最强的医疗视频理解大模型——uAI Nexus MedVLM（中文名：元智医疗视频理解大模型）。该模型及其配套的MedVidBench数据集和在线排行榜已在GitHub和Hugging Face平台上线，论文已被CVPR 2026收录。

这是业内首次公开大规模高质量医疗视频标注数据与模型，为长期缺乏统一标准的“手术视频理解”赛道建立了全球公共测评体系。

核心信息

1. 模型硬指标

数据规模：汇聚超53万条视频-指令数据进行训练。
参数规模：提供4B和7B两种版本，支持单卡部署。
覆盖场景：整合8个专业医学数据集，涵盖内镜、腹腔镜、开放手术、机器人手术及护理操作等多种临床场景。
任务类型：支持视频摘要（VS）、关键安全视野评估（CVS）、下一步操作预测（NAP）、技能评估（SA）、时间动作定位（TAG）、密集视频描述（DVC）、区域级描述（RC）和时空基础化（STG）共8项任务。

2. 实测性能表现

在定量实测中，uAI Nexus MedVLM的表现远超主流通用大模型：

手术安全评估准确率：达到89.7%（对比：GPT-5.4为16.4%，Gemini-3.1为24.2%）。
时空动作定位（mIoU）：是GPT-5.4的47倍，Gemini-3.1的3.2倍。
视频报告生成质量：获得4.24分（满分5分），优于GPT-5.4（3.98分）及其他国产模型。
定性分析：在识别具体器械状态和操作时序上，能给出接近专家标准答案的描述，而通用模型常出现笼统描述或错误识别。

3. 技术优化成果

通过MedGRPO强化学习优化后，相比基座模型能力提升显著：

器械定位能力提升14%。
手术步骤识别能力暴涨52%。
手术描述质量提升16%～25%。

4. 行业痛点突破

此次开源解决了医疗视频理解领域的三大难题：

数据获取难：提供了经过专业医生标注的高质量数据集，降低数据门槛。
评测标准缺失：建立了统一的基准测试（MedVidBench），使不同模型效果可横向比较。
任务复杂度高：模型成功攻克了对空间、时序、语义的高精度理解挑战，如毫米级器械定位和严格的手术步骤逻辑判断。

值得关注

应用场景落地

术前：挖掘顶级专家手术规律，辅助制定方案。
术中：实时指引关键步骤，对违规操作进行毫秒级预警，充当医生“第三只眼”。
术后：自动生成结构化总结报告，沉淀经验用于教学与质控。
基层赋能：将三甲医院专家经验数字化，辅助基层医生提升手术水平。

开发者生态

联影智能发布了医疗视频理解大模型榜单，面向全球开发者开放挑战：

提交自有模型结果，系统基于标准自动评分并动态更新排行榜。
鼓励利用真实病例和复杂案例驱动技术迭代。

资源链接

在线Demo: https://huggingface.co/spaces/UII-AI/MedGRPO-Demo
推理代码: https://github.com/UII-AI/MedGRPO-Code
数据集 (MedVidBench): https://huggingface.co/datasets/UII-AI/MedVidBench
公开榜单: https://huggingface.co/spaces/UII-AI/MedVidBench-Leaderboard
论文: https://arxiv.org/abs/2512.06581
项目介绍: https://uii-ai.github.io/MedGRPO/

阅读原文详情