全球首个医疗视频理解大模型开源:6000+精标数据与统一评测体系上线

2026/04/26 13:24阅读量 2

联影智能发布全球首个医疗视频理解大模型uAI Nexus MedVLM,并同步开源包含6245个视频-指令对的MedVidBench测试集及英雄榜。实测数据显示,该模型在手术安全评估、时空动作定位等核心任务上显著超越GPT-5.4、Gemini-3.1等通用大模型。此举标志着医疗视频理解领域首次拥有统一的公共评测标准,旨在推动全球开发者共同提升手术辅助AI能力。

事件概述

联影智能(UII-AI)正式开源了全球规模最大、性能最强的医疗视频理解大模型——uAI Nexus MedVLM(中文名:元智医疗视频理解大模型)。该模型及其配套的MedVidBench数据集和在线排行榜已在GitHub和Hugging Face平台上线,论文已被CVPR 2026收录。

这是业内首次公开大规模高质量医疗视频标注数据与模型,为长期缺乏统一标准的“手术视频理解”赛道建立了全球公共测评体系。

核心信息

1. 模型硬指标

  • 数据规模:汇聚超53万条视频-指令数据进行训练。
  • 参数规模:提供4B和7B两种版本,支持单卡部署。
  • 覆盖场景:整合8个专业医学数据集,涵盖内镜、腹腔镜、开放手术、机器人手术及护理操作等多种临床场景。
  • 任务类型:支持视频摘要(VS)、关键安全视野评估(CVS)、下一步操作预测(NAP)、技能评估(SA)、时间动作定位(TAG)、密集视频描述(DVC)、区域级描述(RC)和时空基础化(STG)共8项任务。

2. 实测性能表现

在定量实测中,uAI Nexus MedVLM的表现远超主流通用大模型:

  • 手术安全评估准确率:达到89.7%(对比:GPT-5.4为16.4%,Gemini-3.1为24.2%)。
  • 时空动作定位(mIoU):是GPT-5.4的47倍,Gemini-3.1的3.2倍。
  • 视频报告生成质量:获得4.24分(满分5分),优于GPT-5.4(3.98分)及其他国产模型。
  • 定性分析:在识别具体器械状态和操作时序上,能给出接近专家标准答案的描述,而通用模型常出现笼统描述或错误识别。

3. 技术优化成果

通过MedGRPO强化学习优化后,相比基座模型能力提升显著:

  • 器械定位能力提升14%
  • 手术步骤识别能力暴涨52%
  • 手术描述质量提升16%~25%

4. 行业痛点突破

此次开源解决了医疗视频理解领域的三大难题:

  1. 数据获取难:提供了经过专业医生标注的高质量数据集,降低数据门槛。
  2. 评测标准缺失:建立了统一的基准测试(MedVidBench),使不同模型效果可横向比较。
  3. 任务复杂度高:模型成功攻克了对空间、时序、语义的高精度理解挑战,如毫米级器械定位和严格的手术步骤逻辑判断。

值得关注

应用场景落地

  • 术前:挖掘顶级专家手术规律,辅助制定方案。
  • 术中:实时指引关键步骤,对违规操作进行毫秒级预警,充当医生“第三只眼”。
  • 术后:自动生成结构化总结报告,沉淀经验用于教学与质控。
  • 基层赋能:将三甲医院专家经验数字化,辅助基层医生提升手术水平。

开发者生态

联影智能发布了医疗视频理解大模型榜单,面向全球开发者开放挑战:

  • 提交自有模型结果,系统基于标准自动评分并动态更新排行榜。
  • 鼓励利用真实病例和复杂案例驱动技术迭代。

资源链接

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。