苹果提出VSAS-Bench:面向流式视觉语言模型的实时评估基准

2026/05/22 08:00阅读量 2

苹果发布VSAS-Bench基准,用于评估流式视觉语言模型(VLM)在实时场景下的性能。该基准提供超过1.8万个时态密集标注,并引入主动性和一致性等新指标。实验表明,传统VLM无需额外训练即可适应流式场景,且性能优于专用流式模型,例如Qwen3-VL-4B在异步协议下超越最佳流式VLM Dispider 3%。

事件概述

苹果机器学习研究团队在CVPR 2026上发表了论文《VSAS-Bench: Real-Time Evaluation of Visual Streaming Assistant Models》,提出了一个用于评估流式视觉语言模型(VLM)的新框架和基准。流式VLM需要根据指令和在线输入帧流连续生成响应,这是实时视觉助手的核心机制。现有VLM基准主要评估离线设置,而流式VLM的性能还取决于额外指标,例如反映了响应及时性的“主动性和”和反映响应随时间稳定性的“一致性”。

核心信息

  • VSAS-Bench的特点:相比现有基准(多为单轮问答),VSAS-Bench提供时态密集标注,涵盖超过1.8万个标注,涉及多种输入领域和任务类型。
  • 评估协议与指标:引入了标准化的同步和异步评估协议,以及能够隔离和测量流式VLM不同能力的指标。
  • 大规模评估结果:利用该框架对近期视频和流式VLM进行了大规模评估,分析了准确性-延迟权衡,关键设计因素包括记忆缓冲区长度、记忆访问策略和输入分辨率,得出了若干实践见解。
  • 关键发现:传统VLM可以无需额外训练即适应流式设置,且表现优于专为流式设计的VLM。例如,Qwen3-VL-4B在异步协议下比当前基准上最好的流式VLM Dispider高出3%。
来源:Apple Machine Learning Research
返回列表

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。