苹果提出VSAS-Bench：面向流式视觉语言模型的实时评估基准

2026/05/22 08:00阅读量 2

苹果发布VSAS-Bench基准，用于评估流式视觉语言模型（VLM）在实时场景下的性能。该基准提供超过1.8万个时态密集标注，并引入主动性和一致性等新指标。实验表明，传统VLM无需额外训练即可适应流式场景，且性能优于专用流式模型，例如Qwen3-VL-4B在异步协议下超越最佳流式VLM Dispider 3%。

事件概述

苹果机器学习研究团队在CVPR 2026上发表了论文《VSAS-Bench: Real-Time Evaluation of Visual Streaming Assistant Models》，提出了一个用于评估流式视觉语言模型（VLM）的新框架和基准。流式VLM需要根据指令和在线输入帧流连续生成响应，这是实时视觉助手的核心机制。现有VLM基准主要评估离线设置，而流式VLM的性能还取决于额外指标，例如反映了响应及时性的“主动性和”和反映响应随时间稳定性的“一致性”。

核心信息

VSAS-Bench的特点：相比现有基准（多为单轮问答），VSAS-Bench提供时态密集标注，涵盖超过1.8万个标注，涉及多种输入领域和任务类型。
评估协议与指标：引入了标准化的同步和异步评估协议，以及能够隔离和测量流式VLM不同能力的指标。
大规模评估结果：利用该框架对近期视频和流式VLM进行了大规模评估，分析了准确性-延迟权衡，关键设计因素包括记忆缓冲区长度、记忆访问策略和输入分辨率，得出了若干实践见解。
关键发现：传统VLM可以无需额外训练即适应流式设置，且表现优于专为流式设计的VLM。例如，Qwen3-VL-4B在异步协议下比当前基准上最好的流式VLM Dispider高出3%。

阅读原文详情

事件概述

核心信息

准备好启动您的定制项目了吗？