快手Keye2.0多模态模型发布：引入DSA注意力，实现256K超长视频理解与Agent协作

2026/05/26 18:17阅读量 3

快手发布Keye-VL-2.0-30B-A3B多模态大模型，首次将DeepSeek Sparse Attention（DSA）引入多模态场景，支持256K超长上下文，在视频时序理解任务上达到SOTA，多项指标超越Gemini 3 Flash等闭源模型。该模型同时解锁Agent协作机制，具备代码、工具调用与多步任务规划能力。通过MOPD专家合并、Context-RL训练等技术降低推理成本，已在快手内部业务落地。

事件概述

快手正式发布Keye家族新一代多模态大语言模型 Keye-VL-2.0-30B-A3B。该模型首次在多模态理解场景中应用 DeepSeek Sparse Attention（DSA），通过稀疏注意力与特征聚合，在超长视频序列中实现高噪环境下的信息提纯与高精度时序推理。同时，模型首次引入Agent协作机制，打通感知-规划-执行全链路。

核心信息

DSA落地多模态：将DSA机制引入多模态，支持256K上下文长度。在TimeLens基准上，日常动作时序解析（Charades-TimeLens）mIoU达58.4，接近Gemini 3 Flash的61.2；视频动作定位（ActivityNet-TimeLens）mIoU为58.5，超越Gemini-2.5-Pro（58.1）和Gemini 3 Flash（57.0）；高光时刻提取（QVHighlights-TimeLens）mIoU达70.1，大幅领先Gemini 3 Flash（49.5）。
超长视频理解能力：在VideoMME V2上，输入从64帧扩展至512帧时，平均准确率从35.34%提升至42.44%，非线性得分从18.54升至24.19，打破“长上下文衰减”魔咒。LongVideoBench得分74.10，跨级逼近顶级闭源模型。MLVU得分82.80，VideoMMMU得分79.98。
推理成本优化：引入DSA后，长序列Prefill阶段成本降低50%，Decode成本增长曲线平缓，适合超长视频大规模部署。团队还打造了ExtraIO架构、ViT-LM异构并行等专属训练Infra，长序列训练性能翻倍。
Agent协作机制：首次在多模态基座内建Agent。Code Agent方面，LivecodeBench v6得分77.10、OJBench 39.20、SWE-bench Verified 62.00。Tool Agent方面，TAU2-Bench得分82.58、BFCL-V4 65.72、VITA-Bench 33.12。在实际多步任务（如查询门店、测算距离、创建订单）中展示了稳定的任务分解与API调用能力。
训练技术：采用跨模态MOPD（多专家策略蒸馏/合并）克服灾难性遗忘，引入Bucket Advantage Scaling强化核心感知与推理信号；首次将MOPD用于重复崩溃治理。后训练阶段使用Context-RL奖励机制，提供超几何分布级别的事实性监督，结合严苛数据引擎（Accuracy Filtering）压制幻觉。
通用能力提升：MOPD融合后，模型在数学推理、STEM、指令遵循等通用任务上也全面爆发，综合性能在30B级基座中领先。

应用落地

Keye-VL-2.0-30B-A3B已将多模态理解能力融入快手生成式推荐、内容治理、商业化投放等核心链路，并利用Agent机制赋能视频素材生产（智能检索、高光切片、自动剪辑、营销文案生成），降低内容创作门槛。模型权重已开源至Hugging Face，代码开源至GitHub。

阅读原文详情

事件概述

核心信息

应用落地

准备好启动您的定制项目了吗？