快手Keye2.0多模态模型发布:引入DSA注意力,实现256K超长视频理解与Agent协作
2026/05/26 18:17阅读量 3
快手发布Keye-VL-2.0-30B-A3B多模态大模型,首次将DeepSeek Sparse Attention(DSA)引入多模态场景,支持256K超长上下文,在视频时序理解任务上达到SOTA,多项指标超越Gemini 3 Flash等闭源模型。该模型同时解锁Agent协作机制,具备代码、工具调用与多步任务规划能力。通过MOPD专家合并、Context-RL训练等技术降低推理成本,已在快手内部业务落地。
事件概述
快手正式发布Keye家族新一代多模态大语言模型 Keye-VL-2.0-30B-A3B。该模型首次在多模态理解场景中应用 DeepSeek Sparse Attention(DSA),通过稀疏注意力与特征聚合,在超长视频序列中实现高噪环境下的信息提纯与高精度时序推理。同时,模型首次引入Agent协作机制,打通感知-规划-执行全链路。
核心信息
- DSA落地多模态:将DSA机制引入多模态,支持256K上下文长度。在TimeLens基准上,日常动作时序解析(Charades-TimeLens)mIoU达58.4,接近Gemini 3 Flash的61.2;视频动作定位(ActivityNet-TimeLens)mIoU为58.5,超越Gemini-2.5-Pro(58.1)和Gemini 3 Flash(57.0);高光时刻提取(QVHighlights-TimeLens)mIoU达70.1,大幅领先Gemini 3 Flash(49.5)。
- 超长视频理解能力:在VideoMME V2上,输入从64帧扩展至512帧时,平均准确率从35.34%提升至42.44%,非线性得分从18.54升至24.19,打破“长上下文衰减”魔咒。LongVideoBench得分74.10,跨级逼近顶级闭源模型。MLVU得分82.80,VideoMMMU得分79.98。
- 推理成本优化:引入DSA后,长序列Prefill阶段成本降低50%,Decode成本增长曲线平缓,适合超长视频大规模部署。团队还打造了ExtraIO架构、ViT-LM异构并行等专属训练Infra,长序列训练性能翻倍。
- Agent协作机制:首次在多模态基座内建Agent。Code Agent方面,LivecodeBench v6得分77.10、OJBench 39.20、SWE-bench Verified 62.00。Tool Agent方面,TAU2-Bench得分82.58、BFCL-V4 65.72、VITA-Bench 33.12。在实际多步任务(如查询门店、测算距离、创建订单)中展示了稳定的任务分解与API调用能力。
- 训练技术:采用跨模态MOPD(多专家策略蒸馏/合并)克服灾难性遗忘,引入Bucket Advantage Scaling强化核心感知与推理信号;首次将MOPD用于重复崩溃治理。后训练阶段使用Context-RL奖励机制,提供超几何分布级别的事实性监督,结合严苛数据引擎(Accuracy Filtering)压制幻觉。
- 通用能力提升:MOPD融合后,模型在数学推理、STEM、指令遵循等通用任务上也全面爆发,综合性能在30B级基座中领先。
应用落地
Keye-VL-2.0-30B-A3B已将多模态理解能力融入快手生成式推荐、内容治理、商业化投放等核心链路,并利用Agent机制赋能视频素材生产(智能检索、高光切片、自动剪辑、营销文案生成),降低内容创作门槛。模型权重已开源至Hugging Face,代码开源至GitHub。
