TransPrune:追踪视觉 Token 演化轨迹,实现无损推理加速 60% | CVPR 2026

2026/06/25 14:45阅读量 4

山东大学与MBZUAI研究团队提出 TransPrune,该方法从视觉 Token 在模型前向传播过程中的表征变化(演化)来衡量其重要性,而非仅依赖注意力分数。结合 Token Transition Variation(TTV)与 Instruction-Guided Attention(IGA)两个模块,TransPrune 在保持模型性能无损的前提下,将推理计算量降低约 60%,并在多个主流大视觉语言模型上取得领先效果。

事件概述

大视觉语言模型(如 LLaVA、Qwen 系列)在处理高分辨率图像或视频时,会产生大量视觉 Token,这些 Token 在整个推理过程中持续参与计算,成为效率瓶颈。现有 Token 剪枝方法多基于 Attention Score 或 Token Similarity,但 Attention 存在位置偏差(Attention Sink),而相似性方法忽略任务指令影响。山东大学与 MBZUAI 团队提出 TransPrune,从 Token 演化的新视角衡量重要性,实现性能无损下约 60% 推理加速。

核心方法

TransPrune 由两个互补模块构成:

  • Token Transition Variation (TTV):在前向传播中持续跟踪每个视觉 Token 在不同层之间的表示变化,将 L2 范数变化(幅值)与方向变化(余弦相似度)量化为统一的重要性得分。通过跨层累积机制获得更稳定的 Token 重要性估计。
  • Instruction-Guided Attention (IGA):利用文本指令与视觉 Token 的注意力关联,显式建模当前任务对不同视觉区域的关注程度,提供任务层面的约束。

两者结合,既捕捉 Token 自身的动态演化,又对齐具体问题需求。

实验结果

  • 在多个主流 LVLM 上,TransPrune 相比现有 within-LLM 剪枝方法,在更低 TFLOPs 下取得性能领先。
  • 与 projector-based 压缩方法(如 VisionZip)组合使用时,额外减少约三分之一计算量,模型性能仅极小下降,表明 TTV 所刻画的动态重要性可作为插件融入其他高效推理框架。

值得关注

该工作打破了仅依赖单层注意力分数的传统思路,将 Token 重要性判断拓展至网络传播的动态演化过程,为高效多模态推理和 Transformer 信息流动理解提供新方向。论文与代码均已公开。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。