TransPrune：追踪视觉 Token 演化轨迹，实现无损推理加速 60% | CVPR 2026

2026/06/25 14:45阅读量 4

山东大学与MBZUAI研究团队提出 TransPrune，该方法从视觉 Token 在模型前向传播过程中的表征变化（演化）来衡量其重要性，而非仅依赖注意力分数。结合 Token Transition Variation（TTV）与 Instruction-Guided Attention（IGA）两个模块，TransPrune 在保持模型性能无损的前提下，将推理计算量降低约 60%，并在多个主流大视觉语言模型上取得领先效果。

事件概述

大视觉语言模型（如 LLaVA、Qwen 系列）在处理高分辨率图像或视频时，会产生大量视觉 Token，这些 Token 在整个推理过程中持续参与计算，成为效率瓶颈。现有 Token 剪枝方法多基于 Attention Score 或 Token Similarity，但 Attention 存在位置偏差（Attention Sink），而相似性方法忽略任务指令影响。山东大学与 MBZUAI 团队提出 TransPrune，从 Token 演化的新视角衡量重要性，实现性能无损下约 60% 推理加速。

核心方法

TransPrune 由两个互补模块构成：

Token Transition Variation (TTV)：在前向传播中持续跟踪每个视觉 Token 在不同层之间的表示变化，将 L2 范数变化（幅值）与方向变化（余弦相似度）量化为统一的重要性得分。通过跨层累积机制获得更稳定的 Token 重要性估计。
Instruction-Guided Attention (IGA)：利用文本指令与视觉 Token 的注意力关联，显式建模当前任务对不同视觉区域的关注程度，提供任务层面的约束。

两者结合，既捕捉 Token 自身的动态演化，又对齐具体问题需求。

实验结果

在多个主流 LVLM 上，TransPrune 相比现有 within-LLM 剪枝方法，在更低 TFLOPs 下取得性能领先。
与 projector-based 压缩方法（如 VisionZip）组合使用时，额外减少约三分之一计算量，模型性能仅极小下降，表明 TTV 所刻画的动态重要性可作为插件融入其他高效推理框架。

值得关注

该工作打破了仅依赖单层注意力分数的传统思路，将 Token 重要性判断拓展至网络传播的动态演化过程，为高效多模态推理和 Transformer 信息流动理解提供新方向。论文与代码均已公开。

阅读原文详情

事件概述

核心方法

实验结果

值得关注

准备好启动您的定制项目了吗？