北大团队提出HISA机制：DeepSeek稀疏注意力提速4倍且精度无损

2026/04/06 23:25阅读量 62

北京大学张牧涵团队提出分层索引稀疏注意力（HISA）机制，成功解决现有稀疏注意力中索引器计算成本随文本长度平方级增长的问题。该方案在DeepSeek-V3.2和GLM-5模型上实现即插即用，无需重新训练，在64K上下文长度下最高提速3.75倍，同时保持检索精度与原有方法持平。

事件概述

北京大学张牧涵团队提出一种名为**HISA（Hierarchical Indexing Sparse Attention，分层索引稀疏注意力）**的新机制，旨在优化大模型中的稀疏注意力计算效率。该研究针对现有主流稀疏注意力机制（如DeepSeek使用的DSA）中“索引器”计算成本过高的问题进行了改进，实现了在不降低精度的前提下大幅提升推理速度。

核心信息

1. 痛点与解决方案

现有瓶颈：传统token级稀疏注意力依赖索引器从长文本中筛选关键token。随着文本长度 $L$ 增加，索引器需将每个字符与前序所有字符打分，导致计算复杂度呈 $O(L^2)$ 平方级增长，成为超长文本处理的性能拖累。
HISA思路：采用“先粗后细”的两步筛选策略，复用原模型的打分规则，无需修改后续注意力计算逻辑。
- 第一步（块级粗过滤）：将文本切分为固定大小的块（如128字符），计算块的整体特征向量并打分，仅保留分数最高的 $m$ 个块，剔除无关大块。
- 第二步（块内精挑）：仅在选出的 $m$ 个块内，按原规则对单个字符进行精细打分，选出最终需要的 $k$ 个相关字符。
- 边界优化：强制保留首尾块，确保背景信息与最新上下文的完整性。

2. 技术优势

复杂度降低：将索引器的算力成本从 $O(L^2)$ 降至 $O(L^2/B + L \times m \times B)$（$B$为块大小，$m$为选块数）。文本越长、筛选越精准，提速效果越显著。
工程友好：
- 即插即用：输出与原索引器完全一致，下游模块无需修改。
- 零训练成本：无需微调模型或调整KV缓存结构。
- 自适应退化：短文本时自动退化为原方法，超长文本触发分层筛选。

3. 实测表现

研究团队在 DeepSeek-V3.2 和 GLM-5 两大主流模型上进行了全面测试：

速度提升：在64K长度文本下，HISA相比原DSA索引器最高提速 3.75倍，常规设置下也能提速2倍以上。上下文越长，加速比越高，适配128K/1M超长上下文需求。
精度保持：
- “大海捞针”测试：在超长无关文本中检索指定位置关键信息的能力，HISA与DSA几乎一致，接近满分。
- 长文本理解（LongBench基准）：分数与DSA基本持平。
- 高难度任务：在合成检索、少样本学习等对Token筛选精度要求高的场景中，HISA甚至实现了小幅反超。
鲁棒性：对不同块大小和选块数量不敏感，超参数调整空间大，无需精细调参。

值得关注

局限性：当前采用固定大小分块，若块内混合无关与相关内容可能导致整体标签不准。未来计划引入自适应块、重叠块或更优的特征计算方式。
后续方向：作者建议未来可将块筛选过程与模型联合训练以提升精度，并进一步在完整的大模型服务框架中测试端到端的吞吐量与延迟。
论文来源：arXiv:2603.28458

阅读原文详情