大模型架构下半场:从“累加”到“检索”,层间通信迎来范式转移
2026/04/19 18:12阅读量 2
华中科技大学王兴刚团队提出 Flash Depth Attention 与混合深度注意力(MoDA),旨在解决大模型深度扩展中层间通信效率低下的核心瓶颈。该研究将传统的残差连接“累加”机制升级为基于内容的“检索”机制,使模型能跨层直接获取特定信息而非依赖累积信号。实验表明,新架构在保持完整表达能力的同时显著提升了训练速度,并有效缓解了注意力沉没现象,标志着大模型架构从组件扩展转向通信质量优化的新阶段。
事件概述
华中科技大学王兴刚团队提出 Flash Depth Attention 与 混合深度注意力(Mixture-of-depths Attention, MoDA) 架构,针对大模型在深度扩展过程中面临的层间通信瓶颈进行了根本性重构。该研究指出,过去十年深度学习主要关注序列长度、参数量和数据的扩展,却忽视了层与层之间通信机制的滞后——现有的深度残差连接(Residual Connection)本质上是一种“累加”操作,导致深层网络出现严重的“信息稀释”问题。
核心问题分析:为何“更深”不等于“更强”?
- 信息稀释困境:在传统的残差连接框架下,第 $N$ 层的输出是前序所有层信息的线性叠加。随着层数增加(如达到152层以上),早期层的关键信息被淹没在后续层的噪声中,导致深层网络实际上变得“很浅”。
- 现有修补方案的局限:
- DenseNet/DenseFormer:通过保留每层输出来缓解信息丢失,但面临平方级计算开销或固定权重的限制。
- Hyper-Connections/mHC:拓宽了通道数量,但信息仍逐层流动,无法实现跨层直接回溯。
- MUDDFormer:虽实现了动态权重混合,但仅基于当前层状态预测,缺乏对源层实际内容的感知。
- 范畴谬误:主流方法试图优化“如何更好地混合各层输出”,而忽略了更本质的需求——不同层编码的信息(如浅层句法、深层语义)应支持基于内容的直接检索,而非强制累加。
技术突破:引入深度维度注意力
研究团队将序列维度上成功的注意力机制迁移至深度维度,实现了层间的选择性检索:
- Flash Depth Attention (FDA):解决了深度注意力在 GPU 上运行缓慢的工程难题。通过重新组织数据布局以适配硬件,将原本耗时44秒的 PyTorch 原型优化至可参与实际训练的速度。
- 混合深度注意力 (MoDA):
- 架构变革:将主干流水线从
残差连接→序列注意力→残差连接→FFN重构为深度注意力→序列注意力→深度注意力→FFN。 - 统一检索:在一个统一的 Softmax 操作中,同时聚合序列 KV(键值对)和深度 KV。每个注意力头既能关注当前序列的其他 Token,也能跨层检索自身历史信息。
- 效果验证:可视化显示,模型会主动利用深度检索能力,不再费力从累加的“合唱”中辨认特定声音,而是直接“询问”特定层。
- 架构变革:将主干流水线从
关键结论与影响
- 性能提升:在开源基线模型 OLMo2 上的实验显示,引入 MoDA 后模型能力得到全面超越。
- 现象改善:有效减弱了 Attention Sink(注意力沉没) 现象,即模型不再将概率质量过度堆积在少数固定 Token 上。
- 范式转移:大模型架构进入“下半场”,核心任务从“如何把组件做大”转向“如何提升组件间的通信质量”。这一原则可推广至模态间、时间步间等静态通道场景,用检索机制替代累加操作。
