Stochastic KV Routing：实现自适应深度缓存共享

2026/05/05 08:00阅读量 3

苹果机器学习研究团队提出随机KV路由方法，通过训练时随机选择层间注意力，使大语言模型能够在深度维度上共享KV缓存，从而显著降低推理时的内存占用，同时保持或提升模型性能。

事件概述
Transformer语言模型在自回归生成中依赖KV缓存来避免重复计算，但其内存占用显著影响服务成本。现有研究多从时间维度进行压缩或淘汰，而苹果团队提出从深度维度进行优化——通过层间缓存共享来减少内存需求。

核心方法
提出“随机跨层注意力”训练方案：在训练过程中，每一层随机选择关注自身的KV状态或前一层（或更早层）的KV状态。这种随机过程使模型对不同的深度缓存共享策略具有鲁棒性，部署时可根据硬件约束灵活调整。

评估结果
该方法在预训练或微调阶段均可应用，适用于多种模型家族。对于数据受限环境下的更大模型，该方法具有类似正则化的效果，在显著降低缓存内存占用的同时，往往能够保持甚至提升性能。

准备好启动您的定制项目了吗？