SpecMD:投机专家预取综合研究,提出 Least-Stale 缓存策略

2026/05/06 08:00阅读量 2

苹果机器学习研究团队发布 SpecMD 框架,用于标准化基准测试混合专家模型(MoE)的专家缓存策略。研究发现 MoE 专家访问不符合时间局部性假设(如 LRU、LFU),并提出了 Least-Stale 驱逐策略,可将冲突缺失减少高达 85 倍,在 OLMoE 模型上实现 88% 命中率和 34.7% 的首令牌延迟(TTFT)降低,仅需 0.6GB VRAM 缓存容量。

事件概述

混合专家模型(MoE)通过稀疏激活仅使用部分参数,但需依赖专家缓存机制才能将稀疏性转化为实际性能提升。此前相关工作提出了多种以硬件为中心的缓存策略,但各策略间的交互及与不同硬件的适配关系尚未被充分理解。

核心信息

  1. SpecMD 框架:Apple 研究团队开发了 SpecMD,一个标准化的基准测试框架,可在多种硬件配置下对临时专家缓存策略进行统一评测。基于该框架,团队复现并扩展了多项 MoE 缓存策略,在受控条件下进行了全面基准测试。

  2. 关键发现:实验表明,MoE 专家访问模式并不符合时间局部性假设(如 LRU、LFU)。传统缓存策略在 MoE 场景下效果有限。

  3. 新策略 Least-Stale:基于 MoE 专家访问模式可预测的特点,团队提出 Least-Stale 驱逐策略,能够针对性减少冲突缺失。相较 LRU,冲突缺失最高可降低 85 倍。

实验结果

  • 在缓存容量仅占模型参数 5%(约 0.6GB VRAM)时,OLMoE 模型的命中率达到 88% 以上。
  • 首令牌延迟(TTFT)降低 34.7%。
  • 该研究为 MoE 模型在资源受限设备上的高效推理提供了新的缓存设计思路。

(论文发表于 ICML 2026,arXiv: 2602.03921)

来源:Apple Machine Learning Research
返回列表

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。