SpecMD：投机专家预取综合研究，提出 Least-Stale 缓存策略

2026/05/06 08:00阅读量 2

苹果机器学习研究团队发布 SpecMD 框架，用于标准化基准测试混合专家模型（MoE）的专家缓存策略。研究发现 MoE 专家访问不符合时间局部性假设（如 LRU、LFU），并提出了 Least-Stale 驱逐策略，可将冲突缺失减少高达 85 倍，在 OLMoE 模型上实现 88% 命中率和 34.7% 的首令牌延迟（TTFT）降低，仅需 0.6GB VRAM 缓存容量。

事件概述

混合专家模型（MoE）通过稀疏激活仅使用部分参数，但需依赖专家缓存机制才能将稀疏性转化为实际性能提升。此前相关工作提出了多种以硬件为中心的缓存策略，但各策略间的交互及与不同硬件的适配关系尚未被充分理解。

核心信息

SpecMD 框架：Apple 研究团队开发了 SpecMD，一个标准化的基准测试框架，可在多种硬件配置下对临时专家缓存策略进行统一评测。基于该框架，团队复现并扩展了多项 MoE 缓存策略，在受控条件下进行了全面基准测试。
关键发现：实验表明，MoE 专家访问模式并不符合时间局部性假设（如 LRU、LFU）。传统缓存策略在 MoE 场景下效果有限。
新策略 Least-Stale：基于 MoE 专家访问模式可预测的特点，团队提出 Least-Stale 驱逐策略，能够针对性减少冲突缺失。相较 LRU，冲突缺失最高可降低 85 倍。

实验结果

在缓存容量仅占模型参数 5%（约 0.6GB VRAM）时，OLMoE 模型的命中率达到 88% 以上。
首令牌延迟（TTFT）降低 34.7%。
该研究为 MoE 模型在资源受限设备上的高效推理提供了新的缓存设计思路。

（论文发表于 ICML 2026，arXiv: 2602.03921）

阅读原文详情

事件概述

核心信息

实验结果

准备好启动您的定制项目了吗？