苹果提出 EpiCache:面向资源受限环境的长对话 KV 缓存管理框架

2026/05/19 08:00阅读量 2

苹果机器学习研究团队提出无需训练的 KV 缓存管理框架 EpiCache,通过块式预填与情节式缓存放逐将长对话 KV 缓存限制在固定内存预算内,在三个长对话 QA 基准上准确率提升最高 30%,4–6 倍压缩时接近全缓存精度,延迟与峰值内存分别降低 2.4 倍和 3.7 倍。

事件概述

现代大语言模型(LLM)支持百万级 token 上下文,但对话历史越长,Key-Value(KV)缓存内存占用越大,在设备上极易超出限制。现有压缩方法多在处理完整上下文后才进行缓存放逐,导致峰值内存不可控;且依赖单个查询的放逐模式在多轮对话中容易丢失主题信息。

核心方法

EpiCache 是一种无需额外训练的 KV 缓存管理框架,专为固定内存预算下的长对话问答(LongConvQA)设计。其核心机制包括:

  • 块式预填(block-wise prefill):限制缓存增长速率,避免峰值内存爆炸。
  • 情节式 KV 压缩(episodic KV compression):将对话历史自动聚类为连贯的“情节”,并在每个情节内执行独立的自适应缓存放逐,从而保留各主题下的关键上下文。

性能表现

在三个长对话 QA 基准(LongMemEval、Realtalk、LoCoMo)上:

  • 准确率最高提升 30%;
  • 在 4–6 倍 KV 缓存压缩下,准确率接近全缓存水平;
  • 延迟最高降低 2.4 倍,峰值内存最高降低 3.7 倍。
来源:Apple Machine Learning Research
返回列表

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。