苹果提出 EpiCache:面向资源受限环境的长对话 KV 缓存管理框架
2026/05/19 08:00阅读量 2
苹果机器学习研究团队提出无需训练的 KV 缓存管理框架 EpiCache,通过块式预填与情节式缓存放逐将长对话 KV 缓存限制在固定内存预算内,在三个长对话 QA 基准上准确率提升最高 30%,4–6 倍压缩时接近全缓存精度,延迟与峰值内存分别降低 2.4 倍和 3.7 倍。
事件概述
现代大语言模型(LLM)支持百万级 token 上下文,但对话历史越长,Key-Value(KV)缓存内存占用越大,在设备上极易超出限制。现有压缩方法多在处理完整上下文后才进行缓存放逐,导致峰值内存不可控;且依赖单个查询的放逐模式在多轮对话中容易丢失主题信息。
核心方法
EpiCache 是一种无需额外训练的 KV 缓存管理框架,专为固定内存预算下的长对话问答(LongConvQA)设计。其核心机制包括:
- 块式预填(block-wise prefill):限制缓存增长速率,避免峰值内存爆炸。
- 情节式 KV 压缩(episodic KV compression):将对话历史自动聚类为连贯的“情节”,并在每个情节内执行独立的自适应缓存放逐,从而保留各主题下的关键上下文。
性能表现
在三个长对话 QA 基准(LongMemEval、Realtalk、LoCoMo)上:
- 准确率最高提升 30%;
- 在 4–6 倍 KV 缓存压缩下,准确率接近全缓存水平;
- 延迟最高降低 2.4 倍,峰值内存最高降低 3.7 倍。
