火猫 AI

核心服务定制优势系统升级 AI 智能体 Skills 定制开发

AI 工具扣子智能体

精选案例资讯中心

安全保障关于我们联系我们

每日 AI 资讯

苹果提出 EpiCache：面向资源受限环境的长对话 KV 缓存管理框架

2026/05/19 08:00阅读量 2

苹果机器学习研究团队提出无需训练的 KV 缓存管理框架 EpiCache，通过块式预填与情节式缓存放逐将长对话 KV 缓存限制在固定内存预算内，在三个长对话 QA 基准上准确率提升最高 30%，4–6 倍压缩时接近全缓存精度，延迟与峰值内存分别降低 2.4 倍和 3.7 倍。

事件概述

现代大语言模型（LLM）支持百万级 token 上下文，但对话历史越长，Key-Value（KV）缓存内存占用越大，在设备上极易超出限制。现有压缩方法多在处理完整上下文后才进行缓存放逐，导致峰值内存不可控；且依赖单个查询的放逐模式在多轮对话中容易丢失主题信息。

核心方法

EpiCache 是一种无需额外训练的 KV 缓存管理框架，专为固定内存预算下的长对话问答（LongConvQA）设计。其核心机制包括：

块式预填（block-wise prefill）：限制缓存增长速率，避免峰值内存爆炸。
情节式 KV 压缩（episodic KV compression）：将对话历史自动聚类为连贯的“情节”，并在每个情节内执行独立的自适应缓存放逐，从而保留各主题下的关键上下文。

性能表现

在三个长对话 QA 基准（LongMemEval、Realtalk、LoCoMo）上：

准确率最高提升 30%；
在 4–6 倍 KV 缓存压缩下，准确率接近全缓存水平；
延迟最高降低 2.4 倍，峰值内存最高降低 3.7 倍。

阅读原文详情

准备好启动您的定制项目了吗？

现在咨询，即可获得免费的业务梳理与技术架构建议方案。

联系我们查看案例