用强化学习智能淘汰KV缓存,省显存不降质2026/02/23 00:00阅读量 5教模型自己学会判断哪些缓存token未来最有用,按价值排序淘汰,而不是靠经验规则 解决大模型长上下文推理时显存爆炸问题,现有启发式方法(如删最近/低注意力token)效果差还费算力 直接预测未来效用,轻量级RL代理不改原模型、零额外推理开销,泛化到未见过任务和更长上下文暂无可展示正文阅读原文详情