火猫 AI

用强化学习智能淘汰KV缓存，省显存不降质

2026/02/23 00:00阅读量 17

教模型自己学会判断哪些缓存token未来最有用，按价值排序淘汰，而不是靠经验规则解决大模型长上下文推理时显存爆炸问题，现有启发式方法（如删最近/低注意力token）效果差还费算力直接预测未来效用，轻量级RL代理不改原模型、零额外推理开销，泛化到未见过任务和更长上下文

暂无可展示正文

准备好启动您的定制项目了吗？

现在咨询，即可获得免费的业务梳理与技术架构建议方案。