Kimi 新论文:跨数据中心 KVCache 传输实现,预填充即服务(PrFaaS)成商业新范式

2026/04/19 18:19阅读量 3

月之暗面与清华大学联合提出 PrFaaS(Prefill-as-a-Service)架构,利用混合注意力模型特性,首次实现 KV Cache 通过普通商用以太网跨数据中心传输。该方案将 Prefill 与 Decode 阶段解耦至异构集群,实测显示在长上下文场景下吞吐量提升 54%,P90 延迟降低 64%。这一突破打破了传统 PD 分离架构对 RDMA 网络的依赖,为长文本推理提供了低成本、高弹性的工程落地路径。

事件概述

月之暗面(Kimi)与清华大学郑纬民院士、武永卫教授及章明星副教授团队联合发布新研究,提出PrFaaS (Prefill-as-a-Service) 架构。该架构旨在解决大模型推理中 Prefill(预填充)与 Decode(解码)阶段因 KV Cache 带宽墙而被迫绑定在同一集群的痛点,实现了跨数据中心的异构算力调度。

核心突破与技术原理

1. 混合注意力架构降低带宽需求

传统 Dense GQA 架构模型在长上下文下产生的 KV Cache 流量巨大(如 MiniMax-M2.5 在 32K 上下文时达 60Gbps),迫使系统必须使用昂贵的 RDMA 网络进行通信。新一代混合注意力架构(Linear + Full Attention)改变了这一局面:

  • 线性层:仅产出固定大小的循环状态,不随上下文膨胀。
  • 全注意力层:生成与长度相关的 KV Cache。
  • 效果:在相同配置下,MiMo-V2-Flash 的 KV 吞吐量降至 4.66Gbps(降幅 13 倍),Qwen3.5-397B 降至 8.25Gbps(降幅 4 倍)。这使得 KV Cache 传输从 RDMA 级别降到了普通以太网可承载的范围。

2. PrFaaS 系统架构设计

PrFaaS 是一种跨数据中心的大模型推理服务架构,核心逻辑如下:

  • 动态卸载策略:设定动态长度阈值 $t$。短请求(未缓存长度 ≤ t)在本地 PD 集群完成全流程;长请求(未缓存长度 > t)被卸载至专用的 PrFaaS 集群进行 Prefill 计算。
  • 异构硬件协同
    • PrFaaS 集群:配备 H200 等高性能芯片,专注处理高负载的长上下文 Prefill。
    • 本地 PD 集群:配备 H20 等带宽优化芯片,专注 Decode 及短请求处理。
  • 网络层优化:集群内部使用 RDMA 保证低延迟,跨数据中心则通过 VPC 或专线走通用以太网传输 KV Cache。实测显示,跨中心传输仅需约 13Gbps 带宽,远低于 100Gbps 链路上限。
  • 存储层创新:设计混合前缀缓存池,区分 prefix-cache(集群内复用,需块对齐)和 transfer-cache(跨集群传输,传完即弃),以适配混合模型中不同层级 KV Cache 的特性。

3. 双时间尺度调度算法

为保障生产环境稳定性,系统引入了两级调度机制:

  • 短期调度(毫秒级):基于带宽和缓存感知进行路由决策。当出口带宽紧张时,提高阈值 $t$ 减少跨中心流量;优先利用本地缓存,仅在带宽充裕时拉取远程缓存以减少重复计算。
  • 长期调度(分钟级):根据队列深度和利用率动态调整资源角色。若 Prefill 成为瓶颈,将部分 Decode 节点转为 Prefill 节点,反之亦然。

实验验证与性能表现

研究团队基于内部自研的 1T 参数混合注意力模型(对齐 Kimi Linear 架构,线性/全注意力配比 7:1)进行了严格测试:

  • 硬件配置:PrFaaS 集群(32 张 H200)+ 本地 PD 集群(64 张 H20),跨域带宽约 100Gbps。
  • 工作负载:请求长度服从截断对数正态分布,均值约 27K tokens。
  • 关键指标
    • 吞吐量:相比同构 PD 部署提升 54%;相比无智能调度的朴素异构方案提升 32%
    • 延迟:P90 TTFT(首词时延)大幅降低 64%,有效缓解了长请求阻塞短请求的问题。
    • 可行性:平均出口带宽仅 13Gbps,证明普通商用以太网即可稳定支撑跨数据中心推理,无需强制依赖 RDMA。

意义与影响

该成果标志着大模型推理架构的重大演进。通过将 Prefill 与 Decode 彻底解耦并支持跨地域调度,PrFaaS 不仅解决了长上下文场景下的算力资源僵化问题,还显著降低了基础设施成本。未来,这种模式有望让最适合计算的算力芯片与最适合带宽优化的芯片在不同机房“异地恋”协作,极大提升整体算力利用率。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。