梁文锋署名DSpark论文:推测解码提速85%,深度融合并行与串行草稿生成

2026/06/28 16:06阅读量 3

梁文锋署名的DeepSeek新论文提出DSpark推测解码系统,单用户速度提升85%,高并发有效吞吐提升4倍。核心创新在于融合并行草稿生成(DFlash)与轻量顺序修正头(马尔可夫头),结合在线置信度校准和硬件感知动态调度,实现端到端显著加速。相关训练库DeepSpec已开源。

事件概述

DeepSeek发布由梁文锋署名的论文《DSpark》,提出一套面向大模型推理的推测解码系统。系统在草稿生成阶段结合并行骨干网络(DFlash)和轻量顺序修正头(马尔可夫头),同时引入可变长度草稿与硬件感知动态调度,在线自适应校准草稿器置信度。测试显示,相比已优化基线(MTP-1),单用户速度提升60%–85%,高并发场景下有效吞吐量翻4倍。配套的DeepSpec训练库已在GitHub开源,支持Eagle3、DFlash、DSpark三种草稿模型训练,并兼容Qwen3、Gemma等外部模型。

核心信息

  • 背景:大模型推理瓶颈在于显存带宽,而非计算量。推测解码通过草稿模型快速生成候选token序列,再由目标模型批量验证,利用批处理优势加速。DeepSeek-V3此前使用的MTP-1属于单token推测,DSpark在此基础上进一步优化。
  • DSpark架构
    • 并行骨干(DFlash):一次前向传播同时产出所有候选位置的logits,速度快但存在“后缀衰减”(越往后位置独立采样越不连贯)。
    • 顺序修正头(马尔可夫头):基于前一个token对每个位置概率做轻量偏置修正(低秩分解rank 256),将“of problem”类的错误组合校正为“of course”。平均接受长度比Eagle3高26%–31%,比DFlash高16%–18%;两层DSpark性能可超过五层DFlash。
    • 每增加一个草稿token(从4扩展到16),额外延迟仅增加0.2%–1.3%,而接受长度最高提升30%。
  • 动态调度:系统使用置信度头为每个草稿位置预估验证存活概率,结合预先测量的GPU吞吐量曲线,为每条请求动态匹配最优草稿长度。调度逻辑在GPU内部执行,无需CPU参与。
  • 在线校准:运行时持续观察草稿器实际表现,通过顺序温度缩放将预期校准误差从3%–8%压至约1%,实现自适应阈值调整。

值得关注

  • DSpark的系统工程与模型协同设计是其主要亮点,将多种已有技术(批处理、推测解码、Eagle/MTP、并行生成)融合为自适应闭环,实现了端到端性能飞跃。
  • 论文强调“推测并不免费”,并给出核心公式(每个token耗时 = (草稿耗时+验证耗时)/被接受的token数τ),明确了三条优化路径:降低草稿耗时、提高接受率τ、减少验证浪费。DSpark同时作用于这三条路径。
  • 所有训练代码已开源,开发者可直接用于自身模型推理加速,降低了应用门槛。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。