梁文锋署名DSpark论文：推测解码提速85%，深度融合并行与串行草稿生成

2026/06/28 16:06阅读量 3

梁文锋署名的DeepSeek新论文提出DSpark推测解码系统，单用户速度提升85%，高并发有效吞吐提升4倍。核心创新在于融合并行草稿生成（DFlash）与轻量顺序修正头（马尔可夫头），结合在线置信度校准和硬件感知动态调度，实现端到端显著加速。相关训练库DeepSpec已开源。

事件概述

DeepSeek发布由梁文锋署名的论文《DSpark》，提出一套面向大模型推理的推测解码系统。系统在草稿生成阶段结合并行骨干网络（DFlash）和轻量顺序修正头（马尔可夫头），同时引入可变长度草稿与硬件感知动态调度，在线自适应校准草稿器置信度。测试显示，相比已优化基线（MTP-1），单用户速度提升60%–85%，高并发场景下有效吞吐量翻4倍。配套的DeepSpec训练库已在GitHub开源，支持Eagle3、DFlash、DSpark三种草稿模型训练，并兼容Qwen3、Gemma等外部模型。

核心信息

背景：大模型推理瓶颈在于显存带宽，而非计算量。推测解码通过草稿模型快速生成候选token序列，再由目标模型批量验证，利用批处理优势加速。DeepSeek-V3此前使用的MTP-1属于单token推测，DSpark在此基础上进一步优化。
DSpark架构：
- 并行骨干（DFlash）：一次前向传播同时产出所有候选位置的logits，速度快但存在“后缀衰减”（越往后位置独立采样越不连贯）。
- 顺序修正头（马尔可夫头）：基于前一个token对每个位置概率做轻量偏置修正（低秩分解rank 256），将“of problem”类的错误组合校正为“of course”。平均接受长度比Eagle3高26%–31%，比DFlash高16%–18%；两层DSpark性能可超过五层DFlash。
- 每增加一个草稿token（从4扩展到16），额外延迟仅增加0.2%–1.3%，而接受长度最高提升30%。
动态调度：系统使用置信度头为每个草稿位置预估验证存活概率，结合预先测量的GPU吞吐量曲线，为每条请求动态匹配最优草稿长度。调度逻辑在GPU内部执行，无需CPU参与。
在线校准：运行时持续观察草稿器实际表现，通过顺序温度缩放将预期校准误差从3%–8%压至约1%，实现自适应阈值调整。

值得关注

DSpark的系统工程与模型协同设计是其主要亮点，将多种已有技术（批处理、推测解码、Eagle/MTP、并行生成）融合为自适应闭环，实现了端到端性能飞跃。
论文强调“推测并不免费”，并给出核心公式（每个token耗时 = (草稿耗时+验证耗时)/被接受的token数τ），明确了三条优化路径：降低草稿耗时、提高接受率τ、减少验证浪费。DSpark同时作用于这三条路径。
所有训练代码已开源，开发者可直接用于自身模型推理加速，降低了应用门槛。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？