DeepSeek 联合北大开源 DSpark:半自回归推测解码推理加速,单用户提速 60-85%

2026/06/29 15:12阅读量 2

2026 年 6 月 27 日,DeepSeek 与北京大学联合开源了推理加速框架 DSpark 及全栈工具链 DeepSpec。通过半自回归生成架构和置信度调度验证,DSpark 在 DeepSeek-V4 系列模型上实现单用户生成速度提升 60%-85%,有效解决推测解码中并行草稿的后缀衰减和算力浪费问题,并已全面部署于线上服务。

事件概述

2026 年 6 月 27 日,DeepSeek 联合北京大学正式发布并开源了推理加速框架 DSpark 及配套全栈推测性解码框架 DeepSpec。这是 DeepSeek 完成 500 亿元融资后首次放出的开源成果。在 DeepSeek-V4-Pro-DSpark 和 DeepSeek-V4-Flash-DSpark 两款模型上,DSpark 将单用户生成速度提升了 60% 至 85%。论文、代码库和模型已全部在 GitHub 与 Hugging Face 上开源。

核心技术:半自回归 + 置信度调度

DSpark 并非全新架构模型,而是在 DeepSeek-V4-Pro 基础上引入推测性解码模块,核心聚焦工程优化,不改变模型能力。

推测解码的瓶颈:传统自回归草稿模型逐 token 生成耗时,而并行草稿虽快但存在“后缀衰减”——因忽略 token 间依赖,后续 token 准确率急剧下降。早期“全量验证”模式会浪费算力在低置信度 token 上。

DSpark 的两大创新设计

  1. 半自回归生成架构:采用并行主干 + 轻量串行头的两阶段设计。并行主干单次前向输出全块基础 Logits 与隐藏态,保持并行生成的高速度;轻量串行模块(默认 Markov head)为每个 token 补充前缀依赖的转移偏置,修补词汇冲突,显著缓解尾部 token 接受率下滑。实测表明,在 Qwen3 系列模型上,平均接受长度相对纯并行方案 DFlash 提升 16.3%–18.4%,相对自回归方案 Eagle3 提升 26.7%–30.9%。2 层深度 DSpark 的有效接受长度超过 5 层深度的 DFlash。
  2. 置信度调度验证:草稿模型附加轻量置信度头,实时预测每个候选 token 的条件接受概率,并通过“顺序温度缩放(STS)”将预测误差从 3%–8% 降至约 1%。第二层硬件感知动态调度将验证长度选择转化为全局吞吐最大化问题,低负载时拉长验证块,高负载时裁剪低价值 token,避免算力浪费,稳定高并发场景下的响应速度。

实测表现:全场景提速

  • 离线评测:在 Qwen3-4B/8B/14B、Gemma4-12B 四款模型上,DSpark 的平均接受长度全面超越当前 SOTA 方案,单 token 理论延迟显著低于 Eagle3 与 DFlash。数学、代码等结构化任务的接受长度更高。
  • 线上真实流量:已全量部署于 DeepSeek-V4 线上服务。同吞吐量下,V4-Flash 单用户生成速度提升 60%–85%,V4-Pro 提升 57%–78%。在高 SLA 要求下(Flash 120 token/s、Pro 50 token/s),DSpark 仍能维持可观服务容量,拓宽了推理服务的性能边界。动态调度器在全并发负载下保持速度稳定,无骤降现象。

开源意义

DSpark 通过半自回归架构补齐并行草稿的准确性短板,再以置信度动态调度解决验证算力浪费,完成了生成与验证的全链路协同优化。配套开源的 DeepSpec 全栈训练工具链降低了小团队和轻量化应用的高速推理门槛,使低成本部署大模型更可行。

注:本文基于雷锋网报道提炼,技术细节以原论文和开源代码为准。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。