DeepSeek 联合北大发布 DSpark 推理加速框架，AI 回复速度最高提升 85%

2026/06/28 13:32阅读量 2

DeepSeek 与北京大学团队联合推出 DSpark 推理加速框架，基于半自回归架构和置信度调度验证，已在 V4-Flash 和 V4-Pro preview 中部署替代原有方案。线上测试显示单用户生成速度提升 57% 至 85%，系统吞吐在严格 SLA 下提升数倍。相关模型权重和 DeepSpec 代码库已开源。

事件概述

DeepSeek 与北京大学团队联合发布论文《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》，提出新的推理加速框架 DSpark，已部署至 DeepSeek-V4-Flash preview 和 DeepSeek-V4-Pro preview 的生产系统，替代此前的 MTP-1 方案。

核心原理

背景：主流自回归语言模型每次只生成一个 token，生成速度受限于解码步骤，影响实时交互体验。推测解码（speculative decoding）让轻量级草稿模型先生成候选 token，再由目标模型并行验证，可加速推理。
DSpark 的改进：
- 生成侧：采用半自回归架构，保留并行草稿模型的主干，同时加入轻量级顺序模块（默认 Markov head），使后面的 token 能参考前面已采样的 token，既保持速度又缓解“后缀衰减”问题。
- 验证侧：引入置信度调度验证，系统根据置信度分数、负载和引擎吞吐曲线动态决定每个请求验证多少 token。高负载时缩短低置信度验证长度，避免浪费批处理容量；低负载时验证更长候选块。

实验结果

离线测试：在 Qwen3-4B/8B/14B 和 Gemma4-12B 上，与 Eagle3（自回归草稿）和 DFlash（并行草稿）对比，DSpark 的宏平均接受长度分别提升 16%-31%。顺序模块仅增加 0.2%-1.3% 单轮延迟，但接受长度最多提升 30%。
线上部署：在 DeepSeek-V4-Flash 和 V4-Pro 中，最大草稿长度设为 5，对比 MTP-1（单 token 预测）。
- V4-Flash：单用户生成速度提升 60%-85%；在 80 token/s/user 目标下系统总吞吐提升 51%；在 120 token/s/user 严格目标下，MTP-1 已接近极限，DSpark 名义吞吐优势达 661%。
- V4-Pro：单用户生成速度提升 57%-78%；在 35 token/s/user 目标下总吞吐提升 52%；在 50 token/s/user 目标下名义吞吐优势达 406%。

开源与部署

DeepSeek 已开放 DSpark 模型权重（对应 V4-Flash 和 V4-Pro preview 的检查点），并开源 DeepSpec 代码库（支持 Eagle3、DFlash 和 DSpark），用于 speculative decoding 训练。

值得关注

DSpark 的核心贡献在于将推测解码从“固定长度生成”推向“系统感知的动态调度”，兼顾了生成质量和计算效率。其半自回归架构和置信度调度设计，尤其适用于高并发、强 SLA 的在线服务场景。

阅读原文详情

事件概述

核心原理

实验结果

开源与部署

值得关注

准备好启动您的定制项目了吗？