DeepSeek 联合北大发布 DSpark 推理加速框架,AI 回复速度最高提升 85%

2026/06/28 13:32阅读量 2

DeepSeek 与北京大学团队联合推出 DSpark 推理加速框架,基于半自回归架构和置信度调度验证,已在 V4-Flash 和 V4-Pro preview 中部署替代原有方案。线上测试显示单用户生成速度提升 57% 至 85%,系统吞吐在严格 SLA 下提升数倍。相关模型权重和 DeepSpec 代码库已开源。

事件概述

DeepSeek 与北京大学团队联合发布论文《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》,提出新的推理加速框架 DSpark,已部署至 DeepSeek-V4-Flash preview 和 DeepSeek-V4-Pro preview 的生产系统,替代此前的 MTP-1 方案。

核心原理

  • 背景:主流自回归语言模型每次只生成一个 token,生成速度受限于解码步骤,影响实时交互体验。推测解码(speculative decoding)让轻量级草稿模型先生成候选 token,再由目标模型并行验证,可加速推理。
  • DSpark 的改进
    • 生成侧:采用半自回归架构,保留并行草稿模型的主干,同时加入轻量级顺序模块(默认 Markov head),使后面的 token 能参考前面已采样的 token,既保持速度又缓解“后缀衰减”问题。
    • 验证侧:引入置信度调度验证,系统根据置信度分数、负载和引擎吞吐曲线动态决定每个请求验证多少 token。高负载时缩短低置信度验证长度,避免浪费批处理容量;低负载时验证更长候选块。

实验结果

  • 离线测试:在 Qwen3-4B/8B/14B 和 Gemma4-12B 上,与 Eagle3(自回归草稿)和 DFlash(并行草稿)对比,DSpark 的宏平均接受长度分别提升 16%-31%。顺序模块仅增加 0.2%-1.3% 单轮延迟,但接受长度最多提升 30%。
  • 线上部署:在 DeepSeek-V4-Flash 和 V4-Pro 中,最大草稿长度设为 5,对比 MTP-1(单 token 预测)。
    • V4-Flash:单用户生成速度提升 60%-85%;在 80 token/s/user 目标下系统总吞吐提升 51%;在 120 token/s/user 严格目标下,MTP-1 已接近极限,DSpark 名义吞吐优势达 661%。
    • V4-Pro:单用户生成速度提升 57%-78%;在 35 token/s/user 目标下总吞吐提升 52%;在 50 token/s/user 目标下名义吞吐优势达 406%。

开源与部署

DeepSeek 已开放 DSpark 模型权重(对应 V4-Flash 和 V4-Pro preview 的检查点),并开源 DeepSpec 代码库(支持 Eagle3、DFlash 和 DSpark),用于 speculative decoding 训练。

值得关注

DSpark 的核心贡献在于将推测解码从“固定长度生成”推向“系统感知的动态调度”,兼顾了生成质量和计算效率。其半自回归架构和置信度调度设计,尤其适用于高并发、强 SLA 的在线服务场景。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。