谷歌发布DiffusionGemma:扩散模型做文本生成,速度比自回归快4倍

2026/06/11 12:17阅读量 2

谷歌推出DiffusionGemma,一种基于扩散架构的语言模型,一次性并行生成256个token,在H100上达到1000+ tokens/s,相比同参数量自回归模型速度快约4倍。该模型为26B参数MoE,推理时仅激活3.8B,量化后18GB显存即可运行(如RTX 4090),并采用Apache 2.0开源。

事件概述

谷歌发布DiffusionGemma,将扩散模型应用于文本生成,彻底改变了传统自回归“逐token生成”的方式。新模型像“印刷机”一样,一次性铺开256个token的“画布”,从随机噪声开始多轮去噪,整段文字同时浮现。

核心优势:速度

  • 在单块H100(fp8,batch size=1)上,DiffusionGemma达到每秒1000+ tokens,而标准自回归的Gemma 4 26B A4B(带MTP加速)仅300+ tokens/s,速度提升近4倍。
  • 在消费级RTX 5090上也能实现700+ tokens/s。
  • 速度提升的关键在于扩散模型的并行计算特性:GPU一次性处理整块token,Tensor Core火力全开,将瓶颈从“内存带宽”转为“算力”,而算力正是GPU最擅长的。

技术细节

  • 参数规模:26B参数的MoE模型,推理时仅激活3.8B参数。量化后仅需18GB显存,可在RTX 4090等消费级显卡上本地运行。
  • 双向注意力:所有token同时生成,每个token都能看到画布上所有其他token,具备实时自我纠错能力。例如,在数独任务中,微调后成功率从0%提升至80%。

质量与定位

  • 在多项基准上,DiffusionGemma的质量略逊于同参数量的Gemma 4 26B A4B。谷歌明确表示,生产环境推荐标准Gemma 4,DiffusionGemma面向速度敏感的本地交互场景。
  • 谷歌CEO皮猜将其形容为一匹“赛马”,优先级是先把速度提起来。

开源与生态支持

  • 采用Apache 2.0开源协议,权重可在Hugging Face直接下载。
  • 获得英伟达从RTX到H100全线硬件支持,vLLM、MLX、Unsloth、NeMo等推理框架均已适配,llama.cpp支持在路上。

背景与竞争

  • 谷歌此前在I/O 2025上展示过Gemini Diffusion实验,采样速度达每秒1479 token,但之后沉寂。DiffusionGemma是这一路线的正式产品化。
  • 初创公司Inception Labs已于2026年2月发布扩散文本模型Mercury 2,号称比Claude、Gemini快5到10倍,是业内第一个量产扩散语言模型。

谷歌此次为DiffusionGemma配置了完整的推理与硬件生态,显然不只是技术演示,而是试图探索并行生成路径能否挑战自回归的主流地位。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。