谷歌发布DiffusionGemma：扩散模型做文本生成，速度比自回归快4倍

2026/06/11 12:17阅读量 2

谷歌推出DiffusionGemma，一种基于扩散架构的语言模型，一次性并行生成256个token，在H100上达到1000+ tokens/s，相比同参数量自回归模型速度快约4倍。该模型为26B参数MoE，推理时仅激活3.8B，量化后18GB显存即可运行（如RTX 4090），并采用Apache 2.0开源。

事件概述

谷歌发布DiffusionGemma，将扩散模型应用于文本生成，彻底改变了传统自回归“逐token生成”的方式。新模型像“印刷机”一样，一次性铺开256个token的“画布”，从随机噪声开始多轮去噪，整段文字同时浮现。

核心优势：速度

在单块H100（fp8，batch size=1）上，DiffusionGemma达到每秒1000+ tokens，而标准自回归的Gemma 4 26B A4B（带MTP加速）仅300+ tokens/s，速度提升近4倍。
在消费级RTX 5090上也能实现700+ tokens/s。
速度提升的关键在于扩散模型的并行计算特性：GPU一次性处理整块token，Tensor Core火力全开，将瓶颈从“内存带宽”转为“算力”，而算力正是GPU最擅长的。

技术细节

参数规模：26B参数的MoE模型，推理时仅激活3.8B参数。量化后仅需18GB显存，可在RTX 4090等消费级显卡上本地运行。
双向注意力：所有token同时生成，每个token都能看到画布上所有其他token，具备实时自我纠错能力。例如，在数独任务中，微调后成功率从0%提升至80%。

质量与定位

在多项基准上，DiffusionGemma的质量略逊于同参数量的Gemma 4 26B A4B。谷歌明确表示，生产环境推荐标准Gemma 4，DiffusionGemma面向速度敏感的本地交互场景。
谷歌CEO皮猜将其形容为一匹“赛马”，优先级是先把速度提起来。

开源与生态支持

采用Apache 2.0开源协议，权重可在Hugging Face直接下载。
获得英伟达从RTX到H100全线硬件支持，vLLM、MLX、Unsloth、NeMo等推理框架均已适配，llama.cpp支持在路上。

背景与竞争

谷歌此前在I/O 2025上展示过Gemini Diffusion实验，采样速度达每秒1479 token，但之后沉寂。DiffusionGemma是这一路线的正式产品化。
初创公司Inception Labs已于2026年2月发布扩散文本模型Mercury 2，号称比Claude、Gemini快5到10倍，是业内第一个量产扩散语言模型。

谷歌此次为DiffusionGemma配置了完整的推理与硬件生态，显然不只是技术演示，而是试图探索并行生成路径能否挑战自回归的主流地位。

阅读原文详情