DiffusionGemma：文本生成速度提升4倍，Google DeepMind开源实验模型

2026/06/11 00:24阅读量 3

Google DeepMind发布实验性开源模型DiffusionGemma，采用文本扩散技术替代传统逐token生成，在专用GPU上推理速度提升高达4倍。该模型基于Gemma 4架构，总参数量26B（激活3.8B），支持并行生成256 token，适合本地低并发交互场景，但输出质量低于标准Gemma 4。

事件概述

Google DeepMind于2026年6月10日发布DiffusionGemma，一款基于Apache 2.0许可证的开源实验模型。该模型采用文本扩散方法，能够同时生成整块文本，在专用GPU上实现最高4倍的推理速度提升。

核心信息

技术原理：DiffusionGemma突破传统自回归语言模型逐token生成的方式，改为并行生成256个token，通过迭代细化（类似AI图像生成中的去噪过程）逐步锁定正确token。
架构与规模：总参数量26B的混合专家（MoE）模型，每次推理仅激活3.8B参数。量化后可在18GB VRAM的消费级GPU上运行。
性能数据：在单张NVIDIA H100上可达1000+ tokens/s，在NVIDIA GeForce RTX 5090上超过700 tokens/s。
关键特性：双向注意力机制使每个token能同时关注所有其他token，适合内联编辑、代码填充、氨基酸序列等非线性任务；模型可自我纠正输出。
定位与局限：优先速度与并行生成，输出质量低于标准Gemma 4。适用于本地低并发推理，在高QPS云服务中并行解码的吞吐优势会减弱。厂商建议对质量要求高的场景部署标准Gemma 4。

值得关注

模型权重已在Hugging Face开放下载，支持MLX、vLLM、Hugging Face Transformers等工具链，官方支持llama.cpp即将到来。
与NVIDIA合作优化，支持Hopper、Blackwell架构及NVFP4 4位浮点精度，兼容RTX 5090/4090及NVIDIA DGX Spark/Station。
由于依赖高算术强度加速，在统一内存架构（如Apple Silicon Mac）上可能不会获得相同的速度提升。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？