DiffusionGemma:文本生成速度提升4倍,Google DeepMind开源实验模型
2026/06/11 00:24阅读量 3
Google DeepMind发布实验性开源模型DiffusionGemma,采用文本扩散技术替代传统逐token生成,在专用GPU上推理速度提升高达4倍。该模型基于Gemma 4架构,总参数量26B(激活3.8B),支持并行生成256 token,适合本地低并发交互场景,但输出质量低于标准Gemma 4。
事件概述
Google DeepMind于2026年6月10日发布DiffusionGemma,一款基于Apache 2.0许可证的开源实验模型。该模型采用文本扩散方法,能够同时生成整块文本,在专用GPU上实现最高4倍的推理速度提升。
核心信息
- 技术原理:DiffusionGemma突破传统自回归语言模型逐token生成的方式,改为并行生成256个token,通过迭代细化(类似AI图像生成中的去噪过程)逐步锁定正确token。
- 架构与规模:总参数量26B的混合专家(MoE)模型,每次推理仅激活3.8B参数。量化后可在18GB VRAM的消费级GPU上运行。
- 性能数据:在单张NVIDIA H100上可达1000+ tokens/s,在NVIDIA GeForce RTX 5090上超过700 tokens/s。
- 关键特性:双向注意力机制使每个token能同时关注所有其他token,适合内联编辑、代码填充、氨基酸序列等非线性任务;模型可自我纠正输出。
- 定位与局限:优先速度与并行生成,输出质量低于标准Gemma 4。适用于本地低并发推理,在高QPS云服务中并行解码的吞吐优势会减弱。厂商建议对质量要求高的场景部署标准Gemma 4。
值得关注
- 模型权重已在Hugging Face开放下载,支持MLX、vLLM、Hugging Face Transformers等工具链,官方支持llama.cpp即将到来。
- 与NVIDIA合作优化,支持Hopper、Blackwell架构及NVFP4 4位浮点精度,兼容RTX 5090/4090及NVIDIA DGX Spark/Station。
- 由于依赖高算术强度加速,在统一内存架构(如Apple Silicon Mac)上可能不会获得相同的速度提升。
