Gemma 4 发布:多模态模型全面覆盖从数据中心到端侧部署
2026/04/06 16:00阅读量 2
NVIDIA 推出 Gemma 4 系列多模态大模型,涵盖 31B、26B 及专为端侧设计的 E4B、E2B 等变体,支持文本、音频、视觉和视频的混合输入。该系列模型在推理、代码生成及智能体工具调用方面表现优异,并原生支持超过 140 种语言。通过 NVFP4 量化技术及与 vLLM、Ollama 等工具的深度集成,Gemma 4 实现了从 NVIDIA Blackwell 数据中心到 Jetson 边缘设备的高效本地化部署。
事件概述
NVIDIA 正式扩展 Gemmaverse 生态,发布最新的 Gemma 4 多模态与多语言模型系列。该系列旨在满足 AI 开发、原型设计、安全合规及低延迟场景对本地部署日益增长的需求,性能与效率较前代显著提升。
核心信息
1. 模型家族架构与规格
Gemma 4 包含四款主要模型,均支持超过 140 种语言的预训练,其中包含 Gemma 系列首款 MoE(混合专家)模型。所有模型均可适配单张 NVIDIA H100 GPU 运行。
| 模型名称 | 架构类型 | 总参数量 | 激活/有效参数 | 上下文长度 (Tokens) | 支持模态 |
|---|---|---|---|---|---|
| Gemma-4-31B | Dense Transformer | 31B | - | 256K | 文本 |
| Gemma-4-26B-A4B | MoE (128 Experts) | 26B | 3.8B | 256K | 文本 |
| Gemma-4-E4B | Dense Transformer | 7.9B (含嵌入) | 4.5B | 128K | 文本、音频、视觉、视频 |
| Gemma-4-E2B | Dense Transformer | 5.1B (含嵌入) | 2.3B | 128K | 文本、音频、视觉、视频 |
注:E4B 和 E2B 为 Gemma 3n 首次推出的端侧与移动设备专用版本的新迭代。
2. 关键能力升级
- 推理与编码:在复杂问题解决任务中表现强劲,支持代码生成与调试工作流。
- 智能体 (Agents):原生支持结构化工具使用(Function Calling)。
- 多模态交互:支持文本与图像在单一提示词中任意顺序交错输入;具备物体识别、自动语音识别 (ASR)、文档及视频智能分析能力。
- 多语言支持:开箱即用支持 35+ 种语言,预训练覆盖 140+ 种语言。
3. 部署优化与技术特性
- NVFP4 量化:针对 NVIDIA Blackwell 开发者提供,实现 4-bit 精度同时保持接近 8-bit 精度的准确率,显著提升能效比并降低 Token 成本。
- 开源与工具链:模型已在 Hugging Face 提供 BF16 检查点;与 vLLM、Ollama、llama.cpp 及 Unsloth Studio 深度合作,提供优化的本地部署体验。
- 微调支持:基于 NeMo Framework (NeMo Automodel),支持无需转换即可直接应用监督微调 (SFT) 和高效 LoRA 技术进行 Day-0 微调。
平台适配与应用场景
数据中心与高性能计算 (DGX Spark)
- 硬件配置:搭载 GB10 Grace Blackwell Superchip 与 128GB 统一内存。
- 应用场景:运行 Gemma-4-31B (BF16) 权重,构建私有、安全的智能体 AI 工作流。
- 优势:利用条件参数加载和分层嵌入缓存等技术实现近零延迟推理。
边缘与嵌入式设备 (Jetson)
- 硬件覆盖:从 Jetson Orin Nano 到 Jetson Thor 全系列。
- 适用模型:Jetson Orin Nano 支持 Gemma-4-E2B 和 E4B 变体。
- 应用场景:物理 AI 智能体(机器人)、智能机器及工业自动化。模型能够理解语音、解读视觉上下文并进行推理决策。
- 部署方式:支持 llama.cpp 和 vLLM 进行边缘推理。
桌面与工作站 (RTX / RTX PRO)
- 应用场景:AI 研究、原型设计、桌面应用及 Windows 开发。
- 资源:预装 NVIDIA AI 软件栈,支持本地微调及完全本地的 OpenClaw 工作流。
获取与许可
- 授权协议:采用商业友好的 Apache 2.0 许可证。
- 访问渠道:
- API 测试:NVIDIA API Catalog 提供免费试用 Gemma-4-31B。
- 生产部署:可通过 NVIDIA NIM Enterprise 微服务进行自托管部署。
- 未来计划:即将推出适用于 Blackwell 平台的 NVFP4 量化检查点。
