Gemma 4 发布：多模态模型全面覆盖从数据中心到端侧部署

2026/04/06 16:00阅读量 111

NVIDIA 推出 Gemma 4 系列多模态大模型，涵盖 31B、26B 及专为端侧设计的 E4B、E2B 等变体，支持文本、音频、视觉和视频的混合输入。该系列模型在推理、代码生成及智能体工具调用方面表现优异，并原生支持超过 140 种语言。通过 NVFP4 量化技术及与 vLLM、Ollama 等工具的深度集成，Gemma 4 实现了从 NVIDIA Blackwell 数据中心到 Jetson 边缘设备的高效本地化部署。

事件概述

NVIDIA 正式扩展 Gemmaverse 生态，发布最新的 Gemma 4 多模态与多语言模型系列。该系列旨在满足 AI 开发、原型设计、安全合规及低延迟场景对本地部署日益增长的需求，性能与效率较前代显著提升。

核心信息

1. 模型家族架构与规格

Gemma 4 包含四款主要模型，均支持超过 140 种语言的预训练，其中包含 Gemma 系列首款 MoE（混合专家）模型。所有模型均可适配单张 NVIDIA H100 GPU 运行。

模型名称	架构类型	总参数量	激活/有效参数	上下文长度 (Tokens)	支持模态
Gemma-4-31B	Dense Transformer	31B	-	256K	文本
Gemma-4-26B-A4B	MoE (128 Experts)	26B	3.8B	256K	文本
Gemma-4-E4B	Dense Transformer	7.9B (含嵌入)	4.5B	128K	文本、音频、视觉、视频
Gemma-4-E2B	Dense Transformer	5.1B (含嵌入)	2.3B	128K	文本、音频、视觉、视频

注：E4B 和 E2B 为 Gemma 3n 首次推出的端侧与移动设备专用版本的新迭代。

2. 关键能力升级

推理与编码：在复杂问题解决任务中表现强劲，支持代码生成与调试工作流。
智能体 (Agents)：原生支持结构化工具使用（Function Calling）。
多模态交互：支持文本与图像在单一提示词中任意顺序交错输入；具备物体识别、自动语音识别 (ASR)、文档及视频智能分析能力。
多语言支持：开箱即用支持 35+ 种语言，预训练覆盖 140+ 种语言。

3. 部署优化与技术特性

NVFP4 量化：针对 NVIDIA Blackwell 开发者提供，实现 4-bit 精度同时保持接近 8-bit 精度的准确率，显著提升能效比并降低 Token 成本。
开源与工具链：模型已在 Hugging Face 提供 BF16 检查点；与 vLLM、Ollama、llama.cpp 及 Unsloth Studio 深度合作，提供优化的本地部署体验。
微调支持：基于 NeMo Framework (NeMo Automodel)，支持无需转换即可直接应用监督微调 (SFT) 和高效 LoRA 技术进行 Day-0 微调。

平台适配与应用场景

数据中心与高性能计算 (DGX Spark)

硬件配置：搭载 GB10 Grace Blackwell Superchip 与 128GB 统一内存。
应用场景：运行 Gemma-4-31B (BF16) 权重，构建私有、安全的智能体 AI 工作流。
优势：利用条件参数加载和分层嵌入缓存等技术实现近零延迟推理。

边缘与嵌入式设备 (Jetson)

硬件覆盖：从 Jetson Orin Nano 到 Jetson Thor 全系列。
适用模型：Jetson Orin Nano 支持 Gemma-4-E2B 和 E4B 变体。
应用场景：物理 AI 智能体（机器人）、智能机器及工业自动化。模型能够理解语音、解读视觉上下文并进行推理决策。
部署方式：支持 llama.cpp 和 vLLM 进行边缘推理。

桌面与工作站 (RTX / RTX PRO)

应用场景：AI 研究、原型设计、桌面应用及 Windows 开发。
资源：预装 NVIDIA AI 软件栈，支持本地微调及完全本地的 OpenClaw 工作流。

获取与许可

授权协议：采用商业友好的 Apache 2.0 许可证。
访问渠道：
- API 测试：NVIDIA API Catalog 提供免费试用 Gemma-4-31B。
- 生产部署：可通过 NVIDIA NIM Enterprise 微服务进行自托管部署。
未来计划：即将推出适用于 Blackwell 平台的 NVFP4 量化检查点。

阅读原文详情