Gemma 4 发布:多模态模型全面覆盖从数据中心到端侧部署

2026/04/06 16:00阅读量 2

NVIDIA 推出 Gemma 4 系列多模态大模型,涵盖 31B、26B 及专为端侧设计的 E4B、E2B 等变体,支持文本、音频、视觉和视频的混合输入。该系列模型在推理、代码生成及智能体工具调用方面表现优异,并原生支持超过 140 种语言。通过 NVFP4 量化技术及与 vLLM、Ollama 等工具的深度集成,Gemma 4 实现了从 NVIDIA Blackwell 数据中心到 Jetson 边缘设备的高效本地化部署。

事件概述

NVIDIA 正式扩展 Gemmaverse 生态,发布最新的 Gemma 4 多模态与多语言模型系列。该系列旨在满足 AI 开发、原型设计、安全合规及低延迟场景对本地部署日益增长的需求,性能与效率较前代显著提升。

核心信息

1. 模型家族架构与规格

Gemma 4 包含四款主要模型,均支持超过 140 种语言的预训练,其中包含 Gemma 系列首款 MoE(混合专家)模型。所有模型均可适配单张 NVIDIA H100 GPU 运行。

模型名称架构类型总参数量激活/有效参数上下文长度 (Tokens)支持模态
Gemma-4-31BDense Transformer31B-256K文本
Gemma-4-26B-A4BMoE (128 Experts)26B3.8B256K文本
Gemma-4-E4BDense Transformer7.9B (含嵌入)4.5B128K文本、音频、视觉、视频
Gemma-4-E2BDense Transformer5.1B (含嵌入)2.3B128K文本、音频、视觉、视频

注:E4B 和 E2B 为 Gemma 3n 首次推出的端侧与移动设备专用版本的新迭代。

2. 关键能力升级

  • 推理与编码:在复杂问题解决任务中表现强劲,支持代码生成与调试工作流。
  • 智能体 (Agents):原生支持结构化工具使用(Function Calling)。
  • 多模态交互:支持文本与图像在单一提示词中任意顺序交错输入;具备物体识别、自动语音识别 (ASR)、文档及视频智能分析能力。
  • 多语言支持:开箱即用支持 35+ 种语言,预训练覆盖 140+ 种语言。

3. 部署优化与技术特性

  • NVFP4 量化:针对 NVIDIA Blackwell 开发者提供,实现 4-bit 精度同时保持接近 8-bit 精度的准确率,显著提升能效比并降低 Token 成本。
  • 开源与工具链:模型已在 Hugging Face 提供 BF16 检查点;与 vLLMOllamallama.cppUnsloth Studio 深度合作,提供优化的本地部署体验。
  • 微调支持:基于 NeMo Framework (NeMo Automodel),支持无需转换即可直接应用监督微调 (SFT) 和高效 LoRA 技术进行 Day-0 微调。

平台适配与应用场景

数据中心与高性能计算 (DGX Spark)

  • 硬件配置:搭载 GB10 Grace Blackwell Superchip 与 128GB 统一内存。
  • 应用场景:运行 Gemma-4-31B (BF16) 权重,构建私有、安全的智能体 AI 工作流。
  • 优势:利用条件参数加载和分层嵌入缓存等技术实现近零延迟推理。

边缘与嵌入式设备 (Jetson)

  • 硬件覆盖:从 Jetson Orin Nano 到 Jetson Thor 全系列。
  • 适用模型:Jetson Orin Nano 支持 Gemma-4-E2B 和 E4B 变体。
  • 应用场景:物理 AI 智能体(机器人)、智能机器及工业自动化。模型能够理解语音、解读视觉上下文并进行推理决策。
  • 部署方式:支持 llama.cpp 和 vLLM 进行边缘推理。

桌面与工作站 (RTX / RTX PRO)

  • 应用场景:AI 研究、原型设计、桌面应用及 Windows 开发。
  • 资源:预装 NVIDIA AI 软件栈,支持本地微调及完全本地的 OpenClaw 工作流。

获取与许可

  • 授权协议:采用商业友好的 Apache 2.0 许可证。
  • 访问渠道
    • API 测试:NVIDIA API Catalog 提供免费试用 Gemma-4-31B。
    • 生产部署:可通过 NVIDIA NIM Enterprise 微服务进行自托管部署。
  • 未来计划:即将推出适用于 Blackwell 平台的 NVFP4 量化检查点。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。