NVIDIA 与 Google 合作加速 Gemma 4，赋能本地智能体 AI

2026/04/03 00:15阅读量 108

Google 发布 Gemma 4 系列新模型（E2B、E4B、26B、31B），专为在 NVIDIA RTX PC、DGX Spark 及边缘设备上高效运行而设计。NVIDIA 通过优化 Tensor Cores 和 CUDA 栈，使这些模型在推理速度、多模态处理及代码生成等任务上实现低延迟和本地化部署。该合作支持 OpenClaw 等智能体应用，结合 Unsloth 和 llama.cpp 工具链，实现了从边缘到数据中心的无缝扩展。

事件概述

Google 最新推出的 Gemma 4 系列开源模型旨在将强大的推理、编码和多模态能力直接带入本地设备。通过与 NVIDIA 的深度协作，Gemma 4 已针对 NVIDIA GPU 进行优化，能够在从边缘设备（如 Jetson Orin Nano）到高性能工作站（RTX PC、DGX Spark）的广泛硬件平台上实现高效执行。

核心信息

模型架构与性能

型号变体：涵盖 E2B、E4B、26B 和 31B 四种配置，分别针对不同场景优化。
- E2B/E4B：专为超低延迟的边缘推理设计，支持完全离线运行，适用于 Jetson Nano 等模块。
- 26B/31B：面向高性能推理和开发者工作流，适合构建复杂的智能体（Agentic AI）应用。
量化标准：所有配置均基于 Q4_K_M 量化进行测试，批量大小（BS）为 1，输入序列长度（ISL）为 4096，输出序列长度（OSL）为 128。
基准测试环境：在 NVIDIA GeForce RTX 5090 和 Mac M3 Ultra 桌面端使用 llama.cpp 工具测量 Token 生成吞吐量。

关键功能特性

智能体原生支持：内置结构化工具调用（Function Calling），支持自主任务规划。
多模态交互：支持文本、图像、视频和音频的混合输入，可识别物体、自动语音识别及文档/视频分析。
多语言能力：开箱即用支持 35+ 种语言，预训练覆盖 140+ 种语言。
应用场景：包括复杂问题解决、代码生成与调试、以及像 OpenClaw 这样的常驻 AI 助手，能够读取个人文件和工作流以自动化任务。

部署与工具链

兼容性：利用 NVIDIA Tensor Cores 加速推理，CUDA 软件栈确保与主流框架的广泛兼容，无需大量额外优化即可跨系统扩展。
推荐工具：
- Ollama：提供本地运行 Gemma 4 的最佳体验。
- llama.cpp：配合 Hugging Face 上的 GGUF 检查点使用。
- Unsloth Studio：提供首日支持的优化和量化模型，用于高效的本地微调与部署。

值得关注

此次更新标志着本地智能体 AI 的重要进展，使得开发者能够在不依赖云端的情况下，利用 RTX 显卡和 DGX Spark 构建私有、快速且低配置的 AI 代理。相关技术细节及入门指南可在 NVIDIA 官方博客中查阅。

阅读原文详情