Google Gemma 4 全面开源：最小模型可离线运行手机，性能追平上一代桌面级

2026/04/03 09:00阅读量 111

Google 正式发布四款 Gemma 4 系列模型，并首次将其切换至 Apache 2.0 协议实现真正开源，允许商业使用及自由分发。其中最小的 E2B（2B）和 E4B（4B）版本专为边缘设备优化，可在 Pixel 手机、树莓派等硬件上完全离线运行，且推理延迟极低。基准测试显示，Gemma 4 在数学推理、代码能力及 Agent 工具调用等核心场景表现显著提升，小参数模型已具备媲美甚至超越上一代大模型的效能。

事件概述

Google 正式发布了四款 Gemma 4 系列模型，标志着该系列从“开放”转向真正的“开源”。所有模型均采用 Apache 2.0 许可证，允许开发者将模型用于个人、商业及企业用途，支持修改、再分发及打包进硬件产品，彻底打破了以往在数据主权和合规性上的限制。

核心信息

1. 模型规格与部署能力

Gemma 4 覆盖从边缘设备到高性能工作站的多种尺寸，底层技术与 Gemini 3 同源：

E2B / E4B（边缘版）：专为手机和 IoT 设备设计，分别激活 2B 和 4B 参数。支持 128K 上下文窗口，具备图片、视频和原生音频输入能力。可在 Google Pixel 手机、树莓派、Jetson Orin Nano 上完全离线运行，延迟接近零。Android 开发者可通过 AICore 预览版体验 Agent Mode。
26B MoE（混合专家）：推理时仅激活 3.8B 参数，兼顾速度与质量。Arena AI 文本评分达 1441，位列开源模型第六。
31B Dense（稠密）：追求极致原始性能，Arena AI 文本评分达 1452，位列开源模型第三。未量化权重可在单张 80GB NVIDIA H100 运行，量化版支持消费级 GPU，适合本地微调。

2. 性能突破与基准测试

Gemma 4 在核心应用场景的升级幅度显著：

推理与编程：相比上一代 Gemma 3 27B，Gemma 4 31B 在数学推理基准 AIME 2026 上从 20.8% 跃升至 89.2%；代码能力基准 LiveCodeBench v6 从 29.1% 升至 80.0%。
Agent 能力：衡量工具调用能力的 τ2-bench 从 6.6% 大幅提升至 86.4%。
参数效率：Gemma 4 以 26B/31B 体量达到了通常需要数百亿乃至千亿参数才能实现的 Elo 分数。特别是 E2B（2B 激活参数）在科学知识基准 GPQA Diamond 上得分 43.4%，几乎追平了上一代 27B 桌面模型（42.4%）。

3. 功能特性

多模态支持：原生支持函数调用、JSON 结构化输出和系统指令，可构建自主 Agent。
长上下文：26B 和 31B 版本上下文窗口扩展至 256K，支持单次提示传入完整代码库或长文档。
多语言：预训练语言超过 140 种。

4. 生态与合作

硬件适配：NVIDIA 与 Google 合作优化了 Gemma 4 在 RTX GPU、DGX Spark 个人 AI 超级计算机及 Jetson Orin Nano 上的推理性能，提供低延迟支持。
软件框架：模型权重已上架 Hugging Face、Kaggle 和 Ollama。主流框架如 Transformers、vLLM、llama.cpp、MLX 等均于发布当天提供支持。
本地部署：用户可通过 Ollama 或 llama.cpp 配合 GGUF 格式快速上手，Unsloth Studio 提供微调支持。

值得关注

此次发布的核心意义在于重新定义了 AI 的运行边界。过去 AI 主要依赖云端数据中心，而 Gemma 4 通过极致的参数效率和开源授权，使得手机、树莓派甚至无网工厂终端也能完成复杂的模型推理。这不仅解决了医疗、金融等行业对数据不出本地的合规需求，更让 AI 能力真正具备了进入边缘场景的可行性。

阅读原文详情