Google Gemma 4 全面开源:最小模型可离线运行手机,性能追平上一代桌面级
2026/04/03 09:00阅读量 3
Google 正式发布四款 Gemma 4 系列模型,并首次将其切换至 Apache 2.0 协议实现真正开源,允许商业使用及自由分发。其中最小的 E2B(2B)和 E4B(4B)版本专为边缘设备优化,可在 Pixel 手机、树莓派等硬件上完全离线运行,且推理延迟极低。基准测试显示,Gemma 4 在数学推理、代码能力及 Agent 工具调用等核心场景表现显著提升,小参数模型已具备媲美甚至超越上一代大模型的效能。
事件概述
Google 正式发布了四款 Gemma 4 系列模型,标志着该系列从“开放”转向真正的“开源”。所有模型均采用 Apache 2.0 许可证,允许开发者将模型用于个人、商业及企业用途,支持修改、再分发及打包进硬件产品,彻底打破了以往在数据主权和合规性上的限制。
核心信息
1. 模型规格与部署能力
Gemma 4 覆盖从边缘设备到高性能工作站的多种尺寸,底层技术与 Gemini 3 同源:
- E2B / E4B(边缘版):专为手机和 IoT 设备设计,分别激活 2B 和 4B 参数。支持 128K 上下文窗口,具备图片、视频和原生音频输入能力。可在 Google Pixel 手机、树莓派、Jetson Orin Nano 上完全离线运行,延迟接近零。Android 开发者可通过 AICore 预览版体验 Agent Mode。
- 26B MoE(混合专家):推理时仅激活 3.8B 参数,兼顾速度与质量。Arena AI 文本评分达 1441,位列开源模型第六。
- 31B Dense(稠密):追求极致原始性能,Arena AI 文本评分达 1452,位列开源模型第三。未量化权重可在单张 80GB NVIDIA H100 运行,量化版支持消费级 GPU,适合本地微调。
2. 性能突破与基准测试
Gemma 4 在核心应用场景的升级幅度显著:
- 推理与编程:相比上一代 Gemma 3 27B,Gemma 4 31B 在数学推理基准 AIME 2026 上从 20.8% 跃升至 89.2%;代码能力基准 LiveCodeBench v6 从 29.1% 升至 80.0%。
- Agent 能力:衡量工具调用能力的 τ2-bench 从 6.6% 大幅提升至 86.4%。
- 参数效率:Gemma 4 以 26B/31B 体量达到了通常需要数百亿乃至千亿参数才能实现的 Elo 分数。特别是 E2B(2B 激活参数)在科学知识基准 GPQA Diamond 上得分 43.4%,几乎追平了上一代 27B 桌面模型(42.4%)。
3. 功能特性
- 多模态支持:原生支持函数调用、JSON 结构化输出和系统指令,可构建自主 Agent。
- 长上下文:26B 和 31B 版本上下文窗口扩展至 256K,支持单次提示传入完整代码库或长文档。
- 多语言:预训练语言超过 140 种。
4. 生态与合作
- 硬件适配:NVIDIA 与 Google 合作优化了 Gemma 4 在 RTX GPU、DGX Spark 个人 AI 超级计算机及 Jetson Orin Nano 上的推理性能,提供低延迟支持。
- 软件框架:模型权重已上架 Hugging Face、Kaggle 和 Ollama。主流框架如 Transformers、vLLM、llama.cpp、MLX 等均于发布当天提供支持。
- 本地部署:用户可通过 Ollama 或 llama.cpp 配合 GGUF 格式快速上手,Unsloth Studio 提供微调支持。
值得关注
此次发布的核心意义在于重新定义了 AI 的运行边界。过去 AI 主要依赖云端数据中心,而 Gemma 4 通过极致的参数效率和开源授权,使得手机、树莓派甚至无网工厂终端也能完成复杂的模型推理。这不仅解决了医疗、金融等行业对数据不出本地的合规需求,更让 AI 能力真正具备了进入边缘场景的可行性。
