Gemma 4 在 Arm 平台实现端侧 AI 性能跃升,加速移动应用体验
Google 的 Gemma 4 模型在 Arm 架构上优化,通过 SME2 指令集实现 5.5 倍预填充加速和 1.6 倍解码加速,支持多模态端侧推理。Envision 应用已成功在本地 Arm CPU 上运行 Gemma 4 实现无障碍场景描述,无需云端连接,显著降低延迟并保护隐私。Arm 与 Google 合作通过 KleidiAI 和 XNNPACK 为开发者提供零代码修改的性能优化。
事件概述
Google 发布 Gemma 4 模型,与 Arm 合作针对端侧 AI 进行优化,使其在 Arm 架构的 Android 设备上高效运行。Gemma 4 具备更强的多模态能力(文本、音频、图像),支持推理、智能体工作流和视觉/听觉交互,且不增加内存占用。
核心性能数据
在基于 Armv9 CPU(含 SME2)的工程测试中,Gemma 4 E2B 模型的预填充(处理用户输入)速度平均提升 5.5 倍,解码(生成响应)速度最高提升 1.6 倍。这些优化得益于 Arm KleidiAI 软件加速层与 Google XNNPACK 的集成,开发者无需修改代码即可自动获益。
实际应用案例
Envision——一款面向盲人和低视力用户的无障碍应用——采用 Gemma 4 在本地 Arm CPU 上运行场景理解模型。用户拍照后,设备无需联网即可生成详细场景描述,既保护隐私又消除对网络的依赖。CEO Karthik Mahadevan 表示,离线运行对用户至关重要,且提升了体验可靠性。
行业意义
端侧 AI 从云端依赖转向本地推理,可降低开发者的基础设施成本、提升用户响应速度及离线稳定性。Armv9 架构与 SME2 指令集为 Android 生态提供了高效、安全的计算基础,Arm 与 Google 的持续合作将使端侧 AI 成为移动应用默认架构。
