Gemma 4 在 Arm 平台实现端侧 AI 性能跃升，加速移动应用体验

2026/05/29 16:00阅读量 1

Google 的 Gemma 4 模型在 Arm 架构上优化，通过 SME2 指令集实现 5.5 倍预填充加速和 1.6 倍解码加速，支持多模态端侧推理。Envision 应用已成功在本地 Arm CPU 上运行 Gemma 4 实现无障碍场景描述，无需云端连接，显著降低延迟并保护隐私。Arm 与 Google 合作通过 KleidiAI 和 XNNPACK 为开发者提供零代码修改的性能优化。

事件概述

Google 发布 Gemma 4 模型，与 Arm 合作针对端侧 AI 进行优化，使其在 Arm 架构的 Android 设备上高效运行。Gemma 4 具备更强的多模态能力（文本、音频、图像），支持推理、智能体工作流和视觉/听觉交互，且不增加内存占用。

核心性能数据

在基于 Armv9 CPU（含 SME2）的工程测试中，Gemma 4 E2B 模型的预填充（处理用户输入）速度平均提升 5.5 倍，解码（生成响应）速度最高提升 1.6 倍。这些优化得益于 Arm KleidiAI 软件加速层与 Google XNNPACK 的集成，开发者无需修改代码即可自动获益。

实际应用案例

Envision——一款面向盲人和低视力用户的无障碍应用——采用 Gemma 4 在本地 Arm CPU 上运行场景理解模型。用户拍照后，设备无需联网即可生成详细场景描述，既保护隐私又消除对网络的依赖。CEO Karthik Mahadevan 表示，离线运行对用户至关重要，且提升了体验可靠性。

行业意义

端侧 AI 从云端依赖转向本地推理，可降低开发者的基础设施成本、提升用户响应速度及离线稳定性。Armv9 架构与 SME2 指令集为 Android 生态提供了高效、安全的计算基础，Arm 与 Google 的持续合作将使端侧 AI 成为移动应用默认架构。

阅读原文详情

事件概述

核心性能数据

实际应用案例

行业意义

准备好启动您的定制项目了吗？