iPhone本地跑Gemma4火了，0 token时代还有多远？

2026/04/06 12:43阅读量 30

事件概述

iPhone本地跑Gemma4火了，0 token时代还有多远？-虎嗅网虎嗅APP 虎嗅APP 公众号矩阵公众号矩阵社群矩阵社群矩阵我要投稿我要投稿资讯 24小时源流视频活动/榜单/专题妙投虎嗅智库虎嗅嗅全新升级虎嗅嗅全新升级谷歌开源Gemma 4模型，手机端本地运行速度超40 token/秒，128K上下文窗口和全模态支持预示"0 token时代"可能加速到来，倒逼AI厂商转向高难度赛道竞争。 ## 1. 手机端AI模型的性能突破 - Gemma 4的E2B（2.3B）和E4B（4.5B）小模型可在iPhone/Samsung本地运行，苹果MLX框架下速度超40 token/秒 - 128K上下文窗口和全模态支持使其成为"口袋级Gemini平替"，医疗等敏感场景应用潜力显著 ##

核心要点

这类动态更值得关注它在权限、工具调用、流程编排和稳定交付上的实际可行性，而不只是演示效果。
关键不只是模型能力本身，还包括它能否被封装成稳定可用的软件能力，以及接入成本和适用场景。
如果信息指向底层算力或硬件变化，更需要评估它对推理成本、响应速度、部署方式和交付周期的实际影响。

值得关注

更重要的是识别这条动态带来的实际变化，包括能力边界、接入成本、部署复杂度和可持续性。
如果要进一步评估价值，应结合具体业务场景、数据条件和系统集成成本来判断。

阅读原文详情

事件概述

核心要点

值得关注

准备好启动您的定制项目了吗？