iPhone本地跑Gemma4火了,0 token时代还有多远?
2026/04/06 12:43阅读量 2
iPhone本地跑Gemma4火了,0 token时代还有多远?-虎嗅网 虎嗅APP 虎嗅APP 公众号矩阵 公众号矩阵 社群矩阵 社群矩阵 我要投稿 我要投稿 资讯 24小时 源流 视频 活动/榜单/专题 妙投 虎嗅智库 虎嗅嗅全新升级 虎嗅嗅全新升级 谷歌开源Gemma 4模型,手机端本地运行速度超40 token/秒,128K上下文窗口和全模态支持预示"0 token时代"可能加速到来,倒逼AI厂商转向高难度赛道竞争。 ## 1.
事件概述
iPhone本地跑Gemma4火了,0 token时代还有多远?-虎嗅网 虎嗅APP 虎嗅APP 公众号矩阵 公众号矩阵 社群矩阵 社群矩阵 我要投稿 我要投稿 资讯 24小时 源流 视频 活动/榜单/专题 妙投 虎嗅智库 虎嗅嗅全新升级 虎嗅嗅全新升级 谷歌开源Gemma 4模型,手机端本地运行速度超40 token/秒,128K上下文窗口和全模态支持预示"0 token时代"可能加速到来,倒逼AI厂商转向高难度赛道竞争。 ## 1. 手机端AI模型的性能突破 - Gemma 4的E2B(2.3B)和E4B(4.5B)小模型可在iPhone/Samsung本地运行,苹果MLX框架下速度超40 token/秒 - 128K上下文窗口和全模态支持使其成为"口袋级Gemini平替",医疗等敏感场景应用潜力显著 ##
核心要点
- 这类动态更值得关注它在权限、工具调用、流程编排和稳定交付上的实际可行性,而不只是演示效果。
- 关键不只是模型能力本身,还包括它能否被封装成稳定可用的软件能力,以及接入成本和适用场景。
- 如果信息指向底层算力或硬件变化,更需要评估它对推理成本、响应速度、部署方式和交付周期的实际影响。
值得关注
- 更重要的是识别这条动态带来的实际变化,包括能力边界、接入成本、部署复杂度和可持续性。
- 如果要进一步评估价值,应结合具体业务场景、数据条件和系统集成成本来判断。
