苹果芯片负责人谈统一内存:行业追赶需数年,模型能力才是真正短板
全行业跟风苹果统一内存架构,但内存带宽仍差苹果一倍多,追赶落后五六年。苹果ANE算力被逆向证实可训练1亿参数模型且功耗极低。苹果端侧模型仅约30亿参数,复杂推理能力落后第一梯队。WWDC 2025或推出Core AI框架并引入第三方模型弥补短板。
事件概述
英特尔、AMD、英伟达、高通等厂商纷纷推出类苹果统一内存架构,目标驱动端侧AI,但整体进度落后苹果五到六年。目前行业公开方案中,Strix Halo内存带宽为256GB/s,GB10/RTX Spark为273GB/s,骁龙X2 Elite Extreme为228GB/s,仅摸到苹果中高端水位,离苹果M5 Max的614GB/s差一倍多。RTX Spark实为2024年第43周封装、采用联发科公版核心的产品,本质是借统一内存风口包装旧设计。
苹果统一内存的核心优势
苹果芯片专为自有设备设计,芯片与系统相互针对性优化,不存在功能浪费。统一内存架构下CPU、GPU、神经网络引擎(ANE)可共享完整内存池,其他厂商尚未实现。从M5系列开始采用两片式融合架构,随GPU核心数增加同步翻倍内存位宽与带宽,确保算力与带宽均衡。
ANE算力金矿与开放进展
ANE自2017年随A11推出,社区开发者通过逆向发现M4 ANE在满算力时每瓦可提供6.6TOPS,在不依赖Core ML的情况下,在M4 Mac mini上以ANE+CPU功耗低于8W完整训练了1亿参数Transformer模型。苹果在WWDC 2025的Metal 4中新增tensor原生类型,让开发者能更精细控制计算单元。苹果对社区逆向持开放态度,但出于安全仍谨慎开放权限。目前超过10亿台活跃设备搭载ANE。
端侧模型短板与潜在应对
苹果已推出免费离线的Foundation Models框架,已被数千个应用接入,但端侧模型仅约30亿参数,仅胜任摘要、改写等轻量任务,面对复杂推理、agent工作流时能力远落后于OpenAI、Anthropic等旗舰模型。云端模型也尚未达到第一梯队水平。传闻WWDC 2025苹果可能用全新Core AI框架取代Core ML,允许开发者通过API接入任选模型提供商,并可能引入头部AI企业蒸馏模型作为系统默认选项。
核心观点
苹果真正的威胁并非硬件端的追赶者,而是掌握顶尖模型能力并可能推出颠覆性AI硬件的企业(如OpenAI)。
