比亚迪璇玑A3拆解:车企争夺AI芯片定义权的信号
2026/05/30 10:56阅读量 3
比亚迪发布中国首款4nm智驾芯片璇玑A3,但产业分析认为其大概率由台积电代工。更关键的是,随着世界模型、VLA等算法快速迭代,通用GPU算力浪费严重,车企自研芯片转向小核心、稀疏计算架构,实质是在争夺下一代计算范式的话语权。
事件概述
2026年5月28日,比亚迪发布璇玑A3,宣称是中国首款4nm智驾芯片。然而,产业分析指出,全球能量产5nm以下芯片的晶圆厂仅有台积电、三星、英特尔三家,中国最先进的中芯国际仍停留在7nm(DUV多重曝光),且EUV光刻机对华出口受限。比亚迪自有的晶圆厂(成都、济南、宁波等)主要生产功率半导体或3D NAND(工艺30-50nm),转型4nm需全部更换设备,代价极高。因此,璇玑A3更可能由台积电N4C工艺代工——该工艺是5nm家族的衍生版,性价比高。
核心信息
- 制程之外,架构才是核心。表格对比显示:比亚迪用16核心取得420K DMIPS(推测采用ARM Cortex-X720架构,频率2.6GHz);蔚来神玑NX9031存储带宽546GB/s仍为国产最高;高通CPU算力领先。各家算力统计口径不统一(稀疏/稠密),直接横向比较意义有限。
- 为何车企集体造芯? 汽车场景数据天然稀疏(天空、路面含大量零值像素),传统大核心GPU/NPU照算所有数据,造成算力浪费。Transformer时代,零值位置随输入实时变化,需要专用硬件动态跳过无效计算。此外,新兴的DiT架构(世界模型)在Batch=1的真实驾驶场景下,GPU利用率不足15%,需近似CPU的小核心来应对。
- 基于公开参数推测,比亚迪璇玑A3的NPU可能采用小核心架构:多核心、小阵列的分布式结构(32×8 MAC阵列),每个核心含张量/矢量引擎和紧耦合片上存储,配稀疏控制器,在数据发送端过滤零值。小核心优势在于:高灵活性、单batch下利用率高、天然适配变长上下文和细粒度稀疏(75%稀疏下可达约2.5倍加速)。但代价是同样工艺下面积和成本达脉动阵列的2-5倍,软件生态不成熟。车企愿押注,是因为他们只需让自己的算法跑得好。
值得关注
过去车企造芯逻辑是降本和供应链安全;现在算法迭代太快(世界模型、VLA、端侧Agent),芯片定义权决定了谁能先跑通下一代架构。璇玑A3的真正产业意义不在于“中国车企造出4nm芯片”,而在于主流派车企也下场自研芯片,争夺计算范式的话语权。这场竞争已不再是少数玩家的事。
