世界模型到来,旧自动驾驶芯片架构面临淘汰

2026/05/24 12:17阅读量 2

随着自动驾驶模型从CNN、Transformer向DiT与世界模型迭代,单纯堆TOPS算力的逻辑已失效,存储带宽、架构灵活性成为关键瓶颈。车企自研芯片的本质是押注未来技术路线,当前主流商用芯片难以适配DiT和扩散模型,传统外采车企压力增大。

事件概述

当前自动驾驶模型正从CNN、Transformer向DiT(扩散Transformer)与世界模型加速切换,旧一代芯片的TOPS崇拜不再适用。车企自研芯片不只为了去英伟达化,更是对5-8年后技术路线的押注。芯片研发周期2-4年,目前三条路线并行:分段端到端(参数≤5亿)、VLA(MoE架构,参数20-70亿,融合世界模型)、世界模型+扩散动作专家(未量产)。

核心信息

  • TOPS失效:5000TOPS芯片跑DiT架构可能不如300TOPS芯片。决定性能的关键是存储带宽、编排能力、分级内存、SFU及可编程向量算力。
  • 存储带宽是核心瓶颈:VLM(视觉语言模型)解码阶段完全由存储带宽决定;AR架构解码是内存绑定的,算力无法加速。扩散模型需大Batch提高矩阵利用率,但自动驾驶延迟敏感(Batch通常1-4),导致GPU大量空转。
  • DiT架构的挑战:世界模型核心是DiT,天然适配时序信息,但市面上没有专门为DiT推理设计的商用芯片。扩散模型推理流程复杂,传统高算力芯片只能处理稠密张量矩阵乘法,不规则计算、向量编码等缺乏支持,迫使车企自研。

AI加速器三大流派

  1. 大核心(脉动阵列):极致效率,代表为谷歌TPU、特斯拉HW3.0、蔚来神玑、小鹏图灵。稠密矩阵乘法能效比领先,但对数据形状敏感(需256倍数),编译器优化困难,非结构化稀疏无效,软件团队规模极大。
  2. 小核心(多核CPU):极致灵活,代表为特斯拉Dojo(384核CPU)。天然适配任意形状数据,支持非结构化稀疏,但面积成本比脉动阵列高2-5倍,经济效益差。
  3. 中核心(平衡派):英伟达为代表,矩阵单元16×16,Tensor Core+CUDA小核配合,在效率、灵活性、生态间平衡。但应对DiT和扩散模型仍力不从心。高通NPU也在向中核心加小核心方向调整。

值得关注

  • 车载场景受存储成本限制,难跑百亿参数以上大模型,中核心+小核心组合是务实选择。
  • 传统车企坚持外采,在模型范式加速切换下面临越来越大压力。
  • 自动驾驶芯片的真正难点不是造出来,而是今天就要押中五年后的AI形态。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。