世界模型到来，旧自动驾驶芯片架构面临淘汰

2026/05/24 12:17阅读量 2

随着自动驾驶模型从CNN、Transformer向DiT与世界模型迭代，单纯堆TOPS算力的逻辑已失效，存储带宽、架构灵活性成为关键瓶颈。车企自研芯片的本质是押注未来技术路线，当前主流商用芯片难以适配DiT和扩散模型，传统外采车企压力增大。

事件概述

当前自动驾驶模型正从CNN、Transformer向DiT（扩散Transformer）与世界模型加速切换，旧一代芯片的TOPS崇拜不再适用。车企自研芯片不只为了去英伟达化，更是对5-8年后技术路线的押注。芯片研发周期2-4年，目前三条路线并行：分段端到端（参数≤5亿）、VLA（MoE架构，参数20-70亿，融合世界模型）、世界模型+扩散动作专家（未量产）。

核心信息

TOPS失效：5000TOPS芯片跑DiT架构可能不如300TOPS芯片。决定性能的关键是存储带宽、编排能力、分级内存、SFU及可编程向量算力。
存储带宽是核心瓶颈：VLM（视觉语言模型）解码阶段完全由存储带宽决定；AR架构解码是内存绑定的，算力无法加速。扩散模型需大Batch提高矩阵利用率，但自动驾驶延迟敏感（Batch通常1-4），导致GPU大量空转。
DiT架构的挑战：世界模型核心是DiT，天然适配时序信息，但市面上没有专门为DiT推理设计的商用芯片。扩散模型推理流程复杂，传统高算力芯片只能处理稠密张量矩阵乘法，不规则计算、向量编码等缺乏支持，迫使车企自研。

AI加速器三大流派

大核心（脉动阵列）：极致效率，代表为谷歌TPU、特斯拉HW3.0、蔚来神玑、小鹏图灵。稠密矩阵乘法能效比领先，但对数据形状敏感（需256倍数），编译器优化困难，非结构化稀疏无效，软件团队规模极大。
小核心（多核CPU）：极致灵活，代表为特斯拉Dojo（384核CPU）。天然适配任意形状数据，支持非结构化稀疏，但面积成本比脉动阵列高2-5倍，经济效益差。
中核心（平衡派）：英伟达为代表，矩阵单元16×16，Tensor Core+CUDA小核配合，在效率、灵活性、生态间平衡。但应对DiT和扩散模型仍力不从心。高通NPU也在向中核心加小核心方向调整。

值得关注

车载场景受存储成本限制，难跑百亿参数以上大模型，中核心+小核心组合是务实选择。
传统车企坚持外采，在模型范式加速切换下面临越来越大压力。
自动驾驶芯片的真正难点不是造出来，而是今天就要押中五年后的AI形态。

阅读原文详情

事件概述

核心信息

AI加速器三大流派

值得关注

准备好启动您的定制项目了吗？