自动驾驶软硬一体,理想给出了自己的答案

面对自研芯片成本高、软件适配难及通用算力无法匹配大模型需求的行业痛点,理想汽车提出了“端侧大语言模型的软硬协同设计定律”。该研究通过数学框架实现了算法与芯片的协同优化,证明了“算法定义芯片”的可行性,并直接推动了马赫100自研芯片的落地。这一成果标志着中国自动驾驶厂商正从单纯堆砌算力转向场景最优的软硬一体化新阶段。

2016年7月,马斯克终止了特斯拉与智驾芯片供应商Mobileye的合作。 这场分手的背后,是自动驾驶技术全栈闭环的理念之争。特斯拉当时要做技术全栈闭环,需要掌控数据和算法,但Mobileye始终不同意完全开放。谈判破裂后,马斯克下定决心走上软硬一体的路线。在后来多次财报电话会上,马斯克感慨,正是这次“自己造芯”的冒险,才让特斯拉在自动驾驶赛道建立了难以逾越的护城河。 如今,中国的自动驾驶玩家也来到了软硬一体的阶段。 站在2026年这个节点,我们能看到非常多自动驾驶玩家的自研芯片有了实质进展。其中,蔚来神玑芯片和小鹏图灵芯片已经上车,理想的马赫100芯片也即将随着全新理想L9亮相。 但在这个过程中,行业普遍遇到的一个共性问题就是:自研芯片开发成本极高,软件适配难度极大。芯片流片一次动辄数十亿,算法团队还要花数月时间反复适配、调优,稍有不慎就会出现“芯片算力拉满、实际效能却打折”的尴尬局面。 如果说自研芯片是自动驾驶行业的必然趋势,那如何才能解决高昂成本和软硬适配的痛点?近日,理想汽车公布了一项研究成果,为智驾软硬结合提供了理论支撑。 在过去几年里,自动驾驶的一条主线是算力竞赛。消费者看硬件参数、车企拼TOPS,大家似乎都相信,更大的算力就能证明智驾能力更强。在发展的过程中,我们也见证了智驾芯片从英伟达Orin的254 TOPS到Thor的1000 TOPS,再到国产自研芯片的更大算力,数据不断刷新。 但智驾真的百分百适用于Scaling Law吗? 不完全是这样。例如当行业进入VLA(视觉-语言-行动)模型时代之后,自动驾驶就遇到了前所未有的难题。一方面,VLA作为一个逻辑自洽的技术架构,需要更高的认知智能才能发挥实力。它要像人类司机一样“看懂场景、理解意图、作出决策”。另一方面,汽车智驾跟云端大模型完全不一样。车载芯片受限于功耗、散热、成本、实时性、安全冗余,根本不能盲目堆参数、堆算力。造成的结果就是,模型越来越聪明,芯片却有点“跟不上”。 本次理想提出的“端侧大语言模型的软硬协同设计定律”,就指出了破局的关键。 本次研究,理想回答了两个核心问题。第一是芯片峰值性能并不等于实际系统效能,芯片的有效算力更重要;第二是通过数学手段,能构建一套可量化、可预测、可落地的数学框架,让“算法定义芯片”从空谈变成现实。 一句话总结就是,智驾软件和硬件能够找到一个场景最佳的解法。同时,相互合适的硬件和软件,是能通过协同设计的方式来发现的。 基于这项研究结果,理想准备在全新理想L9落地自研的马赫100芯片,挑战汽车智能的上限。 那么,理想发现的软硬协同设计定律到底讲了什么?到底想要解决行业的什么痛点?我们一起来看这项研究。 算法和芯片 需要“商量着”一起长大 过去几年里,英伟达计算平台几乎是汽车高阶智驾的标配。但随着智驾技术发展,英伟达的对手越来越多。车企这边,选择自研芯片的有理想、小鹏、蔚来等厂商。芯片厂商这边,AMD、高通近几年也加入“战场”,共同分食英伟达的“蛋糕”。 为什么汽车厂商要选择更换计算平台?这场变革的背后,是自动驾驶技术撞上了两堵硬墙。 第一堵墙是大模型进化极快,芯片迭代却相对缓慢,导致硬件迭代速度有点跟不上了。在VLA逐渐成为主流技术范式的当下,智驾模型的参数规模、训练数据、能力边界几乎每几个月就刷新一次,而车规级芯片从设计到流片、验证、上车,往往需要3-5年时间。对于这些新的模型需求,不少新计算平台开始强调对MoE稀疏计算有原生支持、提供KV缓存超大容量,或能实现动态资源调度。种种迹象,意味着过去“公认”的计算平台已经越来越难以满足VLA时代的性能需求。 另一堵墙则是,自动驾驶行业发现通用计算平台不能完全发挥模型能力上限。智驾模型需要芯片具备特定参数的性能,而这恰恰是通用计算平台难以满足的。例如智驾模型做决策时,需要大量MoE调用能力,但通用计算平台缺乏对稀疏计算原生支持,也缺乏对量化的原生支持。智驾保障行车安全需要低延迟反馈,但通用计算平台会“相互卡任务”不能保障输出稳定。这导致算法适配最终只能“削足适履”,要么牺牲模型精度,要么牺牲实时响应,或者增加冗余芯片导致成本飙升。 为了解决这两项难题,理想在这篇论文中认为——软硬件协同设计是破局的关键。 具体来说,理想用了两个核心数学手段来实现这一协同。 第一个是用损失函数扩展法则的车载化应用,用低成本“算出”模型能力上限。这其实是行业大模型研发比较普遍的流程。基本原理是大模型本身有一个“错误率”,模型越小“错误率”越大,但“错误率”的增长曲线可以预测。这就意味着只要给定模型超参(参数量、层数、FFN倍数等),就能无需完整训练,直接预测最终精度。 简单来说,就是只要用小模型跑几次就能算出“大模型大概能聪明到什么程度”,从而省下天价的GPU电费和时间。 另一个手段是Roofline性能建模的车载化革新,“计算出”模型所需的关键硬件参数。Roofline本来是用于HPC(高性能计算)的可视化性能分析框架,用于定量评估应用程序处理器上的瓶颈。理想针对车载场景进行了扩展,在考虑传统计算与内存带宽平衡之外,首次添加了智驾所需的KV缓存(可理解为关键信息缓存)、MoE路由(可以理解为分配专家模型运行的机制)、注意力机制等大模型特有需求,来计算模型对智驾计算平台的影响。 简单来说,就是“算出”计算平台能支持的模型“聪明程度”。 在此基础上,结合上述两个式子就诞生了PLAS(帕累托最优LLM架构搜索)框架,从而实现了协同设计。在公式中,只需要输入芯片的算力、带宽、缓存层次,以及工程约束(例如延迟<100ms、功耗、内存),自动生成最优的模型架构方案——找到“在当前硬件上,精度最高、延迟最低的那条边界”。简单来说,就是能同时找到算法能力和芯片设计的共同最优解。 同时,理想还给出了不同硬件平台(Jetson Orin/Thor)上的帕累托最优前沿,验证了“硬件协同设计扩展定律”的跨硬件平台泛化性,找到了英伟达计算平台的能力上限。 这种设计模式最大的价值就是让此前行业“先设计芯片再适配算法”或“先开发算法再找芯片”的割裂流程彻底成为历史。 “本来Orin芯片是不支持跑语言模型的。但因为英伟达没时间,所以我们自己写了底层推理引擎”。理想创始人兼CEO李想在一次采访中称。 传统的流程,一边是芯片工程师在拼命追求算力更强,一边是算法工程师在拼命追求模型更智能,但两者对接时才发现“不兼容”,造成大量资源浪费。协同设计就是要打破隔阂,让芯片和算法从一开始就紧密配合,让算法和芯片从一开始就“商量着”一起长大。 对于自动驾驶行业准备走软硬一体路线的玩家来说,理想的研究无疑向行业交了一把可复制的钥匙。 没有通用芯片 只有场景最优芯片 理想关于协同设计的数学计算过程并不困难。但在AI时代,一个好问题的价值,要远胜于无数浅薄的信息。 为什么理想要进行协同设计的研究?因为它很早就碰上了自动驾驶技术落地的难题。 “在车载芯片上部署VLM面临巨大挑战,尤其是在主流的Orin-X芯片上,该芯片在设计之初并未考虑大模型的应用需求。因此,我们在部署过程中需克服诸多工程难题。” 正如理想汽车基座模型负责人詹锟在2024年所说。早在英伟达Orin芯片落地高阶智驾的时期,理想就深刻体会到“软硬割裂”的痛苦。平心而论,英伟达计算平台确实提供了强大的理论算力,但在实际部署大语言模型时,理想的技术团队常发现“芯片峰值性能≠实际系统效能”的困境。 精心设计的模型架构往往无法充分利用硬件特性,而为了硬件适配做出的妥协又可能损害模型智能。这简直就像是一尊精致的雕像,只能以残缺的状态展示给观众。这种割裂感让理想下定决心,必须从根本上解决。 解决的思路,是理想决定从提升模型性能入手,同时试图找到兼顾模型落地的时间、硬件和应用成本的答案。具体目标包括:把模型设计和选择的周期从数月压缩至一周;无需盲目使用更贵的芯片,也能为用户带来更好的智能体验;根据应用场景,快速选出最适合的模型配置,整体缩短开发周期。 根据这项研究,理想将上述目标提炼成了6个核心结论。每一条都直指车载大模型部署的痛点,并将自研芯片提到了势在必行的高度。 首先,稀疏计算将成为车载AI标配。在车载典型的批处理大小为1的场景下,MoE稀疏架构100%主导效率前沿。这意味着未来车载芯片需要原生支持稀疏计算和动态路由,而非简单提供密集矩阵乘算力。简单来说,车载AI模型的发展方向跟云端“大而全”不一样,计算平台需要原生支持“专且精”的架构。 其次,内存子系统设计比算力峰值更重要。论文指出“宽而浅”的最优架构形态表明,内存带宽和缓存效率往往比理论TOPS更能决定系统实际性能。这意味着芯片内存层次设计要随需求变化,例如专门为KV缓存和注意力机制预留足够的高速缓存空间。 第三,阶段感知的微架构优化。在模型运作过程中,Prefill(预填充)和Decode(解码)阶段对硬件资源的需求截然不同,Prefill需要大量并行算力单元,猛猛计算;而Decode阶段需要大量内存带宽和空间,算力反而闲置。在常规GPU设计里,这些计算流程通常都是固定的,但汽车智驾需要兼顾实时性和确定性。这代表新的芯片需要支持动态的微架构重构或资源分配,以保障两个阶段的计算都能稳定输出。 第四,打破4倍FFN(前馈网络)的固定模式。传统Transformer架构一般默认是4倍FFN扩展比,就像是个放大镜,不管输入多复杂都要先把维度扩大4倍,算完再压缩回去。但车载场景下,运算资源相对有限,“火力全开就代表着油耗爆炸”。这意味着芯片的矩阵乘单元和激活函数单元需要更灵活的配比,才能适配VLA模型的实际负载分布。 第五,量化加速需要硬件原生支持。为了保证智驾输出的实时性、安全性和功耗要求,理论上智驾模型从FP16或BF16权重量化到INT8量化的加速因子为2倍。但根据理想实际测试,使用常规平台的加速效果只有1.3-1.6倍。这是因为在换算过程中,非线性算子和精度转换都会占用资源,这意味着大量运算资源被浪费。所以,下一代芯片需要在指令集和运算单元层面提供混合精度计算和算子融合的原生支持。 第六,没有通用芯片,只有场景最优芯片。综合上述结论看到,要想最大化模型能力就必须要重新调整硬件计算架构,这从根本上证明了“算法定义芯片”的必要。只有深度理解上层算法需求,才能设计出最高效的专用计算架构。 这些发现,并不是纸上谈兵。为了验证协同设计定律,理想在英伟达Jetson Orin/Thor平台上做了严格对比测试。结果显示,应用协同设计定律优化的模型,在与Qwen2.5-0.5B保持完全相同延迟的前提下,实现了19.42%的精度提升。这直接证明了软硬协同设计可以实现“同等硬件、更优性能”,能立刻带来可量化的工程收益。 对于产品侧来说,这一发现也直接促成理想自研马赫100芯片。作为马赫100首发搭载的全新理想L9,李想更是在微博中宣称,其3倍于英伟达Thor-U芯片的有效算力,是全球最强的智驾大脑。 拥有了自研芯片,不仅意味着理想从“被动适配芯片”转到“算法定义芯片”的阶段。更是为中国自动驾驶厂商在VLA时代提供了可以“开箱即用”的理论武器。 李想的AI工程方法论 软硬结合、协同开发,早就是全球每一个AI巨头的必修课。 2013年,时任Google Brain负责人的Jeff Dean随手拿了一张餐巾纸做了一项计算。结果显示,为了支撑用户使用语音识别模型,谷歌需要把数据中心集群再扩建一倍。简单几个数字,让在场的所有高管冷汗直流。 为了避免这场危机,谷歌当机立断启动TPU研发项目。定义硬件的方式,是根据一篇老论文,将芯片设计成匹配算法需要的矩阵运算。15个月后,谷歌做出了TPU,从此不再被GPU“绑架”。如今,通过谷歌云和Gemini,谷歌将TPU卖到了全世界。 谷歌用实际行动证明,只有软硬协同,才能把每一分算力都用在刀刃上。理想在这条路上,也找到了辅助驾驶全栈技术闭环的方向。 还记得在2025年时,智驾技术领先的玩家还在参考DeepSeek的技术,用蒸馏的手段让AI大模型从“云端大模型下车”。理想当时针对智驾大模型做了一系列预训练、后训练和强化训练的调整,才拿出了对标人类智能的“司机大模型”——VLA。 “我们对Deepseek R1从上线到后面开源都做了相当多的研究和拥抱。DeepSeek的速度比想象中快,所以VLA到来的速度也比想象中快。”李想曾如此总结说。 如今,在完成软硬一体之后,为车端量身定制的“算法原生模型”能让智驾实现感知、决策、规划、控制全链路都在同一套数学框架下优化,进一步刷新了整个系统的延迟、精度和能效。 这种转变,本质上是AI工程能力的进化。过去还需要工程师根据经验调优、不断试错迭代,现在靠PLAS框架和数学定律,最优方案已经能实现“一键生成”。 “任何时候当我们想去改变和提升能力,第一步一定是搞研究,第二步是研发,第三步是把能力表达出来,第四步是能力变成业务的价值。”李想说。 理想为了实现这一目标,下了相当多的苦功夫。 在基础研究层面,理想的投入可谓是“豪横”。近8年来,理想一直在加大研发投入。光是2025一年,理想预计研发投入达到120亿元,其中人工智能领域投入达到60亿元。 随着研发投入,我们也能清晰看到理想自动驾驶技术的成长足迹。自2021年至2025年11月,理想围绕BEV(Bird's-eye-view,鸟瞰图)、端到端模型、VLM视觉语言模型、VLA视觉语言行动模型、强化学习、世界模型、AI基座模型等领域,发表近50篇论文,被引用超过2500次。其中,32篇论文中稿顶会。 在基础研究中,理想的组织架构也在朝着更适合AI研究的方向演进。在今年1月,理想就率先进行了一系列组织调整。其中,理想汽车自动驾驶高级算法专家詹锟接手基座模型业务,整体负责理想的VLA基座模型研发,并将相关技术研发团队充分整合。这代表理想的智驾全面进入AI大模型时代。 1月底,李想在内部还明确说,将大幅调整技术研发团队架构,参照最先进AI公司的运作模式,按照协作构建硅基生命的方式重新设定人员分工。通过持续优化内部架构的方式,理想希望公司的算法、芯片、OS团队实现深度协同,让研究成果能以最快速度转化为量产能力。 也正是基于对AI的理解,李想也成了汽车圈“最拥护”AI发展的CEO。近日,李想还在朋友圈明确感慨,学会使用Agent能放大顶级专家和普通人之间的差距。 或许,AI时代最重要的法则就是ALL in AI。 曾经领先全球的特斯拉FSD(特斯拉自动驾驶),在中国自动驾驶厂商技术全栈闭环的追赶下,逐渐不再“惊艳”。 软硬协同设计定律只是一个开始,中国智能汽车厂商们正在定义汽车智能的上限。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。