国产AI芯片，进击3D堆叠

2026/07/01 08:50阅读量 3

AI大模型对算力的需求倒逼封装技术从2.5D向3D/3.5D演进。在先进工艺和高端HBM受限的背景下，国产AI芯片厂商集体押注3D堆叠，紫光、清微智能、算苗科技等企业相继推出基于3D堆叠架构的芯片方案，试图以空间换性能突破“内存墙”。但3D堆叠的工程化仍面临散热、混合键合良率、EDA工具缺失等挑战。

事件概述

AI大模型迭代加速，存储带宽增速远落后于模型规模增长，形成“内存墙”。传统2.5D封装（如CoWoS）在平面扩展上逼近物理极限，3D堆叠技术通过垂直集成计算与存储单元，成为突破瓶颈的关键路径。对于国产AI芯片，在先进制程和高端HBM进口受限的现实下，3D堆叠提供了一条绕过部分工艺封锁的可行道路。

核心信息

技术演进

2.5D封装：通过硅中介层（Interposer）集成多颗裸die，采用TSV实现垂直互连，但受平面面积限制，集成密度和带宽接近极限。
3D堆叠：通过芯片垂直堆叠（如TSV、混合键合）缩短互连长度，提升集成密度与带宽，典型技术包括3D封装和3.5D封装（3D+2.5D复合架构）。

国际巨头量产进展

AMD MI300系列：2023年量产，采用3.5D封装（CoWoS+SoIC），将GPU/CPU 3D堆叠在I/O芯片上，再通过硅中介层与HBM3互连。
博通3.5D XDSiP平台：2024年12月发布，采用Face-to-Face无凸块混合铜键合（HCB），信号连接数量较传统F2B增加7倍，界面功耗降低90%，2026年已向富士通交付2nm定制计算SoC。
英特尔EMIB 3.5D：结合EMIB 2.5D与Foveros Direct 3D混合键合，数据中心GPU Max系列SoC集成超千亿晶体管、47个主动模块。
高通HBC技术：通过3D堆叠将计算与超高速内存融合，第一代AI250实现133TB/s带宽，较LPDDR5X提升18倍；第二代AI300带宽提升54倍。

国产厂商布局

紫光集团紫弦架构：以3D DRAM为核心，首创3.5D异质异构集成，存储带宽达30TB/s。PNM近存计算模式下访存延迟最多降低至1/18，同等算力下Token吞吐率较英伟达B200系列高1.5-2倍，可基于国内供应链量产。
清微智能：下一代AI芯片采用3.5D异构堆叠，实现可重构计算芯粒与DRAM芯粒垂直集成。第二代3D可重构芯片采用3D存算一体+四芯Chiplet，将传输模式升级为“算力4车道+4层存储高架”。
算苗科技A4E芯片：6月15日流片，采用3D混合堆叠，8层存储晶圆垂直堆叠在计算晶圆上，通过TSV实现微米级互联，访存带宽16TB/s。
云天励飞：正在研发的推理芯片引入3D堆叠存储架构，以获得更高带宽与更低时延。
凌川科技（原快手芯片事业部）：下一代芯片于2025年4月流片，采用全国产3D堆叠和3D近存架构，针对散热、一致性、可靠性做优化。首款芯片SL200已销售近十万颗，部署于快手、阿里云、百度云、B站，覆盖快手99.7%直播转码业务。

值得关注：工程化挑战

热管理：3D堆叠功率超过350瓦时，空气散热完全失效，必须引入液冷系统与高性能热界面材料。
混合键合良率：无凸点HCB要求<10μm甚至1μm级互连间距，对CMP表面平整度、键合精度、热膨胀匹配要求极高，良率提升依赖工艺持续改进。
EDA工具缺失：国产EDA缺乏3D堆叠全流程设计工具，现有工具难以同时处理热、信号、电源完整性多维优化；布局布线、多芯片验证、Multi-Die DFT测试等环节存在空白。
测试与成本：3D堆叠物理组装涉及不同厚度、热膨胀系数裸片的精密对准，制造成本高，需优化工艺以推动规模应用。

总结

在晶体管微缩边际效益递减的后摩尔时代，先进封装已成为“超越摩尔”的关键。国产AI芯片在制程和HBM进口受限下，通过3D堆叠以空间换性能，紫光、清微等厂商已展现差异化竞争力。若能在散热、工艺良率、EDA工具等环节取得突破，3D堆叠有望成为国产芯片在全球AI算力竞赛中实现弯道超车的重要路径。

阅读原文详情