国产AI芯片,进击3D堆叠

2026/07/01 08:50阅读量 3

AI大模型对算力的需求倒逼封装技术从2.5D向3D/3.5D演进。在先进工艺和高端HBM受限的背景下,国产AI芯片厂商集体押注3D堆叠,紫光、清微智能、算苗科技等企业相继推出基于3D堆叠架构的芯片方案,试图以空间换性能突破“内存墙”。但3D堆叠的工程化仍面临散热、混合键合良率、EDA工具缺失等挑战。

事件概述

AI大模型迭代加速,存储带宽增速远落后于模型规模增长,形成“内存墙”。传统2.5D封装(如CoWoS)在平面扩展上逼近物理极限,3D堆叠技术通过垂直集成计算与存储单元,成为突破瓶颈的关键路径。对于国产AI芯片,在先进制程和高端HBM进口受限的现实下,3D堆叠提供了一条绕过部分工艺封锁的可行道路。

核心信息

技术演进

  • 2.5D封装:通过硅中介层(Interposer)集成多颗裸die,采用TSV实现垂直互连,但受平面面积限制,集成密度和带宽接近极限。
  • 3D堆叠:通过芯片垂直堆叠(如TSV、混合键合)缩短互连长度,提升集成密度与带宽,典型技术包括3D封装和3.5D封装(3D+2.5D复合架构)。

国际巨头量产进展

  • AMD MI300系列:2023年量产,采用3.5D封装(CoWoS+SoIC),将GPU/CPU 3D堆叠在I/O芯片上,再通过硅中介层与HBM3互连。
  • 博通3.5D XDSiP平台:2024年12月发布,采用Face-to-Face无凸块混合铜键合(HCB),信号连接数量较传统F2B增加7倍,界面功耗降低90%,2026年已向富士通交付2nm定制计算SoC。
  • 英特尔EMIB 3.5D:结合EMIB 2.5D与Foveros Direct 3D混合键合,数据中心GPU Max系列SoC集成超千亿晶体管、47个主动模块。
  • 高通HBC技术:通过3D堆叠将计算与超高速内存融合,第一代AI250实现133TB/s带宽,较LPDDR5X提升18倍;第二代AI300带宽提升54倍。

国产厂商布局

  • 紫光集团紫弦架构:以3D DRAM为核心,首创3.5D异质异构集成,存储带宽达30TB/s。PNM近存计算模式下访存延迟最多降低至1/18,同等算力下Token吞吐率较英伟达B200系列高1.5-2倍,可基于国内供应链量产。
  • 清微智能:下一代AI芯片采用3.5D异构堆叠,实现可重构计算芯粒与DRAM芯粒垂直集成。第二代3D可重构芯片采用3D存算一体+四芯Chiplet,将传输模式升级为“算力4车道+4层存储高架”。
  • 算苗科技A4E芯片:6月15日流片,采用3D混合堆叠,8层存储晶圆垂直堆叠在计算晶圆上,通过TSV实现微米级互联,访存带宽16TB/s。
  • 云天励飞:正在研发的推理芯片引入3D堆叠存储架构,以获得更高带宽与更低时延。
  • 凌川科技(原快手芯片事业部):下一代芯片于2025年4月流片,采用全国产3D堆叠和3D近存架构,针对散热、一致性、可靠性做优化。首款芯片SL200已销售近十万颗,部署于快手、阿里云、百度云、B站,覆盖快手99.7%直播转码业务。

值得关注:工程化挑战

  • 热管理:3D堆叠功率超过350瓦时,空气散热完全失效,必须引入液冷系统与高性能热界面材料。
  • 混合键合良率:无凸点HCB要求<10μm甚至1μm级互连间距,对CMP表面平整度、键合精度、热膨胀匹配要求极高,良率提升依赖工艺持续改进。
  • EDA工具缺失:国产EDA缺乏3D堆叠全流程设计工具,现有工具难以同时处理热、信号、电源完整性多维优化;布局布线、多芯片验证、Multi-Die DFT测试等环节存在空白。
  • 测试与成本:3D堆叠物理组装涉及不同厚度、热膨胀系数裸片的精密对准,制造成本高,需优化工艺以推动规模应用。

总结

在晶体管微缩边际效益递减的后摩尔时代,先进封装已成为“超越摩尔”的关键。国产AI芯片在制程和HBM进口受限下,通过3D堆叠以空间换性能,紫光、清微等厂商已展现差异化竞争力。若能在散热、工艺良率、EDA工具等环节取得突破,3D堆叠有望成为国产芯片在全球AI算力竞赛中实现弯道超车的重要路径。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。