百万芯片“泡”进氟化液:浸没式液冷如何破解中国算力能耗瓶颈

2026/04/24 20:46阅读量 4

面对AI芯片单卡功耗突破1000瓦、单机柜功耗迈向100千瓦的严峻挑战,传统风冷技术已触及物理天花板。浸没式液冷凭借电子氟化液的高导热性,将PUE降至1.07以下,成为支撑高密度算力集群的关键基础设施。尽管初期投入较高且维护复杂,但在GPU功耗激增、应用场景分化及国产算力崛起三大驱动力下,该技术正从实验室走向规模化落地。

事件概述

随着人工智能大模型训练需求的爆发,数据中心散热与能耗问题已成为制约算力发展的核心瓶颈。传统风冷方案在应对高功率密度时已显乏力,浸没式液冷技术通过将服务器完全浸入特殊冷却液中,实现了散热效率的质的飞跃,正逐步成为中国乃至全球超大规模算力中心的基础设施选择。

核心事实与技术细节

1. 传统散热的物理极限

  • 功耗激增:当前AI训练用GPU单卡功耗已突破1000瓦,单机柜功耗轻松超过30千瓦,并正向100千瓦迈进。
  • 风冷失效:空气比热容低、导热差,当机柜功耗超过30千瓦后,热量堆积导致芯片过热降频甚至宕机。
  • 能耗高昂:风冷数据中心PUE(电源使用效率)普遍在1.4-1.6之间,大量电力被用于空调和风扇散热,而非计算本身。

2. 液冷技术的三种路径

  • 冷板式液冷:通过金属冷板间接导热,改造成本低,是30-50千瓦功耗区间的过渡方案,但存在冷热不均问题。
  • 喷淋式液冷:直接喷洒冷却液,效率高但系统复杂,工程难题尚未完全攻克。
  • 浸没式液冷:将整台服务器浸入液体中,导热能力是空气的25倍,散热能力是风冷的数倍至十几倍,可实现静音、无尘运行,是50千瓦以上高密度集群的最优解。

3. 关键介质:电子氟化液

  • 三大特性:具备不导电、不腐蚀、不挥发(沸点>110℃)的特性,确保服务器长期浸泡安全。
  • 耐久性验证:测试显示设备在氟化液中浸泡10年后拆解,内部元器件依然完好。
  • 工程挑战:需高标准密封以防漏液;维护流程复杂(需排液操作);部分硬件(如特定硬盘、光模块)需重新设计以适应液体环境。

规模化落地的驱动力

  1. GPU功耗倒逼:英伟达等厂商最新芯片单卡功耗破千,加上国产芯片迭代,风冷和冷板方案已无法满足100千瓦级机柜需求,浸没式液冷成为刚需。
  2. 场景分化与混合架构
    • 训练集群:负载稳定且巨大,适合采用浸没式液冷以确保持续高效散热。
    • 推理任务:负载波动大,可采用更灵活的冷板或风冷方案。
    • 未来趋势:数据中心将形成“训练用浸没式 + 推理用风冷/冷板”的混合架构。
  3. 国产算力适配:华为昇腾、海光、寒武纪等国产芯片架构多样,浸没式液冷“液体包裹一切”的通用性使其成为适配多元芯片的最佳解。

深层影响:能源与碳排的博弈

  • 节能效果显著:浸没式液冷可将PUE从1.2降至1.07。放大到百万千瓦级集群,年节省电量相当于一座小型水电站的发电量。
  • 双碳目标:在能源紧张背景下,提升散热效率即提升能源效率,是降低AI时代碳排放的关键举措。
  • 投资回报:虽然初期投入比风冷高约20%,但通过节省电费,通常在4年左右即可收回成本(参考中国移动庆阳数据中心测算)。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。