平头哥发布首款智能网卡磐脉 920,从“网力”入手释放AI算力潜能
2026/05/07 09:00阅读量 5
平头哥发布国内首个内置PCIe Switch的400G智能网卡磐脉 920,目标解决AI集群中因网络瓶颈导致的算力浪费。通过多路径RDMA、内置PCIe直连和主动拥塞控制,实测将训练和推理任务完成时间缩短14%。该产品已量产,将率先部署于阿里云数据中心,补齐平头哥“算力、存力、网力”全栈硬件布局。
事件核心
4月28日,在数字中国建设峰会上,平头哥发布首款智能网卡磐脉 920。这是国内首个内置PCIe Switch的400G智能网卡,最大支持400Gbps吞吐带宽,可应用于万卡智算集群、通算集群和高性能存储等场景,已量产并率先部署在阿里云数据中心。
背景与问题
大模型训练和推理中,GPU集群的效能并不随卡数线性提升。当前行业万卡级智算集群的GPU实际利用率普遍较低,顶尖水平仅约60%。瓶颈往往不在算力本身,而在“网力”——数据在网络中的传输效率。平头哥产品总监李旭慧比喻:算力是石油,网力就是输油管道。
核心技术与效果
磐脉 920 通过三个关键设计提升网力:
- 多路径RDMA:支持逐包喷洒、乱序接收和选择性重传,实现单QP打满400G带宽(同类主流约一半),且将交换机端口缓冲区水线降低90%,减少丢包和重传。
- 内置PCIe Switch:将传统绕路转发的架构改为网卡与CPU/GPU直连,降低时延并保持同步效率。
- 细粒度网络感知与可编程拥塞控制:主动避堵,从被动传输变为主动调度。
据官方实测,在相同集群规模和任务条件下,部署磐脉 920 后大模型训练和推理任务完成时间缩短14%。
产业意义
磐脉 920 的发布补齐了平头哥“算力(真武AI芯片)、存力(镇岳存储主控)、网力(磐脉网卡)”的全栈芯片产品线。其研发驱动来自阿里云一线业务场景的实际需求:先有大规模业务场景,再倒推产品定义。这体现了阿里“通云哥”(通义-模型、阿里云-场景、平头哥-硬件)的协同闭环:模型需求推动云基础设施升级,云场景反向推动芯片演进。
