成本下探30%:中科曙光scaleFabric国产IB网络冲击RoCE性价比壁垒
面对智算集群网络瓶颈,中科曙光历时三年推出全栈自研原生IB架构产品scaleFabric,旨在打破英伟达垄断并解决RoCE性能短板。该产品在通信时延、带宽及可靠性上对标英伟达NDR标准,且整体网络成本较进口方案降低约30%,直接冲击了RoCE路线的“性价比护城河”。目前该方案已在近万卡规模集群中稳定运行超10个月,为国产算力网络自主化提供了新路径。
事件概述
随着AI智算集群从千卡迈向万卡甚至十万卡规模,网络传输效率成为制约算力利用率(MFU)的关键瓶颈。传统技术路线中,英伟达主导的InfiniBand(IB)虽性能卓越但价格高昂且存在供应风险;基于以太网的RoCE方案虽成本低廉,但在高负载下存在丢包、死锁及时延高等先天缺陷。在此背景下,中科曙光推出全栈自研的国产原生IB架构高速网络产品scaleFabric,试图在性能与成本之间寻找新的平衡点。
核心信息与技术突破
- 全栈自研架构:scaleFabric是国内首款全栈自研的原生IB架构产品,覆盖底层112G SerDes IP、交换芯片、网卡至上层交换机硬件与管理软件,历时三年研发完成。
- 性能对标国际主流:
- 时延表现:端到端通信时延为0.93微秒,交换机转发时延低至260纳秒,与英伟达NDR(400Gb/s InfiniBand)产品持平,优于RoCE普遍500纳秒以上的时延。
- 带宽能力:单端口带宽达到800G,整机交换容量64T,领先当前RoCE主流交换机一到两代。
- 实测效率:在典型AI训练任务中,网络效率提升超过40%。
- 可靠性机制:采用原生IB的信用流控机制,实现真无损网络,有效避免了RoCE方案中常见的PFC(优先级流量控制)风暴和死锁风险。
- 稳定性验证:该产品已在近万卡规模的集群中持续稳定运行超过10个月。
成本优势与市场影响
- 成本下探:在同等规模集群配置下,scaleFabric的整体网络成本较进口IB方案降低约30%。
- 格局重塑:这一成本优势若被广泛验证,将直接削弱RoCE路线赖以生存的“性价比”优势,迫使市场重新评估不同技术路线的投入产出比。
- 国产化替代:中科曙光的目标是实现IB技术路线的国产化替代,打破单一厂商垄断,推动技术开放与市场共享。
研发挑战
研发团队在链路技术上面临巨大挑战,初期无法直接采购现成方案,最终选择从零组建团队攻克关键技术。团队不仅致力于对标英伟达,更立志在关键规格上实现超越,并在国家支持下完成了技术攻关。
