成本下探30%:中科曙光scaleFabric国产IB网络冲击RoCE性价比壁垒

面对智算集群网络瓶颈,中科曙光历时三年推出全栈自研原生IB架构产品scaleFabric,旨在打破英伟达垄断并解决RoCE性能短板。该产品在通信时延、带宽及可靠性上对标英伟达NDR标准,且整体网络成本较进口方案降低约30%,直接冲击了RoCE路线的“性价比护城河”。目前该方案已在近万卡规模集群中稳定运行超10个月,为国产算力网络自主化提供了新路径。

事件概述

随着AI智算集群从千卡迈向万卡甚至十万卡规模,网络传输效率成为制约算力利用率(MFU)的关键瓶颈。传统技术路线中,英伟达主导的InfiniBand(IB)虽性能卓越但价格高昂且存在供应风险;基于以太网的RoCE方案虽成本低廉,但在高负载下存在丢包、死锁及时延高等先天缺陷。在此背景下,中科曙光推出全栈自研的国产原生IB架构高速网络产品scaleFabric,试图在性能与成本之间寻找新的平衡点。

核心信息与技术突破

  • 全栈自研架构:scaleFabric是国内首款全栈自研的原生IB架构产品,覆盖底层112G SerDes IP、交换芯片、网卡至上层交换机硬件与管理软件,历时三年研发完成。
  • 性能对标国际主流
    • 时延表现:端到端通信时延为0.93微秒,交换机转发时延低至260纳秒,与英伟达NDR(400Gb/s InfiniBand)产品持平,优于RoCE普遍500纳秒以上的时延。
    • 带宽能力:单端口带宽达到800G,整机交换容量64T,领先当前RoCE主流交换机一到两代。
    • 实测效率:在典型AI训练任务中,网络效率提升超过40%。
  • 可靠性机制:采用原生IB的信用流控机制,实现真无损网络,有效避免了RoCE方案中常见的PFC(优先级流量控制)风暴和死锁风险。
  • 稳定性验证:该产品已在近万卡规模的集群中持续稳定运行超过10个月。

成本优势与市场影响

  • 成本下探:在同等规模集群配置下,scaleFabric的整体网络成本较进口IB方案降低约30%。
  • 格局重塑:这一成本优势若被广泛验证,将直接削弱RoCE路线赖以生存的“性价比”优势,迫使市场重新评估不同技术路线的投入产出比。
  • 国产化替代:中科曙光的目标是实现IB技术路线的国产化替代,打破单一厂商垄断,推动技术开放与市场共享。

研发挑战

研发团队在链路技术上面临巨大挑战,初期无法直接采购现成方案,最终选择从零组建团队攻克关键技术。团队不仅致力于对标英伟达,更立志在关键规格上实现超越,并在国家支持下完成了技术攻关。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。