NVIDIA Spectrum-X 以太网引入 MRC 协议,提升千亿级 AI 训练网络性能与韧性
2026/05/06 19:30阅读量 5
NVIDIA 宣布将 Multipath Reliable Connection (MRC) 协议开放给行业。该协议已在 Spectrum-X 以太网硬件上完成优化和验证,能够通过多路径流量分发、动态负载均衡和智能重传,提升大规模 AI 训练网络的吞吐量、可用性和故障恢复能力。OpenAI、微软和 Oracle 等已在超大规模 AI 工厂中部署 MRC。
事件概述
NVIDIA 正式向业界开放 Multipath Reliable Connection (MRC) 协议。该协议是一种 RDMA 传输协议,已在 NVIDIA Spectrum-X 以太网硬件上率先完成生产验证和性能优化,并通过 Open Compute Project (OCP) 发布为开放规范。
核心技术能力
MRC 允许单个 RDMA 连接将流量分发到多条网络路径,实现:
- 负载均衡:动态避开拥塞路径,保障每个 GPU 在训练过程中获得所需带宽
- 高吞吐量:即使在网络拥塞下仍能维持高带宽
- 精准重传:出现数据丢失时快速恢复,减少 GPU 空闲时间
- 故障绕过:微秒级检测路径故障并自动重路由,防止集群中断
行业部署与合作
- OpenAI 在 Blackwell 代际部署 MRC,称其有效避免了典型网络延迟和中断,维持了大规模前沿训练的效率。
- 微软 Fairwater 和 Oracle Cloud Infrastructure (OCI) Abilene 数据中心均依赖 MRC 满足性能、规模和效率要求。
- NVIDIA 与 AMD、Broadcom、Intel、Microsoft、OpenAI 合作开发 MRC。
关键架构创新
Spectrum-X 以太网支持多平面网络设计(Multiplane),在多个独立网络平面间实现硬件加速的负载均衡,在扩展至数十万 GPU 规模时仍保持低延迟和高韧性。客户可根据工作负载选择 Adaptive RDMA、MRC 或其他自定义传输模型。
