OpenAI联合多家厂商推出MRC协议,破解大规模AI训练网络瓶颈
OpenAI与AMD、Broadcom、Intel、Microsoft、NVIDIA合作开发了MRC(多路径可靠连接)协议,通过数据包喷洒和源路由技术,显著提升大规模AI训练集群的网络可靠性及性能。该协议已部署于Stargate等超级计算机,并作为开源规范贡献给Open Compute Project。
OpenAI与AMD、Broadcom、Intel、Microsoft、NVIDIA经过两年合作,开发出MRC(Multipath Reliable Connection)网络协议。该协议内置于最新800Gb/s网络接口中,可将单一传输分散到数百条路径,微秒级绕过故障,并简化网络控制平面。MRC已在OpenAI最大的NVIDIA GB200超级计算机(包括德克萨斯州阿比林的Stargate站点及Microsoft的Fairwater超级计算机)上部署,用于训练多个前沿模型。
核心设计
MRC扩展了RDMA over Converged Ethernet (RoCE)标准,引入多平面网络拓扑:将单个800Gb/s接口拆分为多条100Gb/s链路,连接至不同交换机,构建八个并行平面。这使得仅用两层交换机即可连接约13.1万个GPU,降低功耗、组件成本和故障概率。传统单路径协议下,多平面网络易产生拥塞;MRC则采用自适应数据包喷洒,将数据包分散至数百条路径,允许乱序到达但通过最终内存地址直接交付。若某路径出现拥塞或丢包,MRC立即停用该路径并重传,同时发送探测包检测恢复情况。
生产部署与开源
目前MRC已用于OpenAI的多个训练集群,并支撑每周超9亿ChatGPT用户的底层系统。2026年5月5日,OpenAI通过Open Compute Project (OCP)发布MRC 1.0规范,同时公开技术论文《Resilient AI Supercomputer Networking using MRC and SRv6》,供行业使用和进一步开发。
