OpenAI联合多家厂商推出MRC协议，破解大规模AI训练网络瓶颈

2026/05/05 18:00阅读量 7

OpenAI与AMD、Broadcom、Intel、Microsoft、NVIDIA合作开发了MRC（多路径可靠连接）协议，通过数据包喷洒和源路由技术，显著提升大规模AI训练集群的网络可靠性及性能。该协议已部署于Stargate等超级计算机，并作为开源规范贡献给Open Compute Project。

OpenAI与AMD、Broadcom、Intel、Microsoft、NVIDIA经过两年合作，开发出MRC（Multipath Reliable Connection）网络协议。该协议内置于最新800Gb/s网络接口中，可将单一传输分散到数百条路径，微秒级绕过故障，并简化网络控制平面。MRC已在OpenAI最大的NVIDIA GB200超级计算机（包括德克萨斯州阿比林的Stargate站点及Microsoft的Fairwater超级计算机）上部署，用于训练多个前沿模型。

核心设计
MRC扩展了RDMA over Converged Ethernet (RoCE)标准，引入多平面网络拓扑：将单个800Gb/s接口拆分为多条100Gb/s链路，连接至不同交换机，构建八个并行平面。这使得仅用两层交换机即可连接约13.1万个GPU，降低功耗、组件成本和故障概率。传统单路径协议下，多平面网络易产生拥塞；MRC则采用自适应数据包喷洒，将数据包分散至数百条路径，允许乱序到达但通过最终内存地址直接交付。若某路径出现拥塞或丢包，MRC立即停用该路径并重传，同时发送探测包检测恢复情况。

生产部署与开源
目前MRC已用于OpenAI的多个训练集群，并支撑每周超9亿ChatGPT用户的底层系统。2026年5月5日，OpenAI通过Open Compute Project (OCP)发布MRC 1.0规范，同时公开技术论文《Resilient AI Supercomputer Networking using MRC and SRv6》，供行业使用和进一步开发。

阅读原文详情

准备好启动您的定制项目了吗？