OpenAI 把训练 ChatGPT 用的网络协议开源了

宝玉(@dotey)

宝玉(@dotey)2026年5月6日

OpenAI 把训练 ChatGPT 用的网络协议开源了

9.2内容质量

TL;DR · AI 摘要

OpenAI 联合多家公司开源 MRC 协议，提升大模型训练网络可靠性，已在超算中部署验证。

核心要点

MRC 实现微秒级故障绕过，避免传统网络中断导致训练重启。
采用 SRv6 源路由取代 BGP，简化网络架构，降低故障面。
多路径并行传输使十万级 GPU 集群仅需两层交换结构，降低成本与功耗。

结构提纲

按章节快速跳转。

§引言：OpenAI 开源训练网络协议
OpenAI 联合多家硬件巨头发布 MRC 协议，提升 AI 训练效率。
·大模型训练的网络瓶颈
大规模 GPU 集群对网络一致性要求极高，链路抖动即影响整体进度。
·MRC 的核心技术机制
多路径拆分传输 + SRv6 源路由，实现快速容错与轻量转发。
·网络架构的简化与优化
从三层交换变为两层平面结构，降低延迟、成本与能耗。
·实际部署与运行表现
已在 GB200 超算上运行多个模型，支持交换机热重启无中断。
§行业协作与开源生态
通过 OCP 推广，AMD、微软等同步发布支持博文，共建标准。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

MRC 网络协议
- 设计目标
  - 高可靠训练
  - 低GPU浪费
- 关键技术
  - 多路径传输
  - SRv6 源路由
- 架构优势
  - 两层交换结构
  - 微秒级容错
- 部署实例
  - Stargate 超算
  - GB200 集群

金句 / Highlights

值得收藏与分享的关键句。

一次训练步可能涉及几百万次数据传输，只要有一笔晚到，所有 GPU 都得干等。
— 正文第2段
⬇︎ 下载 PNG 𝕏 分享到 X
发送方直接指定每个包走哪条路，交换机退化成'无脑'转发器，故障面大幅缩小。
— 正文第5段
⬇︎ 下载 PNG 𝕏 分享到 X
团队重启了4台核心交换机，不需要跟训练团队协调……对训练任务也没有可测量的影响。
— 正文最后一段
⬇︎ 下载 PNG 𝕏 分享到 X

#MRC#OpenAI#大模型训练#网络协议#SRv6

打开原文

这套协议叫 MRC（Multipath Reliable Connection，多路径可靠连接），由 OpenAI 联合 AMD、博通、英特尔、微软、英伟达共同开发，通过" / X

OpenAI 把训练 ChatGPT 用的网络协议开源了。x.com/OpenAI/status/ 这套协议叫 MRC（Multipath Reliable Connection，多路径可靠连接），由 OpenAI 联合 AMD、博通、英特尔、微软、英伟达共同开发，通过 OCP（开放计算项目，业内最大的开源硬件标准组织）开放给全行业。AMD、博通、微软、英伟达同步发了配套博文。训练大模型，几万到十几万张 GPU 要保持步调一致。一次训练步可能涉及几百万次数据传输，只要有一笔晚到，所有 GPU 都得干等。集群越大，链路抖动和故障越频繁。传统网络的麻烦：一条链路挂了，整个训练任务可能崩掉，得回到上一个检查点重跑；交换机重新算路由要花好几秒甚至几十秒。OpenAI 在搭 Stargate（其大型算力基础设施项目）这种规模的集群时，遇到的第一个瓶颈就是网络。过去一笔传输只走一条路径，MRC 改成把数据包拆散，同时分头走几百条路径，目的地再按内存地址重新拼起来。链路出问题，微秒级就能绕开，不需要交换机重算路由表。OpenAI 还把动态路由协议(BGP)整个砍掉,改用 SRv6 源路由:发送方直接指定每个包走哪条路,交换机退化成"无脑"转发器,故障面大幅缩小。网络结构因此简化。原本要 3 到 4 层交换机才能连起十几万张 GPU,MRC 的多平面设计 2 层就够,功耗、成本、故障点全降。 MRC 已经部署在 OpenAI 所有最大的英伟达 GB200 超算上,包括 Stargate 在德州 Abilene 与甲骨文合建的站点,以及微软 Fairwater 数据中心。多个 OpenAI 模型用它训练出来。最直观的例子:最近一次前沿模型训练(服务 ChatGPT 和 Codex)期间,团队重启了 4 台核心交换机,不需要跟训练团队协调;每分钟还有多次链路抖动,对训练任务也没有可测量的影响。换以前,这种事故足以让整个任务崩溃。

Quote

Image 2: Square profile picture

OpenAI

@OpenAI

10h

We’ve partnered with @AMD, @Broadcom, @Intel, @Microsoft, and @NVIDIA, to release Multipath Reliable Connection (MRC), a new open networking protocol that helps large AI training clusters run faster and more reliably, with less wasted GPU time. openai.com/index/mrc-supe