OpenAI 把训练 ChatGPT 用的网络协议开源了

TL;DR · AI 摘要
OpenAI 联合多家公司开源 MRC 协议,提升大模型训练网络可靠性,已在超算中部署验证。
核心要点
- MRC 实现微秒级故障绕过,避免传统网络中断导致训练重启。
- 采用 SRv6 源路由取代 BGP,简化网络架构,降低故障面。
- 多路径并行传输使十万级 GPU 集群仅需两层交换结构,降低成本与功耗。
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- MRC 网络协议
- 设计目标
- 高可靠训练
- 低GPU浪费
- 关键技术
- 多路径传输
- SRv6 源路由
- 架构优势
- 两层交换结构
- 微秒级容错
- 部署实例
- Stargate 超算
- GB200 集群
金句 / Highlights
值得收藏与分享的关键句。
一次训练步可能涉及几百万次数据传输,只要有一笔晚到,所有 GPU 都得干等。
发送方直接指定每个包走哪条路,交换机退化成'无脑'转发器,故障面大幅缩小。
团队重启了4台核心交换机,不需要跟训练团队协调……对训练任务也没有可测量的影响。
这套协议叫 MRC(Multipath Reliable Connection,多路径可靠连接),由 OpenAI 联合 AMD、博通、英特尔、微软、英伟达共同开发,通过" / X
OpenAI 把训练 ChatGPT 用的网络协议开源了。x.com/OpenAI/status/ 这套协议叫 MRC(Multipath Reliable Connection,多路径可靠连接),由 OpenAI 联合 AMD、博通、英特尔、微软、英伟达共同开发,通过 OCP(开放计算项目,业内最大的开源硬件标准组织)开放给全行业。AMD、博通、微软、英伟达同步发了配套博文。 训练大模型,几万到十几万张 GPU 要保持步调一致。一次训练步可能涉及几百万次数据传输,只要有一笔晚到,所有 GPU 都得干等。集群越大,链路抖动和故障越频繁。 传统网络的麻烦:一条链路挂了,整个训练任务可能崩掉,得回到上一个检查点重跑;交换机重新算路由要花好几秒甚至几十秒。OpenAI 在搭 Stargate(其大型算力基础设施项目)这种规模的集群时,遇到的第一个瓶颈就是网络。 过去一笔传输只走一条路径,MRC 改成把数据包拆散,同时分头走几百条路径,目的地再按内存地址重新拼起来。 链路出问题,微秒级就能绕开,不需要交换机重算路由表。OpenAI 还把动态路由协议(BGP)整个砍掉,改用 SRv6 源路由:发送方直接指定每个包走哪条路,交换机退化成"无脑"转发器,故障面大幅缩小。 网络结构因此简化。原本要 3 到 4 层交换机才能连起十几万张 GPU,MRC 的多平面设计 2 层就够,功耗、成本、故障点全降。 MRC 已经部署在 OpenAI 所有最大的英伟达 GB200 超算上,包括 Stargate 在德州 Abilene 与甲骨文合建的站点,以及微软 Fairwater 数据中心。多个 OpenAI 模型用它训练出来。 最直观的例子:最近一次前沿模型训练(服务 ChatGPT 和 Codex)期间,团队重启了 4 台核心交换机,不需要跟训练团队协调;每分钟还有多次链路抖动,对训练任务也没有可测量的影响。换以前,这种事故足以让整个任务崩溃。

Quote

OpenAI
@OpenAI
10h
We’ve partnered with @AMD, @Broadcom, @Intel, @Microsoft, and @NVIDIA, to release Multipath Reliable Connection (MRC), a new open networking protocol that helps large AI training clusters run faster and more reliably, with less wasted GPU time. openai.com/index/mrc-supe