T
traeai
登录
返回首页
宝玉(@dotey)

OpenAI 把训练 ChatGPT 用的网络协议开源了

9.2Score
OpenAI 把训练 ChatGPT 用的网络协议开源了

TL;DR · AI 摘要

OpenAI 联合多家公司开源 MRC 协议,提升大模型训练网络可靠性,已在超算中部署验证。

核心要点

  • MRC 实现微秒级故障绕过,避免传统网络中断导致训练重启。
  • 采用 SRv6 源路由取代 BGP,简化网络架构,降低故障面。
  • 多路径并行传输使十万级 GPU 集群仅需两层交换结构,降低成本与功耗。

结构提纲

按章节快速跳转。

  1. §引言:OpenAI 开源训练网络协议

    OpenAI 联合多家硬件巨头发布 MRC 协议,提升 AI 训练效率。

  2. 大规模 GPU 集群对网络一致性要求极高,链路抖动即影响整体进度。

  3. 多路径拆分传输 + SRv6 源路由,实现快速容错与轻量转发。

  4. 从三层交换变为两层平面结构,降低延迟、成本与能耗。

  5. 已在 GB200 超算上运行多个模型,支持交换机热重启无中断。

  6. 通过 OCP 推广,AMD、微软等同步发布支持博文,共建标准。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • MRC 网络协议
    • 设计目标
      • 高可靠训练
      • 低GPU浪费
    • 关键技术
      • 多路径传输
      • SRv6 源路由
    • 架构优势
      • 两层交换结构
      • 微秒级容错
    • 部署实例
      • Stargate 超算
      • GB200 集群

金句 / Highlights

值得收藏与分享的关键句。

  • 一次训练步可能涉及几百万次数据传输,只要有一笔晚到,所有 GPU 都得干等。

    正文第2段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 发送方直接指定每个包走哪条路,交换机退化成'无脑'转发器,故障面大幅缩小。

    正文第5段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 团队重启了4台核心交换机,不需要跟训练团队协调……对训练任务也没有可测量的影响。

    正文最后一段

    ⬇︎ 下载 PNG𝕏 分享到 X
#MRC#OpenAI#大模型训练#网络协议#SRv6
打开原文

这套协议叫 MRC(Multipath Reliable Connection,多路径可靠连接),由 OpenAI 联合 AMD、博通、英特尔、微软、英伟达共同开发,通过" / X

OpenAI 把训练 ChatGPT 用的网络协议开源了。x.com/OpenAI/status/ 这套协议叫 MRC(Multipath Reliable Connection,多路径可靠连接),由 OpenAI 联合 AMD、博通、英特尔、微软、英伟达共同开发,通过 OCP(开放计算项目,业内最大的开源硬件标准组织)开放给全行业。AMD、博通、微软、英伟达同步发了配套博文。 训练大模型,几万到十几万张 GPU 要保持步调一致。一次训练步可能涉及几百万次数据传输,只要有一笔晚到,所有 GPU 都得干等。集群越大,链路抖动和故障越频繁。 传统网络的麻烦:一条链路挂了,整个训练任务可能崩掉,得回到上一个检查点重跑;交换机重新算路由要花好几秒甚至几十秒。OpenAI 在搭 Stargate(其大型算力基础设施项目)这种规模的集群时,遇到的第一个瓶颈就是网络。 过去一笔传输只走一条路径,MRC 改成把数据包拆散,同时分头走几百条路径,目的地再按内存地址重新拼起来。 链路出问题,微秒级就能绕开,不需要交换机重算路由表。OpenAI 还把动态路由协议(BGP)整个砍掉,改用 SRv6 源路由:发送方直接指定每个包走哪条路,交换机退化成"无脑"转发器,故障面大幅缩小。 网络结构因此简化。原本要 3 到 4 层交换机才能连起十几万张 GPU,MRC 的多平面设计 2 层就够,功耗、成本、故障点全降。 MRC 已经部署在 OpenAI 所有最大的英伟达 GB200 超算上,包括 Stargate 在德州 Abilene 与甲骨文合建的站点,以及微软 Fairwater 数据中心。多个 OpenAI 模型用它训练出来。 最直观的例子:最近一次前沿模型训练(服务 ChatGPT 和 Codex)期间,团队重启了 4 台核心交换机,不需要跟训练团队协调;每分钟还有多次链路抖动,对训练任务也没有可测量的影响。换以前,这种事故足以让整个任务崩溃。

Image 1

Quote

Image 2: Square profile picture

OpenAI

@OpenAI

10h

We’ve partnered with @AMD, @Broadcom, @Intel, @Microsoft, and @NVIDIA, to release Multipath Reliable Connection (MRC), a new open networking protocol that helps large AI training clusters run faster and more reliably, with less wasted GPU time. openai.com/index/mrc-supe

AI 可能会生成不准确的信息,请核实重要内容

OpenAI 把训练 ChatGPT 用的网络协议开源了 | 宝玉(@dotey) | traeai