AWS用随机图理论替代Fat-Tree数据中心网络,路由器减少69%

TL;DR · AI 摘要
AWS利用随机图理论重构数据中心网络,将路由器数量减少69%,但原文内容缺失无法提取具体技术细节。
核心要点
- AWS采用随机图理论替代传统Fat-Tree拓扑优化数据中心网络架构。
- 新架构使数据中心所需路由器数量大幅减少69%。
- 因原文正文缺失,具体实施机制与性能数据暂不可考。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- AWS Random Graph Network
标题:AWS 利用随机图理论取代 Fat-Tree 数据中心网络,路由器数量减少 69%
URL 来源:https://www.infoq.com/news/2026/06/aws-random-graph-data-center/
发布时间:2026-06-04T08:25:00+0000
Markdown 内容:
AWS 利用随机图理论取代 Fat-Tree 数据中心网络,路由器数量减少 69% - InfoQ
关于本网站 Cookie 的使用选择
我们使用 Cookie 来优化网站功能并为您提供最佳体验。
我接受 我不接受 设置
[BT](https://www.infoq.com/int/bt/ "bt")
InfoQ 软件架构师通讯
每月为架构师及有志成为架构师的您精选的必读资讯概览。
请输入您的电子邮箱地址
选择您的国家/地区 - [x] 我同意 InfoQ.com 按照本隐私声明中的说明处理我的数据。
关闭
InfoQ 在线架构师认证(6 月 10 日):资深工程师在此对真实架构决策进行压力测试。立即报名
关闭
切换导航
促进专业软件开发领域的知识传播与创新
英文版
[为 InfoQ 撰稿](https://www.infoq.com/write-for-infoq/ "为 InfoQ 撰稿")
搜索
解锁完整的 InfoQ 体验
登录即可解锁完整的 InfoQ 体验!关注您喜爱的作者和主题,参与内容互动,并下载独家资源。
或
还没有 InfoQ 账号?
- 及时获取您关注的主题和同行的最新动态:第一时间接收最新洞察与趋势提醒。
- 快速获取免费资源以持续学习:迷你书、带文字稿的视频以及培训材料。
- 收藏文章随时随地阅读:将文章加入书签,方便稍后阅读。
主题
[开发](https://www.infoq.com/development/ "开发")
- [Java](https://www.infoq.com/java/ "Java")
- [Kotlin](https://www.infoq.com/kotlin/ "Kotlin")
- [.Net](https://www.infoq.com/dotnet/ ".Net")
- [C#](https://www.infoq.com/c_sharp/ "C#")
- [Swift](https://www.infoq.com/swift/ "Swift")
- [Go](https://www.infoq.com/golang/ "Go")
- [Rust](https://www.infoq.com/rust/ "Rust")
- [JavaScript](https://www.infoq.com/javascript/ "JavaScript")
开发版块精选
Dany Lepage 探讨了将一款热门 VR 游戏移植到七个非 VR 平台的架构历程。他解释了团队如何解决跨平台进度同步、多样化输入范式以及在 Steam、iOS 和 PlayStation 上保持发布节奏等挑战。除技术细节外,他还坦诚分享了在将沉浸式社交体验转化为 2D 屏幕呈现时,关于“产品适配”差距的经验教训。

查看全部开发内容关注该主题
[架构与设计](https://www.infoq.com/architecture-design/ "架构与设计")
- [架构](https://www.infoq.com/architecture/ "架构")
- [企业架构](https://www.infoq.com/enterprise-architecture/ "企业架构")
- [可扩展性/性能](https://www.infoq.com/performance-scalability/ "可扩展性/性能")
- [设计](https://www.infoq.com/design/ "设计")
- [案例研究](https://www.infoq.com/Case_Study/ "案例研究")
- [微服务](https://www.infoq.com/microservices/ "微服务")
- [服务网格](https://www.infoq.com/servicemesh/ "服务网格")
- [模式](https://www.infoq.com/DesignPattern/ "模式")
- [安全](https://www.infoq.com/Security/ "安全")
架构与设计版块精选
演讲者讨论了在分布式数据存储中执行安全数据删除所面临的架构挑战。在平衡持久性、可用性与正确性的同时,他们解释了如何在不影响线上流量的情况下协调多系统间的删除传播。他们还分享了控制墓碑记录累积、构建持续审计循环以及通过集中式平台赢得信任等方面的经验。

查看全部架构与设计内容关注该主题
[AI 基础设施](https://www.infoq.com/ai-ml-data-eng/ "AI 基础设施")
- [大数据](https://www.infoq.com/bigdata/ "Big Data")
- [机器学习](https://www.infoq.com/machinelearning/ "Machine Learning")
- [NoSQL](https://www.infoq.com/nosql/ "NoSQL")
- [数据库](https://www.infoq.com/database/ "Database")
- [数据分析](https://www.infoq.com/data-analytics/ "Data Analytics")
- [流处理](https://www.infoq.com/streaming/ "Streaming")
AI、ML 与数据工程精选
Sepehr Khosravi 探讨了开发者生产力工具的演进历程。通过评估 Cursor 和 Claude Code 等工具的优势,他讲解了面向资深工程师的实用技术——包括上下文工程、自定义规则以及模型上下文协议(MCP)集成。他还分享了真实世界的基准测试数据和战略框架,帮助在采用 AI 的同时保持整洁的代码质量。

[文化与方法](https://www.infoq.com/culture-methods/ "Culture & Methods")
- [敏捷](https://www.infoq.com/agile/ "Agile")
- [多元化](https://www.infoq.com/diversity/ "Diversity")
- [领导力](https://www.infoq.com/leadership/ "Leadership")
- [精益/看板](https://www.infoq.com/lean/ "Lean/Kanban")
- [个人成长](https://www.infoq.com/personal-growth/ "Personal Growth")
- [Scrum](https://www.infoq.com/scrum/ "Scrum")
- [合弄制](https://www.infoq.com/sociocracy/ "Sociocracy")
- [软件匠艺](https://www.infoq.com/software_craftsmanship/ "Software Craftmanship")
- [团队协作](https://www.infoq.com/team-collaboration/ "Team Collaboration")
- [测试](https://www.infoq.com/testing/ "Testing")
- [用户体验](https://www.infoq.com/ux/ "UX")
文化与方法精选
Trisha Ballakur 以她的初创公司 Pointz 为案例,分享了她从后端软件工程师成长为 CTO 和 CEO 的历程。她阐述了如何通过自下而上的客户探索来实现产品市场契合,如何有效委派任务给全球承包商以缩短构建时间,如何定制 Valhalla 等开源代码库,以及如何将工程测试用例模型应用于业务发展。

- [基础设施](https://www.infoq.com/infrastructure/ "Infrastructure")
- [持续交付](https://www.infoq.com/continuous_delivery/ "Continuous Delivery")
- [自动化](https://www.infoq.com/automation/ "Automation")
- [容器](https://www.infoq.com/containers/ "Containers")
- [云计算](https://www.infoq.com/cloud-computing/ "Cloud")
- [可观测性](https://www.infoq.com/observability/ "Observability")
DevOps 精选
- #### 事故的人力代价及缓解之道
Kyle Lexmond 讲解了如何应对严重生产故障带来的高压环境。他探讨了缓解措施与根因解决之间的关键区别,并分享了自己在紧张事故指挥室中的亲身经历。他还提供了宝贵的运维策略,涵盖如何克服认知过载、建立无指责文化以及优化系统以实现更快恢复。

查看 devops 全部内容关注该主题
[活动](https://events.infoq.com/ "Events")
实用链接
- [关于 InfoQ](https://www.infoq.com/about-infoq "About InfoQ")
- [InfoQ 编辑团队](https://www.infoq.com/infoq-editors "InfoQ Editors")
- [为 InfoQ 撰稿](https://www.infoq.com/write-for-infoq "Write for InfoQ")
- [关于 C4Media](https://c4media.com/ "About C4Media")
- [多元化](https://c4media.com/diversity "Diversity")
选择语言

[InfoQ 首页](https://www.infoq.com/ "InfoQ Homepage")[新闻](https://www.infoq.com/news "News")AWS 利用随机图理论取代 Fat-Tree 数据中心网络,路由器数量减少 69%
[云计算](https://www.infoq.com/Cloud/ "Cloud")
InfoQ 在线架构师认证(6 月 10 日):通过同行交流重塑你的架构思维。
AWS 利用随机图理论取代 Fat-Tree 数据中心网络,路由器数量减少 69%
2026 年 6 月 4 日 阅读时长约 3 分钟
作者:
- Steef-Jan Wiggers
关注 Cloud Queue 首席编辑 | 领域架构师 | 云计算专家
#### 为 InfoQ 撰稿
满足你的好奇心。每月助力全球超过 55 万资深开发者保持技术领先。联系我们
登录以收听本文
音频加载中
0:00 0:00
正常 1.25倍 1.5倍
点赞
早在 20 世纪 90 年代初,数学家就已证明随机连接路由器能构建出最高效且最具韧性的网络拓扑。AWS 花了大约 30 年时间才将这一理论成果转化为生产级基础设施。该公司披露,弹性网络图(RNG)——一种基于准随机图理论的扁平化网络架构,现已成为全球大多数新建非 GPU AWS 数据中心的默认配置。
在一篇发布于 arXiv 的论文中,Giacomo Bernardi(AWS 首席应用科学家)、Ratul Mahajan(华盛顿大学教授、Amazon Scholar)和 Seshadhri Comandur(加州大学圣克鲁兹分校教授、Amazon Scholar)将其描述为基于扩展器(expander)的网络架构首次大规模生产部署。数据显示:网络设备减少了 69%,吞吐量提升了高达 33%,预计网络设备功耗将降低 40%。
要理解这项变革的意义,首先需要了解它所取代的传统方案。传统数据中心网络采用 Fat-Tree(胖树)拓扑结构:服务器连接到机架顶置(ToR)交换机,再汇聚到聚合交换机,最终连接到核心交换机。不同机架上两台服务器之间的流量必须沿层级向上到达共享的核心层,然后再向下传输。一旦核心链路发生拥塞,即使其他位置带宽充裕,整体吞吐量也会下降。而扩容意味着需要增加整层交换机,成本高昂且能耗巨大。

_(来源:Amazon Science 博客文章)_
正如一位从业者在 Reddit 上所指出的,其核心洞察在于 RNG "_本质上是一个物理拓扑挑战,而非单纯的路由挑战_":
其关键在于拥有足够数量的具备路由能力的节点,并通过无源光学 ShuffleBox 对其连接进行准随机化处理。从平均效果来看,这既能减少热点链路,又能降低对昂贵的高带宽聚合链路的需求。
从具体的网络术语来看,正如另一位评论者所解释的那样,AWS 实际上完全取代了脊叶(spine-leaf)架构的脊层和叶层:“*通过机架间上行链路盒,将 ToR 交换机以网状结构直接连接到随机的其他 ToR 节点*。”层级结构消失了。每个机架都直接连接到一组准随机的其他机架。
要使这种架构正常运行,需要解决两个问题。第一个是物理布线。在超大规模数据中心里,不可能真的随意拉线。AWS 构建了 ShuffleBox,这是一种内部光纤经过混洗连接的无源光学设备。它在保持逻辑拓扑准随机的同时,使物理布线像插入本地端口一样简单直接。由于 ShuffleBox 是无源的,它不会增加延迟,不消耗电力,也不会引入新的故障模式。
第二个问题是路由。在没有层级结构引导数据包的情况下,流量需要一种不同的策略。AWS 构建了 Spraypoint,这是一种自定义的分布式协议,它将流量同时分散到相邻的路由器上,并使用指定的路径点来引导数据包到达目的地。通过多条路径发送数据包听起来很浪费,但正如一位 Reddit 评论者所指出的那样:
通过多条路径发送相同的数据包听起来效率低下,乍一看似乎根本不会让事情变快……但仔细想想,如果你的网络本身就需要具备多路径冗余且不能有性能损失,那为什么不直接利用这些带宽来传输数据包副本,而不是让它们闲置呢?
对于评估网络架构的从业者来说,弹性可能是最具说服力的论点。在胖树(fat-tree)拓扑中,失去一个脊交换机会导致其下方所有机架出现灾难性的级联瓶颈。而在 RNG 拓扑中,失去 1% 的路由器仅会导致约 1% 的容量损失。网络会按比例降级而非灾难性崩溃,因为随机图的连接分布极其均匀,没有任何单个节点会成为瓶颈。
在生产环境部署之前,团队进行了广泛的验证,在 EC2 上针对数十种流量模式运行了相当于 530 处理器年的模拟测试。首个生产网络于 2024 年底在爱尔兰都柏林附近上线。在 2026 年 4 月将 RNG 设为默认架构之前,AWS 已在爱尔兰、德国和西班牙的设施中完成了三次部署,以进行验证和优化。arXiv 上的论文报告显示,与胖树设计相比,RNG 可节省 9% 至 45% 的成本,且性能持平或更优。客户无需对工作负载进行任何更改。
一个重要的适用范围限制是:RNG 针对的是通用计算场景,其流量模式近似于随机分布。AI 训练产生的是协调一致的集中式流量,不符合该模型,因此 AWS 对其 GPU 集群仍继续使用 UltraServer 架构。
业界面临的问题是,这究竟是 AWS 独有的优势,还是会成为其他运营商也会采用的架构。Google、Microsoft 和 Meta 都已发表了关于胖树网络替代方案的研究,但尚未有任何一家披露在同等规模下部署基于扩展图(expander-based)网络的生产环境。
关于作者

#### Steef-Jan Wiggers
Steef-Jan Wiggers 是 InfoQ 的资深云编辑之一,同时在荷兰 VGZ 担任领域架构师。他目前的技术专长集中在集成平台实施、Azure DevOps、AI 以及 Azure 平台解决方案架构。Steef-Jan 是各类会议和用户组的常客演讲者,并长期为 InfoQ 撰稿。此外,他在过去十六年中一直被 Microsoft 授予 Microsoft Azure MVP 称号。
展开 收起
#### 本文属于 Cloud 主题
关注主题
##### 相关主题:
关注者:4113
关注主题
关注者:10254
关注主题
关注者:5083
关注主题
关注者:2142
关注主题
关注者:372
关注主题
关注者:54
关注主题
关注者:7
关注主题
关注者:348
关注主题
* #### Cloud 热门内容
* #### 相关赞助商
- ##### 8 种部署模式结构,助力 CI/CD 转型
- ##### 现代移动应用安全中实时威胁监控与分析的必要性
- #### 相关赞助商
在全球应用最广泛的 Actor 模型运行时上构建并运行数据、API 和 Agentic AI 服务。 Akka 服务具备弹性、敏捷性和高可用性。[了解更多](https://www.infoq.com/url/f/a77be2f9-ed4f-4812-8d45-87fcfe45b734/)。
相关内容
2026年6月1日
2026年5月24日
2026年5月13日
2026年5月13日
2026年5月9日
2026年5月18日 
2026年4月15日 
- 图标##### 流媒体应用后端的演进之路
2026年5月11日 
- ##### 大规模替换数据库序列而不影响 100 多个服务
2026年4月3日 
相关赞助商
- #### Akka 推出面向自主、实时及边缘 AI 系统的 Agentic 平台
探索全新的 Akka Agentic 平台——集编排、智能体、内存和流处理于一体——专为实时、自主及自适应系统而设计。了解如何以更少的算力构建更快速、更智能的 AI。
- #### Gartner® 研究:2025 年云平台服务技术成熟度曲线™
Gartner® 研究指出了云平台创新加速发展的领域,以及 AI Agent 开发框架(如 Akka、Langchain、CrewAI 等)如何为企业带来变革。
- 赞助商

相关内容
- ##### 云原生银行的事件驱动模式:成功经验与痛点教训
2026 年 3 月 31 日 
- ##### 数据驱动的沟通文化如何助力平台工程
2026 年 6 月 4 日
- Icon##### 像侦探一样思考:破解云基础设施谜团
2026 年 1 月 5 日 
- ##### 构建可扩展的流媒体基础设施:因为观众不会等到明天
2025 年 12 月 23 日 
2026 年 6 月 3 日
2026 年 6 月 3 日 
**InfoQ** 新闻周刊
每周二发送,汇总上周 InfoQ 的精彩内容。加入超过 25 万名资深开发者的社区。查看示例
请输入您的电子邮箱地址
选择您的国家 - [x] 我同意 InfoQ.com 按照本隐私声明中的说明处理我的数据。
- ##### [Pip 26.1 发布依赖冷却期和实验性锁文件支持,以应对供应链攻击](https://www.infoq.com/news/2026/05/pip-261-dependency-cooldowns/ "Pip 26.1 发布依赖冷却期和实验性锁文件支持,以应对供应链攻击")
- ##### [Cloudflare 与 Stripe 允许 AI Agent 创建账户、购买域名并部署到生产环境](https://www.infoq.com/news/2026/05/cloudflare-stripe-agent-commerce/ "Cloudflare 与 Stripe 允许 AI Agent 创建账户、购买域名并部署到生产环境")
- ##### [Google 推出 Cloud Fraud Defense 作为 reCAPTCHA 的继任者](https://www.infoq.com/news/2026/05/cloud-fraud-defense-recaptcha/ "Google 推出 Cloud Fraud Defense 作为 reCAPTCHA 的继任者")
- ##### [每账户每秒 30+ 次更新:Uber 通过批处理扩展账本处理能力](https://www.infoq.com/news/2026/06/uber-payment-batching-system/ "每账户每秒 30+ 次更新:Uber 通过批处理扩展账本处理能力")
- ##### [为 Netflix 构建集中式数据删除平台的架构设计](https://www.infoq.com/presentations/architecting-deletion-system/ "为 Netflix 构建集中式数据删除平台的架构设计")
- ##### [架构变更案例:演进式架构的实用工具](https://www.infoq.com/articles/architectural-change-cases/ "架构变更案例:演进式架构的实用工具")
- ##### [数据驱动的沟通文化如何助力平台工程](https://www.infoq.com/news/2026/06/data-driven-platform-engineering/ "数据驱动的沟通文化如何助力平台工程")
- ##### [从创始工程师到 CTO 再到 CEO——在同一家初创公司的蜕变](https://www.infoq.com/presentations/framework-best-practices-startup/ "From Founding Engineer to CTO to CEO – at the Same Startup")
- ##### [AI 的目标是问责制,欧盟法规助力提升透明度](https://www.infoq.com/news/2026/05/accountability-AI-EU-regulations/ "Accountability is the Goal for AI, with EU Regulations Supporting Transparency")
- ##### [如何选择 AI Copilot:最大化开发者生产力](https://www.infoq.com/presentations/choosing-ai-copilot/ "Choosing Your AI Copilot: Maximizing Developer Productivity")
- ##### [为何仅靠向量搜索还不够:面向 RAG 的混合检索](https://www.infoq.com/articles/vector-search-hybrid-retrieval-rag/ "Why Vector Search Alone Isn't Enough: Hybrid Retrieval for RAG")
- ##### [Claude Code 新增动态工作流,支持并行 Agent 协调](https://www.infoq.com/news/2026/06/dynamic-workflows-claude-code/ "Claude Code Adds Dynamic Workflows for Parallel Agent Coordination")
- ##### [事故带来的人员代价及缓解之道](https://www.infoq.com/presentations/incident-response-mitigate/ "The Human Toll of Incidents & Ways To Mitigate It")
- ##### [OpenTelemetry 推出“Blueprints”计划,简化企业可观测性落地](https://www.infoq.com/news/2026/06/opentelemetry-blueprints-launch/ "OpenTelemetry Launches “Blueprints” Initiative to Simplify Enterprise Observability Adoption")
- ##### [Arm 开源 Metis:一款超越传统 SAST 工具的 AI 安全框架](https://www.infoq.com/news/2026/05/arm-metis-agentic-security/ "Arm Open-Sources Metis, an AI Security Framework Outperforming Traditional SAST Tools")
**InfoQ** 周刊
每周二发送,汇总上周 InfoQ 的精彩内容。加入超过 25 万资深开发者的社区。查看示例
- 快速浏览各类创新者和早期采用者技术的发布内容
- 发现你的知识盲区
- 及时掌握您感兴趣领域的最新资讯
请输入您的电子邮箱地址
选择您的国家 - [x] 我同意 InfoQ.com 按照本隐私声明所述方式处理我的数据。
[首页](https://www.infoq.com/ "Home")[注册账号](https://www.infoq.com/reginit.action "Create account")登录[QCon 全球软件开发大会](http://qconferences.com/ "QCon Conferences")活动[为 InfoQ 撰稿](https://www.infoq.com/write-for-infoq/ "Write for InfoQ")[InfoQ 编辑团队](https://www.infoq.com/infoq-editors/ "InfoQ Editors")[关于 InfoQ](https://www.infoq.com/about-infoq/ "About InfoQ")[关于 C4Media](https://c4media.com/ "About C4Media")[媒体资料包](https://get.infoq.com/infoq-mediakit/ "Media Kit")[InfoQ 开发者营销博客](https://devmarketing.c4media.com/?utm_source=infoq "InfoQ Developer Marketing Blog")[多元化](https://c4media.com/diversity "Diversity")
#### 近期活动
- ##### InfoQ 在线架构师认证
2026年6月10日
- ##### InfoQ 在线组织架构师认证
2026年6月19日
- ##### InfoQ 在线 AI 工程认证
2026年7月25日
- ##### QCon 旧金山站
2026年11月16-20日
- ##### QCon 伦敦站 2027
2027年4月13-16日
#### 关注我们
Youtube 23.2万粉丝Linkedin 2.6万粉丝Instagram 新上线RSS 1.9万读者X 5.71万粉丝Facebook 2.1万点赞Bluesky 新上线
#### 保持资讯同步
The InfoQ PodcastEngineering Culture PodcastThe Software Architects' Newsletter
综合反馈 [feedback@infoq.com](mailto:feedback@infoq.com) 广告合作 [sales@infoq.com](mailto:sales@infoq.com) 编辑部 [editors@infoq.com](mailto:editors@infoq.com) 市场营销 [marketing@infoq.com](mailto:marketing@infoq.com)
InfoQ.com 及所有内容版权所有 © 2006-2026 C4Media Inc.
关闭
[BT](https://www.infoq.com/int/bt/ "bt")