# Code Orange: Fail Small is complete. The result is a stronger Cloudflare network Canonical URL: https://www.traeai.com/articles/addb3e32-7877-400c-8e57-74772b86162e Original source: https://blog.cloudflare.com/code-orange-fail-small-complete/ Source name: The Cloudflare Blog Content type: article Language: 中文 Score: 9.2 Reading time: 9 分钟 Published: 2026-05-01T21:07:30+00:00 Tags: Cloudflare, SRE, 配置管理, 故障治理, 韧性架构 ## Summary Cloudflare 完成「Code Orange: Fail Small」工程计划,通过 Snapstone 配置安全发布系统、故障影响收敛与弹性降级机制,系统性消除导致 2025 年两次全球中断的根本原因。 ## Key Takeaways - Snapstone 实现配置变更的渐进式发布、实时健康监测与自动回滚,统一覆盖所有高风险配置单元。 - 引入「fail stale / fail open / fail close」三级故障策略,显著缩小单点故障影响半径。 - 所有核心流量产品已强制采用健康中介部署(health-mediated deployment),配置即代码的安全等级等同于软件发布。 ## Outline - Code Orange 计划收官 — 宣布历时两个多季度的「Fail Small」韧性升级工程正式完成,可规避2025年两次重大中断。 - Snapstone:配置安全发布的统一基座 — 新自研系统将任意配置单元(数据文件/控制标志)纳入渐进发布、健康监控与自动回滚闭环。 - 故障影响收敛机制 — 通过移除非必要运行时依赖、定义 fail stale/open/close 策略,实现最小化服务中断半径。 - 防退化与客户沟通强化 — 建立配置漂移检测机制,并标准化 outage 期间客户通知时效与透明度要求。 - 落地效果验证 — 明确指出本次升级直接覆盖11月18日与12月5日两次中断的根因配置路径。 ## Highlights - > Snapstone 允许团队按需定义任意配置单元为健康中介对象——无论是引发11月中断的数据文件,还是导致12月中断的全局控制标志。 — Safer configuration changes - > 我们不再‘瞬间全网推送配置’;而是默认渐进发布+实时健康监测,问题可在影响用户前被观测并自动回滚。 — Safer configuration changes - > 当故障发生时,系统优先使用‘最后已知良好配置’(fail stale);否则依场景选择‘降级开放’或‘安全关闭’,而非全局不可用。 — Reducing the impact of failure - > 配置变更的安全等级,现在与软件发布完全对齐——这是 Cloudflare 将‘配置即代码’真正落地的关键里程碑。 — Safer configuration changes ## Citation Guidance When citing this item, prefer the canonical traeai article URL for the AI-readable summary and include the original source URL when discussing the underlying source material.