云存储快速：为 AI 和分析加速的对象存储

Q: 协同计算

强调计算与数据的协同位置。

Google Cloud Blog

Google Cloud Blog2026年5月11日

云存储快速：为 AI 和分析加速的对象存储

8.5内容质量

TL;DR · AI 摘要

Cloud Storage Rapid 提供高性能对象存储解决方案，显著提升 AI 和分析工作负载的效率。

核心要点

Rapid Bucket 提供高达 2000 万次查询每秒和亚毫秒级延迟。
Rapid Cache 加速现有存储桶中的计算和数据访问。
Rapid Bucket 将恢复检查点速度提高 5 倍以上。

结构提纲

按章节快速跳转。

§引言
介绍 Cloud Storage Rapid 的背景和目标。
·Rapid Bucket
详细说明 Rapid Bucket 的功能和优势。
›性能特点
列举 Rapid Bucket 的性能指标和应用场景。
·Rapid Cache
描述 Rapid Cache 如何加速数据访问。
›协同计算
强调计算与数据的协同位置。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Cloud Storage Rapid
- Rapid Bucket
  - Ultra-low latency
  - Massive scalability
  - Optimized for AI and analytics
- Rapid Cache
  - Accelerates reads on-demand
  - Colocates compute and data

金句 / Highlights

值得收藏与分享的关键句。

实现高达 2000 万次查询每秒和亚毫秒级延迟。
— Rapid Bucket 性能部分
⬇︎ 下载 PNG 𝕏 分享到 X
Rapid Bucket 提供单个 Rapid 区域存储桶的 15+ TB/s 聚合读取吞吐量。
— Rapid Bucket 性能部分
⬇︎ 下载 PNG 𝕏 分享到 X
Rapid Bucket 的检查点恢复速度提高了 5 倍以上。
— Rapid Bucket 优势部分
⬇︎ 下载 PNG 𝕏 分享到 X

#Google Cloud#AI#对象存储#性能优化

打开原文

标题：Cloud Storage Rapid 为 AI 和分析加速对象存储

来源 URL：https://cloud.google.com/blog/products/storage-data-transfer/cloud-storage-rapid-turbocharges-object-storage-for-ai-analytics/

发布日期：2026-05-12

Markdown 内容：在 Google Cloud Next '26 上，我们宣布了 Cloud Storage Rapid，这是一组面向数据密集型工作负载（如 AI 和分析）的对象存储功能。从一开始，Cloud Storage Rapid 就包括 Rapid Bucket（前身为 Rapid Storage），这是一个高性能的区域性对象存储产品，以及 Rapid Cache（前身为 Anywhere Cache），它能够按需加速读取，并将计算与现有存储桶中的数据进行同位部署。

图 1: https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault_Xu33ocm.max-1300x1300.jpg

Cloud Storage Rapid 是我们对组织如何利用 AI 进行构建这一代际转变的回应。团队正在训练万亿参数模型，以全球规模部署推理，并构建能够处理海量企业数据的自主代理。虽然像 GPU 和 TPU 这样的加速器经常成为焦点，但它们有一个关键依赖项：存储。

存储是训练期间为加速器提供动力的引擎，也是使实时推理响应迅速的快速访问层。但是，随着模型规模的扩大，存储性能可能会成为一个瓶颈。每当 AI/ML 集群等待数据读取或检查点写入操作停滞时，您实际上是在浪费昂贵的计算周期，而这些周期并未执行有用的工作。

历史上，AI/ML 实践者不得不在专用区域存储系统的专业性能和全球对象存储（如 Google Cloud Storage）的可靠性和可扩展性之间做出选择。许多开发人员看重 Cloud Storage 的简单性、可扩展性、可靠性和成本效益，但随着 AI 时代的推进，他们开始向其施加越来越热的工作负载，使用数千个 GPU 和 TPU 来运行训练和推理任务。我们已经达到了一个传统对象存储无法应对的性能临界点。Rapid 家族提供了多种选项，可以直接将计算工作负载与高性能区域存储相结合。它最小化了可能阻塞加速器的 I/O 瓶颈，确保您的 GPU 和 TPU 始终保持完全饱和并高效运行。在这篇博客中，让我们更详细地了解 Cloud Storage Rapid 的能力。

Rapid Bucket

**Rapid Bucket**（已全面可用，GA），帮助 Cloud Storage 满足大规模生成式 AI、分析和其他高性能工作负载不断变化的需求。它通过利用 **Colossus**，即谷歌分布式存储系统（支持 Gemini 和 YouTube），在专用对象存储区域存储桶中提供超大规模的读写性能和极低延迟。

闪电般的性能 通过结合块存储级别的亚毫秒级延迟、并行文件系统的吞吐量以及对象存储的可扩展性和易用性，Rapid Bucket 提供了与您熟悉的 Cloud Storage 相同的高性能。

亮点包括：

极低延迟：实现高达 每秒 2000 万次查询和 亚毫秒级延迟。

超大规模：单个 Rapid 区域存储桶可提供 15+ TB/s 的聚合读取吞吐量。

新语义：启用更高性能的新功能，例如原生追加、无限数量的读取器（同时写入！）以及矢量化读取。

专为 AI 和分析优化 您可以使用 Rapid Bucket 处理各种高要求场景，包括 AI/ML 数据准备、训练、检查点保存、批处理和流式分析处理，以及优化分布式数据库架构。

主要优势包括：

优化加速器利用率：使用 Rapid Bucket，我们观察到 GPU 阻塞时间减少 50%，多模态训练运行的数据加载速度提高 多达 2.5 倍。

更快的检查点保存：与传统对象存储相比，Rapid Bucket 的检查点恢复速度提高了 5 倍，检查点写入速度提高了 3.2 倍。这确保了从工作负载中断中更快恢复，减少了浪费的加速器时间，并提高了整体效率。

使用 Rapid Bucket 检查点恢复速度提高 >5 倍

图 2: https://storage.googleapis.com/gweb-cloudblog-publish/images/1_5x_faster_checkpoint_restores_with_Rapid.max-1200x1200.png

使用 Rapid Bucket 检查点写入速度提高 >3.2 倍

图 3: https://storage.googleapis.com/gweb-cloudblog-publish/images/2_3.2x_faster_checkpoint_writes_with_Rapid.max-1200x1200.png

您可以在此处开始使用 Rapid Bucket：https://docs.cloud.google.com/storage/docs/rapid/rapid-bucket。

Rapid Cache

最初在 Cloud Next ‘25 上宣布的 Rapid Cache 加速了 AI/ML 工作负载的带宽，例如数据准备、训练以及推理时模型的突发加载，为现有存储桶提供了高达 2.5 TB/s 的聚合读取吞吐量——无需更改代码。对于推理工作负载，我们观察到 Rapid Cache 提供了高达 2.1 倍（114%）的模型加载加速，从而节省了 47% 的总体拥有成本（TCO）。

当与多区域存储桶结合使用时，客户可以灵活访问分布在地理区域内的 GPU 和 TPU，同时保持单一存储桶命名空间。这消除了手动协调存储桶间数据移动的需求，同时从区域内高性价比的高性能中受益。

图 4: https://storage.googleapis.com/gweb-cloudblog-publish/images/3_AcceleratedDataAccess.max-1600x1600.png

新功能：写入时缓存预热 一些全球最大的前沿 AI/ML 实验室的客户告诉我们，他们正在寻找在写入后立即加速读取的方法，例如检查点恢复工作负载或随后用于训练的数据准备管道。在此之前，缓存数据需要一次初始读取来触发预热，而这会直接从存储桶以标准性能提供服务。

Rapid Cache 的新写入时缓存预热功能通过在数据写入 Cloud Storage 存储桶的同时将其写入 Rapid Cache 来解决此问题。这种主动方法消除了初始缓存未命中惩罚，并帮助工作负载在首次读取时即享受缓存命中带来的好处。这可提供高达 2.2 倍更快的检查点恢复时间，使训练集群能够更快地从中断中恢复。

图 5: https://storage.googleapis.com/gweb-cloudblog-publish/images/4_Ingest_on_write.max-1000x1000.png

要启用写入时缓存预热，只需修改现有 Rapid Cache 的预热条件即可。

Rapid Cache 的简单性和性能带来了爆炸性采用。自通用可用性以来仅一年，客户已部署数千个 Rapid Cache，缓存部署数量增长了 20 倍。事实上，Rapid Cache 占据了 Cloud Storage 全球出口流量的多达 20%。领先的 AI/ML 客户在其工作负载上使用 Rapid Cache，包括 Anthropic，该公司利用 Rapid Cache 将其云工作负载的弹性提高，通过在同一区域内与 TPU 共置数据并提供高达 2.5TB/s 的动态可扩展读取吞吐量。

图 6: https://storage.googleapis.com/gweb-cloudblog-publish/images/5_CustomerLoveRC.max-1600x1600.png

案例研究：Thinking Machines Lab Thinking Machines Lab 是一家人工智能研究和产品公司。其使命是打造适应性强且可定制的 AI 系统，构建一个未来，让每个人都能获得知识和工具，使 AI 能够满足他们的独特需求和目标。

在 Next ‘26 上，Thinking Machines Lab 的技术工作人员 James Sun 在我们的会议，Cloud Storage Rapid: AI & Analytics 的超高速对象存储中发表了演讲，介绍了 Thinking Machines Lab 为大规模高性能存储运行的数据饥渴型 AI/ML 工作负载的需求。

Thinking Machines 运行多样化的工作流：在 Dataflow、Kafka 和 Spark 中的数据处理，多模型训练和服务 Tinker——一种用于微调开源模型的灵活 API。Sun 解释说，Thinking Machines 的工作负载运行在 Google Cloud Storage 上。如此大规模运行这些数据密集型 AI/ML 工作负载带来了显著的基础设施挑战。

首先是管理中心辐射型数据架构，其中数据处理中心位于一个主要区域，而训练 GPU 分布在多个区域。历史上，这使得手动数据移动和生命周期管理成为主要的操作痛点。此外，Thinking Machines Lab 的工作负载，例如依赖于大规模 Spark 工作负载来准备多模态数据集的数据准备和预训练工作流，经常从冷态瞬间变为热态。此前，这些激增导致了破坏性的 429 错误，这会阻碍数据处理和加载，并中断关键的训练周期。

为了最小化这些瓶颈，Thinking Machines Lab 在其 AI/ML 流水线中整合了 Rapid Cache，取得了积极成果。

“Rapid Cache 已成为我们 AI/ML 数据基础设施的核心支柱，支持我们从数据准备和预训练到训练和模型加载的关键工作流。作为关键的带宽防护和加速器，它使我们在整个机队中无妥协地扩展数据密集型工作负载，为我们提供了所需的按需高带宽和一致稳定性，从而加快创新速度。”——James Sun，Thinking Machines Lab 技术工作人员

简而言之，Cloud Storage 和 Rapid Cache 为 Thinking Machines Lab 提供了：

轻松、即时、可扩展、按需的带宽：团队现在实现了超过 1.8TB/s 的稳定读取吞吐量峰值。

增强的稳定性：Rapid Cache 大幅减少了尾部延迟和 429 错误，提供了多模态训练所需的稳定性能。

全舰队可扩展性： 结合多区域存储桶，它们现在可以跨整个舰队扩展数据密集型工作负载，满足快速增长的计算规模需求，而无需手动数据迁移的麻烦，同时受益于区域内共址存储以实现高性能。

运营效率： 使用分层命名空间 (HNS) 优化了其大规模 Spark 数据准备工作负载，支持快速目录重命名，并提供了随着集群扩展更快提升每秒查询率 (QPS) 的能力。Rapid Cache 的“写入时缓存”功能有助于确保检查点恢复时立即命中缓存。

图 7: https://storage.googleapis.com/gweb-cloudblog-publish/images/6_TMLGCP.max-2100x2100.png

选择您的火箭飞船

无论您是在运行数据准备、大规模训练还是低延迟推理，Cloud Storage Rapid 都能提供高性能，同时具备 Cloud Storage 以其闻名的可靠性和可扩展性。

Rapid 存储桶 提供最高的 Cloud Storage 吞吐量和每秒查询率，以及读写用例（如分析、AI 训练、检查点和模型服务）的最低延迟，帮助减少存储瓶颈并提高计算利用率。

Rapid 缓存 在现有存储桶中提供更高的读取带宽和尾部延迟稳定性，且无需代码更改。关键用例包括 AI 训练、检查点恢复和服务，以及通过多区域存储桶实现加速器选项。

立即开始使用 Cloud Storage Rapid 家族！

发布于

云存储快速：为 AI 和分析加速的对象存储

TL;DR · AI 摘要

核心要点

结构提纲

思维导图

金句 / Highlights

**Rapid Bucket**

**Rapid Cache**

**选择您的火箭飞船**

Rapid Bucket

Rapid Cache

选择您的火箭飞船