T
traeai
登录
返回首页
Google Cloud Blog

云存储快速:为 AI 和分析加速的对象存储

8.5Score
云存储快速:为 AI 和分析加速的对象存储

TL;DR · AI 摘要

Cloud Storage Rapid 提供高性能对象存储解决方案,显著提升 AI 和分析工作负载的效率。

核心要点

  • Rapid Bucket 提供高达 2000 万次查询每秒和亚毫秒级延迟。
  • Rapid Cache 加速现有存储桶中的计算和数据访问。
  • Rapid Bucket 将恢复检查点速度提高 5 倍以上。

结构提纲

按章节快速跳转。

  1. 介绍 Cloud Storage Rapid 的背景和目标。

  2. 详细说明 Rapid Bucket 的功能和优势。

  3. 列举 Rapid Bucket 的性能指标和应用场景。

  4. 描述 Rapid Cache 如何加速数据访问。

  5. 强调计算与数据的协同位置。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Cloud Storage Rapid
    • Rapid Bucket
      • Ultra-low latency
      • Massive scalability
      • Optimized for AI and analytics
    • Rapid Cache
      • Accelerates reads on-demand
      • Colocates compute and data

金句 / Highlights

值得收藏与分享的关键句。

#Google Cloud#AI#对象存储#性能优化
打开原文

标题:Cloud Storage Rapid 为 AI 和分析加速对象存储

来源 URL:https://cloud.google.com/blog/products/storage-data-transfer/cloud-storage-rapid-turbocharges-object-storage-for-ai-analytics/

发布日期:2026-05-12

Markdown 内容: 在 Google Cloud Next '26 上,我们宣布了 Cloud Storage Rapid,这是一组面向数据密集型工作负载(如 AI 和分析)的对象存储功能。从一开始,Cloud Storage Rapid 就包括 Rapid Bucket(前身为 Rapid Storage),这是一个高性能的区域性对象存储产品,以及 Rapid Cache(前身为 Anywhere Cache),它能够按需加速读取,并将计算与现有存储桶中的数据进行同位部署。

图 1: https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault_Xu33ocm.max-1300x1300.jpg

Cloud Storage Rapid 是我们对组织如何利用 AI 进行构建这一代际转变的回应。团队正在训练万亿参数模型,以全球规模部署推理,并构建能够处理海量企业数据的自主代理。虽然像 GPUTPU 这样的加速器经常成为焦点,但它们有一个关键依赖项:存储。

存储是训练期间为加速器提供动力的引擎,也是使实时推理响应迅速的快速访问层。但是,随着模型规模的扩大,存储性能可能会成为一个瓶颈。每当 AI/ML 集群等待数据读取或检查点写入操作停滞时,您实际上是在浪费昂贵的计算周期,而这些周期并未执行有用的工作。

历史上,AI/ML 实践者不得不在专用区域存储系统的专业性能和全球对象存储(如 Google Cloud Storage)的可靠性和可扩展性之间做出选择。许多开发人员看重 Cloud Storage 的简单性、可扩展性、可靠性和成本效益,但随着 AI 时代的推进,他们开始向其施加越来越热的工作负载,使用数千个 GPU 和 TPU 来运行训练和推理任务。我们已经达到了一个传统对象存储无法应对的性能临界点。Rapid 家族提供了多种选项,可以直接将计算工作负载与高性能区域存储相结合。它最小化了可能阻塞加速器的 I/O 瓶颈,确保您的 GPU 和 TPU 始终保持完全饱和并高效运行。在这篇博客中,让我们更详细地了解 Cloud Storage Rapid 的能力。

**Rapid Bucket**

**Rapid Bucket**(已全面可用,GA),帮助 Cloud Storage 满足大规模生成式 AI、分析和其他高性能工作负载不断变化的需求。它通过利用 **Colossus**,即谷歌分布式存储系统(支持 GeminiYouTube),在专用对象存储区域存储桶中提供超大规模的读写性能和极低延迟。

闪电般的性能 通过结合块存储级别的亚毫秒级延迟、并行文件系统的吞吐量以及对象存储的可扩展性和易用性,Rapid Bucket 提供了与您熟悉的 Cloud Storage 相同的高性能。

亮点包括:

  • 极低延迟:实现高达 每秒 2000 万次查询亚毫秒级延迟
  • 超大规模:单个 Rapid 区域存储桶可提供 15+ TB/s 的聚合读取吞吐量。
  • 新语义:启用更高性能的新功能,例如原生追加、无限数量的读取器(同时写入!)以及矢量化读取。

专为 AI 和分析优化 您可以使用 Rapid Bucket 处理各种高要求场景,包括 AI/ML 数据准备、训练、检查点保存、批处理和流式分析处理,以及优化分布式数据库架构。

主要优势包括:

  • 优化加速器利用率:使用 Rapid Bucket,我们观察到 GPU 阻塞时间减少 50%,多模态训练运行的数据加载速度提高 多达 2.5 倍
  • 更快的检查点保存:与传统对象存储相比,Rapid Bucket 的检查点恢复速度提高了 5 倍,检查点写入速度提高了 3.2 倍。这确保了从工作负载中断中更快恢复,减少了浪费的加速器时间,并提高了整体效率。

使用 Rapid Bucket 检查点恢复速度提高 >5 倍

图 2: https://storage.googleapis.com/gweb-cloudblog-publish/images/1_5x_faster_checkpoint_restores_with_Rapid.max-1200x1200.png

使用 Rapid Bucket 检查点写入速度提高 >3.2 倍

图 3: https://storage.googleapis.com/gweb-cloudblog-publish/images/2_3.2x_faster_checkpoint_writes_with_Rapid.max-1200x1200.png

您可以在此处开始使用 Rapid Bucket:https://docs.cloud.google.com/storage/docs/rapid/rapid-bucket

**Rapid Cache**

最初在 Cloud Next ‘25 上宣布的 Rapid Cache 加速了 AI/ML 工作负载的带宽,例如数据准备、训练以及推理时模型的突发加载,为现有存储桶提供了高达 2.5 TB/s 的聚合读取吞吐量——无需更改代码。对于推理工作负载,我们观察到 Rapid Cache 提供了高达 2.1 倍(114%)的模型加载加速,从而节省了 47% 的总体拥有成本(TCO)。

当与多区域存储桶结合使用时,客户可以灵活访问分布在地理区域内的 GPU 和 TPU,同时保持单一存储桶命名空间。这消除了手动协调存储桶间数据移动的需求,同时从区域内高性价比的高性能中受益。

图 4: https://storage.googleapis.com/gweb-cloudblog-publish/images/3_AcceleratedDataAccess.max-1600x1600.png

新功能:写入时缓存预热 一些全球最大的前沿 AI/ML 实验室的客户告诉我们,他们正在寻找在写入后立即加速读取的方法,例如检查点恢复工作负载或随后用于训练的数据准备管道。在此之前,缓存数据需要一次初始读取来触发预热,而这会直接从存储桶以标准性能提供服务。

Rapid Cache 的新 写入时缓存预热 功能通过在数据写入 Cloud Storage 存储桶的同时将其写入 Rapid Cache 来解决此问题。这种主动方法消除了初始缓存未命中惩罚,并帮助工作负载在首次读取时即享受缓存命中带来的好处。这可提供高达 2.2 倍更快的检查点恢复时间,使训练集群能够更快地从中断中恢复。

图 5: https://storage.googleapis.com/gweb-cloudblog-publish/images/4_Ingest_on_write.max-1000x1000.png

要启用写入时缓存预热,只需 修改现有 Rapid Cache 的预热条件 即可。

Rapid Cache 的简单性和性能带来了爆炸性采用。自通用可用性以来仅一年,客户已部署数千个 Rapid Cache,缓存部署数量增长了 20 倍。事实上,Rapid Cache 占据了 Cloud Storage 全球出口流量的多达 20%。领先的 AI/ML 客户在其工作负载上使用 Rapid Cache,包括 Anthropic,该公司利用 Rapid Cache 将其云工作负载的弹性提高,通过在同一区域内与 TPU 共置数据并提供高达 2.5TB/s 的动态可扩展读取吞吐量。

图 6: https://storage.googleapis.com/gweb-cloudblog-publish/images/5_CustomerLoveRC.max-1600x1600.png

案例研究:Thinking Machines Lab Thinking Machines Lab 是一家人工智能研究和产品公司。其使命是打造适应性强且可定制的 AI 系统,构建一个未来,让每个人都能获得知识和工具,使 AI 能够满足他们的独特需求和目标。

在 Next ‘26 上,Thinking Machines Lab 的技术工作人员 James Sun 在我们的 会议,Cloud Storage Rapid: AI & Analytics 的超高速对象存储中发表了演讲,介绍了 Thinking Machines Lab 为大规模高性能存储运行的数据饥渴型 AI/ML 工作负载的需求。

Thinking Machines 运行多样化的工作流:在 Dataflow、Kafka 和 Spark 中的数据处理,多模型训练和服务 Tinker——一种用于微调开源模型的灵活 API。Sun 解释说,Thinking Machines 的工作负载运行在 Google Cloud Storage 上。如此大规模运行这些数据密集型 AI/ML 工作负载带来了显著的基础设施挑战。

首先是管理中心辐射型数据架构,其中数据处理中心位于一个主要区域,而训练 GPU 分布在多个区域。历史上,这使得手动数据移动和生命周期管理成为主要的操作痛点。此外,Thinking Machines Lab 的工作负载,例如依赖于大规模 Spark 工作负载来准备多模态数据集的数据准备和预训练工作流,经常从冷态瞬间变为热态。此前,这些激增导致了破坏性的 429 错误,这会阻碍数据处理和加载,并中断关键的训练周期。

为了最小化这些瓶颈,Thinking Machines Lab 在其 AI/ML 流水线中整合了 Rapid Cache,取得了积极成果。

“Rapid Cache 已成为我们 AI/ML 数据基础设施的核心支柱,支持我们从数据准备和预训练到训练和模型加载的关键工作流。作为关键的带宽防护和加速器,它使我们在整个机队中无妥协地扩展数据密集型工作负载,为我们提供了所需的按需高带宽和一致稳定性,从而加快创新速度。”——James Sun,Thinking Machines Lab 技术工作人员

简而言之,Cloud Storage 和 Rapid Cache 为 Thinking Machines Lab 提供了:

  • 轻松、即时、可扩展、按需的带宽:团队现在实现了超过 1.8TB/s 的稳定读取吞吐量峰值。
  • 增强的稳定性:Rapid Cache 大幅减少了尾部延迟和 429 错误,提供了多模态训练所需的稳定性能。
  • 全舰队可扩展性: 结合多区域存储桶,它们现在可以跨整个舰队扩展数据密集型工作负载,满足快速增长的计算规模需求,而无需手动数据迁移的麻烦,同时受益于区域内共址存储以实现高性能。
  • 运营效率: 使用分层命名空间 (HNS) 优化了其大规模 Spark 数据准备工作负载,支持快速目录重命名,并提供了随着集群扩展更快提升每秒查询率 (QPS) 的能力。Rapid Cache 的“写入时缓存”功能有助于确保检查点恢复时立即命中缓存。
图 7: https://storage.googleapis.com/gweb-cloudblog-publish/images/6_TMLGCP.max-2100x2100.png

**选择您的火箭飞船**

无论您是在运行数据准备、大规模训练还是低延迟推理,Cloud Storage Rapid 都能提供高性能,同时具备 Cloud Storage 以其闻名的可靠性和可扩展性。

  • Rapid 存储桶 提供最高的 Cloud Storage 吞吐量和每秒查询率,以及读写用例(如分析、AI 训练、检查点和模型服务)的最低延迟,帮助减少存储瓶颈并提高计算利用率。
  • Rapid 缓存 在现有存储桶中提供更高的读取带宽和尾部延迟稳定性,且无需代码更改。关键用例包括 AI 训练、检查点恢复和服务,以及通过多区域存储桶实现加速器选项。

立即开始使用 Cloud Storage Rapid 家族

发布于

AI 可能会生成不准确的信息,请核实重要内容