T
traeai
登录
返回首页
Google Cloud Blog

Google Cloud 推出 Managed Spark 集群增强功能

8.5Score
Google Cloud 推出 Managed Spark 集群增强功能

TL;DR · AI 摘要

Google Cloud 推出 Managed Spark 集群的多项增强功能,包括 Lightning Engine、Flexible VMs 和 Gemini-powered extensions,显著提升性能与灵活性。

核心要点

  • Lightning Engine 可使 Spark 性能提升最高 4.9 倍。
  • Flexible VMs 提高资源获取能力,减少临时短缺影响。
  • Gemini-powered extensions 增强了 AI 在 Spark 开发和运维中的应用。

结构提纲

按章节快速跳转。

  1. Google Cloud 推出 Managed Spark 集群的增强功能,旨在提升性能和灵活性。

  2. Lightning Engine 通过 C++ 向量化执行引擎显著提升 Spark 性能。

  3. Flexible VMs 提高资源获取能力,减少临时短缺对作业的影响。

  4. ·Gemini-powered extensions

    Gemini-powered extensions 通过 AI 增强 Spark 的开发和运维流程。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Managed Spark 集群增强功能
    • Lightning Engine
      • C++ 向量化执行引擎
      • 性能提升 4.9 倍
    • Flexible VMs
      • 提高资源获取能力
      • 减少临时短缺影响
    • Gemini-powered extensions
      • AI 增强开发和运维

金句 / Highlights

值得收藏与分享的关键句。

#Apache Spark#Google Cloud#Lightning Engine#Gemini#数据科学
打开原文

Apache Spark 集群托管服务增强功能 | Google Cloud 博客

数据分析

Apache Spark 集群托管服务新功能

2026年6月5日

##### 吴琪琪

Google Cloud 高级产品经理

##### 今天试用 Gemini 企业版商业版

工作场所中人工智能的入口

立即试用

在 Google Cloud,我们的目标是让您以最高效率运行大规模的分析和数据科学工作负载,从而能够处理大数据管道、机器学习和ETL任务。

我们最近宣布,Dataproc 服务现已升级为 Apache Spark 托管服务,这反映了我们与 Agentic Data Cloud 的深度集成。

为了满足现代数据团队多样化的架构需求,我们以两种不同的部署模式提供该服务:无服务器模式和托管集群模式。无服务器部署模式完全抽象了基础设施管理,适用于临时或即兴的工作负载;而托管集群部署模式则适用于需要精细的基础设施定制、持久的环境、长期运行的状态处理或与自定义 Compute Engine 硬件配置原生集成的团队。

在托管集群部署方面,我们从零开始重新设计了体验,聚焦于三大核心支柱:通过加速执行速度使 Spark 更快、通过最大化资源获取能力和减少运营开销使运行更简单、通过将人工智能直接嵌入开发和运营生命周期使系统更智能。

本文重点介绍我们在 Google Cloud Next '26 上为 Apache Spark 托管集群部署模式宣布的增强功能:通过原生执行引擎、更智能的扩展策略和 Gemini 驱动的扩展功能,提供增强的灵活性,以优化性能和成本。有关无服务器部署模式的最新信息,请参阅这篇博客。

更快:使用 Lightning Engine 原生执行引擎

对于 Apache Spark 托管集群来说,最大的更新是 Lightning Engine,它为 Spark DataFrame/Dataset API 和重型 Spark SQL 查询带来了巨大的性能提升。Lightning Engine 由基于 Velox 和 Gluten 的原生 C++ 向量化执行引擎构建,并进行了专门的内部增强,通过将查询计划编译为针对 SIMD(单指令多数据)向量化优化的原生指令,绕过了 JVM 执行瓶颈。

该原生执行引擎提供了以下优势:

  • 相比标准开源 Spark,性能提升高达 4.9 倍
  • 相比领先的高速 Spark 替代方案,性价比提升高达 2 倍

关键的是,利用这些性能提升无需对现有 Spark 应用程序进行任何代码更改。由于您的任务完成得更快,您可以直接减少 Compute Engine 的总运行时间以及整体支出。

要在您的托管集群上启用 Lightning Engine,只需在创建集群时指定 Lightning Engine 选项即可。

了解 Lightning Engine 的技术细节并听取 Lowe 的使用体验

灵活的虚拟机允许您为 master、primary 和 secondary 工作节点定义多达十种排名的机器类型。Apache Spark 管理服务将这种偏好与自动的区域区域放置相结合,动态扫描整个区域,使用最佳可用的硬件布局来满足您的容量请求。这有助于确保您的数据管道能够可预测地启动,显著减少资源可用性错误,并在需求高峰期最大化利用成本效益高的 Spot VM 容量。

更简单:零规模集群和计划停止

为了给您提供对持久和开发环境更好的财务控制,我们最近宣布了两项广受期待的 FinOps 功能的正式可用:零规模集群和集群计划停止。

  • 零规模集群:现在您可以部署仅使用 secondary 工作节点(Spot VM)的环境,使集群在没有处理活动时自动缩放到零个工作节点,仅保留 master 节点在线以保存元数据。
  • 集群计划停止:此功能允许您根据特定的空闲时间限制或精确的未来时间戳配置自动的集群关闭策略。

由于这些功能是原生集成的,它们减少了必须删除和重建环境所带来的操作摩擦,同时您可以在夜间和周末停止支付空闲计算开销的费用。

更智能:Apache Spark 管理服务 MCP 服务器

为了弥合生成式 AI 和数据工程之间的差距,我们推出了 Apache Spark 管理服务的 Model Context Protocol(MCP)服务器。这种开放标准的集成允许 LLM 和 AI 助手通过自然语言安全且动态地与您的管理 Spark 集群进行交互。

通过使用 MCP 服务器,您的 AI 代理可以在现有的 IAM 权限下安全地连接到您的数据平台。这使得代理可以直接从 AI 应用程序中执行基于集群的操作,如创建集群、提交作业或调整自动扩展策略。

更智能:通过数据代理工具包加速 AI

Google Cloud Data Agent Kit 扩展允许数据科学家、工程师和开发人员直接在其首选的开发环境中管理其整个数据工作负载生命周期。我们已经在管理 Spark 集群上推出了该扩展的原生支持,使团队能够无缝构建和部署专门的数据代理,用于代码生成和数据整理。

开发人员可以选择使用 Antigravity 2.0,即 Google 独立的智能开发平台,或者通过 Data Agent Kit 扩展和插件将这些智能功能引入其首选的 IDE,如 VS Code、Claude Code 或 Codex。通过将这种简化的流程与管理集群的原始处理能力相结合,这些智能代理可以直接在 PB 级的数据湖上安全执行复杂的流程。具体来说,Data Agent Kit 使开发人员能够:

  • 构建和编排管道:使用自然语言编写多节点数据管道并生成全面的代码文档。
  • 执行实时调试:利用 Gemini Cloud Assist 筛选执行器日志,定位作业失败的根本原因,并推荐可操作的修复方案。
  • 轻松连接到 Spark 资源:无需手动网络配置或本地 Spark 安装,即可即时连接到无服务器 Spark 运行时或托管集群。
  • 简化 Git 和 CI/CD 管理:直接从您首选的 IDE 提交、合并并部署代码,触发自动化测试和部署流水线,无需任何摩擦。

更智能:下一代 Lakehouse

我们最近推出了 Lakehouse,它实现了 Apache Spark 管理服务和 BigQuery 等引擎之间的读写互操作性。通过利用 Lakehouse 运行时目录作为统一的无服务器元数据层,它消除了数据孤岛和对复杂转换层的需求。这种以代理优先的方式使组织可以直接从 Google Cloud Storage 处理开放格式,甚至可以使用新推出的跨云 Lakehouse 查询远程 AWS 数据集,同时保持安全和治理的单一数据来源。

对于使用托管 Spark 集群的客户,这种集成解锁了多种强大的新功能。数据团队现在可以使用优化后的 Lightning 引擎,将最苛刻的 ETL 和数据科学工作负载的处理速度提升高达 4.9 倍。

下一代运行时:带有 Spark 4.1 的 Cluster Image 3.0

为了与开源生态系统保持同步,我们推出了 Cluster Image 3.0 预览版,该版本基于 Apache Spark 4.1 构建,并升级了默认的 Java 运行时到 Java 21。Spark 4.1 引入了一组核心的开源功能,包括结构化流的实时模式。这使您的 Spark 环境能够支持实时流处理,实现连续的亚秒级延迟处理。

今天立即开始

这些更新现在已在托管 Spark 集群中上线并随时可用!您可以通过 Google Cloud 控制台或通过 gcloud CLI 直接启用这些新功能。

要启动一个新的托管集群并原生解锁 Lightning 引擎的性能,请在终端中运行以下命令:

加载中...

gcloud dataproc clusters create my-optimized-cluster \ --region=us-central1 \ --image-version=2.3 \ --engine=lightning \

或者,导航到控制台中的 Apache Spark 管理服务页面,点击“创建集群”,并在集群配置设置下选择“启用 Lightning 引擎”,以自动为您的 Spark 作业激活 Lightning 引擎。

我们期待听到您使用 Apache Spark 管理服务集群构建和运行的环境!

发布在

  • 数据分析
  • 人工智能与机器学习
  • 流式处理
  • 开源

AI 可能会生成不准确的信息,请核实重要内容