宣布 Spanner Graph 算法:面向连接数据的 Google 级智能

TL;DR · AI 摘要
Google 推出 Spanner Graph 算法,将图挖掘能力原生集成至数据库,支持百亿边图分钟级分析,无需复杂 ETL,降低 TCO。
核心要点
- Spanner Graph 支持百亿边图分钟级算法执行,性能优于传统方案。
- 通过 GQL 直接调用算法,避免数据外迁,简化架构。
- 零事务影响 + 按需付费,降低运营成本与许可费用。
结构提纲
按章节快速跳转。
Google Cloud 发布 Spanner Graph 算法,旨在将图挖掘能力原生集成至数据库,提升企业数据分析效率。
- §核心优势
算法运行于专用资源,不影响生产事务,且支持 GQL 调用,无需定制 ETL 管道。
- §性能表现
可处理数十亿边的图结构,在几分钟内完成复杂图算法计算,支持高并发随机访问。
适用于欺诈检测、实体解析、社交网络分析和推荐系统等需要深度关系挖掘的场景。
- §技术整合
兼容 Spanner 的表结构、搜索和向量能力,实现关系型与图模型统一查询。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Spanner Graph 算法发布
- 核心能力
- 百亿边分钟级分析
- GQL 原生集成
- 架构优势
- 零事务影响
- 按需付费
- 应用场景
- 欺诈检测
- 实体解析
金句 / Highlights
值得收藏与分享的关键句。
Spanner Graph 可在几分钟内对拥有数十亿边的图进行算法计算,编码为密集格式以优化随机访问性能。
算法执行独立于生产事务,通过 Data Boost 自动路由数据,无需构建定制化 ETL 流程。
支持 ISO 标准 GQL 查询语言直接调用图算法,将结构化分析嵌入现有数据库操作流程。
标题:引入 Spanner 图算法
URL 来源:https://cloud.google.com/blog/products/databases/introducing-spanner-graph-algorithms/
发布时间:2026-06-02
Markdown 内容: 在 Google Cloud Next 大会上,我们宣布了 Spanner Graph 图算法的预览版发布,将 Google Research 最前沿的 图挖掘 能力原生集成到您的数据库中。这些图智能能力可帮助您更快速、更经济地从图数据中提取宝贵洞察,并实现规模化应用。
企业正越来越多地利用图技术,以发现数据中的复杂关系,应用于欺诈检测、社交网络分析、实体解析和医疗研究等场景。图算法(如节点中心性与社区检测)是用于分析这些结构的计算方法,通过量化实体间连接的模式与强度来工作。然而,过去大规模运行图算法一直面临挑战且资源密集,通常需要复杂的 ETL 流程对接专用分析解决方案,或可能影响图数据库的事务性能。
我们设计了 Spanner Graph 算法,旨在应对严苛的企业级工作负载,同时不牺牲操作型数据库的性能。该架构具备以下显著优势:
- 与 GQL 紧密集成:直接使用 ISO 图查询语言(GQL)调用算法,在您的数据上执行结构化分析。通过顺序组合算法与标准查询,Spanner Graph 最小化数据对外部引擎的传输,简化架构并加速洞察获取时间。
- 近零事务影响与更低总拥有成本(TCO):算法执行在专用计算资源上进行,不会影响实时生产流量。Spanner 自动配置资源并通过 Data Boost 安全路由数据,无需构建自定义 ETL 管道。按需付费,避免传统解决方案昂贵的许可费和运维开销。
- 分钟级完成数十亿边规模图的全局洞察:专为高并发与高速度设计,我们的引擎可在几分钟内对包含数十亿条边的图运行算法。通过采用优化随机访问的密集格式编码拓扑结构,实现对海量数据集的高性能结构化分析。
虽然 Google Research 已发表多篇研究论文,举办过 研讨会,并开源了基于其图挖掘工具的项目(例如针对 多核聚类 的方案),但此次是首次将其广泛提供给 Google Cloud 客户。让我们深入探讨图算法及其如何与 Spanner Graph 结合使用。
算法:连接数据的深层洞察
当我们首次推出 Spanner Graph 时,目标是重新构想图数据管理方式——在 Spanner(Google 高度可扩展、分布式数据库)内部提供原生图数据库体验。Spanner Graph 统一了关系模型与图模型,使开发者能够使用 ISO GQL 查询连接数据,同时兼容 Spanner 现有的表结构、搜索与向量功能。这使得您无需构建复杂的数据管道、重复数据或增加安全与治理风险即可构建智能应用。
在此基础上,Spanner Graph 算法帮助您从连接数据中提取更深层次的洞察。图算法分析数据中的关系与连接,揭示传统分析方法可能忽略的隐藏模式与洞见。随着本次发布,您可以分析连接性,例如检测欺诈团伙、进行实体解析聚类、识别复杂网络中的故障点,或基于关联用户偏好推荐产品。
我们在 Google 内部广泛使用图技术。事实上,许多流行算法如 PageRank(支撑 Google 搜索的核心技术)正是在这里诞生的。借助 Spanner Graph 原生支持的算法能力,我们将部分 Google 最先进的图智能能力直接带给 Google Cloud 客户,提供一组核心图算法,帮助您轻松发掘数据中的隐藏结构:
- 中心性:使用介数中心性、接近中心性和 PageRank 等方法,精准定位网络中最具影响力和核心地位的节点。
- 社区检测:自动分组高度互联的实体,通过标签传播、相关性聚类、模块化聚类、弱连通组件和团簇聚合等方式,揭示隐藏的细分群体。
- 相似性与路径查找:使用集合到集合最短路径算法寻找最优路径,或通过 Jaccard、余弦、共同邻居和总邻居等方法衡量节点相似性。
集成式开发者体验
您可直接通过 GQL 在整个图、子图或选定节点与边集上调用图算法。Spanner 提供一体化工作流:图算法运行结果可直接写回 Spanner Graph。这允许您顺序调用算法与标准查询,将前一步骤的结果作为下一步输入。此外,您还可以将结果存储至 Cloud Storage 存储桶。
示例:揭露欺诈网络中的核心人物
考虑一个场景:你正在分析金融交易以打击洗钱。诈骗分子通常操纵一组“骡子”账户(用于洗钱的中间账户),这些账户相互交互,共同实施欺诈。为了捕捉已检测和隐藏的骡子账户之间的协作关系,反欺诈专家通常会采用链接分析和社区检测图算法。以下是您如何在 Spanner Graph 中结合算法与查询来揪出这些团伙。
步骤 1:识别账户群组(算法) 首先,我们应用模块化聚类算法将账户聚类为不同的社区。然后,我们将生成的 community_id 直接写回 Spanner Graph 中的 Account 实体。

步骤 2:定位可疑社区(查询) 现在每个账户都归属于某个社区,我们可以使用 GQL 查询对每个社区进行分析性查询,以发现异常行为。例如,我们可以检查每个社区中已知的欺诈账户总数。
步骤 3:计算影响力以找出“头目”(子图上的算法) 假设上述查询揭示了社区 2 中欺诈活动激增。在此步骤中,我们将图过滤为仅包含该特定社区中的账户,并运行 PageRank 算法,以在该精确群体内找出中心化的“头目”。

步骤 4:调查目标(查询) 现在,社区 2 中的账户已带有 pagerank_score,我们可以编写一个查询,筛选出最核心的账户,并立即追踪该特定“头目”最近的资金流向。
通过允许您将高性能算法与标准 GQL 查询相结合,Spanner Graph 消除了数据在操作型数据库与外部分析引擎之间来回移动的需求。这种统一的方法极大地简化了您的数据架构,并加速了您获得洞察的时间。
受行业领袖信赖
DaVita、Yahoo!、SoundCloud 和 WPP 等客户已开始利用 Spanner Graph 算法解决其最复杂的数据挑战。
“利用 Spanner Graph 推动我们的 Patient 360 计划,使我们能够将复杂的医疗数据整合到单一、统一的视图中。原生图算法如社区检测和中心性分析的加入是重大进步,使我们能够更快、更大规模地挖掘患者网络中的深层洞察。这些完全托管的能力让我们的团队无需管理复杂的数据管道即可专注于推动患者护理方面的创新。” —— DaVita Kidney Care 首席企业架构师 Sam Ghosh
“在全球范围内运营 Yahoo 的标志性消费产品,我们需要将数十亿用户档案统一到一个实时视图中。借助 Spanner Graph,我们将统一用户档案(UUP)建模为图结构,将此前分散的系统整合到一个中央真实来源。Spanner 图上提供的完全托管图算法进一步加速了我们在大规模个性化服务方面的能力。通过使用社区检测和 PageRank 等算法,我们能够实现更深入的受众细分,并为平台提供更具相关性和吸引力的用户体验。” —— Yahoo 工程总监 Chris James
“拥有来自 190 多个国家、4000 多万艺术家的 5 亿多首曲目的 SoundCloud,是新兴艺术家寻找声音、发掘隐藏瑰宝并实时塑造音乐文化的地方。多年来,我们一直在批处理模式下运行图算法,分析庞大的多十亿边的音乐图谱往往需要数小时的定制集群处理时间。Spanner Graph 算法的推出是一个真正的变革:它不仅提供了我们所需的巨大扩展能力,还让我们摆脱了复杂的自定义 Python 工作流,转而使用完全托管的服务。最重要的是,它解锁了在最新数据上运行图算法的能力——例如识别创作者枢纽和改进推荐——而无需复杂的 ETL 流程,也不会影响当前在 Spanner 上运行的低延迟事务工作负载。” —— SoundCloud 数据基础副总裁 Sergey Chekanskiy
“我们一直渴望利用先进的图算法赋能 Open Intelligence——我们基础性的智能层,以隐私优先的方式安全连接来自客户、合作伙伴及 WPP 的万亿级实时数据点,并现已集成并驱动 WPP 的代理营销平台 WPP Open。为了即时探索数十亿实体间复杂关系——推动规划、建模和实验——我们需要原生支持深度图遍历、结构模式识别和高级算法。Spanner Graph 上的算法支持提供了性能和可扩展性,帮助我们应对最具挑战性的图分析问题,而无需运维负担或昂贵授权。” —— WPP 数据与智能战略负责人 Rob Marshall
构建更智能的应用程序
现在,Spanner Graph 原生支持算法,您可以超越基本的关系遍历,直接在最新的交易数据上运行深度结构化分析。通过在大规模上应用这些经典图算法,您可以为企业应用程序解锁新的能力:
- 主动欺诈检测与反洗钱:通过自动将关联的“骡子”账户分组(如使用社区检测算法,例如模块化聚类),揭示有组织的欺诈团伙,再结合中心性算法(如PageRank)定位控制非法资金流动的核心人物。
- 客户360度视图与实体解析:利用相似性函数(如Jaccard指数)和社区检测方法(如标签传播),将分散的跨渠道数据统一整合为单一标准档案。这些档案可通过生成拓扑特征(如PageRank)进一步丰富,以支持下游机器学习训练。
- 自主网络运维与数字孪生:将IT或电信基础设施建模为数字孪生体,借助相似性分析与路径查找(如集合间最短路径)主动识别关键脆弱点,并预测级联故障。
- 超个性化产品推荐:超越基础购买历史,通过分析更广泛用户行为实现精准推荐。使用相似性算法(如共同邻居)发现实体间的偏好重叠,并结合中心性算法(如个性化PageRank)为相关群体呈现最相关的推荐内容。
- 韧性供应链与物流管理:通过中心性算法(如介数中心性)识别过度依赖的关键分发枢纽,防范隐藏瓶颈;在中断发生时,借助路径查找即时计算高效替代路线。
- 网络安全威胁狩猎与影响范围分析:通过社区检测(如相关性聚类)隔离异常机器通信,加速威胁狩猎;再结合路径查找追踪攻击者横向移动的确切路径及其影响范围。
- 预测性客户流失分析:通过社区检测识别紧密相连的用户群体,防止客户流失扩散;再结合中心性算法识别并针对核心影响者推送挽留促销,阻止流失蔓延。
立即开始
Spanner 图算法支持 Spanner 的企业版及企业+版。欲了解更多详情,请查阅文档或尝试此codelab。您还可以观看此视频,了解Spanner Graph所支持的图算法概览。
发布于