T
traeai
登录
返回首页
Databricks

Backstage with Lakebase, part 2

8.5Score
Backstage with Lakebase, part 2

TL;DR · AI 摘要

Lakebase 是 Databricks 推出的数据库产品,支持数据应用和 AI 代理。

核心要点

  • Lakebase 是 Databricks 的数据库产品,专为数据应用和 AI 代理设计。
  • Lakebase 提供了与 Delta Lake 兼容的存储层,支持高效的数据处理。
  • Databricks 通过 Lakebase 扩展其数据湖架构,增强企业级数据管理能力。

结构提纲

按章节快速跳转。

  1. 介绍 Lakebase 的背景及其在 Databricks 生态系统中的位置。

  2. 描述 Lakebase 的功能、目标用户及主要特性。

  3. 解析 Lakebase 的底层架构及其与 Delta Lake 的兼容性。

  4. 探讨 Lakebase 在不同行业和用例中的实际应用。

  5. 分析 Lakebase 在 Databricks 未来战略中的角色和潜在发展方向。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Lakebase
    • 产品定位
      • 数据应用
      • AI 代理
    • 技术基础
      • Delta Lake
      • 数据湖架构
    • 应用场景
      • 企业数据管理
      • 实时数据分析

金句 / Highlights

值得收藏与分享的关键句。

  • Lakebase 是 Databricks 推出的新一代数据库产品,专为构建数据驱动的应用和 AI 代理而设计。

    第 2 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • Lakebase 基于 Delta Lake 构建,提供高性能、高可靠性的数据存储和处理能力。

    第 3 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 通过 Lakebase,Databricks 进一步扩展其数据湖架构,满足企业级数据管理和分析需求。

    第 4 段

    ⬇︎ 下载 PNG𝕏 分享到 X
#Databricks#数据库#数据湖
打开原文

Lakebase 幕后揭秘(下)| Databricks 博客

跳过主内容

[![图1](blob:http://localhost/c3d26385bd032c882a09c45135533626)](https://www.databricks.com/)

[![图2](blob:http://localhost/c3d26385bd032c882a09c45135533626)](https://www.databricks.com/)

  • 资源
  • * 学习资源
  • 活动
  • 博客与播客
  • 获取帮助
  • 深度探索
  • 关于我们
  • * 公司
  • 招聘
  • 媒体
  • 安全与信任
  • 数据与AI峰会 ![图片3: 数据与AI峰会宣传图 6月15-18日|旧金山 全球最大的数据、应用与AI盛会,立即报名](https://www.databricks.com/dataaisummit?itm_source=www&itm_category=home&itm_page=home&itm_location=navigation&itm_component=navigation&itm_offer=dataaisummit)
  1. 所有博客
  2. / 平台

目录

目录

目录

合作伙伴2026年5月15日

Lakebase幕后揭秘(二)

将运营型数据库纳入Unity Catalog统一治理

作者:Cameron CasherKevin HartmanSurya Sai Turaga

内容提要

  • Lakebase消除了OLTP/OLAP的技术鸿沟,让团队能够在Databricks内部通过无服务器Postgres接口运行像Backstage这样的生产应用,实现1秒级数据库分支创建和4秒内时间点恢复,使高风险的Schema变更成为可测试的常规操作
  • Unity Catalog将运营型数据库纳入统一治理平面,用单一SQL查询替代碎片化的CloudTrail/pgaudit/CloudWatch审计流程,同时自动将行级安全和数据脱敏策略传播到每个临时分支
  • 通过单一SQL联接即可实现基础设施所有权与云账单数据的无缝整合,无需ETL管道,为FinOps和工程负责人提供按分支成本归因,将DBA的角色从工单处理者升级为平台架构师

在本系列第一篇中,我们探讨了如何通过将Backstage的底层数据库迁移至Databricks Lakebase,将高风险的Schema变更转化为1秒级的分支测试操作。但如果安全与治理团队仍将您的运营型数据库视为黑盒,仅靠加速开发周期是远远不够的。

在传统的技术栈中,你的应用程序数据库和数据湖运行在完全不同的安全范式下。你的基础设施的所有权图谱存在于Backstage中,由一个隔离的RDS实例支撑,并受到复杂IAM角色和Postgres原生权限的管理。与此同时,你的仓库数据则由数据团队通过Unity Catalog进行治理。

要审核RDS中一个表的删除操作,你需要在三个不同的服务间交叉引用:使用CloudTrail查询IAM主体信息,查阅pg_stat_activitypgaudit日志获取SQL语句,以及通过CloudWatch获取时间戳。这种操作涉及三种不同的查询语言和三种访问策略,使得操作型数据库成为了合规性管理的一个侧面渠道。

Unity Catalog整合操作型数据库

如图4所示,当我们把Backstage与Lakebase对接时,不仅仅是改变了数据的存放位置,更重要的是改变了访问策略的管理方式。

由于Lakebase原生嵌入在Databricks内部,Unity Catalog能够直接扩展覆盖到操作型Postgres数据库。在这个概念验证中,我们利用Lakehouse Federation将Backstage目录暴露为一个外部目录(lakebase_bs)在Unity Catalog中。一旦配置完成,标准的UC权限即可控制谁可以看到什么,无需进行Postgres级别的角色管理:

sql

sql
GRANT USE_CATALOG ON CATALOG lakebase_bs TO `platform-engineering-group`;
GRANT SELECT ON TABLE lakebase_bs.public.final_entities TO `auditor-group`;

虽然在这个概念验证中我们没有为Backstage构建端到端的行级别安全策略,但从架构设计上来看,那些原本用于保护敏感计费表的行级别安全规则,可以直接应用到这些操作型表上。"操作型"和"分析型"数据之间的壁垒不再是一个物理边界,而仅仅是一个访问模式的问题。

自带的一体化审计日志

还记得我们在第一部分中执行的1秒写时复制分叉操作吗?在传统的架构下,向安全工程师证明一个开发者只是分叉了数据库一个小时然后就销毁了,这需要手动操作。

借助Lakebase,针对操作型数据库的所有控制平面操作都会自动记录在system.access.audit表中。为了证明这一点,我们查询了审计日志,提取了第一部分灾难恢复实验中确切的分叉操作记录:

sql

sql
SELECT  
  event_time,  
  user_identity.email  AS user_email,  
  action_name,  
  source_ip_address,  
  request_params
FROM system.access.audit
WHERE service_name = 'postgres'  
  AND action_name IN ('createBranch''deleteBranch')
ORDER BY event_time DESC
LIMIT 4;

查询结果:

plaintext

plaintext
event_time                  user_email              action        request_params
--------------------------  ----------------------  ------------  -----------------------------------------------
2026-04-08T23:05:10.324Z    c56902394@gmail.com    deleteBranch  {name → .../branches/recovered-20260408}
2026-04-08T23:05:09.573Z    c56902394@gmail.com    deleteBranch  {name → .../branches/migration-test-20260408}
2026-04-08T22:57:55.816Z    c56902394@gmail.com    createBranch  {branch_id → recovered-20260408,
                                                                   source → .../branches/production}
2026-04-08T22:54:47.411Z    c56902394@gmail.com    createBranch  {branch_id → migration-test-20260408,
                                                                   source → .../branches/production}

我们实验中每一次的分叉创建和删除操作都被完整记录。每一次事件都与特定的OAuth用户身份和源IP地址相关联,这些信息都是自动捕获的,并且受到与Unity Catalog中其他审计表相同的行级别安全控制。无需查阅CloudTrail,无需解析RDS日志,仅仅需要一个SQL查询即可。

按分叉自动归因成本

治理团队不仅想知道是谁创建了分叉,他们更想知道这个分叉带来了什么成本。

在传统的AWS环境中,跟踪一个临时RDS实例的成本需要定制化的CloudWatch标记策略,而这些策略常常会遗漏短暂运行的工作负载。由于Lakebase与Unity Catalog的系统计费表进行了原生集成,计算成本会自动按project_idbranch_idendpoint_id进行拆分。

在这个概念验证中,生产分叉的成本被记录为31.6130 DBU,而被删除的测试分叉则独立归因到0.0107 DBU。审计日志和成本日志的治理都集中在同一个地方进行。

对每天进行分叉开发团队的意义

我们的治理方案回答了合规性问题:我们能否证明谁做了什么,什么时候做的,以及带来了什么成本?答案是肯定的——只需要一个SQL查询,而不是传统的三个服务协同工作。但对于那些采用第一部分中分叉工作流的开发团队来说,还有一个同样重要的治理问题需要考虑:当你的团队每个迭代周期创建数十个分叉时,治理会发生什么变化?

在第一部分中,我们描述了一个工作流:每一个特性分支和每一个拉取请求都会获得一个独立隔离的数据库副本。一个由六名开发者组成的团队,在进行两周的迭代开发时,可能会在一个迭代周期内创建并销毁30-40个分叉。也就是说,会有30-40个生产数据的副本,每一个副本都有可能包含敏感字段——客户个人身份信息、财务记录、健康数据等等。

此时 Unity Catalog 的分支级治理不再只是便捷功能,而是成为了关键支撑。当创建 Lakebase 分支时,Unity Catalog 的属性级数据脱敏策略会自动传播到新分支。开发人员在功能分支上工作时永远不会看到未脱敏的生产数据——这不是因为有人记得配置,而是因为治理层在创建时就强制实施。运行 PR 测试的 CI 分支与生产环境采用相同的治理标准。测试人员执行破坏性场景的 QA 分支也与生产环境保持相同的治理水平。不存在因为有人忘记应用策略而导致敏感数据泄露的"非生产环境例外"情况。

这比表面看起来更重要。根据 Perforce 的《2025 年数据合规状况报告》,60% 的组织曾在非生产环境中遭遇数据泄露或盗窃,这些环境中的敏感数据未能充分匿名化。传统方法——在配置开发/测试环境时手动脱敏数据——在环境几秒钟内就能创建和销毁的情况下无法扩展。治理必须是自动化的,否则就无法实现。

DBA 的新机遇

审计追踪和成本归因数据还预示着一个更静默的转变:DBA 的角色正在从被动的工单处理演变为战略性的平台架构。

如今,DBA 的大部分时间都花在运营请求上——环境配置、架构审查、数据刷新、访问授权。一个六人开发团队每个冲刺周期可能产生 30 多个工单,DBA 的日程表变成了排队队列。使 DBA 价值得以体现的专业知识——对数据完整性、性能和治理的深入理解——被埋没在重复的配置工作中。

当分支可以自助创建且治理自动化时,这些重复性工作就会消失。开发人员可以在一秒钟内自行配置环境。架构变更通过拉取请求进行异步审查——DBA 看到 CI 发布的格式化架构差异,按照自己的时间安排进行审查,并通过正常的 PR 工作流程批准或请求更改。有了可支配的时间,这些审查可以更深入:DBA 帮助团队成员理解生产环境中的现有数据和结构,与他们共同制定更好的解决方案,并进行全面审查以维护数据完整性和治理标准。数据脱敏由策略强制执行,而非手动干预。成本归因是自动化的,不再是每月对账的工作。

真正发挥 DBA 专业知识的工作由此展开:定义分支策略、设计治理规则、架构晋升工作流、性能调优,以及建立使自助服务安全进行的防护机制。DBA 从执行工作转变为设计工作完成方式——从每个冲刺周期 30 多个运营工单减少到不到 5 个高价值策略审查。上文展示的审计追踪不仅仅是合规性产物——它是 DBA 新的战略仪表板,实时展示平台使用情况以及下一步投资方向。

从角色转变到工具配套

DBA 从运营工单转向平台设计的转型,只有在工具配套随之改变时才能实现。平台必须能够自主完成常规工作,而 DBA 需要一个可以*设计*工作完成方式的空间。

两个开源工具——都作为 Databricks Apps 部署,并受上述相同的 Unity Catalog 授权和审计追踪治理——完成了这个闭环。

**LakebaseOps** 是平台自主完成的工作。三个代理——配置、性能和健康——取代了 DBA 过去需要处理工单的 51 项任务。其中七个作为定时 Databricks Jobs 运行,取代了 DBA 原本需要手动维护的 pg_cron 定时任务。监控界面实时显示 pg_stat 指标、慢查询回归、分支 TTL 执行情况以及包含 9 个 KPI 的采用率仪表板。迁移向导对十种源引擎(Aurora、RDS、Cloud SQL、AlloyDB、Cosmos DB 等)与 Lakebase 进行评分,并通过 AWS 和 Azure API 提供实时定价。

bash

bash
# LakebaseOps – 3 个代理,51 个工具,监控界面
git clone https://github.com/suryasai87/lakebase-ops-platform
cd lakebase-ops-platform && uv sync
databricks bundle deploy -t dev
python app/deploy_to_databricks.py

**Lakebase MCP** 是 DBA 在平台之上进行的工作。这是一个模型上下文协议服务器,向任何支持 MCP 的 AI 代理(Claude、Copilot、GPT)提供 46 个工具。DBA 不再需要打开 pgAdmin,而是开始描述意图:

plaintext

plaintext
> 分支生产环境,在此分支上运行此 DDL,显示 EXPLAIN 差异,
  仅在没有计划回归时才晋升。

plaintext

plaintext
代理调用:lakebase_prepare_migration → lakebase_read_query →
          lakebase_explain_query → lakebase_complete_migration

两个设计选择确保了安全性。首先,双层治理:SQL 语句防护和每个工具的访问防护,配有四个预构建配置文件(read_only、analyst、developer、admin),映射到上述相同的 UC 访问模式。编码助手以 read_only 身份运行,物理上无法删除表。

bash

bash
export LAKEBASE_SQL_PROFILE=analyst
export LAKEBASE_TOOL_PROFILE=analyst

其次,每个查询都可追溯——服务器为每个语句标记来源工具:

sql

sql
/* lakebase_mcp:lakebase_read_query */ 
SELECT * FROM users LIMIT 10;

结合前面展示的分支级成本归因,您可以通过一个 SQL 查询回答"哪个代理在哪个分支上产生了凌晨 4 点的 CPU 峰值?"

LakebaseOps 为团队*运行*。Lakebase MCP 与团队*协同运行*。两者都继承了您刚才看到的治理态势。

在本系列的第三部分中,我们将探讨最终成果:通过单条 SQL 查询,将 Backstage 中的基础设施所有权数据直接关联至云账单数据。

获取最新博客内容

订阅我们的博客,最新内容将直达您的收件箱。

注册

*

工作邮箱

*

国家/地区 国家/地区*

点击“订阅”即表示我理解将接收 Databricks 的通讯信息,并同意 Databricks 根据其隐私政策处理我的个人数据。

订阅

查看所有博客

图 5:databricks 徽标

为何选择 Databricks

探索

客户

合作伙伴

产品

Databricks 平台

定价

开源项目

集成与数据

解决方案

数据迁移

Data Migration

专业服务

Professional Services

解决方案加速器

Solution Accelerators

资源

文档

客户支持

社区

学习

活动

博客与播客

资源

文档

客户支持

社区

学习

活动

博客与播客

关于

公司

职业

媒体

安全与信任

Image 7: Databricks标志

Databricks公司

旧金山斯皮尔街160号15楼 加利福尼亚州 94105 1-866-330-0121

  • [](https://www.linkedin.com/company/databricks)
  • [](https://www.facebook.com/pages/Databricks/560203607379694)
  • [](https://twitter.com/databricks)
  • [](https://www.databricks.com/feed)
  • [](https://www.glassdoor.com/Overview/Working-at-Databricks-EI_IE954734.11,21.htm)
  • [](https://www.youtube.com/@Databricks)
Image 9

查看职位

在 Databricks

  • [](https://www.linkedin.com/company/databricks)
  • [](https://www.facebook.com/pages/Databricks/560203607379694)
  • [](https://twitter.com/databricks)
  • [](https://www.databricks.com/feed)
  • [](https://www.glassdoor.com/Overview/Working-at-Databricks-EI_IE954734.11,21.htm)
  • [](https://www.youtube.com/@Databricks)

© Databricks 2026。保留所有权利。Apache、Apache Spark、Spark、Spark 徽标、Apache Iceberg、Iceberg 以及 Apache Iceberg 徽标均为 Apache Software Foundation 的商标。

我们重视您的隐私

Databricks 使用 Cookie 和类似技术来增强网站导航、分析网站使用情况、个性化内容和广告,具体如我们的 Cookie 声明 中所述。要禁用非必要 Cookie,请点击“拒绝全部”。您也可以通过点击“管理偏好设置”来管理 Cookie 设置。

管理偏好设置

拒绝全部 接受全部

Image 12: Databricks 公司徽标

隐私偏好中心

遵循退出偏好信号

隐私偏好中心

  • ### 您的隐私
  • ### 严格必要的 Cookie
  • ### 性能 Cookie
  • ### 功能 Cookie
  • ### 定向 Cookie
  • ### TOTHR

#### 您的隐私

当您访问任何网站时,它可能会在您的浏览器中存储或检索信息,主要以 Cookie 的形式存在。这些信息可能与您、您的偏好或您的设备相关,主要用于使网站按预期工作。这些信息通常不会直接识别您的身份,但可以为您提供更个性化的网络体验。因为我们尊重您的隐私权,您可以选择不允许某些类型的 Cookie。点击不同的类别标题以了解更多信息并更改我们的默认设置。但是,阻止某些类型的 Cookie 可能会影响您对网站的体验以及我们能够提供的服务。

#### 选择退出销售、共享和定向广告

根据您所在的位置,您可能有权选择退出个人信息的“销售”或“共享”,或为在线“定向广告”目的处理您的个人信息。您可以通过在此处禁用可选 Cookie 来基于 Cookie 和类似标识符选择退出。要基于其他标识符(例如您的电子邮件地址)选择退出,请在我们的 隐私请求中心 提交请求。

更多信息

#### 严格必要的 Cookie

始终启用

这些 Cookie 是网站运行所必需的,无法在我们的系统中关闭。它们有助于实现基本的网站功能,例如设置您的隐私偏好、登录或填写表单。您可以将浏览器设置为阻止或提醒您有关这些 Cookie,但网站的某些部分将不再工作。

#### 性能 Cookie

  • [x] 性能 Cookie

这些 Cookie 允许我们统计访问量和流量来源,以便衡量和改进我们网站的性能。它们帮助我们了解哪些页面最受欢迎和最不受欢迎,并查看访问者在网站上的移动情况。

#### 功能 Cookie

  • [x] 功能 Cookie

这些 Cookie 使网站能够提供增强的功能和个性化。它们可能由我们或我们添加到页面中的第三方提供商设置。如果您不允许这些 Cookie,那么这些服务中的部分或全部可能无法正常运行。

#### 定向 Cookie

  • [x] 定向 Cookie

这些 Cookie 可能由我们的广告合作伙伴通过我们的网站设置。这些公司可能使用它们来构建您的兴趣档案,并在其他网站上向您展示相关的广告。如果您不允许这些 Cookie,您将体验到较少的定向广告。

#### TOTHR

  • [x] TOTHR

Cookie 列表

同意 合法利益

  • [x] 复选框标签 标签
  • [x] 复选框标签 标签
  • [x] 复选框标签 标签

清除

  • - [x] 复选框标签 标签

应用 取消

确认我的选择

允许全部

Image 13: 由 Onetrust 提供支持

Image 15Image 16

Image 17
图片 18

AI 可能会生成不准确的信息,请核实重要内容