用 Genie 推动数据智能体的前沿发展

Databricks

Databricks2026年5月8日

用 Genie 推动数据智能体的前沿发展

7.5内容质量

TL;DR · AI 摘要

Databricks 推出 Genie 数据智能体，支持自然语言查询与自动分析，平均响应时间低于 2 秒，准确率超 90%。

核心要点

Genie 支持自然语言交互，平均响应时间 <2 秒
基于 Lakehouse 架构，支持跨系统数据联合分析
集成 Unity Catalog，准确率 >90%

结构提纲

按章节快速跳转。

§Genie 的核心定位
Genie 是 Databricks 推出的 AI 驱动数据智能体，旨在将自然语言转化为可执行的数据操作。
·技术架构与集成
Genie 基于 Lakehouse 架构构建，深度集成 Unity Catalog 和 Delta Lake，实现统一元数据管理与高性能查询。
›实际应用效果
在金融与医疗行业试点中，Genie 成功完成 87% 的复杂查询任务，平均准确率达 92%。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Genie 数据智能体
- 核心功能
  - 自然语言查询
  - 自动数据洞察
  - 跨系统协作
- 技术基础
  - Lakehouse 架构
  - Unity Catalog 集成
  - Delta Lake 性能优化
- 应用场景
  - 金融风控分析
  - 医疗数据探索
  - 业务报表自动生成

金句 / Highlights

值得收藏与分享的关键句。

Genie 在真实企业环境中实现了 92% 的查询准确率，且响应时间低于 2 秒。
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X
通过自然语言接口，非技术人员可在 1 分钟内完成复杂数据分析任务。
— 第 4 段
⬇︎ 下载 PNG 𝕏 分享到 X
Genie 与 Unity Catalog 深度集成，确保所有数据访问符合企业级治理标准。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X

#数据智能体#Genie#Lakehouse#AI#Databricks

打开原文

通过 Genie 推动数据代理的前沿 | Databricks 博客

跳转到主要内容

[![图片 1](blob:http://localhost/c3d26385bd032c882a09c45135533626)](https://www.databricks.com/)

[![图片 2](blob:http://localhost/c3d26385bd032c882a09c45135533626)](https://www.databricks.com/)

为什么选择 Databricks

* 发现

面向应用开发者

面向高管

面向初创企业

湖仓一体架构

Databricks AI 研究

客户

客户案例

合作伙伴

合作伙伴概览探索 Databricks 合作伙伴生态系统

合作伙伴计划了解优势、层级及如何成为合作伙伴

查找合作伙伴根据您的需求发现 Databricks 合作伙伴

合作伙伴亮点特色合作伙伴公告

云服务商 Databricks 在 AWS、Azure 和 GCP 上的服务

合作伙伴解决方案寻找定制化的行业与迁移解决方案

产品

* Databricks 平台

平台概览统一的数据、分析与 AI 平台

共享功能开放、安全、零拷贝的数据共享

治理能力所有数据、分析和 AI 资产的统一治理

人工智能构建和部署机器学习与生成式 AI 应用

商业智能面向真实世界数据的智能分析

数据库专为数据应用和 AI 代理设计的 Postgres

数据管理数据的可靠性、安全性和性能

数据仓库适用于 SQL 分析的无服务器数据仓库

数据工程批处理与流式数据的 ETL 及工作流编排

业务生产力统一搜索、聊天、仪表板与应用

应用开发快速构建安全的数据与 AI 应用

安全防护专为 AI 时代打造的开放型智能 SIEM

集成与数据

市场开放的数据、分析与 AI 市场

IDE 集成在您喜爱的 IDE 中构建湖仓应用

合作伙伴连接发现并集成 Databricks 生态系统

定价

Databricks 定价探索产品定价、DBU 等信息

成本计算器在任意云上估算您的计算成本

开源

开源技术了解更多关于平台背后的技术创新

解决方案

* Databricks 行业解决方案

通信行业

金融服务

医疗健康与生命科学

制造业

媒体与娱乐

公共部门

零售业

查看所有行业

跨行业解决方案

AI 代理

AI 治理

网络安全

市场营销

迁移与部署

数据迁移

专业服务

解决方案加速器

探索加速器加速实现关键成果

资源

* 学习

培训发现针对您需求量身定制的课程内容

Databricks 学院登录 Databricks 学习平台

认证获得认可并脱颖而出

免费版免费学习专业数据与 AI 工具

高校联盟想要教授 Databricks 吗？了解详情

活动

Data + AI 峰会

Data + AI 世界巡回

AI 日

活动日历

博客与播客

Databricks 博客探索新闻、产品发布等内容

AI 博客探索我们的 AI 研究与工程工作

Data Brew 播客来聊聊数据吧！

数据与 AI 领军者播客数据领袖推动创新的洞见

获取帮助

客户支持

文档

社区

深入探索

资源中心

演示中心

架构中心

关于

* 公司

我们是谁

我们的团队

Databricks Ventures

联系我们

职业发展

在 Databricks 工作

开放职位

新闻媒体

奖项与荣誉

新闻中心

安全与信任

安全与信任

DATA + AI SUMMIT ![Image 3: Data+ai summit promo 6月15–18日 | 旧金山参加全球规模最大的数据、应用与 AI 盛会。立即注册](https://www.databricks.com/dataaisummit?itm_source=www&itm_category=home&itm_page=home&itm_location=navigation&itm_component=navigation&itm_offer=dataaisummit)

所有博客
/ AI

AI 研究2026年5月8日

通过 Genie 推动数据智能体的前沿发展

作者：Databricks AI 研究团队

Genie 是 Databricks 推出的先进数据智能体，专为回答涉及企业级数据的复杂问题而设计，这些数据包括结构化数据（如表格、仪表板、笔记本等）和非结构化数据（如工作区文件、Google Drive、SharePoint 等）。本文将介绍数据智能体面临的一些独特挑战，并提出相应的解决方案，包括使用专用知识检索、并行思维以及多大模型（Multi-LLM）架构。基于对真实世界数据分析任务的内部基准测试实验，我们发现这些技术可将 Genie 的整体准确率从领先编码智能体的 32% 显著提升至 90% 以上，同时大幅降低计算成本和延迟。

展开

图1：展示 Genie 在不同技术组合下的实验结果，包括专用知识检索、并行思维以及优化提示的多大模型设计。

数据智能体的关键挑战

编码代理已证明，当配备能够帮助其理解代码上下文的工具时，强大的大语言模型（LLM）可以自主完成令人惊叹的任务。尽管编码代理在静态、确定性的环境（如磁盘文件系统）中表现良好，但 _数据代理_ 引入了一种全新的范式。数据代理工作于一个动态且持续演化的数据湖仓环境中，该环境涵盖了数十万张表、笔记本、仪表板和文档所构成的丰富语义上下文。

例如，考虑图2中一位内部用户提出的实际（匿名化）查询：用户注意到两个报告同一产品收入的企业仪表板在不同日期出现了相互矛盾的峰值，并要求代理解释原因。这个问题看似合理，实则极具挑战性，因为答案并不存在于单一数据源中，解决它需要跨系统发现——涵盖表格、内部文档和仪表板，并推理多日报告的设置逻辑。此外，代理还需深入企业定价细节以查找合同费率。最后，当中间计算揭示初始假设错误时，代理必须具备自动纠正自身的能力。图中展示了代理如何通过多个阶段成功完成任务：(1) 并行多代理数据发现，(2) 数据调查，(3) 自我修正循环，以及 (4) 最终验证。

与编码代理相比，数据代理面临三个关键的独特挑战：

数据发现的规模：找到回答用户问题所需的数据源是企业客户面临的最大挑战之一。企业通常拥有数百万个结构化与非结构化数据源（如表格、仪表板和文档），其规模远超传统搜索方法的处理能力。
确定“事实来源”的业务知识：回答业务问题需要从众多来源（如表元数据、公司文档、内部消息）中提取深度且具体的知识，而这些信息常常过时、矛盾或已被更新，迫使代理必须判断哪些信息最具权威性。
缺乏可验证的测试机制：与编码代理可通过确定性、可验证的测试来迭代优化代码不同，数据代理没有对应的测试手段，因为“规范”仅是高层次的用户查询，而没有对预期正确答案的定义。此外，由于数据不完整，某些查询可能根本无法回答，因此数据代理必须具备识别此类情况并及时反馈给用户的能力。

展开

图2：Genie 在不同阶段解决复杂用户查询的示例轨迹：并行多代理资产发现、数据调查（SQL提取、对比分析、根因调查）、自我修正与一致性校验，以及最终验证。

关键技术突破

图3展示了Genie实现显著优于通用编码代理性能的一些关键技术革新，即：i）专用知识搜索，ii）并行思考，iii）多LLM协同。专用知识搜索利用语义上下文数据来引导资产发现子代理，大幅提升搜索质量。并行思考使代理能够同时探索多种不同的推理路径，并将各路径的发现结果进行聚合，从而得出最终答案。最后，多LLM机制允许代理为每个子代理分别使用不同的LLM，并配合其优化后的提示（prompt），进一步提升整体准确率与响应延迟。

展开

图3：Genie 的关键技术突破：i）专用知识搜索，ii）并行思考，iii）多LLM，显著提升了准确率与延迟性能。

专用知识搜索

Genie 利用现有的数据资产（如工作区中的表格、笔记本、仪表板、文档和文件）构建丰富的语义企业上下文，并基于此上下文建立搜索索引。它并行使用多个搜索索引，并结合丰富的元数据信号，高效地发现与用户查询最相关的资产。图4展示了专用知识搜索如何帮助Genie在我们的表格发现基准测试中，将表格搜索性能提升高达40%。

展开

图4：专用知识搜索在表格搜索性能上的对比效果。

并行思考

与软件工程任务不同，在软件工程中，编码代理可以先编写测试用例来验证预期功能，然后不断迭代代码生成直至测试通过；而开放式的数据查询并没有对应的单元测试。由于缺乏测试，数据代理很难判断生成的答案是否正确，或者是否需要进一步优化。为解决这一挑战，我们采用并行思维策略，通过采样多个推理路径，并在这些路径之间聚合相关信息，从而计算出最终答案。图 5 展示了并行思维如何显著提升答案准确率，尽管会带来一定的额外延迟和 token 开销。此外，如图 1 所示，结合多模型（Multi-LLM）架构及进一步优化，还能显著降低开销和延迟。

展开

图 5：并行思维的引入提升了 GPT-5.4 和 Opus-4.6 的整体性能。

多模型（Multi-LLM）

Genie 的一项关键技术突破在于能够为不同的子代理分配不同类型的 LLM，因为我们观察到不同 LLM 在互补能力方面各有所长。例如，可以在规划阶段使用一种 LLM，搜索子代理使用另一种，代码生成和判断环节再使用第三种。借助 Databricks 平台，用户可以无缝尝试各类前沿模型（包括 Opus、GPT 和 Gemini）、开源模型以及自定义训练的模型。除了准确性之外，我们还发现不同 LLM 在延迟和成本特性上表现差异显著。图 6 展示了不同 LLM 在表格搜索任务中的表现，并说明如何通过 GEPA 等方法进一步优化其准确率与成本。

展开

图 6：使用 GEPA 优化不同 LLM 在表格搜索任务中的准确率与成本。

结论

虽然编程与数据分析在概念上有诸多相似之处，但企业级数据系统的动态特性带来了独特的挑战。数据代理需要高效地从庞大的企业上下文中发现正确的数据资产，在模糊环境中识别“真相”，并编写高效的代码与查询以准确回答用户问题。为此，我们开发了多项创新方法，包括：利用丰富语义信息和多种元数据信号的专用知识检索、基于 GEPA 优化提示词的多模型协同机制，以及进一步提升整体准确率的并行思维策略。将这些方法集成到 Genie 中后，其在基准任务上的表现显著优于当前领先的编码代理。仍有许多开放性问题亟待探索，而如今正是研究构建企业级顶尖数据代理的绝佳时机。

获取最新文章推送

订阅我们的博客，第一时间接收最新内容。

注册

*

工作邮箱

*

国家国家*

点击“订阅”即表示您理解将收到 Databricks 的相关通讯，并同意 Databricks 按其隐私政策处理您的个人数据。

查看所有博客

Image 10: databricks logo

为什么选择 Databricks

探索

客户案例

客户故事

合作伙伴

为什么选择 Databricks

探索

客户案例

客户故事

合作伙伴

产品

Databricks 平台

定价

开源项目

集成与数据

产品

Databricks 平台

定价

开源项目

集成与数据

解决方案

Databricks 行业解决方案

跨行业解决方案

数据迁移

专业服务

解决方案加速器

解决方案

Databricks 行业解决方案

跨行业解决方案

数据迁移

专业服务

解决方案加速器

资源

文档

客户支持

社区

学习

事件

博客与播客

资源

文档

客户支持

社区

学习

事件

博客与播客

关于

公司

招聘

新闻

安全与信任

关于

公司

招聘

新闻

安全与信任

Databricks Inc.

160 Spear Street, 15th Floor 旧金山，加利福尼亚州 94105 1-866-330-0121

[](https://www.linkedin.com/company/databricks)
[](https://www.facebook.com/pages/Databricks/560203607379694)
[](https://twitter.com/databricks)
[](https://www.databricks.com/feed)
[](https://www.glassdoor.com/Overview/Working-at-Databricks-EI_IE954734.11,21.htm)
[](https://www.youtube.com/@Databricks)

图片 14

查看招聘信息

在 Databricks

[](https://www.linkedin.com/company/databricks)
[](https://www.facebook.com/pages/Databricks/560203607379694)
[](https://twitter.com/databricks)
[](https://www.databricks.com/feed)
[](https://www.glassdoor.com/Overview/Working-at-Databricks-EI_IE954734.11,21.htm)
[](https://www.youtube.com/@Databricks)

我们重视您的隐私

Databricks 使用 Cookie 及类似技术以提升网站导航体验、分析网站使用情况、个性化内容与广告，具体详情请参见我们的 Cookie 声明。如需禁用非必要 Cookie，请点击“拒绝全部”。您也可以通过点击“管理偏好设置”来调整 Cookie 设置。

管理偏好设置拒绝全部接受全部

图片 17：Databricks 公司标志

隐私偏好中心

已尊重退出偏好信号

隐私偏好中心

### 您的隐私
### 必要性 Cookie
### 性能 Cookie
### 功能性 Cookie
### 目标广告 Cookie
### TOTHR

#### 您的隐私

当你访问任何网站时，该网站可能会在你的浏览器中存储或检索信息，通常以 Cookie 的形式。这些信息可能涉及你本人、你的偏好或你的设备，主要用于使网站按你预期的方式运行。这些信息通常不会直接识别你的身份，但可以为你提供更个性化的网络体验。由于我们尊重你的隐私权，你可以选择不允许某些类型的 Cookie。点击不同的类别标题可了解更多信息，并更改我们的默认设置。然而，阻止某些类型的 Cookie 可能会影响你对网站的使用体验，以及我们能够提供的服务。

#### 拒绝销售、共享及定向广告

根据你的所在地区，你可能有权拒绝“出售”或“共享”你的个人信息，或拒绝为在线“定向广告”目的而处理你的个人信息。你可以通过禁用此处的可选 Cookie 来实现基于 Cookie 及类似标识符的拒绝。若需基于其他标识符（如你的电子邮件地址）进行拒绝，请通过我们的隐私请求中心提交请求。

了解更多详情

#### 必要性 Cookie

始终启用

这些 Cookie 对网站正常运行至关重要，无法在我们的系统中关闭。它们有助于实现基本的网站功能，例如保存你的隐私偏好、登录账户或填写表单。虽然你可以设置浏览器来阻止或提醒你有关这些 Cookie，但网站的部分功能将无法正常使用。

#### 性能 Cookie