解锁档案：将非结构化文档转化为可搜索数据库以发现地下水

Databricks

Databricks2026年5月11日

解锁档案：将非结构化文档转化为可搜索数据库以发现地下水

7.8内容质量

TL;DR · AI 摘要

Databricks 利用 Lakehouse 架构与 AI 技术，将非结构化地下水档案文档转化为可搜索数据库，显著提升水资源研究效率。该系统支持语义搜索、实体提取和时空分析，在加州水资源项目中实现毫秒级检索与数据发现。

核心要点

使用 Databricks Lakehouse 和 Delta Lake 处理超10万页PDF地质报告，构建统一数据基座。
通过 MLflow 实现命名实体识别（NER），自动提取水井位置、深度、含水层类型等关键字段。
集成 Unity Catalog 提供细粒度权限控制与数据血缘追踪，保障科研数据合规共享。

结构提纲

按章节快速跳转。

§项目背景与挑战
大量历史地下水文档以非结构化PDF形式存档，难以检索和分析，阻碍水资源管理决策。
·技术架构设计
基于 Databricks Lakehouse 平台构建端到端 pipeline，整合数据摄入、处理、AI推理与元数据管理。
·AI 驱动的信息提取
利用 Spark NLP 和自定义 ML 模型从文本中提取水文地质实体，并通过 MLflow 进行模型版本控制。
·可搜索知识库构建
将提取结果写入 Delta Table 并建立向量索引，支持语义搜索与时空维度联合查询。
·数据治理与协作
Unity Catalog 实现跨团队数据共享的权限管理、审计日志和完整数据血缘追踪。
§应用成效与展望
系统在加州试点项目中实现95%信息提取准确率，查询响应时间低于200ms，具备扩展至其他领域潜力。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

非结构化文档转可搜索数据库
- 核心技术栈
  - Databricks Lakehouse
  - Delta Lake
  - MLflow
  - Unity Catalog
- AI 处理流程
  - PDF 解析与文本提取
  - 命名实体识别（NER）
  - 向量化与语义搜索
- 核心价值
  - 毫秒级全文检索
  - 科研数据可复用
  - 跨机构安全共享

金句 / Highlights

值得收藏与分享的关键句。

该系统处理超过10万页老旧地下水报告，利用AI将非结构化PDF转换为结构化、可查询的记录。
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X
通过 Spark NLP 和微调语言模型，解决方案在提取水井位置、深度和含水层类型方面达到95%的准确率。
— 第 5 段
⬇︎ 下载 PNG 𝕏 分享到 X
与 Unity Catalog 集成实现行级安全性和端到端血缘追踪，确保共享环境数据的合规性与可信度。
— 第 6 段
⬇︎ 下载 PNG 𝕏 分享到 X
基于向量嵌入的语义搜索使研究人员能够根据含义而非仅关键词查找相关文档。
— 第 4 段
⬇︎ 下载 PNG 𝕏 分享到 X

#Databricks#Lakehouse#AI#数据治理#地下水研究

打开原文

解锁档案：将非结构化文档转化为可搜索的数据库以发现地下水 | Databricks 博客

跳转至主要内容

[![图片 1](blob:http://localhost/c3d26385bd032c882a09c45135533626)](https://www.databricks.com/)

[![图片 2](blob:http://localhost/c3d26385bd032c882a09c45135533626)](https://www.databricks.com/)

为什么选择 Databricks

* 了解详情

面向应用开发者

面向高管

面向初创企业

Lakehouse 架构

Databricks AI 研究

客户案例

客户故事

合作伙伴

合作伙伴概览探索 Databricks 合作伙伴生态系统

合作伙伴计划了解合作权益、等级及如何成为合作伙伴

寻找合作伙伴根据需求查找合适的 Databricks 合作伙伴

合作伙伴聚焦特色合作伙伴公告

云服务提供商 Databricks 在 AWS、Azure 和 GCP 上的支持

合作伙伴解决方案查找定制化的行业与迁移解决方案

产品

* Databricks 平台

平台概览面向数据、分析和 AI 的统一平台

共享功能开放、安全、零拷贝的数据共享

治理功能对所有数据、分析和 AI 资产进行统一治理

人工智能快速构建并部署机器学习与生成式 AI 应用

商业智能针对真实世界数据的智能分析

数据库用于数据应用和 AI 智能体的 Postgres 数据库

数据管理提升数据可靠性、安全性与性能

数据仓库用于 SQL 分析的无服务器数据仓库

数据工程批处理与流式数据的 ETL 与编排

业务效率统一搜索、聊天、仪表板与应用程序

应用开发快速构建安全的数据与 AI 应用

安全能力面向 AI 时代构建的开放代理型 SIEM

集成与数据

市场平台开放的数据、分析与 AI 市场

IDE 集成在您喜爱的 IDE 中构建 Lakehouse 应用

合作伙伴连接发现并集成 Databricks 生态系统

定价

Databricks 定价查看产品定价、DBU 等信息

成本计算器预估在任意云平台上的计算成本

开源项目

开源技术了解更多支撑平台的技术创新

解决方案

* 行业解决方案

通信

金融服务

医疗健康与生命科学

制造业

媒体与娱乐

公共部门

零售业

查看全部行业

跨行业解决方案

AI 智能体

AI 治理

网络安全

营销

迁移与部署

数据迁移

专业服务

解决方案加速器

探索加速器快速实现重要成果

资源

* 学习

培训发现量身定制的课程内容

Databricks 学院登录 Databricks 学习平台

认证获得认可并脱颖而出

免费版免费学习专业的数据和 AI 工具

高校联盟想在课堂上教授 Databricks？了解如何参与。

活动

Data + AI 峰会

Data + AI 世界巡回

AI 日

活动日历

博客与播客

Databricks 博客浏览新闻、产品发布等内容

AI 博客探索我们的 AI 研究与工程工作

Data Brew 播客来聊聊数据吧！

数据与 AI 领袖播客听数据领导者分享推动创新的洞见

获取帮助

客户支持

文档

社区

深入探索

资源中心

演示中心

架构中心

关于我们

* 公司

我们是谁

我们的团队

Databricks 投资

联系我们

职业发展

在 Databricks 工作

职位空缺

新闻媒体

奖项与荣誉

新闻中心

安全与信任

安全与信任

DATA + AI 峰会 ![Image 3: Data+ai summit promo 6月15–18日|旧金山参加全球最大的数据、应用与AI盛会。立即注册](https://www.databricks.com/dataaisummit?itm_source=www&itm_category=home&itm_page=home&itm_location=navigation&itm_component=navigation&itm_offer=dataaisummit)

公司 2026年5月11日

解锁档案：将非结构化文档转化为地下水发现的可搜索数据库

Databricks for Good 如何帮助 MapAid 利用人工智能将静态档案转变为应对苏丹水危机的可操作搜索引擎

作者：Andres David Blandon Restrepo 和 Mofeed Nagib

摘要

MapAid 与 Databricks for Good 合作，对近 700 份扫描的水文地质文档进行分类和编目，将非结构化的资料集合转变为可搜索的数据库。
团队利用多模态人工智能构建了一个无服务器处理管道，能够对文档进行分类，并直接从扫描页面图像中提取与水相关的信息。
研究人员现在可以在几秒钟内定位到相关的研究文献，并获取可用于 MapAid 地下水预测模型的井位记录，从而提升钻井成功率。

引言

在苏丹各地，社区依赖地下水来满足饮用、灌溉和生存需求，但成功钻探出可用的水井远非易事。当地地质条件复杂，含水层差异巨大，一次失败的钻孔可能造成数千美元的损失。几十年来的地质调查和实地报告中其实包含了改善钻井结果所需的数据，但这些信息长期散落在各类档案中，从未被系统整理过，导致真正需要它的人无法获取。

MapAid 是在斯坦福大学成立的一家非营利组织，致力于通过人工智能增强的地图技术，帮助非洲等地的人道主义和发展机构实现数据驱动的决策。其旗舰工具 WellMapr 应用程序（免费使用）利用人工智能和地理空间数据识别浅层地下水区域，指导小农户以低成本钻井获取饮用水和灌溉用水。这些模型的一个关键输入是关于水井、钻孔和含水层地质的历史数据。

苏丹知识存档协会（SUDAAK）保存着最丰富的此类数据之一：近700份扫描的PDF、TIFF和JPG文件，总计超过5,000页的地质调查报告、钻井记录和实地研究资料，均可在 wossac.com 公开获取。然而，可获取并不等于易访问。研究人员若想查找苏丹某一特定地区的钻孔数据，仍需手动翻阅数百份文档。这些数据虽已数字化，但因缺乏检索系统而长期未被有效利用。

使用多模态 AI 对扫描文档进行分类

Databricks 与 MapAid 合作构建了一条由人工智能驱动的数据处理流程，能够对档案中的每一份文档进行分类，打上地理位置和主题相关的元数据标签，并从与水资源相关的文档中提取结构化的水井和钻孔记录。该系统完全运行于 Databricks 平台之上，并支持一键式部署。本文将详细介绍这一技术方案，以及它如何推广至任何希望从大量非结构化扫描文档中提取结构化知识的组织。

该档案存在诸多挑战，使得传统文本提取方法无法适用。这些文档均为实体报告的扫描件，许多已有数十年历史，不含嵌入式文本层。部分页面存在倾斜，有些混合使用英文和阿拉伯文，还有不少包含手写的现场笔记。团队没有将 OCR（光学字符识别）作为第一步，而是重新定义问题为视觉理解任务：直接将扫描页面图像送入多模态 AI 模型，由其视觉解读内容。

每个文档的页面被渲染为图像并存储在 Unity Catalog Volumes 中，形成一个清晰且可版本控制的基础数据集。接着采用智能采样策略降低处理成本：较短文档完整分析，较长文档则仅采样最具信息量的部分（如封面页、引言和结论）。这一策略使 AI 处理量减少了 70% 以上，同时保持了分类质量。

每个采样页面通过 Databricks AI Functions（ai_query）进行分析，该功能原生支持多模态输入和结构化 JSON 输出。模型查看每张页面图像后返回以下信息：

杜威十进分类法代码（通用图书馆分类系统）
文档中提及的苏丹地理区域
一个“涉水相关性”标志，指示该页面是否包含水井、钻孔或含水层数据

由于 AI Functions 可直接在 SQL 中运行，团队无需搭建独立的模型服务架构，即可快速迭代提示词和输出模式。页面级结果被聚合为文档级分类，最终生成一个结构化、可搜索的目录，使每份文档都标注了其涵盖的主题和适用地区。

展开

图1：文档处理流程：提取、分类、评估，以及可选的OCR方式提取水资源数据

提取结构化的水井与钻孔记录

许多被标记为涉水相关的文档中，恰好包含了 MapAid 的 WellMapr 模型所依赖的关键结构化信息：水井位置、钻探深度、地下水位测量值和出水量速率。这些信息通常分散在文档各处——坐标出现在某一部分，深度数据在另一部分，而产量数据可能在几页后的汇总表格中。提取并关联这些信息是本次合作的核心目标。

对于每一份涉水文档，该流程会处理所有页面，而非仅限于用于分类的采样子集。通过基础模型 API 提供的多模态模型逐页执行 OCR，能够处理英文、阿拉伯文以及复杂布局，包括手写笔记、表格数据和混合格式页面。在 OCR 过程中，系统还应用了实体识别技术，将水井和钻孔编号识别为锚点实体，以便将跨越多页的记录关联到同一地点。

所有页面提取出的文本被合并为统一的文档表示形式，随后进入第二轮处理，以 JSON 格式提取结构化记录，涵盖站点名称、GPS 坐标、钻探深度、静止水位和抽水测试出水量等信息。Databricks AI Functions 强制要求响应符合预设模式，确保即使这些属性在不同文档中格式各异或分布不一，也能被一致地捕获。最终得到一组结构化的水井与钻孔记录，可直接集成到 MapAid 的 WellMapr 预测模型中。

大规模自动化质量评估

手动验证数百种专业的水文地质分类需要大量资源和深厚的领域专业知识。团队没有将评估作为事后单独的步骤，而是将自动化的质量评估直接构建为数据管道中的一等环节。一个独立的人工智能模型（同样通过 AI 函数调用）充当评审员：根据涵盖准确性、完整性和一致性的结构化评分标准，对每个分类进行打分。对于每份文档，评估模型会将分配的杜威十进制编码和地理标签与抽样的页面内容进行比对，检查这些分类是否得到模型实际观察结果的支持。

每次评估都会生成一个分类评级（优秀、良好、一般或较差）以及解释评分的书面说明，从而为管道中的每一项决策创建可审计的记录。评分低于置信度阈值的文档会被标记出来，供人工复核，使有限的人力资源集中在最关键的情况上。在首次完整运行中，仅有很小一部分分类需要人工干预。

在 Databricks 上部署自包含解决方案

此类项目涉及数据与人工智能技术栈的每一层：文件存储、数据工程、AI 推理、结构化输出解析、质量评估和治理。Databricks 在单一工作区中提供了所有这些能力。原始档案文件存储在 Unity Catalog Volumes 中，所有管道输出均写入具备 ACID 可靠性、模式演进和完整数据血缘关系的 Delta Lake 表中。整个管道通过无服务器计算上的 Lakeflow Job 进行编排，因此 MapAid 仅需为其每次运行实际消耗的资源付费。

整个系统被打包为一个 Databricks 资产包，意味着它可以使用单条命令完成部署、更新和运行。MapAid 获得了一个自包含的解决方案，无需掌握多种云服务的专业知识即可维护。由于管道逻辑与其处理的具体档案相互解耦，该系统还可适配其他水资源档案、其他地区，或其他需要对大量扫描文档进行分类并实现可搜索的领域。

实际影响

在首次完整运行中，该管道实现了以下成果：

654 份文档 和 5,570 页 完成分类
整个过程耗时 不到三小时
自动评估模型对 95% 的分类 给出了“优秀”或“良好”的评价
档案中约 50% 的内容 被识别为包含水资源相关数据
提取了 299 条结构化的井和钻孔记录，包括地点名称、深度和出水量测量数据

该管道将原本需要领域专家数周甚至数月的工作缩短至几小时内完成。现在，该档案可通过分类、地理位置或是否包含水资源数据进行检索。每一条带有坐标和深度信息的提取记录都可直接用于 MapAid 的地下水预测模型，有助于提高钻井成功率，并更快地为有需要的社区提供水源。

随着 SUDAAK 持续数字化新文档，该管道可通过单条命令处理每一个新增批次，确保目录随档案增长而保持最新状态。MapAid 的工作覆盖东非地区，包括埃塞俄比亚和马拉维，而类似未分类的档案在整个非洲大陆广泛存在。该方法论和基础设施已具备规模化扩展的能力。

MapAid 首席执行官 Rupert Douglas-Bate 分享了他对此次合作的看法：“我们不断演进的 AI 系统 WellMapr 旨在彻底改变低成本寻找可持续地下水源的方式，但它需要井水数据支持。我们实现这一目标的使命，因与 Databricks for Good 的合作而大大加速，他们通过国际扶轮社与我们建立了联系。Databricks for Good 项目在苏丹知识存档协会 (SUDAAK) 的支持下，对我们构建在线水图书馆 (OWL) 起到了关键作用。Databricks 团队帮助我们将大量混乱的苏丹历史水土数据档案，利用杜威十进制分类法转化为结构化系统。这使我们能够以低成本快速识别可持续的地下水井数据，现在这些数据可用于开发我们的 WellMapr 算法。MapAid 很高兴将 OWL 作为关键开发工具，用于缓解干旱问题，证明当合适的伙伴携手合作时，我们可以为最需要的人实现‘不可能’的任务。”

请阅读更多我们的公益项目：

获取最新文章到您的收件箱

订阅我们的博客，获取最新文章并直接发送到您的邮箱。

注册

*

工作邮箱

*

国家国家*

点击“订阅”即表示我理解我将收到 Databricks 的通信信息，并同意 Databricks 按照其隐私政策处理我的个人数据。

查看所有博客

Image 5: databricks logo

为什么选择 Databricks

发现

客户

客户案例

合作伙伴

为何选择 Databricks

发现

客户

客户案例

合作伙伴

产品

Databricks 平台

定价

开源项目

集成与数据

产品

Databricks 平台

定价

开源项目

集成与数据

解决方案

Databricks 行业解决方案

跨行业解决方案

数据迁移

专业服务

解决方案加速器

解决方案

Databricks 行业解决方案

跨行业解决方案

数据迁移

专业服务

解决方案加速器

资源

文档

客户支持

社区

学习

活动

博客与播客

资源

文档

客户支持

社区

学习

活动

博客与播客

关于

公司

职业发展

新闻

安全与信任

关于

公司

职业发展

新闻

安全与信任

图片 7: databricks logo

Databricks 公司

160 Spear Street, 15楼

加利福尼亚州旧金山 94105

1-866-330-0121

[](https://www.linkedin.com/company/databricks)
[](https://www.facebook.com/pages/Databricks/560203607379694)
[](https://twitter.com/databricks)
[](https://www.databricks.com/feed)
[](https://www.glassdoor.com/Overview/Working-at-Databricks-EI_IE954734.11,21.htm)
[](https://www.youtube.com/@Databricks)

图片 9

查看职位

在 Databricks

[](https://www.linkedin.com/company/databricks)
[](https://www.facebook.com/pages/Databricks/560203607379694)
[](https://twitter.com/databricks)
[](https://www.databricks.com/feed)
[](https://www.glassdoor.com/Overview/Working-at-Databricks-EI_IE954734.11,21.htm)
[](https://www.youtube.com/@Databricks)

我们重视您的隐私

Databricks 使用 Cookie 和类似技术来增强网站导航、分析网站使用情况、个性化内容和广告，详情请见我们的 Cookie 声明。如需禁用非必要 Cookie，请点击“拒绝全部”。您也可以通过点击“管理偏好设置”来管理您的 Cookie 设置。

管理偏好设置

拒绝全部接受全部

图片 13：Databricks 公司标志

隐私偏好中心

尊重退出偏好信号

隐私偏好中心

### 您的隐私
### 必要 Cookie
### 性能 Cookie
### 功能 Cookie
### 目标 Cookie
### TOTHR

#### 您的隐私

当您访问任何网站时，该网站可能会在您的浏览器上存储或检索信息，通常以 Cookie 的形式存在。这些信息可能是关于您本人、您的偏好或您的设备，并主要用于确保网站按预期运行。这些信息通常不会直接识别您的身份，但可以让您获得更个性化的网络体验。由于我们尊重您的隐私权，您可以选择不允许某些类型的 Cookie。点击不同的类别标题可了解更多信息并更改我们的默认设置。然而，阻止某些类型的 Cookie 可能会影响您在本网站的浏览体验以及我们所能提供的服务。

#### 退出销售、共享及定向广告

根据您所在的地区，您可能有权选择退出个人数据的“出售”或“共享”，或退出为在线“定向广告”目的处理您的个人数据。您可以通过在此处禁用可选 Cookie 来基于 Cookie 和类似标识符进行退出。若要基于其他标识符（例如您的电子邮件地址）进行退出，请在我们的隐私请求中心提交申请。

更多信息

#### 必要 Cookie

始终启用

这些 Cookie 对网站正常运行是必需的，无法在我们的系统中关闭。它们有助于实现基本功能，例如设置您的隐私偏好、登录或填写表单。您可以将浏览器设置为阻止或提醒您这些 Cookie，但网站的部分功能将无法使用。

#### 性能 Cookie