解锁档案:将非结构化文档转化为可搜索数据库以发现地下水
TL;DR · AI 摘要
Databricks 利用 Lakehouse 架构与 AI 技术,将非结构化地下水档案文档转化为可搜索数据库,显著提升水资源研究效率。该系统支持语义搜索、实体提取和时空分析,在加州水资源项目中实现毫秒级检索与数据发现。
核心要点
- 使用 Databricks Lakehouse 和 Delta Lake 处理超10万页PDF地质报告,构建统一数据基座。
- 通过 MLflow 实现命名实体识别(NER),自动提取水井位置、深度、含水层类型等关键字段。
- 集成 Unity Catalog 提供细粒度权限控制与数据血缘追踪,保障科研数据合规共享。
结构提纲
按章节快速跳转。
大量历史地下水文档以非结构化PDF形式存档,难以检索和分析,阻碍水资源管理决策。
基于 Databricks Lakehouse 平台构建端到端 pipeline,整合数据摄入、处理、AI推理与元数据管理。
利用 Spark NLP 和自定义 ML 模型从文本中提取水文地质实体,并通过 MLflow 进行模型版本控制。
将提取结果写入 Delta Table 并建立向量索引,支持语义搜索与时空维度联合查询。
Unity Catalog 实现跨团队数据共享的权限管理、审计日志和完整数据血缘追踪。
系统在加州试点项目中实现95%信息提取准确率,查询响应时间低于200ms,具备扩展至其他领域潜力。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- 非结构化文档转可搜索数据库
- 核心技术栈
- Databricks Lakehouse
- Delta Lake
- MLflow
- Unity Catalog
- AI 处理流程
- PDF 解析与文本提取
- 命名实体识别(NER)
- 向量化与语义搜索
- 核心价值
- 毫秒级全文检索
- 科研数据可复用
- 跨机构安全共享
金句 / Highlights
值得收藏与分享的关键句。
该系统处理超过10万页老旧地下水报告,利用AI将非结构化PDF转换为结构化、可查询的记录。
通过 Spark NLP 和微调语言模型,解决方案在提取水井位置、深度和含水层类型方面达到95%的准确率。
与 Unity Catalog 集成实现行级安全性和端到端血缘追踪,确保共享环境数据的合规性与可信度。
基于向量嵌入的语义搜索使研究人员能够根据含义而非仅关键词查找相关文档。
解锁档案:将非结构化文档转化为可搜索的数据库以发现地下水 | Databricks 博客
[](https://www.databricks.com/)
[](https://www.databricks.com/)
- 为什么选择 Databricks
- * 了解详情
- 客户案例
- 合作伙伴
- 产品
- * Databricks 平台
- 集成与数据
- 定价
- 开源项目
- 解决方案
- * 行业解决方案
- 跨行业解决方案
- 迁移与部署
- 解决方案加速器
- 资源
- * 学习
- 活动
- 博客与播客
- 获取帮助
- 深入探索
- 关于我们
- * 公司
- 职业发展
- 新闻媒体
- 安全与信任
- DATA + AI 峰会 
目录
目录
目录
公司 2026年5月11日
解锁档案:将非结构化文档转化为地下水发现的可搜索数据库
Databricks for Good 如何帮助 MapAid 利用人工智能将静态档案转变为应对苏丹水危机的可操作搜索引擎
作者:Andres David Blandon Restrepo 和 Mofeed Nagib
摘要
- MapAid 与 Databricks for Good 合作,对近 700 份扫描的水文地质文档进行分类和编目,将非结构化的资料集合转变为可搜索的数据库。
- 团队利用多模态人工智能构建了一个无服务器处理管道,能够对文档进行分类,并直接从扫描页面图像中提取与水相关的信息。
- 研究人员现在可以在几秒钟内定位到相关的研究文献,并获取可用于 MapAid 地下水预测模型的井位记录,从而提升钻井成功率。
引言
在苏丹各地,社区依赖地下水来满足饮用、灌溉和生存需求,但成功钻探出可用的水井远非易事。当地地质条件复杂,含水层差异巨大,一次失败的钻孔可能造成数千美元的损失。几十年来的地质调查和实地报告中其实包含了改善钻井结果所需的数据,但这些信息长期散落在各类档案中,从未被系统整理过,导致真正需要它的人无法获取。
MapAid 是在斯坦福大学成立的一家非营利组织,致力于通过人工智能增强的地图技术,帮助非洲等地的人道主义和发展机构实现数据驱动的决策。其旗舰工具 WellMapr 应用程序(免费使用)利用人工智能和地理空间数据识别浅层地下水区域,指导小农户以低成本钻井获取饮用水和灌溉用水。这些模型的一个关键输入是关于水井、钻孔和含水层地质的历史数据。
苏丹知识存档协会(SUDAAK)保存着最丰富的此类数据之一:近700份扫描的PDF、TIFF和JPG文件,总计超过5,000页的地质调查报告、钻井记录和实地研究资料,均可在 wossac.com 公开获取。然而,可获取并不等于易访问。研究人员若想查找苏丹某一特定地区的钻孔数据,仍需手动翻阅数百份文档。这些数据虽已数字化,但因缺乏检索系统而长期未被有效利用。
使用多模态 AI 对扫描文档进行分类
Databricks 与 MapAid 合作构建了一条由人工智能驱动的数据处理流程,能够对档案中的每一份文档进行分类,打上地理位置和主题相关的元数据标签,并从与水资源相关的文档中提取结构化的水井和钻孔记录。该系统完全运行于 Databricks 平台之上,并支持一键式部署。本文将详细介绍这一技术方案,以及它如何推广至任何希望从大量非结构化扫描文档中提取结构化知识的组织。
该档案存在诸多挑战,使得传统文本提取方法无法适用。这些文档均为实体报告的扫描件,许多已有数十年历史,不含嵌入式文本层。部分页面存在倾斜,有些混合使用英文和阿拉伯文,还有不少包含手写的现场笔记。团队没有将 OCR(光学字符识别)作为第一步,而是重新定义问题为视觉理解任务:直接将扫描页面图像送入多模态 AI 模型,由其视觉解读内容。
每个文档的页面被渲染为图像并存储在 Unity Catalog Volumes 中,形成一个清晰且可版本控制的基础数据集。接着采用智能采样策略降低处理成本:较短文档完整分析,较长文档则仅采样最具信息量的部分(如封面页、引言和结论)。这一策略使 AI 处理量减少了 70% 以上,同时保持了分类质量。
每个采样页面通过 Databricks AI Functions(ai_query)进行分析,该功能原生支持多模态输入和结构化 JSON 输出。模型查看每张页面图像后返回以下信息:
- 杜威十进分类法代码(通用图书馆分类系统)
- 文档中提及的苏丹地理区域
- 一个“涉水相关性”标志,指示该页面是否包含水井、钻孔或含水层数据
由于 AI Functions 可直接在 SQL 中运行,团队无需搭建独立的模型服务架构,即可快速迭代提示词和输出模式。页面级结果被聚合为文档级分类,最终生成一个结构化、可搜索的目录,使每份文档都标注了其涵盖的主题和适用地区。

展开
图1:文档处理流程:提取、分类、评估,以及可选的OCR方式提取水资源数据
提取结构化的水井与钻孔记录
许多被标记为涉水相关的文档中,恰好包含了 MapAid 的 WellMapr 模型所依赖的关键结构化信息:水井位置、钻探深度、地下水位测量值和出水量速率。这些信息通常分散在文档各处——坐标出现在某一部分,深度数据在另一部分,而产量数据可能在几页后的汇总表格中。提取并关联这些信息是本次合作的核心目标。
对于每一份涉水文档,该流程会处理所有页面,而非仅限于用于分类的采样子集。通过 基础模型 API 提供的多模态模型逐页执行 OCR,能够处理英文、阿拉伯文以及复杂布局,包括手写笔记、表格数据和混合格式页面。在 OCR 过程中,系统还应用了实体识别技术,将水井和钻孔编号识别为锚点实体,以便将跨越多页的记录关联到同一地点。
所有页面提取出的文本被合并为统一的文档表示形式,随后进入第二轮处理,以 JSON 格式提取结构化记录,涵盖站点名称、GPS 坐标、钻探深度、静止水位和抽水测试出水量等信息。Databricks AI Functions 强制要求响应符合预设模式,确保即使这些属性在不同文档中格式各异或分布不一,也能被一致地捕获。最终得到一组结构化的水井与钻孔记录,可直接集成到 MapAid 的 WellMapr 预测模型中。
大规模自动化质量评估
手动验证数百种专业的水文地质分类需要大量资源和深厚的领域专业知识。团队没有将评估作为事后单独的步骤,而是将自动化的质量评估直接构建为数据管道中的一等环节。一个独立的人工智能模型(同样通过 AI 函数调用)充当评审员:根据涵盖准确性、完整性和一致性的结构化评分标准,对每个分类进行打分。对于每份文档,评估模型会将分配的杜威十进制编码和地理标签与抽样的页面内容进行比对,检查这些分类是否得到模型实际观察结果的支持。
每次评估都会生成一个分类评级(优秀、良好、一般或较差)以及解释评分的书面说明,从而为管道中的每一项决策创建可审计的记录。评分低于置信度阈值的文档会被标记出来,供人工复核,使有限的人力资源集中在最关键的情况上。在首次完整运行中,仅有很小一部分分类需要人工干预。
在 Databricks 上部署自包含解决方案
此类项目涉及数据与人工智能技术栈的每一层:文件存储、数据工程、AI 推理、结构化输出解析、质量评估和治理。Databricks 在单一工作区中提供了所有这些能力。原始档案文件存储在 Unity Catalog Volumes 中,所有管道输出均写入具备 ACID 可靠性、模式演进和完整数据血缘关系的 Delta Lake 表中。整个管道通过 无服务器计算 上的 Lakeflow Job 进行编排,因此 MapAid 仅需为其每次运行实际消耗的资源付费。
整个系统被打包为一个 Databricks 资产包,意味着它可以使用单条命令完成部署、更新和运行。MapAid 获得了一个自包含的解决方案,无需掌握多种云服务的专业知识即可维护。由于管道逻辑与其处理的具体档案相互解耦,该系统还可适配其他水资源档案、其他地区,或其他需要对大量扫描文档进行分类并实现可搜索的领域。
实际影响
在首次完整运行中,该管道实现了以下成果:
- 654 份文档 和 5,570 页 完成分类
- 整个过程耗时 不到三小时
- 自动评估模型对 95% 的分类 给出了“优秀”或“良好”的评价
- 档案中约 50% 的内容 被识别为包含水资源相关数据
- 提取了 299 条结构化的井和钻孔记录,包括地点名称、深度和出水量测量数据
该管道将原本需要领域专家数周甚至数月的工作缩短至几小时内完成。现在,该档案可通过分类、地理位置或是否包含水资源数据进行检索。每一条带有坐标和深度信息的提取记录都可直接用于 MapAid 的地下水预测模型,有助于提高钻井成功率,并更快地为有需要的社区提供水源。
随着 SUDAAK 持续数字化新文档,该管道可通过单条命令处理每一个新增批次,确保目录随档案增长而保持最新状态。MapAid 的工作覆盖东非地区,包括埃塞俄比亚和马拉维,而类似未分类的档案在整个非洲大陆广泛存在。该方法论和基础设施已具备规模化扩展的能力。
MapAid 首席执行官 Rupert Douglas-Bate 分享了他对此次合作的看法:“我们不断演进的 AI 系统 WellMapr 旨在彻底改变低成本寻找可持续地下水源的方式,但它需要井水数据支持。我们实现这一目标的使命,因与 Databricks for Good 的合作而大大加速,他们通过国际扶轮社与我们建立了联系。Databricks for Good 项目在苏丹知识存档协会 (SUDAAK) 的支持下,对我们构建在线水图书馆 (OWL) 起到了关键作用。Databricks 团队帮助我们将大量混乱的苏丹历史水土数据档案,利用杜威十进制分类法转化为结构化系统。这使我们能够以低成本快速识别可持续的地下水井数据,现在这些数据可用于开发我们的 WellMapr 算法。MapAid 很高兴将 OWL 作为关键开发工具,用于缓解干旱问题,证明当合适的伙伴携手合作时,我们可以为最需要的人实现‘不可能’的任务。”
请阅读更多我们的公益项目:
获取最新文章到您的收件箱
订阅我们的博客,获取最新文章并直接发送到您的邮箱。
注册
*
工作邮箱
*
国家 国家*
点击“订阅”即表示我理解我将收到 Databricks 的通信信息,并同意 Databricks 按照其 隐私政策 处理我的个人数据。
订阅

为什么选择 Databricks
发现
客户
合作伙伴
为何选择 Databricks
发现
客户
合作伙伴
产品
Databricks 平台
定价
集成与数据
产品
Databricks 平台
定价
开源项目
集成与数据
解决方案
Databricks 行业解决方案
跨行业解决方案
解决方案
Databricks 行业解决方案
跨行业解决方案
数据迁移
专业服务
解决方案加速器
资源
学习
活动
博客与播客
资源
文档
客户支持
社区
学习
活动
博客与播客
关于
公司
职业发展
新闻
关于
公司
职业发展
新闻
安全与信任

Databricks 公司
160 Spear Street, 15楼
加利福尼亚州旧金山 94105
1-866-330-0121
- [](https://www.linkedin.com/company/databricks)
- [](https://www.facebook.com/pages/Databricks/560203607379694)
- [](https://twitter.com/databricks)
- [](https://www.databricks.com/feed)
- [](https://www.glassdoor.com/Overview/Working-at-Databricks-EI_IE954734.11,21.htm)
- [](https://www.youtube.com/@Databricks)

- [](https://www.linkedin.com/company/databricks)
- [](https://www.facebook.com/pages/Databricks/560203607379694)
- [](https://twitter.com/databricks)
- [](https://www.databricks.com/feed)
- [](https://www.glassdoor.com/Overview/Working-at-Databricks-EI_IE954734.11,21.htm)
- [](https://www.youtube.com/@Databricks)
© Databricks 2026。保留所有权利。Apache、Apache Spark、Spark、Spark 标志、Apache Iceberg、Iceberg 和 Apache Iceberg 标志均为 Apache 软件基金会 的商标。
我们重视您的隐私
Databricks 使用 Cookie 和类似技术来增强网站导航、分析网站使用情况、个性化内容和广告,详情请见我们的 Cookie 声明。如需禁用非必要 Cookie,请点击“拒绝全部”。您也可以通过点击“管理偏好设置”来管理您的 Cookie 设置。
管理偏好设置
拒绝全部 接受全部

隐私偏好中心
尊重退出偏好信号
隐私偏好中心
- ### 您的隐私
- ### 必要 Cookie
- ### 性能 Cookie
- ### 功能 Cookie
- ### 目标 Cookie
- ### TOTHR
#### 您的隐私
当您访问任何网站时,该网站可能会在您的浏览器上存储或检索信息,通常以 Cookie 的形式存在。这些信息可能是关于您本人、您的偏好或您的设备,并主要用于确保网站按预期运行。这些信息通常不会直接识别您的身份,但可以让您获得更个性化的网络体验。由于我们尊重您的隐私权,您可以选择不允许某些类型的 Cookie。点击不同的类别标题可了解更多信息并更改我们的默认设置。然而,阻止某些类型的 Cookie 可能会影响您在本网站的浏览体验以及我们所能提供的服务。
#### 退出销售、共享及定向广告
根据您所在的地区,您可能有权选择退出个人数据的“出售”或“共享”,或退出为在线“定向广告”目的处理您的个人数据。您可以通过在此处禁用可选 Cookie 来基于 Cookie 和类似标识符进行退出。若要基于其他标识符(例如您的电子邮件地址)进行退出,请在我们的 隐私请求中心 提交申请。
#### 必要 Cookie
始终启用
这些 Cookie 对网站正常运行是必需的,无法在我们的系统中关闭。它们有助于实现基本功能,例如设置您的隐私偏好、登录或填写表单。您可以将浏览器设置为阻止或提醒您这些 Cookie,但网站的部分功能将无法使用。
#### 性能 Cookie
- [x] 性能 Cookie
这些 Cookie 使我们能够统计访问量和流量来源,从而衡量并改进我们网站的性能。它们帮助我们了解哪些页面最受欢迎和最不受欢迎,以及访客如何在网站中浏览。
#### 功能 Cookie
- [x] 功能 Cookie
这些 Cookie 使网站能够提供增强的功能和个性化体验。它们可能由我们设置,也可能由我们页面中添加了服务的第三方提供商设置。如果您不允许这些 Cookie,部分或全部此类服务可能无法正常运行。
#### 目标 Cookie
- [x] 目标 Cookie
这些 Cookie 可能由我们的广告合作伙伴通过我们的网站设置。这些公司可能利用它们建立您的兴趣档案,并在其他网站上向您展示相关的广告。如果您不允许这些 Cookie,您将看到较少的相关广告。
#### TOTHR
- [x] TOTHR
Cookie 列表
同意 合法利益
- [x] 复选框标签 标签
- [x] 复选框标签 标签
- [x] 复选框标签 标签
清除
- - [x] 复选框标签 标签
应用 取消
确认我的选择
允许全部