从数据分析师到数据工程师：我的12个月自学路线图

Towards Data Science

Towards Data Science2026年5月16日

从数据分析师到数据工程师：我的12个月自学路线图

8.5内容质量

TL;DR · AI 摘要

从数据分析师转型为数据工程师，作者分享了12个月的自学路线图。

核心要点

作者通过公开学习数据工程，提升自身技能并应对职业发展需求。
数据工程薪资高且需求增长，是未来技术趋势。
作者在无团队支持的情况下，完全依靠自我驱动进行学习。

结构提纲

按章节快速跳转。

§引言
作者因数据工程的高薪和热门趋势决定转型，并分享个人学习计划。
§为何选择数据工程
数据工程涉及构建数据基础设施，是分析的基础，且薪资高且需求稳定。
§为何公开学习
公开学习有助于保持自律，克服注意力分散和时间管理问题。
§学习内容与路径
作者从SQL、Python、数据处理等基础开始，逐步深入数据工程领域。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

数据工程师转型路线图
- 职业动机
  - 高薪与市场需求
  - 技能深度拓展
- 学习方式
  - 公开学习
  - 自我驱动
- 学习内容
  - SQL深化
  - Python与数据处理

金句 / Highlights

值得收藏与分享的关键句。

数据工程位于分析之前，是构建分析系统的基础。
— 第2段
⬇︎ 下载 PNG 𝕏 分享到 X
我在工作中几乎不接触将要学习的工具，没有同事可以讨论Airflow的问题。
— 第3段
⬇︎ 下载 PNG 𝕏 分享到 X
发布这个学习旅程是我的问责机制。如果我沉默了，你们就会知道我滑坡了。
— 第3段
⬇︎ 下载 PNG 𝕏 分享到 X

#数据工程#职业发展#自学

打开原文

标题：从数据分析师到数据工程师：我的12个月自学路线图

URL 来源：https://towardsdatascience.com/from-data-analyst-to-data-engineer-my-12-month-self-study-roadmap/

发布时间：2026-05-16T15:00:00+00:00

Markdown 内容：我踏上这段旅程的部分原因，是因为数据工程是当下最热门且薪酬最高的职业之一。我不会假装这不是一个考量因素。

但除此之外还有更深层的原因。

我学习数据分析已有一段时间。SQL、Power BI、Python（Pandas、NumPy，以及一点 Polars）、数据清洗、探索性数据分析...凡是你能想到的，我都深入钻研过。我真心享受这个过程。但在某个时刻，我开始对数据抵达我手中之前的旅程产生好奇：它们如何流动？谁构建了这些管道？支撑这一切的基础设施究竟是什么样的？

这份好奇埋下了一颗种子。

随后人工智能的兴起让我许多工作变得更快更简单。这固然很好，但也让我思考：如果AI能处理分析工作，我的核心竞争力是什么？我能构建和理解哪些更深层次的东西？作为初创企业的IT系统分析师，虽然喜欢当前工作，但我意识到自己并未获得想要的挑战。我渴望更进一步的成长。

最后的推动力来自Data With Baraa的一个视频，他完整展示了数据工程学习路线图。看到如此系统化的分解方案，让我觉得这个目标真实可行。于是就有了现在这个决定。

我决定公开学习数据工程。这篇文章就是这个旅程的起点。

_在此声明我与Data with Baraa无任何关联，仅是分享个人历程。希望能带来启发。_

为何选择数据工程

我认为这个问题值得认真探讨。

数据分析教会我如何处理到手的数据：清洗、探索、可视化、提取洞察。这些技能确实宝贵。但随着深入学习，我不断遇到同样的瓶颈：我处理的数据都已被他人预处理和传输。有人构建了传递数据的管道，有人决定了存储方式、结构设计和更新频率。

我想成为那个构建者。

数据工程处于分析流程的上游，核心是构建支撑分析工作的基础系统。数据管道、存储架构、工作流编排、大规模数据处理——这些都是支撑一切的基础。说实话，这类基础设施工作对我的吸引力已远超纯粹的分析。

还有现实考量。数据工程师在数据领域始终位列高薪职位前列。随着AI工具不断自动化分析层面，对构建维护可靠数据基础设施人才的需求只会持续增长。我宁愿成为管道建设者，而不只是使用者。

另外值得一提的是，我所在的初创公司并未使用我将要学习的任何工具。这意味着我投入的每个小时都完全依靠自我驱动：没有团队可请教，没有工作项目可实践。只有我、互联网资源和自己能构建的项目——这是我主动选择的挑战。

为何公开学习历程

我深信记录学习过程的价值。这迫使你在解释前真正理解知识，保持自我问责，长期积累形成简历无法展现的能力储备。

但我也要坦诚面对恐惧，因为公开分享的意义正在于此。

我有「新奇事物迷恋症」——终于说出来了。在进入数据领域前，我涉猎过平面设计、动画、写作、营销和IT。总会有新鲜事物吸引我的注意力。若不刻意专注，数据工程很可能被下一个光鲜话题取代。

持续性也是挑战。我的本职工作几乎接触不到要学习的工具，没有职场环境的自然强化，也没有同事可以探讨Airflow问题。所有学习都只能在业余时间独立完成。

还有平衡问题。每天三到四小时是目标，有些日子轻松达成，有些日子却难如登天。

公开这个旅程就是我的问责机制。若我沉寂无声，你们就会知道我懈怠了。而我，不愿懈怠。

现有基础

庆幸的是我并非从零开始。通过数据分析工作已掌握中初级SQL知识、Python基础及Pandas实战经验。这为我提供了可延续的基础，而非从头再造。

以下完整学习栈大致按计划顺序排列：

1. SQL：超越分析层面

我懂SQL，但分析SQL与工程SQL截然不同。我将深入查询优化、索引策略、超大规模数据集处理，编写注重性能而不仅是探索的SQL代码。若你仅用SQL提取过滤数据，其底层还有完整知识体系值得掌握。

首学原因： 数据工程万物终归SQL。在接触复杂工具前夯实此基础，能让后续学习事半功倍。

2. Python：从探索性到生产级

我掌握基础语法，熟悉Pandas、NumPy和初步Polars。但以往所写代码多存在于笔记本环境——探索性强、结构松散、缺乏持久性。当前目标是编写更整洁、结构化、可复用的代码：函数封装、模块化、异常处理、脚本编写——真正能投入管道运行的Python代码。

重要性说明： Python 是维系大多数现代数据工程体系的核心纽带。Airflow 使用它，PySpark 基于它构建。熟练掌握 Python 是必备条件。

3. Git 与 GitHub：版本控制的正确打开方式

坦白说，我目前对 Git 的认知还停留在“复制命令，祈祷能运行”的阶段。这种情况必须改变。版本控制是像工程师而非单纯分析师那样工作的基础。我将学习分支管理、拉取请求以及如何跨项目规范管理代码。

重要性说明： 从今往后我开发的每个项目都会上传至 GitHub。这既是作品集积累，也是专业规范，更是真实团队协作的方式。

4. Apache Spark 与 PySpark：大数据处理引擎

这才是真正令人兴奋的部分。Apache Spark 是处理大规模数据最广泛使用的计算引擎之一。PySpark 是其 Python API 接口，这意味着我可以运用已熟悉的语言来处理分布式大规模数据。

从 Pandas 转向 Spark 需要思维模式的转变。Pandas 适用于单机环境，而 Spark 专为跨集群运行设计。掌握分布式思维方式是数据工程师与分析师的本质区别之一。

重要性说明： 若要在生产环境中处理大数据，Spark 几乎是必经之路。它频繁出现在职位描述中，也是我目标构建的 Databricks 生态系统的核心。

5. Apache Airflow：数据管道编排专家

数据管道不会自动运转。我们需要工具来调度任务、监控状态并优雅处理故障。这就是工作流编排工具的用武之地，而我选择 Airflow。

我曾考虑过几个备选方案：若深度融入 Databricks 生态，Databricks Workflows 是不错选择；在重度使用 Azure 的环境中，Azure Data Factory 更为合适。但 Airflow 作为免费开源、云环境无关且行业广泛采用的工具，更能帮助掌握可迁移至其他工具的编排核心概念。从 Airflow 入门感觉是明智之选，尤其考虑到我正努力控制学习成本。

重要性说明： 编排工具将零散脚本转化为真正可用的数据管道。理解 Airflow 就等于掌握生产级数据工作流的管理精髓。

6. Databricks：数据平台的选择

在某个阶段，你需要选定一个数据平台并深入钻研。我选择 Databricks。它构建于 Spark 之上，市场需求旺盛，且提供免费的社区版让我无需支付云服务费用即可实践。

其他选择也很出色：Snowflake 是众多企业青睐的简洁高效数仓方案；BigQuery 是谷歌云原生的无服务器方案，若倾向谷歌云平台则是绝佳选择。但 Databricks 完美融合大数据、机器学习与数据工程领域，最契合我的发展方向。这对我的目标而言是最合理的选择。

重要性说明： 雇主看重平台实战经验。深度掌握一个平台比浅尝辄止了解多个更具价值。

十二个月进阶规划

坦诚地说，实际耗时可能会超过十二个月。但我对此保持平和心态——宁愿花十五个月扎实掌握核心能力，也不愿仓促完成却基础薄弱。

基本策略是按顺序攻克每项技能，未完成当前技能的实践项目前不进入下一阶段。教程适合入门引导，但项目实践才是真正学习发生的场景。我计划在《Towards Data Science》持续记录每个阶段：核心概念、项目实践、困境突破与成果收获。

进度管理方面，我采用 Data With Baraa 的 Notion 路线图作为框架。它将每项技能分解为核心知识点，让我能循序渐进推进而不被整体压力淹没。

时间投入目标为每日三至四小时，包含系统学习、项目构建与学习总结——写作本身就是一种深度学习方式。

成功标准界定

获得高薪数据工程师职位是明确目标。对此我毫不避讳。

但除此之外，我更希望成为领域内具有公信力的发声者：能打造值得分享的项目，完整记录成长历程（包括艰难时刻），或许还能为后来者照亮前路。

写作与学习形成良性循环。作品集成就实力证明，实力证明塑造个人品牌——这就是我的愿景蓝图。

即刻启程

本文即是我的正式起点。不再等待“完美准备时刻”，从现在开始边实践边记录，坦然接受这个公开且可能略显凌乱的过程。

如果你也身处相似道路——无论是分析师转型工程师，IT从业者寻求突破，还是渴望在AI加速时代构建保值技能——欢迎同行。

相信我们会有很多共鸣。我也将在YouTube频道分享学习心得，欢迎点击下方订阅关注。

* *

_这是记录我数据工程进阶之路系列文章的开篇之作。我将持续更新学习进展、项目实践与沿途收获。_

_点击此处获取Notion模板（如果你也正在相似旅程中）_

_通过以下渠道关注我的成长历程：_

YouTube

Medium

Twitter