从数据分析师到数据工程师:我的12个月自学路线图
TL;DR · AI 摘要
从数据分析师转型为数据工程师,作者分享了12个月的自学路线图。
核心要点
- 作者通过公开学习数据工程,提升自身技能并应对职业发展需求。
- 数据工程薪资高且需求增长,是未来技术趋势。
- 作者在无团队支持的情况下,完全依靠自我驱动进行学习。
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- 数据工程师转型路线图
- 职业动机
- 高薪与市场需求
- 技能深度拓展
- 学习方式
- 公开学习
- 自我驱动
- 学习内容
- SQL深化
- Python与数据处理
金句 / Highlights
值得收藏与分享的关键句。
数据工程位于分析之前,是构建分析系统的基础。
我在工作中几乎不接触将要学习的工具,没有同事可以讨论Airflow的问题。
发布这个学习旅程是我的问责机制。如果我沉默了,你们就会知道我滑坡了。
标题:从数据分析师到数据工程师:我的12个月自学路线图
URL 来源:https://towardsdatascience.com/from-data-analyst-to-data-engineer-my-12-month-self-study-roadmap/
发布时间:2026-05-16T15:00:00+00:00
Markdown 内容: 我踏上这段旅程的部分原因,是因为数据工程是当下最热门且薪酬最高的职业之一。我不会假装这不是一个考量因素。
但除此之外还有更深层的原因。
我学习数据分析已有一段时间。SQL、Power BI、Python(Pandas、NumPy,以及一点 Polars)、数据清洗、探索性数据分析...凡是你能想到的,我都深入钻研过。我真心享受这个过程。但在某个时刻,我开始对数据抵达我手中之前的旅程产生好奇:它们如何流动?谁构建了这些管道?支撑这一切的基础设施究竟是什么样的?
这份好奇埋下了一颗种子。
随后人工智能的兴起让我许多工作变得更快更简单。这固然很好,但也让我思考:如果AI能处理分析工作,我的核心竞争力是什么?我能构建和理解哪些更深层次的东西?作为初创企业的IT系统分析师,虽然喜欢当前工作,但我意识到自己并未获得想要的挑战。我渴望更进一步的成长。
最后的推动力来自Data With Baraa的一个视频,他完整展示了数据工程学习路线图。看到如此系统化的分解方案,让我觉得这个目标真实可行。于是就有了现在这个决定。
我决定公开学习数据工程。这篇文章就是这个旅程的起点。
_在此声明我与Data with Baraa无任何关联,仅是分享个人历程。希望能带来启发。_
为何选择数据工程
我认为这个问题值得认真探讨。
数据分析教会我如何处理到手的数据:清洗、探索、可视化、提取洞察。这些技能确实宝贵。但随着深入学习,我不断遇到同样的瓶颈:我处理的数据都已被他人预处理和传输。有人构建了传递数据的管道,有人决定了存储方式、结构设计和更新频率。
我想成为那个构建者。
数据工程处于分析流程的上游,核心是构建支撑分析工作的基础系统。数据管道、存储架构、工作流编排、大规模数据处理——这些都是支撑一切的基础。说实话,这类基础设施工作对我的吸引力已远超纯粹的分析。
还有现实考量。数据工程师在数据领域始终位列高薪职位前列。随着AI工具不断自动化分析层面,对构建维护可靠数据基础设施人才的需求只会持续增长。我宁愿成为管道建设者,而不只是使用者。
另外值得一提的是,我所在的初创公司并未使用我将要学习的任何工具。这意味着我投入的每个小时都完全依靠自我驱动:没有团队可请教,没有工作项目可实践。只有我、互联网资源和自己能构建的项目——这是我主动选择的挑战。
为何公开学习历程
我深信记录学习过程的价值。这迫使你在解释前真正理解知识,保持自我问责,长期积累形成简历无法展现的能力储备。
但我也要坦诚面对恐惧,因为公开分享的意义正在于此。
我有「新奇事物迷恋症」——终于说出来了。在进入数据领域前,我涉猎过平面设计、动画、写作、营销和IT。总会有新鲜事物吸引我的注意力。若不刻意专注,数据工程很可能被下一个光鲜话题取代。
持续性也是挑战。我的本职工作几乎接触不到要学习的工具,没有职场环境的自然强化,也没有同事可以探讨Airflow问题。所有学习都只能在业余时间独立完成。
还有平衡问题。每天三到四小时是目标,有些日子轻松达成,有些日子却难如登天。
公开这个旅程就是我的问责机制。若我沉寂无声,你们就会知道我懈怠了。而我,不愿懈怠。
现有基础
庆幸的是我并非从零开始。通过数据分析工作已掌握中初级SQL知识、Python基础及Pandas实战经验。这为我提供了可延续的基础,而非从头再造。
以下完整学习栈大致按计划顺序排列:
1. SQL:超越分析层面
我懂SQL,但分析SQL与工程SQL截然不同。我将深入查询优化、索引策略、超大规模数据集处理,编写注重性能而不仅是探索的SQL代码。若你仅用SQL提取过滤数据,其底层还有完整知识体系值得掌握。
首学原因: 数据工程万物终归SQL。在接触复杂工具前夯实此基础,能让后续学习事半功倍。
2. Python:从探索性到生产级
我掌握基础语法,熟悉Pandas、NumPy和初步Polars。但以往所写代码多存在于笔记本环境——探索性强、结构松散、缺乏持久性。当前目标是编写更整洁、结构化、可复用的代码:函数封装、模块化、异常处理、脚本编写——真正能投入管道运行的Python代码。
重要性说明: Python 是维系大多数现代数据工程体系的核心纽带。Airflow 使用它,PySpark 基于它构建。熟练掌握 Python 是必备条件。
3. Git 与 GitHub:版本控制的正确打开方式
坦白说,我目前对 Git 的认知还停留在“复制命令,祈祷能运行”的阶段。这种情况必须改变。版本控制是像工程师而非单纯分析师那样工作的基础。我将学习分支管理、拉取请求以及如何跨项目规范管理代码。
重要性说明: 从今往后我开发的每个项目都会上传至 GitHub。这既是作品集积累,也是专业规范,更是真实团队协作的方式。
4. Apache Spark 与 PySpark:大数据处理引擎
这才是真正令人兴奋的部分。Apache Spark 是处理大规模数据最广泛使用的计算引擎之一。PySpark 是其 Python API 接口,这意味着我可以运用已熟悉的语言来处理分布式大规模数据。
从 Pandas 转向 Spark 需要思维模式的转变。Pandas 适用于单机环境,而 Spark 专为跨集群运行设计。掌握分布式思维方式是数据工程师与分析师的本质区别之一。
重要性说明: 若要在生产环境中处理大数据,Spark 几乎是必经之路。它频繁出现在职位描述中,也是我目标构建的 Databricks 生态系统的核心。
5. Apache Airflow:数据管道编排专家
数据管道不会自动运转。我们需要工具来调度任务、监控状态并优雅处理故障。这就是工作流编排工具的用武之地,而我选择 Airflow。
我曾考虑过几个备选方案:若深度融入 Databricks 生态,Databricks Workflows 是不错选择;在重度使用 Azure 的环境中,Azure Data Factory 更为合适。但 Airflow 作为免费开源、云环境无关且行业广泛采用的工具,更能帮助掌握可迁移至其他工具的编排核心概念。从 Airflow 入门感觉是明智之选,尤其考虑到我正努力控制学习成本。
重要性说明: 编排工具将零散脚本转化为真正可用的数据管道。理解 Airflow 就等于掌握生产级数据工作流的管理精髓。
6. Databricks:数据平台的选择
在某个阶段,你需要选定一个数据平台并深入钻研。我选择 Databricks。它构建于 Spark 之上,市场需求旺盛,且提供免费的社区版让我无需支付云服务费用即可实践。
其他选择也很出色:Snowflake 是众多企业青睐的简洁高效数仓方案;BigQuery 是谷歌云原生的无服务器方案,若倾向谷歌云平台则是绝佳选择。但 Databricks 完美融合大数据、机器学习与数据工程领域,最契合我的发展方向。这对我的目标而言是最合理的选择。
重要性说明: 雇主看重平台实战经验。深度掌握一个平台比浅尝辄止了解多个更具价值。
十二个月进阶规划
坦诚地说,实际耗时可能会超过十二个月。但我对此保持平和心态——宁愿花十五个月扎实掌握核心能力,也不愿仓促完成却基础薄弱。
基本策略是按顺序攻克每项技能,未完成当前技能的实践项目前不进入下一阶段。教程适合入门引导,但项目实践才是真正学习发生的场景。我计划在《Towards Data Science》持续记录每个阶段:核心概念、项目实践、困境突破与成果收获。
进度管理方面,我采用 Data With Baraa 的 Notion 路线图作为框架。它将每项技能分解为核心知识点,让我能循序渐进推进而不被整体压力淹没。
时间投入目标为每日三至四小时,包含系统学习、项目构建与学习总结——写作本身就是一种深度学习方式。
成功标准界定
获得高薪数据工程师职位是明确目标。对此我毫不避讳。
但除此之外,我更希望成为领域内具有公信力的发声者:能打造值得分享的项目,完整记录成长历程(包括艰难时刻),或许还能为后来者照亮前路。
写作与学习形成良性循环。作品集成就实力证明,实力证明塑造个人品牌——这就是我的愿景蓝图。
即刻启程
本文即是我的正式起点。不再等待“完美准备时刻”,从现在开始边实践边记录,坦然接受这个公开且可能略显凌乱的过程。
如果你也身处相似道路——无论是分析师转型工程师,IT从业者寻求突破,还是渴望在AI加速时代构建保值技能——欢迎同行。
相信我们会有很多共鸣。我也将在YouTube频道分享学习心得,欢迎点击下方订阅关注。
- * *
_这是记录我数据工程进阶之路系列文章的开篇之作。我将持续更新学习进展、项目实践与沿途收获。_
_点击此处获取Notion模板(如果你也正在相似旅程中)_
_通过以下渠道关注我的成长历程:_