T
traeai
登录
返回首页
Towards Data Science

从数据分析师到数据工程师:我的12个月自学路线图

8.5Score

TL;DR · AI 摘要

从数据分析师转型为数据工程师,作者分享了12个月的自学路线图。

核心要点

  • 作者通过公开学习数据工程,提升自身技能并应对职业发展需求。
  • 数据工程薪资高且需求增长,是未来技术趋势。
  • 作者在无团队支持的情况下,完全依靠自我驱动进行学习。

结构提纲

按章节快速跳转。

  1. 作者因数据工程的高薪和热门趋势决定转型,并分享个人学习计划。

  2. 数据工程涉及构建数据基础设施,是分析的基础,且薪资高且需求稳定。

  3. 公开学习有助于保持自律,克服注意力分散和时间管理问题。

  4. 作者从SQL、Python、数据处理等基础开始,逐步深入数据工程领域。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • 数据工程师转型路线图
    • 职业动机
      • 高薪与市场需求
      • 技能深度拓展
    • 学习方式
      • 公开学习
      • 自我驱动
    • 学习内容
      • SQL深化
      • Python与数据处理

金句 / Highlights

值得收藏与分享的关键句。

#数据工程#职业发展#自学
打开原文

标题:从数据分析师到数据工程师:我的12个月自学路线图

URL 来源:https://towardsdatascience.com/from-data-analyst-to-data-engineer-my-12-month-self-study-roadmap/

发布时间:2026-05-16T15:00:00+00:00

Markdown 内容: 我踏上这段旅程的部分原因,是因为数据工程是当下最热门且薪酬最高的职业之一。我不会假装这不是一个考量因素。

但除此之外还有更深层的原因。

我学习数据分析已有一段时间。SQL、Power BI、Python(Pandas、NumPy,以及一点 Polars)、数据清洗、探索性数据分析...凡是你能想到的,我都深入钻研过。我真心享受这个过程。但在某个时刻,我开始对数据抵达我手中之前的旅程产生好奇:它们如何流动?谁构建了这些管道?支撑这一切的基础设施究竟是什么样的?

这份好奇埋下了一颗种子。

随后人工智能的兴起让我许多工作变得更快更简单。这固然很好,但也让我思考:如果AI能处理分析工作,我的核心竞争力是什么?我能构建和理解哪些更深层次的东西?作为初创企业的IT系统分析师,虽然喜欢当前工作,但我意识到自己并未获得想要的挑战。我渴望更进一步的成长。

最后的推动力来自Data With Baraa的一个视频,他完整展示了数据工程学习路线图。看到如此系统化的分解方案,让我觉得这个目标真实可行。于是就有了现在这个决定。

我决定公开学习数据工程。这篇文章就是这个旅程的起点。

_在此声明我与Data with Baraa无任何关联,仅是分享个人历程。希望能带来启发。_

为何选择数据工程

我认为这个问题值得认真探讨。

数据分析教会我如何处理到手的数据:清洗、探索、可视化、提取洞察。这些技能确实宝贵。但随着深入学习,我不断遇到同样的瓶颈:我处理的数据都已被他人预处理和传输。有人构建了传递数据的管道,有人决定了存储方式、结构设计和更新频率。

我想成为那个构建者。

数据工程处于分析流程的上游,核心是构建支撑分析工作的基础系统。数据管道、存储架构、工作流编排、大规模数据处理——这些都是支撑一切的基础。说实话,这类基础设施工作对我的吸引力已远超纯粹的分析。

还有现实考量。数据工程师在数据领域始终位列高薪职位前列。随着AI工具不断自动化分析层面,对构建维护可靠数据基础设施人才的需求只会持续增长。我宁愿成为管道建设者,而不只是使用者。

另外值得一提的是,我所在的初创公司并未使用我将要学习的任何工具。这意味着我投入的每个小时都完全依靠自我驱动:没有团队可请教,没有工作项目可实践。只有我、互联网资源和自己能构建的项目——这是我主动选择的挑战。

为何公开学习历程

我深信记录学习过程的价值。这迫使你在解释前真正理解知识,保持自我问责,长期积累形成简历无法展现的能力储备。

但我也要坦诚面对恐惧,因为公开分享的意义正在于此。

我有「新奇事物迷恋症」——终于说出来了。在进入数据领域前,我涉猎过平面设计、动画、写作、营销和IT。总会有新鲜事物吸引我的注意力。若不刻意专注,数据工程很可能被下一个光鲜话题取代。

持续性也是挑战。我的本职工作几乎接触不到要学习的工具,没有职场环境的自然强化,也没有同事可以探讨Airflow问题。所有学习都只能在业余时间独立完成。

还有平衡问题。每天三到四小时是目标,有些日子轻松达成,有些日子却难如登天。

公开这个旅程就是我的问责机制。若我沉寂无声,你们就会知道我懈怠了。而我,不愿懈怠。

现有基础

庆幸的是我并非从零开始。通过数据分析工作已掌握中初级SQL知识、Python基础及Pandas实战经验。这为我提供了可延续的基础,而非从头再造。

以下完整学习栈大致按计划顺序排列:

1. SQL:超越分析层面

我懂SQL,但分析SQL与工程SQL截然不同。我将深入查询优化、索引策略、超大规模数据集处理,编写注重性能而不仅是探索的SQL代码。若你仅用SQL提取过滤数据,其底层还有完整知识体系值得掌握。

首学原因: 数据工程万物终归SQL。在接触复杂工具前夯实此基础,能让后续学习事半功倍。

2. Python:从探索性到生产级

我掌握基础语法,熟悉Pandas、NumPy和初步Polars。但以往所写代码多存在于笔记本环境——探索性强、结构松散、缺乏持久性。当前目标是编写更整洁、结构化、可复用的代码:函数封装、模块化、异常处理、脚本编写——真正能投入管道运行的Python代码。

重要性说明: Python 是维系大多数现代数据工程体系的核心纽带。Airflow 使用它,PySpark 基于它构建。熟练掌握 Python 是必备条件。

3. Git 与 GitHub:版本控制的正确打开方式

坦白说,我目前对 Git 的认知还停留在“复制命令,祈祷能运行”的阶段。这种情况必须改变。版本控制是像工程师而非单纯分析师那样工作的基础。我将学习分支管理、拉取请求以及如何跨项目规范管理代码。

重要性说明: 从今往后我开发的每个项目都会上传至 GitHub。这既是作品集积累,也是专业规范,更是真实团队协作的方式。

4. Apache Spark 与 PySpark:大数据处理引擎

这才是真正令人兴奋的部分。Apache Spark 是处理大规模数据最广泛使用的计算引擎之一。PySpark 是其 Python API 接口,这意味着我可以运用已熟悉的语言来处理分布式大规模数据。

从 Pandas 转向 Spark 需要思维模式的转变。Pandas 适用于单机环境,而 Spark 专为跨集群运行设计。掌握分布式思维方式是数据工程师与分析师的本质区别之一。

重要性说明: 若要在生产环境中处理大数据,Spark 几乎是必经之路。它频繁出现在职位描述中,也是我目标构建的 Databricks 生态系统的核心。

5. Apache Airflow:数据管道编排专家

数据管道不会自动运转。我们需要工具来调度任务、监控状态并优雅处理故障。这就是工作流编排工具的用武之地,而我选择 Airflow。

我曾考虑过几个备选方案:若深度融入 Databricks 生态,Databricks Workflows 是不错选择;在重度使用 Azure 的环境中,Azure Data Factory 更为合适。但 Airflow 作为免费开源、云环境无关且行业广泛采用的工具,更能帮助掌握可迁移至其他工具的编排核心概念。从 Airflow 入门感觉是明智之选,尤其考虑到我正努力控制学习成本。

重要性说明: 编排工具将零散脚本转化为真正可用的数据管道。理解 Airflow 就等于掌握生产级数据工作流的管理精髓。

6. Databricks:数据平台的选择

在某个阶段,你需要选定一个数据平台并深入钻研。我选择 Databricks。它构建于 Spark 之上,市场需求旺盛,且提供免费的社区版让我无需支付云服务费用即可实践。

其他选择也很出色:Snowflake 是众多企业青睐的简洁高效数仓方案;BigQuery 是谷歌云原生的无服务器方案,若倾向谷歌云平台则是绝佳选择。但 Databricks 完美融合大数据、机器学习与数据工程领域,最契合我的发展方向。这对我的目标而言是最合理的选择。

重要性说明: 雇主看重平台实战经验。深度掌握一个平台比浅尝辄止了解多个更具价值。

十二个月进阶规划

坦诚地说,实际耗时可能会超过十二个月。但我对此保持平和心态——宁愿花十五个月扎实掌握核心能力,也不愿仓促完成却基础薄弱。

基本策略是按顺序攻克每项技能,未完成当前技能的实践项目前不进入下一阶段。教程适合入门引导,但项目实践才是真正学习发生的场景。我计划在《Towards Data Science》持续记录每个阶段:核心概念、项目实践、困境突破与成果收获。

进度管理方面,我采用 Data With Baraa 的 Notion 路线图作为框架。它将每项技能分解为核心知识点,让我能循序渐进推进而不被整体压力淹没。

时间投入目标为每日三至四小时,包含系统学习、项目构建与学习总结——写作本身就是一种深度学习方式。

成功标准界定

获得高薪数据工程师职位是明确目标。对此我毫不避讳。

但除此之外,我更希望成为领域内具有公信力的发声者:能打造值得分享的项目,完整记录成长历程(包括艰难时刻),或许还能为后来者照亮前路。

写作与学习形成良性循环。作品集成就实力证明,实力证明塑造个人品牌——这就是我的愿景蓝图。

即刻启程

本文即是我的正式起点。不再等待“完美准备时刻”,从现在开始边实践边记录,坦然接受这个公开且可能略显凌乱的过程。

如果你也身处相似道路——无论是分析师转型工程师,IT从业者寻求突破,还是渴望在AI加速时代构建保值技能——欢迎同行。

相信我们会有很多共鸣。我也将在YouTube频道分享学习心得,欢迎点击下方订阅关注。

  • * *

_这是记录我数据工程进阶之路系列文章的开篇之作。我将持续更新学习进展、项目实践与沿途收获。_

_点击此处获取Notion模板(如果你也正在相似旅程中)_

_通过以下渠道关注我的成长历程:_

YouTube

Medium

LinkedIn

Twitter

AI 可能会生成不准确的信息,请核实重要内容

从数据分析师到数据工程师:我的12个月自学路线图 | Towards Data Science | traeai