T
traeai
登录
返回首页
KDnuggets

隐藏的技能差距:为什么仅懂SQL和Python已经不够

8.5Score
隐藏的技能差距:为什么仅懂SQL和Python已经不够

TL;DR · AI 摘要

数据岗位技能要求已从SQL+Python基础转向AI系统构建与数据工程能力,LLM、RAG、数据建模和MLOps成为新差异化技能。

核心要点

  • 2026年数据岗位需求中AI技能排名第二,1/3岗位要求LLM/RAG/向量数据库实操能力
  • 数据工程技能(Snowflake/dbt/Airflow)从加分项变为核心要求,涵盖管道编排与生产级ML
  • 数据建模能力成为关键差异化技能,需掌握Kimball维度建模方法重构数据模式

结构提纲

按章节快速跳转。

  1. SQL和Python已从差异化技能降级为数据岗位的基本前提要求。

  2. 2026年1月700+岗位分析显示机器学习/AI技能需求排名第二和第四,33%岗位要求LLM/RAG实操。

  3. 数据工程技能(Snowflake/dbt/Airflow)和生产环境ML运维现已成为数据科学家核心期望。

  4. 数据建模能力决定数据结构和关系设计,错误建模会导致机器学习特征工程失败。

  5. 通过重构真实数据集模式和学习Kimball维度建模技术来掌握数据建模能力。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • 数据岗位技能演变
    • 基础技能降级
      • SQL成为前提
      • Python成为前提
    • 新兴AI技能
      • LLM实操
      • RAG系统
      • 向量数据库
    • 工程能力要求
      • 数据建模
      • MLOps运维
      • 云平台工具

金句 / Highlights

值得收藏与分享的关键句。

  • SQL和Python已从差异化技能降级为基本前提要求,AI和机器学习技能现排名第二和第四

    第2段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 33%的AI相关岗位要求大型语言模型、检索增强生成和向量数据库的实操能力

    第5段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 数据工程技能(管道编排、云平台、数据质量检查)和生产环境ML运维现已成为核心期望而非加分项

    第8段

    ⬇︎ 下载 PNG𝕏 分享到 X
#数据科学#AI技能#数据工程#职业发展
打开原文
图片 1:隐藏的技能差距

多年来,这个公式似乎很简单:学会 SQL + 学会 Python = 获得数据工作。尤其是在中型公司开始变得“数据驱动”之后。招聘经理很高兴能找到任何能写出像样的 GROUP BY 语句、并且能在不搞砸的情况下操作 pandas DataFrame 的人。你知道 PostgreSQL 是什么?进来吧,你被录用了!这一度很有效,直到它不再有效。

如果你还没注意到,数据专业人才的就业市场已经发生了结构性转变。是的,SQL 和 Python 仍然很重要;它们出现在每一份职位描述中。但它们已经从差异化技能降级为必备基础技能

很可能,你仍在为三年前练习过的面试问题做优化。忘掉那些吧。本文探讨的是求职者准备的内容与公司当前实际需求之间的差距。

#就业市场真正需要什么

Future Proof Data Science 在 2026 年 1 月对 700 多份数据科学家职位发布的分析发现,Python 和 SQL 仍然位列前三的技能,但机器学习和 AI 技能分别位居第二和第四

图片 2:隐藏的技能差距

图片来源:Future Proof Data Science 并非所有与 AI 相关的职位都需要动手 AI 专业知识,但三分之一确实需要。最需要的具体 AI 技能是:

  • 大语言模型 (LLMs)
  • 检索增强生成 (RAG)
  • 提示工程 (Prompt engineering)
  • 向量数据库 (Vector databases)

这表明对能够构建和部署 AI 系统的数据专业人才的需求日益增长

请记住,这种变化的方向速度都很重要。这让我想起了机器学习如何从 2012 年的小众需求发展到 2020 年几乎无处不在。

第二个趋势不那么明显,但对大多数求职者来说可能更紧迫基础工程的门槛急剧提高。数据工程技能——流水线、编排、云平台、数据质量检查——以及生产环境中的机器学习——模型监控、漂移检测、评估设计——现在已成为核心要求,而不再是数据科学职位描述中的加分项。

浏览任何大型招聘网站都会证实这一点:除了 AI 技能,标题为“数据科学家”的职位通常将 [Snowflake](https://www.snowflake.com/en/)[dbt](https://www.getdbt.com/)[Airflow](https://airflow.apache.org/) 和 ETL 流水线所有权列为要求,而不是可有可无的选项。

有四样技能你可能还不具备。它们是当前就业市场中的新差异化技能。

图片 3:隐藏的技能差距

#技能 #1:数据建模

#### //它是什么

数据建模是指设计数据应如何构建、关联和存储的能力。可以把它看作是决定创建哪些表、它们代表什么以及它们之间如何关联。

#### //它为何成为差异化技能

工具的改进改变了局面。[Snowflake](https://www.snowflake.com/en/)[dbt](https://www.getdbt.com/)[BigQuery](https://cloud.google.com/bigquery) 都让数据科学家相对容易地拥有数据转换层。换句话说,过去属于数据工程师的建模决策现在正移交给数据科学家。

如果把数据模式搞错了,你就会陷入危险的境地。通常,这些错误不会立即显现。一旦它们变得明显,就为时已晚。你的机器学习工作已经受到建立在错误粒度数据之上的特征工程的影响——这是基础建模不良的直接后果。

图片 4:隐藏的技能差距

#### //如何掌握它

拿一个你正在使用的真实数据集,从头开始重新设计其模式。问自己这些问题:

  • 实体是什么?
  • 它们与什么相关?
  • 什么样的粒度是合理的?
  • 哪些查询将最频繁地运行?

之后,阅读有关维度建模的内容。[Kimball 的方法](https://www.kimballgroup.com/data-warehouse-business-intelligence-resources/kimball-techniques/dimensional-modeling-techniques/),在其著作 《数据仓库工具箱》中有详细说明,仍然是一个有用的参考点。

#技能 #2:性能优化

#### //它是什么

性能优化是理解查询为何以某种方式运行,以及如何使其运行得更快、成本更低或规模更大。你可以优化 SQL 查询,也可以优化Python 流水线数据工作流——数据科学家越来越多地端到端地拥有它们。

#### //它为何成为差异化技能

首先,数据量已经增长到这样的程度:一个正确但低效的查询在生产环境中可能耗费数百美元并导致超时。

其次,如前所述,数据科学家现在必须拥有比过去更多的流水线部分。你的代码必须达到生产就绪状态,而不仅仅是在 Jupyter notebook 中可运行。

图片 5:隐藏的技能差距

#### //如何掌握它

挑选几个你写过的复杂 SQL 查询,对它们执行 EXPLAIN ANALYZE 命令,仔细阅读查询规划器的实际执行过程。然后利用这些信息来优化查询。你很可能会发现至少一个可以通过添加索引、结构调整或查询重写来提升性能的优化点。

对于运行缓慢的 Python 流水线,需要进行性能剖析。主要推荐两款时间分析工具:

  • [cProfile](https://docs.python.org/3/library/profile.html):通过命令 python -m cProfile -s cumulative your_script.py 运行,查看输出结果顶部,找到累计耗时最长的函数。
  • [line_profiler](https://kernprof.readthedocs.io/en/latest/):当 cProfile 定位到具体是_哪个_函数运行缓慢后,该工具可以深入显示函数内逐行的执行时间,帮助你弄清_为什么_慢。

内存分析推荐使用 [memory_profiler](https://pypi.org/project/memory-profiler/)

找到瓶颈所在——运行缓慢是因为应当使用向量化操作替代 Python 循环?还是一次性加载全部数据而非分块加载?——修复它,并量化性能提升的效果。

#技能三:基础设施认知

#### //技能定义

这项技能是指你理解数据所存储及流转于其中的各个系统。这些系统包括云平台、分布式计算、数据流水线、存储格式和成本模型

你应当对基础设施有足够的了解,能够设计出可部署于其上的系统。

#### //为何成为关键差异点

再次强调,这是因为数据工程师的相当一部分工作现已落到了数据科学家肩上。如果你在每个基础设施决策上都依赖数据工程师,实际上是在制造瓶颈——而这并非招聘经理所乐见。

基础设施认知包含以下几个主要的相互关联的领域。

图 6:隐藏的技能差距

你很可能需要熟悉以下这些工具。

图 7:隐藏的技能差距

#### //如何掌握

与你的数据工程团队安排一次交流。和他们坐在一起,请他们为你端到端地讲解一条数据流水线。理解数据存储的位置、分区方式,以及出现故障时会发生什么

然后亲自搭建一个小型流水线来实践:使用免费的云服务层级,理解其成本和执行指标,并有意制造故障以观察系统如何失效。

#技能四:设计 RAG 系统、评估 LLM 输出及运行 AI 实验

#### //技能定义

这组技能关乎实际的 AI 工作。你必须知道如何设计检索增强生成(RAG)系统(将 LLM 连接到真实数据源)、构建评估框架(衡量由 LLM 驱动的功能是否真正有效),以及对 AI 功能进行实验。

#### //为何成为关键差异点

AI 工具的发展是主要原因。它们使得无需深厚的研究知识也能构建 RAG 流水线。诸如 [LangChain](https://www.langchain.com/)[LlamaIndex](https://www.llamaindex.ai/) 这类框架,结合云原生向量数据库,显著降低了技术门槛。

因此,问题不再在于“能否构建”——答案是肯定的。但关键在于能否构建得好、能否进行评估、能否在生产环境中被信任?你必须能够回答这个问题:定义指标、设计实验并衡量结果。

图 8:隐藏的技能差距

在应用这些技能时,你将会使用到以下工具。

图 9:隐藏的技能差距

#### //如何掌握

找一些面试问题来帮助你锤炼 AI 思维。以下是 StrataScratch 上 [AI 产品与生成式 AI 面试问题](https://platform.stratascratch.com/technical?q=&question_types=ai+product&question_types=genai&page_size=100&utm_source=blog&utm_medium=click&utm_campaign=kdn+hidden+skill+gap) 的一些例子。

示例 #1:衡量零售店中 AI 功能推广效果

你将如何衡量一个 AI 驱动的库存推荐系统在部分样本零售店中推广所产生的影响?你会如何设计这个实验并考虑店铺级别的差异?

示例 #2:RAG 系统架构

请描述你会如何从零开始设计一个 RAG 系统的架构。需要哪些组件?你会如何优化检索质量?

在理清思路后,构建一个小型 RAG 应用:选择一个领域,对文档语料进行嵌入(embedding),搭建检索部分,并使用结构化指标评估输出结果。

此外,设计一个实验:写出假设,定义评估指标,并构思一个有效的测试方法来验证它。

#结论

数据建模、性能优化、基础设施认知和实用 AI 技能——这四项技能构成了你与当前就业市场要求之间的差距。希望你不会落入这个差距。为确保这一点,本文针对每项技能都提供了实用的掌握建议。

[](https://twitter.com/StrataScratch)**[Nate Rosidi](https://twitter.com/StrataScratch)** 是一位数据科学家兼产品策略师。他同时也是一名教授分析学的兼职教授,并且是 StrataScratch 的创始人,该平台通过提供来自顶尖公司的真实面试问题来帮助数据科学家准备面试。Nate 撰文探讨就业市场的最新趋势、提供面试建议、分享数据科学项目并覆盖所有与 SQL 相关的内容。

AI 可能会生成不准确的信息,请核实重要内容

隐藏的技能差距:为什么仅懂SQL和Python已经不够 | KDnuggets | traeai