使用SQL分析数据科学职业发展趋势-益强资讯优选

在数据成为新石油的使用势今天，了解数据科学职业的析数学职细微差别比以往任何时候都更加重要。无论你是据科正在寻找机会的数据爱好者，还是使用势资深数据专家，使用SQL都可以让你深入了解数据科学就业市场。析数学职

本文可以带你了解哪些数据科学职位最具吸引力，据科或者哪些职位能够提供最高薪水。使用势或许，析数学职你还想知道经验水平如何与数据科学的据科平均工资挂钩？

在本文中，将深入研究数据科学就业市场，使用势从而解答所有这些问题（以及更多问题）。析数学职跟随本文开始了解吧！据科

数据集薪资趋势

本文将使用的使用势数据集旨在揭示2021年至2023年期间数据科学领域的薪资模式。通过重点关注工作历史、析数学职工作职位以及公司地点等因素，据科该数据集为了解该行业的工资分布情况提供了重要依据。

本文将为以下问题找到答案：

不同经验水平的平均工资是什么样的？数据科学领域中最常见的职位名称是什么？薪资分布如何随公司规模变化？数据科学岗位主要位于哪些地理位置？数据科学中哪些职位提供薪酬最高？

可以从Kaggle下载这些数据。

【数据集】：https://www.kaggle.com/code/zabihullah18/data-science-salary-trend

1. 不同经验水平的平均工资是什么样的企商汇？

在这个SQL查询中，本文正在找出不同经验水平的平均工资。GROUP BY子句按经验水平对数据进行分组，AVG函数计算每个组的平均工资。

这有助于了解该领域的经验如何影响收入潜力，这对规划数据科学的职业道路至关重要。接下来查看一下代码。

复制SELECT experience_level, AVG(salary_in_usd) AS avg_salary FROM salary_data GROUP BY experience_level;1.2.3.

现在，本文使用Python可视化这个输出。

以下是代码。

复制# 导入绘图所需的库 import matplotlib.pyplot as plt import seaborn as sns # 设置图表样式 sns.set(style="whitegrid") # 初始化用于存储图形的列表 graphs = [] plt.figure(figsize=(10, 6)) sns.barplot(x=experience_level, y=salary_in_usd, data=df, estimator=lambda x: sum(x) / len(x)) plt.title(Average Salary by Experience Level) plt.xlabel(Experience Level) plt.ylabel(Average Salary (USD)) plt.xticks(rotatinotallow=45) graphs.append(plt.gcf()) plt.show()1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17.

现在，本文来比较一下入门级和资深级、中级和高级的工资。

首先从入门级和资深级的开始。以下是代码。

复制# 筛选入门级和资深级的数据 entry_experienced = df[df[experience_level].isin([Entry_Level, Experienced])] # 筛选中级和高级数据 mid_senior = df[df[experience_level].isin([Mid-Level, Senior])] # 绘制入门级与资深级的对比图表 plt.figure(figsize=(10, 6)) sns.barplot(x=experience_level, y=salary_in_usd, data=entry_experienced, estimator=lambda x: sum(x) / len(x) if len(x) != 0 else 0) plt.title(Average Salary: Entry_Level vs Experienced) plt.xlabel(Experience Level) plt.ylabel(Average Salary (USD)) plt.xticks(rotatinotallow=45) graphs.append(plt.gcf()) plt.show()1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.

这是生成的图表。

图片

现在，本文来绘制中级和高级的工资。免费源码下载以下是代码。

复制# 绘制中级和高级的图表 plt.figure(figsize=(10, 6)) sns.barplot(x=experience_level, y=salary_in_usd, data=mid_senior, estimator=lambda x: sum(x) / len(x) if len(x) != 0 else 0) plt.title(Average Salary: Mid-Level vs Senior) plt.xlabel(Experience Level) plt.ylabel(Average Salary (USD)) plt.xticks(rotatinotallow=45) graphs.append(plt.gcf()) plt.show()1.2.3.4.5.6.7.8.9.

图片

2. 数据科学领域中最常见的职位名称是什么？

在这里，本文将提取数据科学领域中前10个最常见的职位名称。COUNT函数会统计每个职位名称的出现次数，并按降序排列结果，从而将最常见的职位名称排在最前面。

通过这些信息，可以了解就业市场的需求情况，从而确定自己可以瞄准的潜在职位目标。接下来查看一下代码。

复制SELECT job_title, COUNT(*) AS job_count FROM salary_data GROUP BY job_title ORDER BY job_count DESC LIMIT 10;1.2.3.4.5.

好的，现在使用Python来可视化这个查询。

以下是代码。

复制plt.figure(figsize=(12, 8)) sns.countplot(y=job_title, data=df, order=df[job_title].value_counts().index[:10]) plt.title(Most Common Job Titles in Data Science) plt.xlabel(Job Count) plt.ylabel(Job Title) graphs.append(plt.gcf()) plt.show()1.2.3.4.5.6.7.

接下来看看图表。

图片

3. 薪资分布如何随公司规模变化？

在这个查询中，本文提取了每个公司规模分组的平均薪资、最低薪资和最高薪资。使用AVG、MIN和MAX等聚合函数有助于全面了解薪资情况与公司规模的关系。

这些数据非常重要，源码库因为它们可以帮助你了解可以期望的潜在收入，这取决于你想要加入的公司的规模。接下来查看一下代码。

复制SELECT company_size, AVG(salary_in_usd) AS avg_salary, MIN(salary_in_usd) AS min_salary, MAX(salary_in_usd) AS max_salary FROM salary_data GROUP BY company_size;1.2.3.

现在，本文将使用Python来可视化这个查询。

以下是代码。

复制plt.figure(figsize=(12, 8)) sns.barplot(x=company_size, y=salary_in_usd, data=df, estimator=lambda x: sum(x) / len(x) if len(x) != 0 else 0, order=[Small, Medium, Large]) plt.title(Salary Distribution by Company Size) plt.xlabel(Company Size) plt.ylabel(Average Salary (USD)) plt.xticks(rotatinotallow=45) graphs.append(plt.gcf()) plt.show()1.2.3.4.5.6.7.8.

以下是输出结果。

图片

4. 数据科学岗位主要位于哪些地理位置？

在这里，本文确定了拥有最多数据科学职位机会的前10个地点。本文使用COUNT函数来确定每个地点的职位发布数量，并按降序排列，以突出显示机会最多的地区。

掌握了这些信息，可以帮助读者了解数据科学职位的中心地理区域，有助于做出潜在的迁移决定。接下来查看一下代码。

复制SELECT company_location, COUNT(*) AS job_count FROM salary_data GROUP BY company_location ORDER BY job_count DESC LIMIT 10;1.2.3.4.5.

现在，本文将使用Python来绘制上述代码的图表。

复制plt.figure(figsize=(12, 8)) sns.countplot(y=company_location, data=df, order=df[company_location].value_counts().index[:10]) plt.title(Geographical Distribution of Data Science Jobs) plt.xlabel(Job Count) plt.ylabel(Company Location) graphs.append(plt.gcf()) plt.show()1.2.3.4.5.6.7.

请查看如下所示的图表。

图片

5. 数据科学领域中哪些职位提供薪酬最高？

在这里，本文确定了数据科学领域中薪资最高的前10个职位头衔。通过使用AVG，本文计算出每个职位头衔的平均薪资，并根据平均薪资的降序排序，以突出显示最赚钱的职位。

通过查看这些数据，可以在自己的职业道路上有所追求。接下来继续了解读者如何为这些数据创建Python可视化。

复制SELECT job_title, AVG(salary_in_usd) AS avg_salary FROM salary_data GROUP BY job_title ORDER BY avg_salary DESC LIMIT 10;1.2.3.4.5.

以下是输出结果。

排名

职位头衔

平均薪资（美元）

数据科学技术主管

375,000.00

云数据架构师

250,000.00

数据主管

212,500.00

数据分析主管

211,254.50

首席数据科学家

198,171.13

数据科学总监

195,140.73

首席数据工程师

192,500.00

机器学习软件工程师

192,420.00

数据科学经理

191,278.78

应用科学家

190,264.48

这次，读者可以尝试自己创建一个图表。

提示：可以使用以下ChatGPT中的提示来生成此图形的Pythonic代码：

复制<SQL Query here> Create a Python graph to visualize the top 10 highest-paying job titles in Data Science, similar to the insights gathered from the given SQL query above. # <SQL查询代码> # 创建一个Python图形来可视化数据科学领域中薪资最高的前10个职位头衔，类似于上述给定SQL查询所得到的见解。1.2.3.4.5.6.7.

结语

跟随本文结束对数据科学职业世界的多种探索，希望SQL能成为一个可靠的指南，帮助你发掘出有关支持职业决策的见解。

导航