数据科学中最受欢迎的技能

在知识方面,数据科学专家期望很多:机器学习,编程,统计,数学,数据可视化,通信和深度学习。 这些领域中的每一个都涵盖了数十种可供学习的语言,框架和技术。 那么,数据专业人员如何更好地管理他们的培训时间预算,以使雇主可以重视他们呢?

我仔细研究了工作现场,以找出目前最受雇主欢迎的技能。 我将与数据处理相关的更广泛的学科以及特定的语言和工具视为单独的研究的一部分。 对于材料,截至2018年10月10日,我转向了LinkedInIndeedSimplyHiredMonsterAngelList 。 下图显示了在每种资源上代表多少个数据科学工作。



我研究了许多职位描述和调查,以了解最常提及的技能。 诸如“管理”之类的术语未包括在分析中,因为它们在非常广泛的不同环境中用于工作现场。

该搜索是在美国根据术语“数据科学”,“关键字”进行的。 为了减少输出,我只选择了确切的出现次数。 一种或多种方式,一种类似的方法可以确保所有结果都与数据科学相关,并且相同的标准将应用于所有查询。

AngelList不会提供与处理数据有关的职位空缺总数,而是提供这些职位空缺的公司总数。 我将这家网站排除在两项研究之外,因为它的搜索算法显然基于“或”原理,因此无法以某种方式切换到“与”模型。 当您本着“数据科学家”“ TensorFlow”的精神输入内容时,可以使用AngelList-在这种情况下,匹配第二个查询意味着匹配第一个查询。 但是,如果您本着“数据科学家”,“ react.js”的精神使用关键字,那么将有很多与数据科学无关的职位空缺。

Glassdoor的材料也必须排除在外。 该网站声称他们有26,263个数据职位空缺的信息,但实际上最多显示了900个,此外,在我看来,他们收集的空缺数量是其他大型网站的三倍还多,这令人非常怀疑。

在研究的最后阶段,我选择了在LinkedIn上获得较大回报的关键字:广泛使用的技能获得了400多个结果,私有技术获得了200多个结果。 当然,有一些重复的报价。 我在Google文档中记录了该阶段的结果。

然后,我下载了.csv文件,并将它们上传到JupyterLab,以百分比的形式计算了每个文件的患病率,并在不同资源上平均获得的值。 随后,我将按语言分类的结果与2017年上半年Glassdoor数据科学领域的职位空缺研究中给出的结果进行了比较。 如果将调查中有关KDNuggets使用的信息添加到此信息中,则似乎某些技能正在普及,而其他技能则逐渐失去价值。 但是稍后会更多。

在我的Kaggle内核中,您将找到交互式图形和其他分析。 为了进行可视化,我使用了Plotly。 为了与Plotly和JupyterLab一起工作,您必须发挥一些作用,至少在撰写本文时是这样-可以在我的Kaggle内核末尾以及Plotly文档找到说明

广泛的技能


这是代表雇主希望应聘者看到的最受欢迎的一般技能的图表。



结果表明,分析和机器学习继续构成数据科学专家工作的基础。 该专业的主要目的是根据数据数组得出有用的结论。 机器学习旨在创建可以分别预测事件过程的系统,这是非常有需求的。

数据处理需要统计知识和编写代码的能力-不足为奇。 此外,统计学,数学和软件工程是在大学中进行培训的专业,这也会影响请求的频率。

有趣的是,在几乎一半的职位空缺的描述中,都提到了沟通:数据专家需要能够将其发现传达给人们并在团队中工作。

提及人工智能和深度学习并不像其他一些问题那么普遍。 但是,这些领域是机器学习的分支。 在先前使用机器学习算法的任务中,越来越多地使用深度学习。 例如,处理自然语言时出现的问题的最佳机器学习算法现在特别涉及深度学习领域。 我相信,在未来它将变得越来越流行,并且机器学习将逐渐开始被视为深度学习的代名词。

雇主认为,数据科学专家应掌握哪些特定的软件解决方案? 在下一节中,我们将讨论这个问题。

技术技能


雇主认为,以下是20种特定的语言,库和技术工具,数据处理专家应具有的经验。



让我们快速浏览领导者。



Python是最需要的选项。 许多人指出,这种开源语言在程序员中非常流行。 对于初学者来说,这是一个非常方便的选择:有很多培训资源。 绝大多数新数据工具都与此兼容。 基于所有这些,Python可以被称为数据科学专家的主要语言。



R跟随Python的距离很小。 曾几何时,他是数据科学专家的主要语言。 令我感到惊讶的是,他仍然保持着积极的兴趣。 这种语言起源于统计数据,因此在处理它的人们中非常流行。

几乎所有空缺都需要知道这两种语言之一-Python或R。



SQL也非常有需求。 该缩写代表结构化查询语言(Structured Query Language,结构化查询语言),而该语言是与关系数据库进行交互的主要工具。 数据科学社区中的SQL通常被忽略,但是它指的是如果您计划进入劳动力市场,则应熟练使用的技能。




接下来是HadoopSpark-两者都是Apache的开放源代码工具,旨在处理大数据。 关于Medium的教程和文章已经很少了。 我认为拥有它们的申请人数量大大少于熟悉Python或R的申请人。如果您知道如何使用Hadoop和Spark或具有掌握它们的能力,那么这对您来说是一个优于竞争对手的好优势。




接下来是JavaSAS 。 令我惊讶的是,这两种语言能够攀升至如此之高。 两者都是大公司的创意,两者都是一定数量的免费材料。 但是,在数据科学专家中,Java和SAS都不是特别重要。



Tableau在流行技术排名中排名第二。 它是功能强大且易于使用的分析平台和可视化工具。 它的受欢迎程度正在稳步增长。 Tableau具有免费的公共版本,但是如果您想以私有模式使用数据,则必须付出代价。 如果您完全不熟悉Tableau,则可以选择一门简短的课程-例如,Udemy上的Tableau 10 AZ 。 他们不付钱给我做广告,我自己做了这门课程,发现它非常有用。

在下面的图表中,您可以找到流行语言,框架和其他用于处理数据的工具的扩展列表。



历史比较


GlassDoor团队于2017年1月至2017年7月发布了一项针对数据科学专家十大最受欢迎技能的研究 。 在下面的图表上,将他们关于词频的数据与我为LinkedIn,Indeed,SimplyHired和Monster网站计算的平均值进行了比较。



总体而言,结果相似。 我的研究和来自Glassdoor的研究都同意对Python,R和SQL的需求最高。 尽管前者的确切顺序有所不同,但在前九个位置中,技能高超的组成也相吻合。

从结果来看,与2017年上半年相比,对R,Hadoop,Java,SAS和MatLab的需求下降,而Tableau相反变得更受欢迎。 如果您至少查看KDnuggets 开发人员调查的结果,应该可以预期。 他们清楚地表明,R,Hadoop,Java和SAS几年来一直在下降,而Tableau却在稳定增长。

推荐建议


鉴于这些计算,我想为已经进入市场或准备开始职业并提高竞争力的数据专家提供一些建议。

  • 表明您知道如何分析数据,并且不遗余力地正确掌握机器学习
  • 注意沟通技巧。 我建议您阅读“ 坚持制作 ”一书,该书描述了如何使您的想法更具分量。 还可以使用Hemmingway Editor应用程序进行练习,以学习如何更清晰地表达您的想法。
  • 学习深度学习的框架。 这正逐渐成为机器学习过程中不可或缺的一部分。 在另一篇文章中,我比较了各种框架的实用性,趣味性和受欢迎程度-您可以在此处找到。
  • 如果您在Python和R之间犹豫不决,请选择Python。 如果您已经知道Python是您的后盾,请考虑学习R。这肯定会使您在市场上更具吸引力。

当雇主正在寻找使用Python的员工时,他可能希望候选人熟悉数据处理的主要库:numpy,pandas,scikit-learn和matplotlib。 如果您想掌握此设置,我建议以下资源:

  • DataCampDataQuest-到那里都可以花很少的钱在线上SaaS数据科学培训课程; 您将在编写代码的过程中正确学习。 这两门课程都涵盖了广泛的工具。
  • 数据学院提供了一系列不同的资源,其中包括一系列YouTube视频 ,它们解释了数据科学的基本概念。
  • 麦金尼的Python和数据分析 。 这是熊猫图书馆作者的作品。 基本上是关于它的,但是它也涉及到与数据科学相关的Python,numpy和scikit-learn的基础知识。
  • Python机器学习简介。 Muller和Guido撰写的“ 数据专业人员指南 ”。 Mueller负责支持scikit-learn。 对于那些一般学习机器学习,尤其是学习该图书馆的人来说,是一本好书。

如果您想在深度学习上取得突破,我建议您从KerasFastAI开始,然后转到TensorFlowPyTorch 。 Scholl的“ Python深度学习 ”对那些学习与Keras合作的人有很大的帮助。

除了这些建议之外,我认为值得重点研究自己感兴趣的内容,尽管您当然可以根据各种考虑分配时间进行培训。

如果您正在寻找在线门户网站上的数据处理专家的工作,我建议您从LinkedIn开始-他的结果始终是最广泛的。 另外,在网站上搜索职位空缺或张贴简历时,关键字也起着非常重要的作用。 例如,对于所有考虑的资源,查询“数据科学”产生的结果是查询“数据科学家”的三倍。 另一方面,如果您仅对数据科学家的报价感兴趣,最好是优先考虑此请求。

但是无论您选择哪种资源,我都建议创建一个在线投资组合,以展示您在不同需求领域的技能-数量越多越好。 理想情况下,您的LinkedIn个人资料应包含您正在谈论的技能的一些证据。

也许我会在其他文章中介绍其余的研究结果。 如果您想了解有关代码或交互式图形的更多信息,我邀请您使用Kaggle Kernel

Source: https://habr.com/ru/post/zh-CN426557/


All Articles