如何在2019年成为数据科学领域更受欢迎的专家

本文的标题似乎有些奇怪。 确实:如果您要在2019年从事数据科学领域的工作,那么您已经有需求。 该领域对专家的需求正在稳定增长:在撰写本文时,LinkedIn上发布了144.527个关键字为“ Data Science”的职位空缺。

但是,绝对值得关注行业的最新新闻和趋势。 为了帮助您解决这个问题,我和CV编译器团队在2019年6月分析了数百项数据科学工作,并确定了雇主对应聘者最期望的技能。

2019年最受欢迎的数据科学技能


该图显示了雇主在2019年数据科学工作中最常提及的技能:



我们使用StackOverflow,AngelList和类似资源分析了大约300个工作。 在同一空缺中,某些术语可以重复多次。

重要提示:该评分表明了雇主的偏爱,而不是数据科学领域的专家。

数据科学的主要趋势


显然,数据科学不是主要的框架和库,而是基础知识。 但是,一些趋势和技术仍然值得一提。

大数据


根据2018年大数据的市场研究,企业中大数据的使用率从2015年的17%增长到2018年的59%。因此,用于处理大数据的工具的普及程度有所提高。 如果您不理会Apache Spark和Hadoop(我们将更详细地讨论后者),那么最受欢迎的工具是MapReduce (36)和Redshift (29)。

Hadoop的


尽管Spark和云存储广受欢迎,但Hadoop时代尚未结束。 因此,一些公司希望候选人知道Apache Pig (30), HBase (32)和类似技术。 在某些作业中也发现了HDFS (20)。

实时数据处理


鉴于各种传感器和移动设备的普遍使用以及物联网的普及(18),公司正在尝试学习如何实时处理数据。 因此,诸如Apache Flink (21)之类的线程平台在雇主中很受欢迎。

特征工程和超参数调整


数据的准备和模型参数的选择是数据科学领域任何专家的重要工作。 因此,术语“ 数据挖掘 (128)”在雇主中非常流行。 一些公司还关注Hyperparameter Tuning (21)( 也不应忘记诸如Feature Engineering之类的术语)。 为模型选择最佳参数很重要,因为模型的整体性能取决于此操作的成功与否。

数据可视化


正确处理数据并显示必要模式的能力很重要。 但是, 数据可视化 (55)是同等重要的技能。 您必须能够以任何团队成员或客户都可以理解的格式呈现工作结果。 在数据可视化工具方面,雇主更喜欢Tableau (54)。

总体趋势


在空缺方面,我们还遇到了诸如AWS (86), Docker (36)和Kubernetes (24)之类的术语。 可以得出结论,来自软件开发领域的总体趋势已慢慢迁移到数据科学领域。

专家意见


该技术列表确实反映了数据科学世界中事物的真实状态。 但是,最重要的事情莫过于编写代码。 这是正确解释其工作结果以及以可理解的形式可视化和呈现它们的能力。 这完全取决于听众-如果您与理科候选人谈论您的成就,说他们的语言,但是如果您向客户展示结果,那么他将不在乎代码,而只是在意您获得的结果。

卡拉·金特里
数据科学家, 分析解决方案所有者
领英 推特
该图显示了数据科学领域的当前趋势,但是很难据此预测未来。 我倾向于相信R的普及率会下降(就像MATLAB的普及率一样),而Python的普及率只会增长。 Hadoop和大数据也因惯性而排在榜单上:Hadoop即将消失(没有人再认真投资这项技术了),大数据已不再是增长趋势。 Scala的未来并不完全清楚:Google正式支持Kotlin,这更容易学习。 我也对TensorFlow的未来表示怀疑:科学界更喜欢PyTorch,科学界在数据科学领域的影响力要比其他所有领域高得多。 (这是我的个人观点,可能与Gartner的观点不一致)。

安德烈·伯科夫(Andrey Burkov),
Gartner的机器学习总监,
百页机器学习书的作者
领英
PyTorch是加强学习背后的推动力,也是在多个GPU上执行并行代码的强大框架(关于TensorFlow尚不能说)。 PyTorch还有助于构建动态图,在使用递归神经网络时有效。 TensorFlow使用静态图进行操作,较难研究,但更多开发人员和研究人员已在使用它。 但是,PyTorch在调试代码和用于数据可视化的库(matplotlib,seaborn)方面更接近于Python。 大多数Python代码调试工具可用于调试PyTorch代码。 TensorFlow也有自己的调试工具-tfdbg。

Ganapati Pulipaka,
埃森哲首席数据科学家
前50名技术领袖奖得主。
领英 推特
我认为,数据科学的工作和职业不是一回事。 要工作,您需要具备上述技能,但是要在数据科学领域取得成功,最重要的技能是学习。 数据科学是一个多变的领域,您将必须学习掌握新技术,新工具和新方法,才能与时俱进。 不断提出新的挑战,并尽量不要“满足于不足”。

朗·里斯伯格
Data Elixir的创始人/策展人,
前鼻
推特 | 领英

数据科学是一个快速发展且复杂的领域,其中基础知识与使用某些工具的经验同等重要。 我们希望本文能帮助您确定在2019年成为数据科学领域更受欢迎的专家需要哪些技能。祝您好运!

本文由CV编译器团队撰写,该工具是用于改善数据科学和其他IT专业人员的简历的工具。

Source: https://habr.com/ru/post/zh-CN462049/


All Articles