如何在2019年成为数据科学家

数据科学家是一位分析数据专家,他具有解决复杂问题的技术技能,以及有助于设定这些任务的好奇心。 这些专家主要负责根据公司的要求,使用自行创建的预测模型和特殊分析将数据转换为结果创意。

换句话说,在本世纪的数据时代,成为数据科学家是一项极其重要的工作。 如此之多,以至于《 哈佛商业评论》上的一篇文章甚至称它为它(这鼓励成为其中之一!)。 “ 21世纪最性感的作品” (这促使您成为其中一员!)。

而且,数据科学家的工作以年平均1020.2万的年薪获得丰厚回报也不会受到伤害。 这就是为什么本文是2019年成为数据科学家的完整指南的原因。 如果您想了解有关数据科学的更多信息,可以遵循以下路线图。

但是,数据分析师和数据科学家在角色上的差异之间仍然存在很多困惑,因此我们将从本文开始,然后转向其他主题,例如教育要求和技能要求,以成为该领域的专家。

数据分析师和数据科学家之间的区别


显然,数据分析师和数据科学家都有与数据相关的职位描述。 但是它们之间有什么区别? 这是许多人对这些专业之间的差异的疑问。 因此,让我们在这里澄清这个疑问!

数据分析师使用数据来解决各种问题并为公司获取有用的数据。 使用明确定义的数据集上的各种工具来回答企业问题,例如“为什么在某些地区开展营销活动更有效”或“为什么本季度产品销售下降”等等。 为此,数据分析师拥有的主要技能是数据挖掘,R,SQL,统计分析,数据分析等 。实际上,许多数据分析师获得了额外的必要技能并成为了数据科学家。

另一方面, 数据科学家可以根据公司的要求开发用于数据建模的新流程和算法,创建预测模型并执行用户数据分析。 因此,主要区别在于,数据科学家可以使用繁重的编码来设计数据建模过程,而不能使用现有的代码来从数据中获取答案,例如数据分析师。 为此,数据科学家具有的主要技能是数据挖掘,R,SQL,机器学习,Hadoop,统计分析,数据分析,OOPS等。因此,数据科学家获得比数据分析师高薪的原因,在于他们的高技能水平以及高需求和低供应。

成为数据科学家的教育要求


有很多方法可以实现您的目标,但是请记住,这些路径大部分都是通过大学完成的,因为四年制学士学位是最低要求。

最直接的方法是获得数据科学学士学位,因为它无疑会教会您收集,分析和解释大量数据所需的技能。 您将学习有关统计信息,分析方法,编程语言等的所有知识 ,这只会对您作为数据科学家的工作有所帮助。

您可以选择的另一种解决方法是,获得可以帮助您担任数据科学家角色的任何技术学位。 其中一些是计算机科学,统计学,数学,经济学。 获得学位后,您将具备编码,数据处理和定量问题解决的技能 可以在数据科学中使用。 然后,您可以找到入门级的工作,或者获得硕士学位和博士学位以获取更多专业知识。

成为数据科学家的技能要求


数据科学家需要跨不同领域的多种技能。 其中大多数列出如下:

1.统计分析。 作为数据处理专家,您的主要任务是收集,分析和解释大量数据并创建对公司有用的想法。 显然,统计分析是职位描述的很大一部分。
这意味着您至少应该熟悉统计分析的基础知识,包括统计检验,分布,线性回归,概率论,最大似然估计等。而这还不够! 重要的是要了解哪种统计方法是解决给定数据问题的适当方法,而更重要的是要了解哪种统计方法不适用于给定的数据问题。 此外,还有许多分析工具在数据科学家的统计分析中非常有用。 其中最受欢迎的是SASHadoopSparkHivePig 。 因此,重要的是您必须了解它们。

2.编程技巧。 编程技能是您军火库中必不可少的工具。 这是因为,如果您可以使用某些算法来满足您的需求,则研究和理解数据以得出有用的结论就容易得多。

通常,Python和R是用于此目的的最常用语言。 使用Python是因为它具有统计分析功能和可读性。 Python还提供了各种用于机器学习,数据可视化,数据分析等的软件包(例如Scikit-learn ),使其适合数据科学。 R也使使用e1071,rpart等软件包轻松解决数据科学中的几乎所有问题。

3.机器学习。 如果您以任何方式与技术行业保持联系,那么您很有可能听说过机器学习 。 基本上,这使机器可以从经验中学习任务,而不必专门进行编程。 这是通过使用各种机器学习模型(使用数据和各种算法)训练机器来完成的。

因此,您应该熟悉机器学习中受控学习和非受控学习的算法,例如线性回归,逻辑回归,K均值聚类,决策树,最近邻居等。 幸运的是,大多数机器学习算法都可以使用R或Python库(如上所述)实现,因此您无需成为专家。 您需要的能力是根据所拥有的数据类型和要执行的自动化任务来了解需要哪种算法。

4.数据管理和数据处理。 数据在数据科学家的生活中起着重要作用。 因此,您必须具有数据管理方面的经验,其中包括提取,转换和加载数据。 这意味着您需要从各种来源提取数据,然后将其转换为所需的格式以进行分析,最后将其上传到数据仓库。 有各种用于处理此数据的平台,例如HadoopSpark

现在您已经完成了数据管理过程,您还应该熟悉数据处理。 数据处理-这基本上意味着必须先以一致的方式清理和统一存储中的数据,然后才能对其进行分析以获得任何有效数据。

5.数据的直觉。 不要低估直觉数据的力量。 实际上,这是区分数据科学家和数据分析师的主要非技术技能。 数据的直观性主要涉及在数据模式中不存在的地方找到模式。 这几乎与在大海捞针中找到针头相同,这在巨大的未开发数据堆中是真正的潜力。

数据直觉并不是您可以轻松学习的技能。 相反,它来自经验和持续的实践。 反过来,这也使您作为数据科学家的角色更加有效和有价值。

6.沟通技巧。 您必须具有良好的沟通能力,才能成为数据科学家领域的专家。 这是因为,尽管您比其他任何人都更了解数据,但是您需要将数据转换为定量评估,以便非技术团队可以做出决定。

这可能还包括数据讲故事! 因此,您应该能够以具有特定结果和含义的叙述性格式显示数据,以便其他人可以理解您的意思。 这是由于这样一个事实,即最终,数据分析变得不如可以从数据中获得的实际结论重要,这反过来将导致业务增长。

Source: https://habr.com/ru/post/zh-CN477818/


All Articles