大家好 Otus的新课程设置“ R上的应用分析”已在本月底开始开放。 在这方面,我想分享一下出版物的翻译,内容是数据分析师和统计学家之间的区别,而统计学家又在实践中使用R。

引言
在过去的十年中,数据量及其出现速度呈指数增长。 据报道,每天出现超过3千亿字节的数据! 毫不奇怪的是,出现了与数据科学家合作的新职业-数据分析和处理的多才多艺的专家。 但是,人们在数字数据处理工具出现之前就从事统计工作。 数据和统计研究员这两个专业之间有什么区别?
让我们弄清楚。
谁是数据浏览器?
数据研究人员的专业素质优于任何软件工程师,并且比任何统计学家都精通软件开发。
数据研究人员通常会处理大量数据,这些数据通常位于组织的存储库中或位于站点中,但同时,就获得战略或财务优势而言,它们实际上是无用的。 为了提供建议和建议以做出最佳决策, 数据研究人员使用统计计划武装自己,并评估来自此类来源的先前和当前数据。
在市场营销和计划系统中, 数据研究人员主要关注于确定思想和统计指标,这些思想和统计指标对于准备,实施和跟踪以结果为导向的市场营销策略很有用。
什么是统计数据?
统计人员收集和评估信息,以寻找行为模式或环境描述。 他们根据这些信息构建模型。 这些模型可用于预测和理解宇宙。
例如,统计数据表明庆祝生日是安全的-人越老,他庆祝的生日越多。
统计领域的研究人员创建并使用统计或数学模型来帮助基于收集和归纳的有用数据解决实际问题。 数据被收集,分析并用于各个领域,包括工程,科学和商业。 累积的数值数据可帮助公司及其客户了解定量指标,并跟踪或预测对制定业务决策有用的趋势。
技能差异
数据浏览器
1.教育
计算机科学家通常受过较高的教育-88%的人拥有硕士学位,46%的人是候选人。 尽管有此规则的例外,但通常来说,为了获得信息科学领域的必要专家知识和技能,通常需要进行严格的培训。
2.用R编程
数据分析人员最好至少了解一种这样的工具。 R是专门为数据科学的需求而创建的。 使用R,您可以出于科学目的处理任何信息。 43% 的数据研究人员使用R解决统计问题。 但是,R的研究道路相当棘手。
3.用Python编程
Python与Java,Perl和C / C ++一起,是数据科学中最受欢迎的编程语言之一。 对于数据研究人员而言,Python是一个不错的选择。
4. Hadoop平台
并非全部,但在许多情况下,高度希望拥有此工具。 如果专家也有Hive或Pig的经验,那么他的价值就会增加。 诸如Amazon S3之类的云工具也可能派上用场。
5. SQL:使用数据库和编程
数据研究人员必须精通SQL。 该编程语言是专门为处理数据而设计的。 它允许您使用简短的查询指令从数据库中获取您感兴趣的信息-快速而无需编写繁琐的代码。
6.机器学习和人工智能
许多数据研究人员不了解机器学习的算法和方法,却不了解神经网络,深度和竞争性学习以及类似的东西。 但是,如果您想在其他数据研究人员中脱颖而出,则可以更好地理解诸如与老师一起进行机器学习,决策树,逻辑回归等方法。
7.数据可视化
企业世界中的数据量巨大。 他们需要转换为更易于理解的格式。 通常,人们可以更好地感知图形和图表形式的数据。
8.非结构化数据
数据浏览器必须准备好使用非结构化数据。 此类数据采用任意格式,并且不存储在数据库中-例如照片,博客条目,客户评论,社交网络上的帖子,视频,音频文件等。
9.商业原则知识
要成为信息领域的研究人员,您需要了解您工作的领域以及公司面临的业务任务。
10.沟通技巧
寻求强大数据研究人员的公司需要一个能够将技术成果清晰自由地传达给非核心受众的人员,例如营销人员或销售专家。
统计资料
- 对概率论和归纳统计的深入了解。
- 与数字合作的能力-该技能反映了一般的智力水平,其发展在很大程度上有助于实现组织的目标。
- 分析能力-收集和评估数据,解决问题并做出选择的能力。 这些技能将有助于解决公司面临的问题,提高劳动生产率并实现公司目标。
- 写作和口语交流能力。
- 良好的人际交往能力是我们与他人互动时表现出的特征和行为。 他们被认为是最相关的社会心理技能之一。 我们在所有语言和非语言互动中使用它们。 确实,主要的人格特征和工作态度对他在特定职位上的成功能力具有决定性的影响。
工具差异
统计工具
1. SPSS
社会科学统计软件包(SPSS)可以说是人类行为研究领域中最常见的统计软件。 SPSS的可视界面使您可以将描述性统计信息以及以图形形式显示的参数和非参数分析结果进行组合。 SPSS可以创建脚本来自动执行估计或复杂的统计计算。
2. R
R是一个免费软件软件包,已广泛用于人类行为研究和其他领域。 简化信息处理过程各个步骤的基于R的工具可用于各种应用程序。 R是高性能的软件,但是掌握它并不那么简单。 另外,其使用将需要代码编写技能。
3. MATLAB(Mathworks)
MatLab是技术专家和研究人员广泛使用的分析和编程平台。 与R一样,开发路径相当棘手,在某个阶段,您将需要编写自己的程序。 多种工具将有助于应对研究任务(例如,EEGLab工具旨在分析EEG数据)。 尽管对于初学者来说,使用MatLab会很困难,但是只要您可以编写代码(或至少运行必要的工具),此软件包就提供了广泛的可能性。
4. Microsoft Excel
Microsoft Excel提供了一系列可视化工具和易于使用的统计功能,尽管它不是一个完整的统计分析工具。 使用数字,计算汇总总数和创建自定义图形非常容易。 对于那些希望查看哪些数据是可用信息核心的人来说,这些工具非常有用。 由于Excel被许多人和公司使用,因此对于初学者来说,它可以被认为是负担得起的选择。
5. GraphPad棱镜
GraphPad Prism提供了许多机会,可以将其应用于各种领域,尤其是在与生物学相关的统计中。 像SPSS一样,此处可以使用脚本自动进行分析和复杂的统计计算。
6. Minitab
Minitab软件包提供了许多基本且相当复杂的统计工具来评估信息。 像GraphPad Prism一样,由于其图形用户界面和脚本,初学者和需要进行更复杂分析的用户都可以使用它。
数据研究员工具
1. R
R是一个免费的软件包,用于统计计算及其可视化。 R可以在许多UNIX,Windows和macOS平台上编译并运行。
2. Python
Python是Guido van Rossum开发的一种流行编程语言。 该语言的源代码于1991年首次发布。 Python用于后端开发,计算机制造,数学和系统脚本。
3.朱莉娅
Julia语言最初是为高性能计算而创建的。 对于各种LLVM系统,Julia程序被编译成有效的本机代码。 Julia是一种动态打字程序设计语言,看起来像脚本语言,并且在开发环境中具有出色的交互技巧。
4.画面
Tableau是商业智能领域中增长最快的数据可视化工具之一。 这是将原始数据转换为不需要技术知识和编程技能的易于理解的格式的最佳方法。
5. QlikView
QlikView是用于企业数据发现的主要平台之一。 它在许多方面与传统的商业智能系统不同。 作为分析信息的工具,它总是使用颜色可视化数据之间的关系,并显示不相关的信息。 通过在列表标题中输入查询来实现直接和间接搜索。
6. AWS
提供计算能力,数据库资源和内容交付服务的安全网络平台Amazon Web Services(AWS)可帮助企业发展业务。 数百万的客户已经在使用AWS和替代产品来开发具有极大灵活性,可伸缩性和可靠性的复杂应用程序。
7.星火
Apache Spark是一个快速的集群计算框架。 它支持Java,Scala,Python和R的高级API,以及优化的图形处理引擎。
8. RapidMiner
RapidMiner是用于数据处理的技术平台。 它包括数据准备功能,机器学习和深度学习算法,文本分析工具以及预测性分析环境。 RapidMiner支持所有机器学习工具,包括准备信息,可视化结果,验证是否符合项目要求以及进行优化。 RapidMiner用于商业,工业中的培训和教学,快速原型制作和软件开发。
9.数据块
结合了数据处理和业务技术支持的Databricks平台是为数据专业人员,工程师和研究人员设计的。 该平台支持机器学习的整个生命周期:从信息准备到测试和实施。
工资差异
数据研究不仅比统计学家的工作更需要,而且报酬更高。 根据Glassdoor 的数据 ,美国数据研究人员的平均工资为 118,709美元,而统计数据为75,069美元。 数据研究员 -企业的多功能专家,能够为重要问题提供答案。 通常他会得到一个开放的问题。 专家找出需要的信息,确定任务的截止日期,执行建模和分析,并编写出色的程序以使您获得答案。
职业机会
职业机会统计
统计技术员
统计专家通常在高级统计员的监督下分析信息,高级统计员也可能是其指导者。 一段时间后,许多这样的专家离开了后台,担任更负责任和独立的职务,并承担复杂的技术任务。
应用统计
应用统计学家负责确保针对每个重要问题收集并准备好适当的数据进行分析(或已进行了适当的分析),并准备包含结果的报告。 他们与其他技术专家和管理层紧密合作,是项目团队不可或缺的一部分。
高级统计师
高级统计学家的职责范围比应用统计学大。 他全面探索问题,以发现与整个组织目标的联系。 为了提供可以使组织和客户长期受益的新思路,高级统计人员会积极主动。 通常,他们在项目的早期阶段联系在一起,帮助根据数字确定问题,并向高级管理层推荐解决问题的方法。 然后招募他们准备和展示结果。 在统计方面,它们通常是信息和经验的最佳来源。
统计主管
统计部门负责人,特别是最年轻的部门负责人参与了项目计划,以帮助确定应该发生的情况。 他们招募员工,提供建议,并对项目的总体结果负责。 他们将部门的成就告知高级管理人员,帮助其员工发展职业并确定发展方向。 他们的行政职责包括招聘和发展员工,以及评估工作的有效性。 出于明显的原因,与普通工人相比,所需的管理人员更少。
统计私人顾问
一些应用统计学家成为独立的私人顾问。 他们通常由没有统计学家的组织委托进行特殊研究,或评估其他统计学家的工作。 统计顾问通常作为专家参与解决法律问题。
职业机会数据分析师
数据浏览器
数据研究人员使用统计和数学模型来处理信息。 当创建一个系统来评估下个月无法偿还的贷款数量时,数据分析专家的聪明才智会派上用场。
数据处理专家
这些基础广泛的专家依靠他们对软件开发的知识,使用计算系统来处理大型数据集。 通常,他们每个人都知道几种编程语言,例如Python和Java。 通常,这些员工专注于编写代码,清除数据以及执行来自数据研究人员的查询。 为了将数据研究人员创建的预测模型转换为程序代码,通常需要借助数据处理专家的服务。
分析员
最后,还有一些专家可以研究数据,创建报告并可视化这些数据的内容。 分析师帮助公司员工获取有关特定问题的信息。
总结
杰出的分析师是有价值的专家; 他的编码风格在速度方面进行了优化。 但是他不是统计学家 ,甚至不是坏人,因为他没有根据事实得出最终结论。 分析师的主要任务是声明:“这就是我们的数据所包含的内容。 说什么不是我的任务。 也许决策者会希望获得统计数据以找出答案。”
仅此而已,我们正在等待课程中的所有人。