该材料的作者与数据分析和处理领域的专家进行了一系列对话,并对数据科学家的发展前景和方向做出了结论。数据处理的理论和方法简化了技术领域中各种问题的解决。 这包括Google搜索结果的优化,LinkedIn上的建议,Buzzfeed标题的形成。 但是,处理数据会严重影响经济的许多部门:从零售,电信,农业到医疗保健,货运和刑事系统。
然而,术语“数据科学”,“数据分析的理论和方法”和“数据科学家”尚未完全理解。 实际上,它们用于描述处理信息的多种方法。
数据科学专家实际上在做什么? 作为
DataFramed播客的主持人
,我得到了一个很好的机会来采访30多位来自各个行业和学术领域的数据分析专家。 除其他外,我总是问他们的工作究竟包括什么。
数据科学是一个真正的广阔领域。 我的客人从不同的立场和观点来进行我们的对话。 他们描述了各种活动,包括booking.com和Etsy上的大规模在线产品开发框架,Buzzfeed用于解决优化材料标题的多臂匪问题的方法以及机器学习对airbnb商业决策的影响。
Airbnb的数据分析专家Robert Cheng表示了最新的例子。 当他在Twitter上工作时,公司专注于增长。 现在,在Airbnb,Cheng正在开发大型机器学习模型。
分析和数据处理理论的应用方法可能非常不同,解决方案的选择不仅取决于行业,还取决于业务类型及其任务。
然而,尽管有很多不同之处,但在所有访谈中仍然可以清晰地看到许多共同的话题。
数据科学专家做什么?
我们知道数据科学的工作原理,至少在技术行业是这样。 研究人员首先以收集信息的形式奠定坚实的基础,以便进行全面的分析工作。 在下一阶段,他们将使用在线实验等其他方式来持续解决问题。 结果,创建了机器学习方法和专用产品,用于处理更好地了解您的业务并做出更好决策所需的数据。 也就是说,技术领域中数据处理方法的本质归结为构建基础架构,进行测试和机器学习以制定决策并创建信息产品。
其他非技术领域也正在采取重大步骤。
在一次会议上,Convoy的数据处理专家Ben Skrainka和我研究了信息处理方法在北美货运行业中如何有效地创新。 Flatiron Health的Sandy Griffith谈到了数据分析在癌症研究中的重要作用。 我们与Drew Conway一起讨论了他的公司Alluvium,该公司“利用人工智能和机器学习根据工业系统运行期间生成的大规模数据流来识别有用的模式。” Uber自动驾驶部门现任负责人Mike Tamir谈到了在Takt工作的问题,Tamir帮助世界500强公司介绍了数据处理和分析方法。 他还分享了他在为星巴克开发推荐系统方面的经验。
数据分析不仅是自动驾驶汽车和人工智能的前景
我的播客中的许多客人都对大众媒体对AI迷信的普遍性表示怀疑(例如:VentureBeat的文章“到2042年将创造一个AI神,他将写他的圣经。你会崇拜他吗?”)以及围绕机器和深渊的炒作学习。 当然,这两个领域都是强大的方法,并具有实际应用的重要示例。 但是,这种兴奋应该总是被一些健康的怀疑论者对待。 我几乎所有的客人都指出,这些领域的真正研究人员通过收集和过滤数据,创建仪表板和报告,进行数据可视化和统计分析来谋生。 此外,他们需要能够将结果的实质传达给关键参与者并说服决策者。
数据科学家行业所要求的一组技能正在不断变化和补充(并且具有深入培训工作经验不是主要要求)
在与《财富》 500强公司之一的西雅图领先数据分析师之一乔纳森·诺里斯(Jonathan Nolis)的对话中,我们讨论了以下问题:“对于数据专业人员来说,两种技能中哪个更重要的是使用复杂的深度模型的能力。培训或在PowerPoint中绘制好的幻灯片的能力?” Nolis赞成后者,认为对分析结果的易于理解的解释仍然是处理信息的关键要素。
另一个受欢迎的话题是一组核心技能的可变性。 在可预见的将来,其中一些的相关性可能会改变。 商业和开放数据分析工具的飞速发展导致了这样一个事实,即现在我们目睹了许多常规任务的自动化向大规模过渡,例如数据清理及其初始准备。 直到现在,研究人员80%的宝贵时间都花在简单的搜索,过滤和数据结构上,而将20%的数据用于分析上
却很平常 。 但是这种情况不可能持续下去。 如今,自动化甚至已经达到了机器和深度学习的过程。 特别是,在一个专门针对此类问题的单独播客中,Life Epigenetics的领先数据分析和处理专家Randal Olson谈到了这一点。
根据访问的结果,绝大多数客人认为创建和使用深度学习基础架构的能力并不是关键。 相反,它们指示了动态学习的能力,以及向过程中的关键参与者正确解释复杂分析计算的能力,而不仅仅是技术问题。 因此,与数据处理方法相比,数据处理和分析领域的有目标的专家应多注意材料的正确表示。 新方法来了又去,但是批判性思维和在数量上可衡量的专业技能始终是相关的。
专业化变得越来越重要
尽管缺乏明确的职业道路并且对新手专业人员的支持不足,但是我们已经注意到某些专业领域的出现。 艾米莉·罗宾逊(Emily Robinson)描述了A型和B型科学家之间的区别。据她说,A型包括活动接近传统统计的分析师,但B型代表主要从事机器学习模型的创建。
乔纳森·诺利斯(Jonathan Nolis)将数据科学分为三个部分。 第一个组件是业务分析,可以归结为以仪表板,报告,电子邮件的形式“获取公司数据并将其提供给合适的人”。 第二种是决策理论,旨在“获取数据并在公司的帮助下帮助公司做出最佳决策”。 第三个组成部分是机器学习,其中专家寻求回答以下问题:“我们如何在实际项目中有意识地应用信息分析模型?” 尽管许多活动领域的高级专家都涵盖了这三个领域,但是像机器学习工程师一样,具体的职业道路已经开始形成。
道德和道德问题-严峻的挑战
您可能会猜想分析行业的代表在途中会遇到很多不确定因素。 当我在谈话的第一集中询问希拉里·梅森(Hillary Mason)时,职业社区是否还有其他困难,她回答:“您真的认为我们在这个发展阶段缺乏道德准则,标准做法和精简术语吗? ?
所有这三点都很重要,DataFramed播客的几乎所有来宾都关心前两个问题。 在信息分析师开发的算法指示我们如何与外界交互的情况下,道德将扮演什么角色?
正如GitHub首席机器学习专家Omuju Miller在接受采访时所说:
必须树立对基本道德价值的理解,制定培训专家的计划,并起草像希波克拉底誓言那样的东西。 我们需要真正的执照来惩罚或剥夺超越道德规范的专家的执业。 必须明确指出,我们作为一个行业,反对这种行为。 而且,当然,有必要以某种方式帮助犯下严重侵权行为和背离无知规则的人帮助他们改善,因为他们没有通过必要的培训。
当前的话题是使用数据科学的严重,有害和不道德的后果,就像COMPAS累犯风险等级一样,“曾被用来预测和识别未来的罪犯”,据
ProPublica称 ,事实证明是“歧视黑人”美国人。”
我们逐渐同意,道德标准应在专业分析人员的社区中诞生,并获得立法者,社会运动和其他有关方面的支持。 在某种程度上,与基于黑匣子原理的现代解决方案相对,模型的可解释性得到了特别的强调。 也就是说,有必要创建模型以解释其做出此或该预测的原因。 深度学习可以应付许多任务,但以其难以理解而闻名。 专门的研究人员,开发人员和数据分析师正在通过诸如
Lime之类的项目来朝这个方向取得进展,以解释机器学习模型是如何工作的。
人类工业和社会中数据分析的大规模革命才刚刚开始。 目前尚不清楚数据分析专家的职业是否将继续成为
21世纪最有吸引力的工作 ,它是否将变得更加专注或仅仅是变成研究人员应具备的一套技能。 正如希拉里·梅森(Hilary Mason)所说:“数据科学将在10年后存在吗? “我记得她所处的世界,如果她将面临与网站管理员相同的命运,我也不会感到惊讶。”
