数据科学项目鸟瞰图的结构

如何确定知道包子里面有什么?
也许你吞了下去,里面是一条河? ©Tanya Zadorozhnaya

如今,不仅儿童,而且宠物也知道什么是数据科学。 询问任何一只猫,他都会说:统计学,Python,R,BigData,机器学习,可视化以及许多其他单词,具体取决于资格。 但是并非所有的猫以及想要成为数据科学专家的猫都确切地知道数据科学项目的结构,其组成的阶段以及它们各自如何影响最终结果,项目的每个阶段的资源密集程度。 该方法通常用于回答这些问题。 但是,大多数专门针对数据科学的培训课程并没有对方法进行任何说明,而只是或多或少地始终如一地揭示了上述技术的本质,每个数据科学家的初学者都可以从自己的经验(和收获)中了解项目的结构。 但就我个人而言,我喜欢带着地图和指南针去森林,并且我想提前想象一下您要行驶的路线的计划。 经过一些搜索,我设法从著名的指南和方法制造商IBM那里找到了一种好的方法论。

因此,在数据科学项目中,每个阶段有3个块,共3个阶段,共9个阶段。 简而言之,该项目包括处理业务需求,数据和模型本身。

处理业务需求


在这一步,我们对所拥有的数据一无所知。 我们必须深入研究问题陈述,了解从项目中获得什么结果,并全面了解参与者和利益相关者。 此外,根据特定任务,我们必须确定将解决问题的方法。 此步骤的结果将是数据需求:好的,任务很明确,方法已经选择,现在我们将考虑成功解决方案可能需要什么?

处理数据


在第二步中,我们开始搜索数据以解决问题:我们找出可供我们使用的资源,并形成一个样本,供我们继续使用。 收集数据之后,有必要进行一系列研究,以便更好地了解样本的组织方式:调查中心位置和变异性,识别特征之间的相关性以及构建分布图。 在此阶段之后,您可以开始准备数据。 通常,此阶段最耗时,可能会占用整个项目时间的90%,但是整个项目的成功与否取决于完成的程度。

开发与实施


最后,第三步。 数据准备就绪后,您可以继续进行实际的开发和实施。 我们对模型进行编程,将其设置在训练样本上,在一个测试样本上对其进行检查,如果结果令人满意,然后向客户展示,实施,汇总反馈,然后就可以重新开始。

整个过程以恶性循环的形式呈现:以一种很好的方式,决不能将DS项目视为已完成(大约就像修复一样,众所周知,修复无法完成,而只能停止):



让我们更详细地介绍每个阶段。

1.了解业务挑战


这个阶段是所有后续工作的基础:没有它,您将无法构建任何东西。 有必要明确定义研究目的:问题在哪里? 为什么要解决问题? 谁受此问题影响? 有哪些选择? 最重要的是:将通过什么指标来衡量项目的成功?

换句话说,有必要清楚地确定客户的目标。 例如,一个企业主问:我们可以降低某些活动的成本吗? 需要澄清:提高这项活动有效性的目标是什么? 还是增加业务收入?
定义目标后,即可继续进行下一步。

2.分析方法


现在,您需要选择一种分析方法来解决业务问题。 方法的选择取决于最终需要获得哪种类型的答案:如果答案应该为是/否,则可以使用朴素的贝叶斯分类器。 如果您需要数字符号形式的答案,那么回归模型是合适的。 决策树可以处理数字和分类数据。 如果问题是确定某些结果的概率,则必须使用预测模型。 如果需要标识链接,则使用描述性方法。

3.数据要求


当明确研究目的并选择方法时,也就是说,我们清楚地了解要寻找的问题的答案是什么,有必要确定哪些数据可以使我们给出期望的答案。 我们必须准备数据需求:将在项目的下一阶段中使用的内容,格式和资源。

4.数据收集


在此阶段,我们从可用来源收集数据:我们确保来源可用,可靠,并且可以用来获取所需质量的所需数据。 初始数据收集完成后,有必要了解我们是否收到了想要的数据。 在此阶段,您可以修改数据需求并就是否需要其他数据做出决策(也就是说,您可能必须返回到阶段3)。 可以在数据中识别腔隙,并可以制定有关如何关闭腔室或寻找替代物的计划。

5.数据分析


数据分析包括所有抽样设计工作。 在此阶段,有必要回答以下问题:收集的数据是否代表任务?

在这里,我们需要描述性统计数据。 它适用于将在选定模型中使用的所有变量:检查中心位置(均值,中位数,众数),搜索异常值并估计变异性(通常,这是大小,方差和标准偏差)。 还构建了变量分布的直方图。 直方图是了解数据值如何分布以及需要进行何种准备工作的良好工具,因此在构建模型时变量最有用。 其他可视化工具,例如胡须盒,也可能有用。

接下来,执行成对比较:计算变量之间的相关性,以确定其中哪些与变量相关,以及相关多少。 如果变量之间存在显着的相关性,则可能会将其中一些变量作为冗余丢弃。

6.数据准备


与数据的收集和分析一起,数据准备是项目中资源最密集的活动之一:这些阶段可能需要70%甚至90%的项目时间。 在此阶段,我们以一种方便的方式处理数据:删除重复项,处理丢失或不正确的数据,检查并在必要时纠正格式错误。

同样在此阶段,我们正在构建一组在下一阶段机器学习将使用的因素:我们提取并选择可以潜在地帮助解决业务问题的功能。 这个阶段的错误可能对整个项目至关重要,因此值得特别注意:过多的属性可能导致模型被重新训练,而模型不足则导致训练不足。

7.建立模型


如您所见,模型的选择是在工作的一开始就进行的,并且取决于业务任务。 因此,当确定模型的类型并且有训练样本时,分析人员将开发模型并检查其如何在步骤6中创建的一组功能上工作。

8.模型的应用


模型的应用与模型的实际构造紧密相关:计算与模型的配置交替进行。 在这一阶段,我们必须回答构建的模型是否满足业务任务的问题。

模型的计算分为两个阶段:进行诊断测量,以帮助了解模型是否按预期工作。 如果使用预测模型,则可以使用决策树来了解模型的输出与原始计划匹配。 在第二阶段,检查假设的统计显着性。 必须确保正确使用和解释模型中的数据,并且获得的结果超出统计误差。

9.实施


如果模型为我们提供了对该问题的满意答案,则该答案应开始是有益的。 在开发模型并且分析师对他的工作结果充满信心时,有必要向客户介绍开发的工具。 不仅吸引产品的所有者,而且吸引其他相关方:市场,开发人员,系统管理员:每个可以以某种方式影响项目结果的进一步使用的人都是有意义的。 接下来,您需要继续执行。 实施可以分阶段进行,例如对于有限的一组用户或在测试环境中。 为了跟踪开发的模型如何成功完成任务,还需要建立一个反馈系统。 一段时间后,此反馈将对改进模型有用。 也可能出现新的数据源,新的涉众,更不用说可以指定业务任务本身的事实。 因此,完美无止境:即使是嵌入式模型也永远不能被认为是理想的。

Source: https://habr.com/ru/post/zh-CN468493/


All Articles