机器学习与 分析方法



不久前,我们在Data School的机器学习课程中找到了用于教授第一流的旧资料,并将其与当前资料进行了比较。 我们感到惊讶的是,在5年的培训中,我们增加和改变了多少。 意识到我们这样做的原因以及解决数据科学问题的方法实际上已发生变化之后,我们决定编写此出版物。

我们从机器学习的基本方法和算法开始培训,告诉他们如何将它们付诸实践,如何选择参数,如何清理和准备数据以及如何测量质量。 我们相信(并且仍然相信)对成熟的Agent-Scientist的培训不仅应包括经典的机器学习方法,还应包括图形分析方法(社交网络,SNA),文本分析,使用神经网络和大数据的工作(大数据)。

因此,在输出中,我们得到了数据科学广泛领域的专家,能够在实践中应用广泛的方法库。 我们聘请了同样的专家来开展业务。 首先,在我们工作并指导相关领域的公司中,然后在我们的业务中开发基于机器学习的产品-Data Studio

但是后来我们意识到,这不仅不足以成功实施数据科学项目,而且还不是主要内容。

坦率地说,到目前为止,对于许多分析家来说,数据科学实践之初的方法如下:给我数据,我将其清除,制作一个特征向量,将其分为训练和测试样本,运行几种ML算法,这就是结果。
这种方法是否有生命权?

是的,的确如此,但是该领域已经得到了很好的研究,并且在应用分析方面已经积累了良好的经验。 例子? 银行评分,运营商流出,零售,银行,电信交叉销售(次优报价),预测零售中库存的有效性,预测余额。 此列表继续。

现在让我们想象其他领域:预测多式联运(船舶,火车,卡车)的到达时间:您将使用哪些标志? 货物类型,货物重量,是否存在某些分拣节点? 如果您考虑过? 也许一些更简单明显的迹象(即使没有机器学习模型)也会为您带来显着的准确性?

或者您需要预测大客户对某些产品价格变化的敏感性。 如何确定弹性? 您究竟会预测什么?

但是,如果以后要更改生产过程,是否有必要建立模型?

事实证明,您需要能够在分析应用的新主题领域中工作,因为在经过深入研究的领域中,已经有了如此多的发展,这就是“红海”。
分析进入新领域需要什么?

为此,您需要能够深入了解特定过程的主题领域,而这些过程的描述通常不可用。 了解通常需要哪种数据,了解业务的确切用途。 您是否需要在这里完全了解分析,是否需要一些预测算法,是否需要更改业务流程,是否有操作杠杆(如果仍然没有避免的方法,则可以预测设备停机的意义是什么?)。

总而言之,需要满足以下条件:

  • 分析方法,拟定和检验假设的能力
  • 了解业务和个别流程的原理和特征
  • 了解过程经济学
  • 对技术的了解
  • 能够将数据与业务流程绑定

而且,如果您使自己脱离机器学习,那么哪个领域最能做到这一点? 正确-管理咨询。 在MBA课程(企业管理硕士)上,使用所谓的案例方法(来自不同业务环境的许多示例)来教授这些内容。

因此,事实证明,理想的数据科学家是具有咨询经验的MBA毕业生,他已经完成了机器学习课程。

当然,这是过高的,但是,诚然,在流程和标准水平最高的承包商中,在人员选拔和培训方面,承包商已经形成了一种分析思维的文化。 我们在Data Studio中坚持相同的方法。 从逻辑上讲,我们在数据学院的培训中采用了相同的方法。

你可以反对。 毕竟,上面写的内容更适合用于咨询,每次您都不事先知道项目将来自哪个主题领域时。 那么原则上概述该领域的大公司呢?

在公司中,我们遵守上述所有相同的细节,并且需要分析师和整个团队来了解业务,并需要对最终结果负责。

正是由于这个原因,在大公司中,我们现在看到了数据科学部门专业化的趋势,并且分析功能已从集中式部门(整个公司)转移到业务功能(即更接近业务)。 通过这种专业化,分析师能够快速了解​​新业务并提供切合实际的解决方案而不是模型的能力是一项竞争优势。

我们的课程究竟发生了什么变化? 在我们所有人面前,我们根据实际案例进行教学。 案件的结构和性质已经改变。 以前,我们的案例就像Kaggle上的任务:这是任务,这是目标变量,这是质量指标,这是数据。

现在,任务听起来有所不同:这是针对客户端的任务,这是对客户端进程的描述。 制定分析任务,提出质量指标,评估使用分析的适当性,计算经济影响,建议方法,制定对所需数据的请求。 然后一切照常:清理数据,建立模型等。 而且,我们从完全不同的领域提供了此类示例,所幸的是,我们在该领域的咨询服务大大扩展了我们根据自己的经验解决的可用任务的范围。

但是,分析方法的学科不仅是案例的实践。 我们还将讲授咨询中使用的标准框架(基本分析模式)。 我们还在培训中增加了我们在课堂上坚持的分析产品的开发过程,从业务分析到向客户展示结果,以及规划生产解决方案的部署,包括阶段,角色,关键决策点以及与客户互动的时间。

我们为演示文稿提供了单独的角色-我们经常看到分析师的思想与客户员工对这些思想的理解之间存在差距。

总的来说,我们认为培训数据科学家的任务不是如何为现有领域准备专家(已经有很多课程,并且这已经在许多方面成为商品),而是为在新领域工作的专家研究员做准备。数字化即将到来。

好了,并且像往常一样-9月16日在我们的数据学院开始了新课程。 我们一直在Data Studio接受新项目的订单,就像我们招聘员工一样(请参见“空缺”部分)。

PS:我们对网站进行了一些更新,以使其更加方便。 因此,不要对新外观感到惊讶。

Source: https://habr.com/ru/post/zh-CN458956/


All Articles