有关将机器学习引入业务的错误建议

不要依赖人工智能
除非您对过程有深刻的了解。

雷·达里奥

在Jet Infosystems,我们在众多行业中介绍了机器学习,并基于我们的经验,我们挑选出成功实施所需的必要组件:

  • 陈述旨在优化业务优先级指标的问题;
  • 一支具有能力并准备深入研究流程的数据科学家团队;
  • 与业务任务相关的数据;
  • 适当选择方法。

在实践中,所有这些要素都极为罕见,据统计,只有7%的ML项目被认为是成功的。 具有所有这些组件的项目可以安全地归类为突破! 为了说明这一点,我们提出了一些要点,这些要点可以称为关于在企业中引入机器学习的有害技巧。

错误建议1:“任务只是实现ML”


通常,客户将任务表述为“只是为了进行一些优化而引入机器学习”,而与业务指标和业务任务的优先级没有任何关系。

在这种情况下,我们可以看到几种负面情况。 例如,目标会随着它们的工作而发生变化,但这意味着所有预处理和优化方法的选择都会发生变化,因为它们与目标的含义直接相关。 或者,数据科学家将从机器学习中选择一些度量标准,例如auc,并将对其进行改进,并基于他的美感引入所有炒作框架和库-完善所选度量标准中的“小数点后第五位”。 同时,对于企业来说,这项工作可能是完全不重要的,并且不会成功实施。 或实际上将有更大的潜力引入附近的机器学习时,将解决一些较小的业务问题。

因此,您可能会遇到负面后果:

  • 无法预测时间和人工成本;
  • 与业务指标隔离地改进了模型;
  • 在一项次要任务上进行了投资。

错误建议2:“任何数据科学家都可以做到”


有一种观点认为,您可以从市场上选拔任何数据科学家,将他与Excel隔离开来,他会神奇地找出需要优化的地方。 我们认为,参与生产优化的数据科学家的心态极为重要。 这意味着他们必须准备好深入研究工艺流程(例如,铝电解,氧碱纤维素处理,高炉生产等)。 为了了解一切工作原理,数据科学家愿意与工厂的技术人员和操作员亲自交谈也很重要,他们愿意出差旅行。 没有这个,很可能它们将注定要进行枚举模型的大量周到的迭代,并且您将永远找不到有用的实现。

错误建议3:“工作应该是拼凑而成的”


定期满足最零散的工作组织,最大程度地分工以最小化成本的思想。 例如,有一位分析师了解过程,并与客户和技术人员进行沟通。 有一个日期工程师-他处理数据,生成特征。 最后,还有一位数据科学家-他只是导入sklearn并进行拟合/预测。 因此,数据科学家的工作是与生活的现实隔离的,是极其实验室的工作,并且存在犯下大量错误并丢失原始任务重要方面的高风险。

坏建议4:“不要向数据科学家解释如何收集数据”


并非总是显而易见的是,数据科学家必须了解如何以及在何处收集数据。 甚至在不首先查看数据的情况下签署ML实施合同的情况下,在这种情况下,也有可能永远无法达到合同中描述的指标的目标值的风险。 使用这种方法,不可避免地会在评估模型的质量以及实际应用的可能性方面出现问题。

许多数据属性会影响方法的选择:平均数据和测量误差,示例采样不均匀,测量时滞。 正确清除因子和目标中的噪声数据非常重要,噪声的原因可能不同:数字化错误,异常值,变量重复,仪器错误等。

该公司应该对以下事实感兴趣:数据科学家会彻底了解数据的性质,否则数据处理将很长且不会导致成功的建模。 如果不深入了解收集和存储数据的过程的细节,则可能会遇到以下问题:

  • 数据预处理将花费大量时间;
  • 该模型可能不适用于实际条件;
  • 合同条款可能无法达成。

坏建议5:“使数据收集变得复杂而难以理解,因此没人知道它是如何工作的。 引入模型后,请务必对过程进行更改”


通常,与模型的开发和实施同时进行的是,技术过程会发生变化,从而影响数据收集。 想象有必要优化工艺流程,并在引入模型后重新配置一些单元,这会影响数据收集:功能将“浮动”,分布将发生变化,训练样本将不再具有代表性。 当然,没有人会事先知道。 结果:该模型将停止工作,并且需要重做所有操作。 例如,在有树的情况下,可能会出现域外问题。

事先与数据科学家协调技术过程中的所有变化非常重要,这样他们才能快速使模型适应新的条件。

错误的建议6:“平均标志”


某些类型的平均会导致问题,例如:

  • 任务是预测每小时的能源消耗,但与此同时,能源消耗数据仅存储数月-在这种情况下,在原始数据累积之前无法进行任何操作;
  • 对在明显不同的时间点测量的特征进行平均;
  • 使用捕获预测周期的移动平均值(这会导致数据泄漏问题和模型失真);
  • 最糟糕的是,当以某种方式对数据进行平均并且这一事实仍然未知时。

在这种情况下,直到相关原始数据出现,任务才能获得适当的解决方案。

错误建议7:“不要提供其他数据”


在几种情况下,数据科学家需要其他数据:

  • 需要的其他原始数据;
  • 有必要在数据集上添加新的符号。 例如,在银行部门的任务和产品推荐中,使用尽可能多的社会人口统计属性很有用;
  • 增加数据集大小
  • 数据量是有限的,但是由于历史数据而可以扩展,或者可以在图像和视频处理任务中创建其他数据。

数据科学家在有解决类似问题的经验时会要求其他数据,在这些问题中,使用这些数据会产生积极的结果,否则,模型的质量可能比可能达到的水平差很多。

错误建议8:“手动标记的准确性并不重要”


让我们要求根据手动标记来预测产品质量,即 生产操作员手动记录目标值。 如果操作员同时获得良好结果的奖金和不良结果的惩罚,则:

  • 目标可能包含偏移量;
  • 由于培训,这种偏见将进入模型;
  • 该模型将无法预测目标变量的实际分布。

使用众包解决方案(例如,Yandex.Toloka)可能会出现类似的问题,其中专家会因标记数据而获得奖励。 在这种情况下,您需要仔细验证生成的标记。 有很多方法可以解决此问题:

  • 重叠:几个独立专家的标记;
  • 黄金集:将具有已知结果的示例添加到数据中,以评估操作员及其选择的准确性;
  • 多数投票:基于重叠标记的判决选择算法。

结论:如果有手动标记的数据-您需要检查它,否则可能会发生系统错误。

错误建议9:“使用最时尚的产品”


阅读热门文章,并要求以一种流行的方法为基础解决问题。

如今,数据科学已成为时尚领域,发表了许多文章,几乎每天都在举行会议,正在创建越来越多的方法。 但是,这并不意味着在工业任务中采用任意流行的方法是最佳的。 通常,您不需要在优化生铁产量的任务中使用LSTM,也不需要在用于营销或采矿的小型数据集上使用RL。 在此类任务中,明智的做法是从传统方法(例如梯度提升)开始,这很难说服客户。 时尚的ML方法并不总是适合于该行业的任务,并且通常证明实施起来成本很高。

品德


给定的提示并非详尽无遗,但实际上经常会遇到所有提示。 使用这种方法,可能会确保ML在行业中不起作用,并且仅仅是浪费钱。

综上所述,我们可以说,真正的突破性案例是机器学习项目,这些项目按时实施,并稳定地为企业带来可衡量的利润。 为了实现这一点,数据分析和机器学习的能力非常重要,而且数据科学家充分了解业务问题的整体情况也需要这些条件。

Jet信息系统矿业部负责人Irina Pimenova发布

Source: https://habr.com/ru/post/zh-CN475862/


All Articles