如何在您的企业中实施机器学习技术

根据Gartner的说法,机器学习正处于顶峰。 我们从事数据分析和机器学习领域解决方案的开发和实施,我们的DATA4团队在关键阶段和陷阱方面获得了经验,我将在本文中分享这些经验。



考虑实施阶段:


1.问题陈述


任何技术都必须解决特定的业务问题。 需要另外一篇文章来描述机器学习的所有应用,但是可以区分几个主要领域。 这是预测分析(得分,流出,确定最佳报价,相关产品等),文本分析(Internet上的评论,内容审核,参考主题等),语音分析和视频分析。

为了成功实施,有必要确定我们正在改善的KPI业务,我们如何以及以何种度量标准来衡量结果。

2.数据的收集,存储和预处理


设置任务后,有必要创建培训样本(不幸的是,大多数业务任务都是通过“与老师一起学习”解决的)。 根据我们的经验,采样是最长的一步。 为了减少它,公司必须具有处理数据的文化。

除了收集数据外,还需要清除它们并确定影响最终结果的功能。

3.算法训练


算法部分的开发是最有趣的,也是最快的阶段。 通常需要花费几个小时到几周的时间。

4.开发高级打包带


该解决方案不仅应对数据分析专家明确,而且对实施此解决方案的程序员或管理员也应明确。 而且,如果这是一个高负载的解决方案,或者是对安全性要求更高的解决方案,则可能必须将其从Python重写为另一种语言。

5.整合


通常,由于需要额外的沟通和批准,因此会花费大量时间。 此阶段最好由客户团队的内部力量执行。

6.反馈收集,模型调整


世界在不断变化,在开发之初就不能考虑所有功能。 反馈收集有助于及时重新训练模型。 理想情况下,在此阶段,该周期重新开始,但是时间较少。

基于机器学习的解决方案的特点:


  1. 机器学习基于统计数据,当算法给出错误的预测时,这是正常现象。 最好立即通过评估质量的指标,这些指标的含义(并非每个人都知道F度量和Roc-Auc是什么)来向业务客户解释,并且手动设置3个示例并查看结果很有趣,但在统计上并不重要。
  2. 预测结果不佳。 数据并不总是包含有用的信号,因此不可能事先准确地预测结果。 我们通常采用数据,建立简单的模型,并已经基于它们说出可以实现什么样的结果。 此问题不适用于某些经典任务(面部识别,语音识别等)。
  3. 机器学习是最后一英里的技术,而不是所有问题的灵丹妙药。 如果卖方不接听客户的电话并且不回电,那么引入语音分析将毫无意义。
  4. 大部分时间都花在集成以及数据的收集和处理上,而不是在训练算法上(很少有例外)。

与第三方开发人员合作的选项:


  1. 按小时付款。 仅适用于快速原型制作和MVP。 但是不适合需要进一步支持的解决方案。
  2. 合同开发。 知识产权传递给客户,可以提供支持,但是必须谨慎规定传统知识。
  3. 从行之有效的付款。 根据DATA4的个人经验,这种情况在批准方面过于复杂,实际上在实践中不适用。

或者,您可以使用IBM,Microsoft等的现成平台,但实际上,不断使用会带来昂贵的成本,使用现成的工具来实现特定案例并不总是可能的,并且在那里可以发送什么数据受到限制。

结论


机器学习技术提高了业务效率,但是我们必须记住,为了做出一个完整的决定,仅仅训练算法是不够的,而是必须准备数据并将解决方案与内部系统集成。 并准备好结果将取决于训练样本的质量。

Source: https://habr.com/ru/post/zh-CN417009/


All Articles