为什么植物需要机器学习

我们从罗曼·切博塔列夫(Roman Chebotarev)了解了如何在已经取得最大成功的工业企业中引入机器学习,以及已经有哪些使用示例。 Roman是Digital的ML架构师和实施总监。 他已经实施智能机器学习和人工智能类技术已有11年了。 在过去的几年中,Roman专门研究了ML / AI。


告诉我们您的职业道路。

我的职业生涯始于机器学习(虽然当时还没有被广泛使用)这个机器学习任务。 我开发了用于视频分析系统的各种模块:拥塞检测器,烟雾检测器,对象计数器。 然后,它们也被计划用作下一代安全系统-现在它们已被广泛使用。

慢慢地,我从图像分析转向了一般的数据分析。 我已经在CROC工作,当时我是开发人员,后来离开了机器学习部门。 我到那里的大部分经验,基本上我们解决了与将来预测各种定量数量有关的问题。 零售业的任务更多-机器学习是该领域客户中最需要的。 我们解决了预测需求以优化物流的任务。 从食品零售到汽车加油站,各个领域都有许多此类任务。

然后,工业企业开始对机器学习产生了浓厚的兴趣。 在某个时候,我和我的合作伙伴决定组建自己的创业公司-Theta Data Solution。 我们每年为工业企业进行6个项目和10多个试点,然后该公司被“ Digital”公司收购,我现在在AI部门担任执行总监。 与最初的启动团队相比,我们有了很大的发展:现在我们的AI部落(我们称自己为)有30多人。

该行业何时对机器学习感兴趣?

兴趣一直存在,但是根据我的观察,尽管非常缓慢,但公司仍愿意投资这些项目。 或多或少地有可能在2016年之前将其称为趋势。 现在,快速增长阶段已经开始。

为工业企业设计机器学习模型的细节是什么?

行业中的错误代价很高。 如果您开始错误地操作某些安装程序,充其量只能说它会开始工作不佳,效率不尽如人意(无论如何,这些都是卢布中非常大的数字),并且在最坏的情况下,将发生不可逆转的过程,并且需要昂贵的维修费用。

这影响了模型的设计和操作方式:它们在减少实验的方向上非常“偏斜”。 例如,如果在金融科技或电信行业中,您有能力进行A / B测试并向其显示完全不同的广告,并针对部分客户级别提供有针对性的折扣等,那么在行业中,工具和实验的可能性要窄得多。 。 如果您试图用一个短语来表述这些特征,那么工业系统的工作就不会发生重大变化。 变化将非常小且具有方向性。 我们将进行调整,看看会发生什么-如果一切顺利,请尝试朝这个方向移动,但步伐很小。 这称为机器学习模型的正则化(更确切地说是控制模型)-在行业中,它们非常容易进行更改。 这使代价高昂的错误的可能性降至最低。

第二个特点是机器学习(ML)模型需要与物理和化学结识。 这还不够容易。 建立在数据上的模型并不关心特定过程背后的物理原理,它只是捕获数据之间的模式。 经常会发现,所构建的模型完全是非物理的。 例如,任何理智的人都可以理解-物理学证实了这一点:如果提高加热系统中冷却剂的温度,则其在鸡舍小鸡舍中的温度会升高。 模型可以学习完全不同的关系,有时则相反。 赋予间接因素更多的权重(街道上的温度差异,一天中的时间等),从而学习似乎是正确的行为,但要使用“错误的”因素。

现在人们在行业中工作,对新技术很开放。 他们试图弄清楚我们为他们提供的东西。 如果模型不是物理模型(已通过几个简单的测试验证),那么没有人会允许启动这样的系统。 但是最后,事实证明,由于这种失败,根据当前的估计,我们发现了另一种更为有效的方法。
存在着由物理学家和化学家创造的定律,无论是理论上还是经验上的微分方程组,以及大量的知识。 该知识用于工厂设计,并且通常或多或少很好地描述了生产过程。 我们将这些知识与ML结合在一起以获得物理模型-实际上,我们依赖于一组已知的依赖关系和差异,在可用数据上细化系数,还描述了使用相当标准的ML方法(增强)的物理方法无法“学习”的动力学。 。
为了清楚起见,我经常介绍“支出数据”的概念。 当您从模型中学习到一些东西时,您就是在“浪费”数据(从某种意义上说,训练中的任何重用都是一个微妙的点,存在“过度训练”-过度拟合的风险)。 因此,我们不会“花费”数据来恢复模式和依存关系,这在一般情况下要归功于科学家和技术人员。 我们使用这些众所周知的依存关系并“花费”数据来澄清特征,完成物理模型中未考虑的依存关系,最后构造模型来考虑每个本地生产站点甚至一台设备的特征,并了解其基本工作原理。

结果,我们得到了更好,更稳定的模型。 自然,物理和化学过程模型并不总是可用或不完整-在这种情况下,我们的团队拥有在各自行业中都有经验的分析师,他们可以为数据科学家建立适当的物理基线模型。

此外,我们正在尝试使用自动控制理论的方法来决定需要在安装时设置的最佳控制参数,同时要考虑不可避免的时间延迟和根本不接受建议的可能性。 通常,我们仔细研究强化学习方法,但是到目前为止,最终的控制法则(政策)在我们的任务中相当不稳定。 但是,这些方法的结合无疑将在未来。 这不仅是我的观点。

随着时间的推移,这种“物理”方法揭示了一个重要的长期后果:由于此类模型具有更高的稳定性,因此我们在夜间醒来的次数更少,称发生了问题并且需要重新训练模型。 因此,我们在支持上花费的时间更少。

世界上许多人都想到了这种混合方法,但是在俄罗斯,我们是率先超越实验并将其投入实际生产的国家之一。
在11月22日,Roman将成为AI会议讨论小组“ AI和IoT:期望与现实”的主持人。 该活动的详细信息和计划-在官方网站上
创建生产过程数字模型的工作如何进行?

开发和实施项目与其他行业几乎没有什么不同。 通常,来自银行业和其他行业的项目经理会感到很自在(除了技术人员通常会取笑他们的事实)。 从组织的角度来看,项目没有太大的不同。 首先,我们捕获客户的期望-他们想要实现的目标。 有时,如果他们不知道自己想要什么,但他们确实想进行数字化处理,我们会提供帮助。 我们一起寻找改进点,将其放入一些可衡量的KPI中,进行原型制作,进行一些研究甚至是试点-我们说服自己和客户这些KPI是可以实现的,然后我们开发模型,使用我们大量的当前开发成果并与生产系统集成客户并在生产中实施该系统。

关键功能集中在实施阶段。 这些系统非常复杂-在如何工作以及在不同时间点用于决策的数据方面。 工厂的工人通常没有受过专门的培训。 因此,他们必须提出特殊的仪表板和助记符方案,进行培训。 同时,有一本手册很好地理解了他们的需求,并为他们提供了更多详细信息的其他仪表板。

通常,我们系统的主要“敌人”是过程工程师。 他决定更改体制,他通常对委托给他的车间或生产场所的工作方式有自己的看法。 很多时间花在说服直接执行者相信系统的建议上。 更准确地说,不仅是“相信”,而且要接受并测试-首先只是看一下建议,然后逐点应用它们。 通常,这些员工并不直接隶属于项目的直接客户,因此根本不可能强迫他们以指导性方式遵循建议。 但总的来说,我们似乎已经学会了在不同层次上建立这种对话和说服过程,从坚不可摧的经营者到苛刻的生产经理。 这是一次非常有趣的经历,特别是对于像我们这样来自莫斯科的“原始” IT数学家来说。 但是,正如通常发生的那样,真实的事物胜过任何说服力,因此,如果我们的模型确实有效,那么这是最好的论据,通常这样的讨论是短暂的。

在开发模型和实施模型时,您必须多久去一次真正的企业?

业务分析师在网站上花费的时间最多。 除数据科学家和数据工程师外,他们始终存在于项目团队中。 业务分析师描述了流程,编写了系统的规则和局限性,并且他们需要深刻地理解将要进行的流程,因为现在说“数字化”,更确切地说,请原谅“数字化”是一种时尚。 他们在站点上找出一些细微差别,并了解在什么地方,如何以及需要什么才能使流程正常运行:通常如何管理流程,如何控制流程以及通常未在法规中写明。 只能在吸烟室中找到很多东西,在休息时与当地的勤奋工作人员交谈-事情的真相,您真正需要做出努力的地方等。分析人员的任务是揭示需求,而这只能从真正的员工那里找到。他们用自己的双手在地面上工作。 但是有一个特殊性:那些用自己的双手工作的人通常居住在远离人口超过100万的城市的地方。 有时它们通常以循环方式存在于矿床和采石场中。 因此,我们必须在不同的风景如画的地方去他们那里。

最远的地方,你去了哪里?

从摩尔曼斯克地区到哈巴罗夫斯克地区,我们无处不在。

创建的虚拟模型是否经常立即开始工作而在实际条件下不会出现意外情况?

我们尝试在调查阶段将所有意外降到最低,但是一旦实施,没有这些意外就永远无法完成。 惊喜可以分为几类。 首先,当然是IT和基础架构。 要随着时间的推移更新模型,对我们来说,访问数据以进行更改,修复和添加某些东西很重要。 但是,如果对象位于很远的某个地方(如我们所说,是通过梳子将其组织在一起)或根本不存在的,则可能无法访问基础结构。 如果事先知道,您可以构建和调试一个过程,该过程将自行更新模型,而无需创建者的干预。 现在,这相对容易地完成,为此我们已经有现成的技术-但尽管如此,我想提前知道将没有任何联系。 至少,因为它会影响项目的人工和成本。 当项目已经接近实施时,项目客户通常会与IT专家进行谈判。 这不仅是工业的特征,而且在这里也是最关键的。 如前所述,该解决方案的体系结构在很大程度上取决于Internet是否可用。 这不只是关于模型。

第二类问题与错误的数据输入有关。 例如,关于认证产品质量的数据,实验室分析数据。 发生这种情况的原因可能多种多样,我将不予赘述,大多数原因是声音不太令人愉悦,更不用说听了,但这是一个很大的问题,因为从错误数据中学到的模型开始预测流程的错误特征并提出错误建议。 这样可以划掉整个项目。

记住最成功,最耗时的实现示例。

我将从电源系统中的成功项目开始。 我们只见过两次客户。 第一次到达时,我们澄清了任务,为我们提供了必要的信息,我们每周离开一次并打电话给我们。 三个月后,推出了第一个版本,之后又发布了两个,即最终版本。 一切运行正常,模型已自动更新,并且系统已经运行两年多了,没有出现故障。 该项目需要最少的工作量,因为客户非常称职:他了解自己的需求,应进行的管理,并且我们提前了解了所有细微差别。

有更多劳动密集型的例子。 不幸的是,在这里与客户进行的初步对话中出现“数字化”一词通常表明该项目不会成功。 我们经常听到:“您正在参与我们的数字化转型过程,我们正在完全重做所有事情,因此请在此处拧紧您的AI。” 同时,人们通常不理解他们不应该借助机器来解决问题,而首先要通过将公司的流程更改为更合适的“数字化”来解决。 不断变化的过程(或者至少是重新思考它们)应该始终是任何数字化或其他发展的变化的第一阶段。 包括机器学习在内的任何工具都具有适用范围。 如果流程是古老,次优甚至更糟的-完全基于人们的共识(几个人需要坐下来并决定要做什么-这通常发生在生产物流中,制造商,物流师和商业相撞),那么没有机器学习可以解决这个问题。 相反,有时,最简单的过程更改(例如,“精益生产”的概念)使我们获得了机器学习无法达到的效果。 不幸的是,很少有“变形金刚”能理解这一点并朝这个方向努力。 Hypanut在实施AI方面,无论为什么,都是比较普遍的做法。

一个简单的例子:有一个蒸馏塔,您可以在其中控制蒸汽和回流的进料速度。 如果我们只是在屏幕上向操作员发出建议-“伙计,像这样扭转这支笔”,那么,不幸的是,系统几乎不会产生任何影响。 理想情况下,一个人应该只保留控制权,而直接控制权应该是自动的。 根据我们非常保守的估计,过程的这种变化可将性能提高3-4倍。 我不赞成解雇所有人,而要用汽车代替他们-即使在流程上进行很小的改动,只需很少的投资就可以产生更大的效果。
许多声称在其中实施AI的项目实际上看起来像这样,原谅事实,子宫:一些叔叔Vasya在屏幕上显示建议,他看着它们说:“是的,和他一起死了,也许明天我我会按他的意愿放它-但今天我什么也不会做。” 不幸的是,强大的炫酷技术被分解为企业和尚未准备好更改这些流程的人员的流程。 但是如果这个叔叔Vasya让KPI实施系统的建议。 甚至根本不使用AI-将Vasya KPI放在产品到原材料的特定产量上,以作为工资的奖励,这确实会产生严重的影响。 当然,前提是Vasya叔叔不能用控制器代替,但这已经是另一个飞机上的问题了。
企业中数据收集和机器学习的情况如何? 他们中有多少人试图朝这个方向前进?

企业数量的统计数字每年都在增加。 像往常一样,领导人是那些有钱并有机会投资于长期影响的人:石油工业,石化和冶金。其他所有人都在追赶。

但是您需要了解,基本上,这些系统都是向一个人提供建议的系统,并且他已经做出了是否按照这些建议进行操作的决定,实际上并没有自动执行建议的能力。这无疑是这些系统开发的障碍。通常,这当然从来不是工业4.0,因为他们经常希望将其定位在媒体中。但是,重新配备自动化设备需要大量的资本支出,因此目前我们对现有的设备感到满意。

我们希望看到公司的流程更加有机:人们首先收集数据,然后在其基础上实施机器学习。实际上,起初有必要基于AI / ML做一些事情,我们拜访客户并了解未收集必要的数据。或者它们以某种可怕的形式加起来,因此不可能得到它们-您需要启动一个数据收集项目。大约5到7年前,这种现象在各地的电信和银行中都很普遍(现在已不复存在)-今天,该行业也遇到了同样的问题。有些项目由于缺乏数据而被推迟了六个月-一年半。

这是实现传感器和数据采集系统所需的时间吗?

几乎每个人都有传感器-问题是来自传感器的数据可能不被存储或例如在三个月的短期存储中存储,因此有可能基于它们安排飞行分析。不必要的话,它们将无法再存储,如果已存储,则将以不适合分析的形式存储。我们必须进行提取和纯化的过程。在有些可笑的情况下,似乎一切都在那里,但我们到达了企业-那里有所有的热管模拟物,例如方向指示器。
, , AI ML, 1-2%. , : , , , ? 1-2%. , .

success fee. — 50 — , , . 10 , 2-3 . 70-80 — , . , , , — , .
AI在生产中可以解决哪些标准任务类型?

最常见的任务是预测设备的故障,或者诊断异常行为的时刻。这里有一些功能:我们需要可能无法收集的数据,我们需要有关此设备如何工作的信息-为此,我们需要与生产人员联系。因为数据中的某些模式是逻辑的,并不表示设备无法正常工作。

此类任务的一个示例是确定管道的某个部分可以工作多长时间,具体取决于其埋在哪里,深度如何(如管道内部检查或磁控制的最新数据所示),状态变化的频率以及状态如何。我们可以预测何时管道将不可用,并以最佳方式计划其更换。

第二类任务涉及优化某些流程的需求。让我们研究一下热功率的例子,这是普通读者最容易理解的例子。我们可以控制热能源(锅炉房,火力发电厂等)的热工条件,同时我们必须在不同的房间中保持一定的温度水平:它们之间的距离不同,用不同的材料建造,大地测量学也不同,因此,被周围空气冷却的方式不同。如何在锅炉房或火力发电厂中最佳地建立热状态,以维持与最终客户有关的质量水平指标?在这里,您需要确定有效性的主要指标。我们可以在加热和泵送冷却剂上总共花费更少的能量,可以减少冷冻祖母的投诉数量,我们可以减少可变的加热成本,减少热量损失,甚至减少设备磨损。您可以执行任何优化模型-只需告知各种因素的相对优先级即可。这个选择是最大的问题。想象一下自己是一家供热公司的老板。您愿意交换多少不满的祖母,因为这条烟斗的寿命会延长几个月?一个极其困难的问题。因此,除其他外,我们的业务分析人员正在努力帮助将所有因素减少到卢布,这是最通用的测量值。之后,通常会清楚需要进行哪些工作以及进行哪些优化。这个选择是最大的问题。想象一下自己是一家供热公司的老板。您愿意交换多少不满的祖母,因为这条烟斗的寿命会延长几个月?一个极其困难的问题。因此,除其他外,我们的业务分析人员正在努力帮助将所有因素减少到卢布,这是最通用的测量值。之后,通常会清楚需要进行哪些工作以及进行哪些优化。这个选择是最大的问题。想象一下自己是一家供热公司的老板。您愿意交换多少不满的祖母,因为这条烟斗的寿命会延长几个月?一个极其困难的问题。因此,除其他外,我们的业务分析人员正在努力帮助将所有因素减少到卢布,这是最通用的测量值。之后,通常会清楚需要进行哪些工作以及进行哪些优化。要做什么,要优化什么。要做什么,要优化什么。

由于MO方法的改进,最近可以解决哪些类型的任务?

我可能会让大多数读者感到失望,因为这种动向并不是由于使用ML方法的最新成果。不是因为生产中引入的产品应该经过时间考验并且更具可持续性。在这里,发展则是相反的:该模型需要与物理和化学结识,我之前已经谈到过。事实证明,从ML的角度来看,这也是非常困难的。

从您的实践中举例说明,当机器做出的决策比一个人做出的决策更为成功和有效时。

实际上,系统发布的决策和建议最终总是比人做出的决策和建议更为有效。否则,我们的业务根本就没有意义。这里有一些例子。

在炼钢中,高炉像一个小镇一样消耗能源。根据我们放入其中的废料的质量,碎片的大小,您可以调整加热炉子的电流强度。通过控制电流强度,可以显着(对于工业而言为1-2%-这很显着)降低了电成本。

仍来自冶金行业–钢包钢包炉。熔化时,将铁合金添加到钢中。它们的成本比主要原材料高得多。通过分析特定材料的特性,我们了解何时可以填充较少的铁合金以获得既定的产品质量,同时节省铁合金。

在石油工业中-我们在机械举油过程中优化了泵的运行。我们学会了仅仅通过更有效地控制泵模式来稍微提高油的生产率。重要的是,在这种情况下,由于我们的控制范围不是很长(长达一个月),因此我们最少使用地质数据,并且我们设法避免与非常复杂且昂贵的地层建模软件集成。

俄罗斯的所有生产都是单一的,要说我们在某个地方工作意味着立即打开客户并违反了保密协议。因此,可以说我们可以做同样的事情来优化矿物肥料和各种化学工业的生产(不是来自石油化工)。 PJSC Gazprom Neft的“数字工厂”项目是公开的,其详细信息可轻松搜索到。

关于我们的博客
明天我们将暂停在哈布雷的活动,所以这是我们不久的将来的最后一篇文章。但是已宣布的AI大会以及我们尚未谈论的那些事件仍然有效。感谢所有阅读我们的人。

Source: https://habr.com/ru/post/zh-CN429940/


All Articles