人为人工智能:关于技术的简单说法

我们提供了一个详尽的备忘单,在其中我们用简单的词语告诉您人工智能“造就了”什么以及它如何运作。

人工智能,机器学习和数据科学之间有什么区别?



人工智能和数据分析领域中概念的区分。

人工智能-AI(人工智能)


在全球通用意义上,人工智能是尽可能广泛的术语。 它包括科学理论和特定的技术实践,用于创建接近人类智能的程序。

机器学习-ML(机器学习)


AI节,在实践中得到积极应用。 如今,在业务或制造中使用AI时,我们通常指的是机器学习。

通常,机器学习算法基于学习型数学模型的原理,该模型基于大量数据进行分析,而得出的结论却不遵循严格定义的规则。

机器学习中最常见的任务类型是与老师一起学习。 为了解决这类问题,对预先知道答案的数据数组进行了训练(请参阅下文)。

数据科学-DS(数据科学)


使用各种数学方法(包括机器学习)以及解决与数据数组的收集,存储和处理有关的相关任务来分析大量数据的科学和实践。

数据科学家尤其是数据专家,他们使用机器学习进行分析。



机器学习如何工作?


在银行计分任务的示例中考虑ML的工作。 银行拥有现有客户的数据。 他知道是否有人逾期还贷。 任务是确定新的潜在客户是否会按时付款。 对于每位客户,银行都具有某些特征/特征的组合:性别,年龄,月收入,职业,居住地,教育程度等。特征中可能包括结构不良的参数,例如来自社交网络或购买历史的数据。 此外,可以使用来自外部来源的信息来丰富数据:汇率,来自征信局的数据等。

机器将任何客户端视为功能的组合: X1X2...Xn。 例如 X1-年龄 X2-收入,以及 X3-每月购买的昂贵照片的数量(实际上,作为类似任务的一部分,数据科学家使用了一百多种功能)。 每个客户还有一个变量- Y有两种可能的结果:1(有逾期付款)或0(无逾期付款)。

所有数据的总计 XY-有一个数据集。 使用此数据,数据科学家可以创建模型 F,选择和修改机器学习算法。

在这种情况下,分析模型如下所示:

FX1X2...Xn=Y




机器学习算法暗示模型响应的分阶段近似 F正确答案(预先在训练数据集中知道)。 这是在特定样本中与老师一起进行的培训。

实际上,机器通常仅在阵列的一部分(80%)上学习,使用其余部分(20%)来验证所选算法的正确性。 例如,可以在阵列上训练系统,从该阵列中排除一对区域的数据,然后在该阵列上验证模型的准确性。

现在,当新客户来到银行时,根据 Y尚未知道银行,系统将根据已知的数据告诉付款人可靠性 FX1X2...Xn=Y

但是,与老师一起教学并不是ML可以解决的唯一问题。

任务的另一个范围是群集,它能够根据对象的属性来分离对象,例如,识别不同类别的客户以使他们做出单独的报价。

此外,借助ML算法​​,还可以解决诸如对支持专家的交流进行建模或创建与人类创作无法区分的艺术品(例如神经网络绘画图片)之类的任务。

强化训练是一种新的流行任务,它在有限的环境中进行,以评估代理的行为(例如,使用此算法,创建了AlphaGo击败了Go中的人员)。



神经网络


机器学习的方法之一。 受人脑结构启发的算法,该算法基于神经元及其之间的联系。 在学习过程中,将神经元之间的连接调整为使整个网络的错误最小化。

神经网络的一个特点是存在适用于几乎任何数据格式的体系结构:用于分析图片的卷积神经网络,用于分析文本和序列的循环神经网络,用于数据压缩的自动编码器,用于创建新对象的生成神经网络等。

同时,几乎所有的神经网络都有一个明显的局限性-对于它们的训练,需要大量的数据(数量级大于该网络中神经元之间的连接数量)。 由于最近准备分析的数据量显着增长,因此范围也在不断扩大。 例如,借助当今的神经网络,解决了图像识别任务,例如根据视频确定一个人的年龄和性别,或者在工人身上戴头盔。

结果解释


数据科学部分,可了解通过ML模型选择一个或另一个解决方案的原因。

有两个主要研究领域:

  • 将模型研究为黑匣子。 通过分析加载到其中的示例,该算法将这些示例的特征与算法的结论进行比较,从而得出其中任何一个的优先级的结论。 在神经网络的情况下,通常使用黑匣子。
  • 研究模型本身的属性。 对模型用来确定其重要性程度的特征的研究。 最常应用于基于决策树方法的算法。

例如,当预测生产中的缺陷时,物体的迹象 X-这是有关机器设置,原材料的化学成分,传感器的指示器,传送带上的视频等的数据。以及答案 Y-这些是是否会结婚的问题的答案。

自然地,生产不仅对婚姻本身的预测感兴趣,而且对结果的解释,即随后婚姻被消除的原因也很感兴趣。 这可能是由于长期缺乏机器维护,原材料质量或仅仅是技术人员应注意的某些传感器的异常读数。

因此,在生产中婚姻预测项目的框架中,不仅应创建一个ML模型,而且还应进行解释,以找出影响婚姻的因素。



机器学习什么时候有效?


当存在大量统计数据时,但是使用专家或经典数学方法来查找依存关系是不可能或非常费力的。 因此,如果输入中有上千个参数(其中包括数字和文本以及视频,音频和图片),那么没有机器就不可能找到结果对它们的依赖性。

例如,除了物质本身参与相互作用之外,化学反应还受许多参数的影响:温度,湿度,发生反应的容器的材料等。化学家很难考虑所有这些迹象以准确计算反应时间。 他很可能会考虑几个关键参数,并将基于他的经验。 同时,基于先前反应的数据,机器学习将能够考虑所有迹象并给出更准确的预测。

大数据与机器学习有何关系?


为了建立机器学习模型,在不同情况下,需要数字,文本,照片,视频,音频和其他数据。 为了存储和分析此信息,需要使用整个技术领域-大数据。 为了实现最佳的数据存储和分析,他们创建了“数据湖”-一种特殊的分布式存储,用于基于大数据技术的大量结构不良的信息。

数码双倍电子护照


数字双精度模型是真实物料对象,过程或组织的虚拟副本,可让您模拟所研究对象/过程的行为。 例如,您可以在生产线设置发生变化后,在具有某些特征的广告活动后改变销售情况等情况,从而在工厂初步了解化学成分的变化结果。在这种情况下,数字双精度模型会根据累积的数据进行预测,并对情景和未来情况进行建模包括机器学习方法。

高质量的机器学习需要什么?


数据科学! 是他们创建了预测算法:他们研究可用数据,提出假设,基于数据集构建模型。 他们应该具有三类主要技能:IT素养,数学和统计知识以及在特定领域的丰富经验。

机器学习立足于三大支柱


资料检索
可以使用来自相关系统的数据:工作计划,销售计划。 数据还可以通过外部来源来丰富:汇率,天气,假期日历等。有必要开发一种方法来处理每种类型的数据,并通过管道进行思考以将其转换为机器学习模型格式(一组数字)。

表征
它与所需领域的专家一起进行。 这有助于计算非常适合预测目的的数据:统计和过去一个月的销售数量变化以进行市场预测。

机器学习模型
数据科学家根据其经验和各种模型的能力独立选择解决此业务问题的方法。 对于每个特定任务,您需要选择一个单独的算法。 源数据处理结果的速度和准确性直接取决于所选的方法。


创建ML模型的过程。

从假设到结果


1.一切都始于一个假设


在分析问题过程,员工经验或重新审视生产时就产生了一个假设。 通常,假设会影响一个过程,在此过程中,一个人实际上无法考虑到许多因素,因此会使用舍入,假设或像往常一样简单地做。

在此过程中,使用机器学习可以使您在决策时使用更多的信息,因此有可能获得明显更好的结果。 此外,使用ML的流程自动化和对特定人的依赖性的降低极大地减少了人为因素(疾病,低浓度等)。

2.对假设的评估


基于提出的假设,选择开发机器学习模型所需的数据。 搜索相关数据,并确定其是否适合将模型嵌入当前流程中,以确定谁将成为用户,并因此获得效果。 如有必要,可以进行组织和其他任何更改。

3.经济效益和投资回报率(ROI)的计算


由专家与相关部门(效率,财务等)一起对实施的解决方案的经济效果进行评估。在此阶段,您需要了解指标的确切含义(正确识别的客户数量/产量增加/耗材节省等)和清楚地阐明所衡量的目标。

4.问题的数学表述


了解业务结果后,有必要将其转移到数学平面上-定义不可违反的度量标准和限制。 数据阶段数据
科学家与商业客户一起执行。

5.数据收集与分析


有必要在一个地方收集数据,对其进行分析,考虑各种统计数据,了解这些数据的结构和隐藏关系以形成符号。

6.创建原型


实际上,这是对假设的检验。 这是在当前数据上建立模型并初步验证其工作结果的机会。 通常,原型是在现有数据上制作的,而无需开发集成和实时处理流。

原型制作是检查问题是否已解决的一种快速且廉价的方法。 当无法事先了解是否有可能实现所需的经济效果时,这非常有用。 此外,通过创建原型的过程,您可以更好地评估项目的范围和细节以实施解决方案,从而为此类实施准备经济依据。

DevOps和DataOps


在操作过程中,可能会出现一种新型的数据(例如,另一个传感器将出现在机器上,或者新型的货物将出现在仓库中),然后需要对模型进行训练。 DevOps和DataOps是可帮助在数据科学团队,数据准备工程师,IT开发和运营服务之间建立协作和端到端流程的方法,可帮助您将此类添加快速地添加到当前流程中,而不会出现错误且无需每次都解决唯一问题问题。

7.创建解决方案


那时,当原型工作的结果证明指标的实现令人信服时,就会创建一个完整的解决方案,其中机器学习模型只是所研究过程的组成部分。 接下来,整合,必要设备的安装,人员培训,更改决策流程等。

8.试点和工业运作


在试运行过程中,系统以建议模式运行,而专家仍会重复通常的操作,每次都对系统的必要改进提供反馈,并提高了预测的准确性。

最后一部分是工业操作,当已建立的过程切换到全自动维护时。



您可以从链接下载备忘单。

明天在RAIF 2019人工智能系统论坛上,将有一个小组讨论:“人为AI:我们用简单的语言理解。”

在本节中,演讲者将以辩论的形式用简单的单词举例说明复杂的技术。 并讨论以下主题:

  • 人工智能,机器学习和数据科学之间有什么区别?
  • 机器学习如何工作?
  • 神经网络如何工作?
  • 高质量的机器学习需要什么?
  • 什么是标记,数据标记?
  • 什么是数字双精度型,以及如何处理真实实物的虚拟副本?
  • 假设的实质是什么? 如何从它所构成的方式来评估和解释结果?

讨论由以下人员参加:

IBM在俄罗斯和CIS的技术总监Nikolay Marine
开放数据科学x Data Souls创始人Alexey Natekin
Dbrain首席技术官Alexey Hakhunov
Evgeny Kolesnikov,Jet信息系统机器学习中心总监
AI Today首席执行官Pavel Doronin

讨论将在10月下旬在Jet Infosystems YouTube频道上进行。

Source: https://habr.com/ru/post/zh-CN471626/


All Articles