公开网络研讨会“朴素贝叶斯分类器”

大家好!

作为数据科学家课程的一部分我们举办了一个有关“朴素贝叶斯分类器”的公开课程。 该课程神经网络和深度学习(MIPT)实验室的首席研究员Maxim Kretov教授 。 我们为您提供熟悉视频和摘要的信息。

预先感谢。


参赛作品

假设您有上千个属性。 通常,它们每个都可以具有一组特定的功能,例如:

  • 房屋面积;
  • 自上次维修以来经过的时间;
  • 离最近的公交车站很远。

因此,每个房屋都可以用尺寸为3的x表示。x =(150; 5; 600),其中150是房屋面积(以平方米为单位),5是维修后的年数,600是到停靠点的距离(以米为单位)。 该房屋在市场上可以出售的价格将用y表示。

结果,我们有了一组向量,每个对象对应一个变量。 而且,如果我们谈论价格,那么就可以通过机器学习技能来学会预测价格。

机器学习方法的基本分类

上面的示例非常典型,涉及与老师进行机器学习(存在目标变量)。 如果没有后者,我们可以在没有老师的情况下谈论机器学习。 这是机器学习的两种主要和最常见的类型。 在这种情况下,与老师一起进行教学的任务又分为两组:

  1. 分类。 目标变量是C类之一,即为每个对象赋予一个类标签(山寨,花园洋房,附属建筑等)。
  2. 回归。 目标变量是实数。

机器学习可以解决哪些任务?

如今,使用机器学习方法可以解决以下任务:

1.句法:

  • 通过词性和形态特征进行标记;
  • 将文本中的单词分为词素(前缀,后缀等);
  • 在文本中搜索名称和标题(“命名实体的识别”);
  • 给定上下文中单词含义的解析(典型的例子是城堡或城堡)。

2.理解文本的任务,其中有一个“老师”:

  • 机器翻译;
  • 互动模型(聊天机器人)。

3.其他任务(图像描述,语音识别等)。

文字处理的困难

从机器学习的角度来看,使用文本始终会带来一些困难。 为此,只需记住以下两个句子:

  • 妈妈洗了框架,现在闪闪发亮;
  • 妈妈洗了镜框,现在很累。

如果执行机器学习的分类器没有常识,那么当框架发亮而又疲倦时,对他来说也是如此,因为从句法上讲,第二句中的词框更接近代词。

实际任务

在提供了有关机器学习某些方面的一般信息之后,老师顺利地进行了网络研讨会的实际任务-将电子邮件分类为垃圾邮件和质量。

首先,显示了一个示例,该示例说明了如何将输入文本转换为数字向量。 为此:

  • 大小为K的字典是固定的;
  • 文本中的每个单词都以以下形式表示:(0,0,0,... 0,1,0,... 0)。

这种方法称为1-hot编码,其上下文中的单词称为令牌。

根据此数据处理阶段的结果,创建了一个字典,并为每个文本进行了字数统计。 结果,为每个文本获得了固定长度的矢量。 还考虑了一种更简单的布尔掩码方法。

贝叶斯分类器简介

朴素贝叶斯分类器基于贝叶斯定理的应用,并具有关于独立性的严格(朴素)假设。 它的优点是评估分类所需参数所需的训练数据量少。
在解释电子邮件分类任务时,主要思想如下:

  • 文本中的所有单词都被认为是彼此独立的;
  • 如果在垃圾邮件中发现的单词多于好信件,则这些单词被视为属于垃圾邮件的标志。

考虑到贝叶斯定理,为多个变量编写了相应的公式,并考虑了计算其他假设的特征。 使用伪代码来计算参数,之后生成详细的模型示例,其中计算先验概率和属于新对象x的类的概率。 实际工作的最后阶段是模型的构建和培训以及质量的度量。

结束

与往常一样,我们在这里等待问题和评论,或者您可以通过进入开放日直接向老师提问。

Source: https://habr.com/ru/post/zh-CN420729/


All Articles