他讲话并表示:乌克兰流行政客的言辞是否有所不同?

是否可以通过引用确定哪位政客是作者? 乌克兰非政府组织Vox Ukraine进行VoxCheck项目,在该框架内检查最受好评的政客的言论。 最近,他们发布了整个经过验证的报价数据库 。 我只是在听NLP课程,并决定检查引用文字能否准确地识别出作者。

免责声明 。 本文是出于对本主题的兴趣和对尝试实践中研究的材料的兴趣而写的,而没有要求最准确和详细的分析。

使用Python进行分析,代码可在github上找到

资料


数据库现在包含1952个报价,按策略分布如下:



出于分析目的,我选择了被引用次数> 200的人。 因此,尤里·博伊科(Yuri Boyko),奥列格(Aleg Tyagnibok),安德烈·萨多瓦(Andrey Sadovoy)和弗拉基米尔·泽伦斯基(Vladimir Zelensky)不在分析之列。 数组中还有1,667条引用。 在剩下的六位发言人中,四位(格罗伊斯曼和拉比诺维奇除外)是下次总统选举的注册候选人。

报价从简短的约30个字符( “我已经提交了112张账单。” )到较长的约1200个字符。 报价的平均长度约为200个字符(例如, “很快,我们将不得不为一所博物馆减少一头母牛,为自然科学领域的儿童减少一头恐龙,这是出于政治政治的结果,为了ak牛来进行新手的逗留。牲畜不到2个月。“

特遣部队


首先,让我们看看某些说话者的哪些词更具特色。 以下是每个候选人的TF-IDF最高的前10个单词:



简要介绍TF-IDF
TF-IDF (术语频率-反向文档频率)是一种评估单词在文档上下文中的重要性的指标。 TF-IDF单词与文档中该单词的使用频率成正比,与集合中所有文档中该单词的使用频率成反比。 在我们的数据中,较高的TF-IDF意味着一个政客经常使用该词,而其他政客相对较少地使用它。

为了计算TF-IDF,使用了词干 -将该词打底。

我想为每位发言者提供一些语境的评论用绿色突出显示。

奥列格·莱亚什科(Oleg Lyashko):

  • 波兰:Lyashko经常提到波兰与乌克兰人在当地的工作有关,并比较了波兰和乌克兰的收入
  • 谷物:Lyashko说,乌克兰出口谷物并因此遭受损失,因为出口面粉可能会更加昂贵
  • 肿瘤学和药物:Lyashko坚决反对当前的医学改革,并经常说肿瘤学的费用几乎没有被国家负担

波罗申科格里 谈论了很多军事冲突,这是很合乎逻辑的:波罗申科是总统,因此是最高统帅,而格里申科是军方,是国防部长。

格罗斯曼(Groisman)是总理,主要谈论经济,包括公共债务。

瓦迪姆·拉比诺维奇(Vadim Rabinovich)的报价未显示特定主题,可能是因为他讲话多(1952年为444,其他所有报价均不足300)。

尤利娅·季莫申科(Yulia Tymoshenko)谈到了乌克兰的天然气传输系统,银行的清算以及该国低迷的经济指标。

报价分类


因此,我们有6个班级(扬声器)。 对于分类,我使用了朴素的贝叶斯分类器。 文本中不包含俄语和乌克兰语停用词(使用停用词包)。 包括最多2个N-gram(长度最大为3的选项也经过测试,但显示过度拟合)。 所取样品的比例为总量的20%。

该模型在训练样本中的总准确性(正确分类的引用比例)为74.8% ,在测试样本中为75.7%

作者的交叉结果:



瓦迪姆·拉比诺维奇(Vadim Rabinovich)的准确性最高(97%),这很可能是因为他是六分之一的唯一一位说俄语的人。 Groisman和Lyashko的分类精度高(分别为78%和77%)。

引用Poroshenko和Tymoshenko的精度指标略高于60%。 该模型通常将两者都定义为Groysman。 作为总理的格罗伊斯曼经常以“进度报告”的形式谈论经济,而波罗申科和季莫申科的错误分类引述也与此有关(只有波罗申科作为政府代表是积极的,而季莫申科则相反)。

例如,以下是波罗申科的报价,该报价被模型定义为Groisman的报价:
50亿格里夫纳,其中40亿格里夫纳和10亿格里夫纳直接用于医学

还有季莫申科的报价,定义为格罗斯曼的报价:
在用于监狱利用的进攻性预算中,他们看到的钱多于几分钱,少了科学,就像在乌克兰科学院工作一样。

Anatoly Gritsenko的报价准确性最低(57%)。 他的模型通常被定义为波罗申科(鉴于报价的军事主题,这是合乎逻辑的)以及Lyashko。 就Lyashko而言,错误的分类是指引述当局的名言,例如包括移民问题: 我似乎不是在谈论您的命令的同一成员,Volodimir Borisovich,pan Klimkin说数百万人离开了该国。

通常,在我看来,对于类似格式的简短引用(政治家的口头陈述)和主题(乌克兰政治),结果并不坏。 顺便说一句,我试图在相同的数据上创建一个模型来定义报价的类别(对/错/操纵),但是准确性很低。 从原则上讲,这是合乎逻辑的:查看这样的报价:“花了很多钱,但是在这样的国家,他们花了很多钱”,很难确定其中包含的数据的准确性:)

Source: https://habr.com/ru/post/zh-CN443264/


All Articles