新年数据集2019:俄语开放色调词典

通常在新年前夕,我们会更新关于开放语义的数据集。 今年已经完成了许多工作,但尚未得出合乎逻辑的结论,我们明年将继续进行。 现在,我们想谈一谈同样重要的开放数据集,该数据集引起了研究人员和行业代表的广泛关注,在今年的许多语言会议上。 这篇文章将重点介绍俄语开放色调词典。




怎么了


音调,或简单地说好/坏,是单词的自然特征。 对于人类及其感知是自然的,但对于计算机理解却不是。 语言的排列方式使它在单词极性方面具有对称性,并且不可能不借助外部标记就将好单词与坏单词分开。 实际上,最初,创建音调字典的任务是由于需要对算法根据其极性自动接收的单词列表进行聚类而产生的。

当然,语调只是单词含义的一个方面,对情感的真正理解需要完整的语义分析,对特定情况下的角色的理解以及对观察者所处位置的了解。 因此,例如,不同各方的“股票价格下跌”可能具有不同的音调,但是“成本增加”和“利润增加”具有不同的极性,尽管在这两个短语中动词“ growd growth”都具有较高的评级(根据我们的数据集)。

我们将特定单词归因于特定键的原因有很多种。 有时候,这些是我们的直觉–喜悦和渴望; 有时,这是一个人的特质-专业精神和粗心大意;有时,诸如教育或企业家精神等概念与复杂的社会机构相关联,并能长期提供收益。 这些词的评估与文化和社会契约密切相关。 并且,因此,它可能没有普遍认可和普遍的评估。

但是,如果同一文化中不同人的座标系统彼此之间没有共同点,那么语言和交流就不可能存在。 因此,对于相当大的一组单词,其估计成分或多或少是一致的。

怎么了


收集大量语言数据的主要方法有两种-吸引专家和采访人(或者后者的更新版本-众包)。 我们将不再重复这些方法之间的明显差异,而是要注意其中的那些直接影响所得数据集属性的方法。

专家标记暗示着未来使用的明确方向,并因此规定了本申请所规定的歧义情况下的决策方法。 对于最终数据集,这意味着:

  1. 固定主题区域;
  2. 明确定义观察者的位置。

因此,如果专家编写了一个音调词典来分析针对大众受众的新闻,那么他将占据广义读者的位置,并接受媒体和读者之间的默契。 说此类安装中的“成本降低”将得到正面评估,而“关税增长”将为负面(根据RusCentiLex-2017数据集)。

众包被剥夺了建立这样一个框架的可能性,并且几乎不是解决高度专业化的应用问题的最佳工具。 但是,它使我们能够捕获音调评估的另一个重要方面-受访者之间的一致性。 有些单词将被明确地确定为肯定或否定; 有些将评估分为中性和极性选择; 一小部分单词会显示明显的评分不一致。

等级一致性分布
图的左侧是估计的最大一致性,右侧是最大不一致。


此外,与专家评估不同,众包使您能够获得连续的极性值,从而严格界定正(负),正(负)和中性词。 这些组之间的分布当然取决于所选的阈值。 但是,采样是完全可选的-对于许多应用程序,连续值可能会更方便。

等级分布


数据集结构


数据集的结构非常简单:这是一个音调词典,可将单词与其评估值相匹配,范围为-1(边际负面评价)到+1(边际正面评价)。 为了方便起见,指示了使用阈值计算的“正”,“中性”,“负”集合中的人类可读标签。

来自数据集的肯定,中性和否定词的示例
  • 积极:可靠,和解,友善,赦免,尽职,汲取灵感,上镜,盈利,良好的繁殖,团圆,启发,信任,热情,孩子,改造,健康,乔迁,舒适,明智,奖学金,志愿者;
  • 中性:缩写,估计,棍子,中山装,多面体,接触,家具,居民,点击,融化,用法,越过,道路,成分,放气,强调,标志,上床,长臂,七,抽奖;
  • 负面:逃学,窃笑,b亵,人质,乡下人,傲慢,假冒,污染,羡慕,勒死,冻结,挥霍,欺诈,堕落,上瘾,咬,感冒,发现缺点,感到害怕,强盗,无知;


此外,在此版本的数据集中(仍然有一个先前的第一个版本),给出了原始数据-每个选项的投票百分比。 这使您可以应用自定义模型来计算标记的总极性和一致性级别。

注意事项 数据集的当前版本涵盖了OW(活动词汇)中最易识别的单词; 短语未标记。 与其他音调词典进行比较时,我们发现了活跃词汇中有许多可用的单词,但是在我们的数据集中却没有出现。 我们将做进一步的标记,并计划在明年将缺少的语言单元包括在内。

进一步的计划


标记情感是语言语义系统研究框架中的一项特殊任务。 如上所述,显示的数据集的有用性直接取决于将显示在其中的极性值与其他语义信息相关联的能力。 以单词类为例。 我们开始了这项工作,并计划在将来进行开发。

研究的另一个重要领域是希望了解为某些单词加上颜色,繁殖与感觉,情感和直接评估有关的单词的原因,以及这些单词所描述的概念或情况可能会延迟获利或亏损的单词。 因此,此类词语更容易受到文化和社会影响。

还计划使用短语(包括稳定表达和短语单元)扩展标记。 但是在这里,我们已经在谈论完全不同的词汇量,因此总的任务是了解情感如何在更一般的水平上发挥作用(更多在破坏者的领导下)。

情感和语义
通过仔细检查,很明显,该语言以相对于单词数量及其组合的一组紧凑概念进行操作,每个单词都可以以多种方式表达。 俄罗斯语言学家的作品和他们创建的“感知文本”模型都详细反映了这一观察结果。

因此,例如,“降价”,“降价”,“价格崩溃”,“价格下降”-这些是描述类似过程的不同方法,但是通过各种语言手段来表达。 同时,在类似的情况下,人们可以满足其他具有定量表达方式的概念,例如“信任度下降”,“收入度增加”等。 在每种情况下,足以理解上下的对应关系-好的/不好的(知识水平和世界水平)以及用什么词汇表示在给定方向上的运动(语言水平)。

反馈与分配


我们欢迎评论中的任何反馈-从对工作及其对有趣研究和相关文章的链接的批评。

如果您的熟人或同事可能对已发布的数据集感兴趣,请向他们发送指向文章或资源库的链接,以帮助传播开放数据。

链接到数据集和许可证


数据集:俄语开放色调词典

数据集长28197个字

该数据集已获得CC BY-NC-SA 4.0的许可。

链接到相关项目


Source: https://habr.com/ru/post/zh-CN482052/


All Articles