R&D ABBYY做什么:NLP高级研究小组

他们在ABBYY的研发部门做什么? 为了回答这个问题,我们开始了一系列有关我们的开发人员如何创造新技术和改善现有解决方案的出版物。 今天我们将讨论自然语言处理 (NLP)系列。

我们在ABBYY从事自然语言处理领域的研究,并解决没有现成解决方案的复杂科学问题。 因此,我们创造了创新,这些创新构成了产品的基础并为我们的客户提供帮助,并且我们不断前进。 顺便说一句,11月24日,在莫斯科物理技术学院深度学习学院的一次演讲中,研发ABBYY部门的NLP高级研究小组负责人Ivan Smurov将告诉您世界上文本分析存在哪些问题以及现代神经网络如何解决它们。 在这篇文章中,Ivan向我们介绍了他目前正在执行的三个任务。

对于NLP高级研究小组的同事来说,选择独立的任务非常重要,即与现有的ABBYY技术和解决方案不是非常严格地相关。 有时我们的员工自己会发现此类任务,有时我们的R&D会谈论这些任务并寻求解决方案的帮助,然后将结果发表在科学期刊上。 所以,第一个任务。

Sammarization:比重述更复杂吗?


这种文本分析技术使您可以将其转换为重述或注释。 长期以来,人们一直在使用Sammarization。 我们ABBYY的工作人员正尝试在扩展意义上应用sammarization技术:我们正在尝试解决传统上无法借助sammarization解决的问题,例如,获取文本的整体特征并突出显示文本中发生的事件。

整合可以简化传统管道。 例如,现在,为了从文档中提取合同的公司方名称,传统上解决了许多顺序的NLP任务,从识别实体到过滤提取的事实。 所有这些任务相互依赖,最重要的是,每个任务都需要自己的参考标记。 在机器学习中创建标记是最昂贵的事情之一。

借助Sammarization,可以端对端地提取事实,即无需中间步骤,子任务和标记。 就像重新输入文字一样简单快捷。 也许更便宜。

句法解析:寻找省略号


还记得吗,在学校里我们解析句子:主语,谓语,加法? 从语言意义上讲,解析句子更为复杂和详细。 一切都可以描述为从属关系,其中主要的事物是谓语或动词,而主语,加法等都依赖于它,句法分析器处理现代程序中的句子分析。 通常,句法解析器花费相当多的时间来创建和丢弃出现在省略号中的句法零。

这是一个例子: Misha吃了梨,而Masha吃了苹果 。 在口头和书面演讲中,我们仅跳过动词“ ate”,对我们来说含义没有改变。 但是对于计算机语言学而言,定义句法零是一个复杂的问题。 省略号有很多类型;它们可以位于句子的不同位置。 结果,解析器被迫仔细检查许多假设:是否存在零,实际上不是零?

这种重新检查使解析器的工作复杂化并减慢了它的工作,此外,它还需要大量的计算能力。 因此,我们正在发明新的方法来搜索可能出现语法零的地方。 这将减少解析器确定省略号的时间。

顺便说一下,今年对计算机语言学中的省略号的兴趣大大增加了。 当时最大的计算机语言学家塞巴斯蒂安·舒斯特Sebastian Schuster)约阿希姆·尼弗尔Joachim Nivre)克里斯托弗·矿业Christopher Mining )发表了一篇研究文章“ 具有差距的句子:解析和重构省略谓词 ”。 因此,省略号的研究是一项很好的任务,其解决方案可以为科学界和实际应用提供结果。

词汇歧义消除


什么是“停止”? 这可能是公共汽车到达的对象,或者可能是进程停止,或者可能是语音停止。 这个词是一个,但他有很多含义。

许多公司都有叙词表,其中描述了这些含义。 从一系列单词,单词形式或标记(一系列含义或语义类别)自动接收是很方便的。 在ABBYY,我们尝试创建一个隔离的模型,该模型以良好的质量和速度准确地定义单词的含义。 如果您快速消除词汇歧义,那么您可以合理地加快工作-不管是解析还是提取命名的实体/事实。

神经网络和深度学习学院与它有什么关系?


所有这些任务都使用神经网络解决。 并不是说没有网络就无法解决它们,但是现在这是最现代的方法。 递归神经网络可以为NLP任务提供更好的结果。 因此,这不仅是一种抽象的时尚现象,而且在实践中用于解决各种各样的NLP任务。

在莫斯科物理与技术学院深度学习学院的一次演讲中 ,伊凡·斯穆罗夫(Ivan Smurov)将为您详细介绍文本分析的任务,如何使用现代神经网络解决俄罗斯乃至全世界的此类问题。 讲座将于11月24日(星期六)17:00在Dmitrovskoye Shosse举行。

Source: https://habr.com/ru/post/zh-CN430730/


All Articles