会话式BERT-使用社交媒体语言学习神经网络

2018年,计算机语言学和机器学习领域的主要事件之一是Google AI 发行了BERT ,根据计算机语言学协会(NACL)的北美分会,该文件被认为是年度最佳报告。 在本文中,我们将讨论这种语言模型及其功能。

对于以前从未听说过的人,BERT是一个神经网络,它基于词的上下文表示形式的预备方法,即,它使用双向语言模型,还使您可以分析整个句子。 在这种情况下,也要考虑给定和之后的单词。 这种方法可以在各种自然语言处理(NLP)任务中以最先进的方式获得结果,但需要强大的计算能力。



从正式演讲到对话


BERT最初使用104种Wikipedia语言(多语言)进行教学。 除了多语言版本外,Google还发布了基于英语维基百科和中文BERT的BERT。

在神经系统和深度学习实验室中,我们使用BERT改进了DeepPavlov的NLP组件,DeepPavlov是一个开源交互库,用于开发基于TensorFlow和Keras的虚拟交互助手和文本分析。 我们在俄语Wikipedia-RuBERT上训练了BERT模型,从而大大提高了俄语模型的质量。 此外,BERT还被集成到三个流行的NLP任务的解决方案中:文本分类,序列标记和问题答案。 您可以在我们博客的最新出版物中了解有关DeepPavlov的BERT模型的更多信息:


最近,该库的新版本




此更新的主要功能是BERT,该语言受过英语社交网络词汇的培训。 Wikipedia的正式语言与普通口语不同,要解决某些问题,您只需要一个即可。

对话式BERT使用来自Twitter,Reddit,DailyDialogues,OpenSubtitles,辩论,博客和Facebook新闻评论的开放数据进行了英语培训。 该数据用于将英语子标记的词汇构建到BERT的英语版本中,作为英语BERT的初始化。 结果,口语BERT在以社交数据为特色的任务中显示了最新的结果。

如何在DeepPavlov中使用会话BERT


您可以使用基于英语的BERT口语的新Insult检测模型。 或任何其他基于BERT的模型,都使用文档中的简单指南



SOTA 侮辱检测模型包含用于检测滥用的二进制分类任务。 对于ROC-AUC度量标准(在各种阈值设置下针对分类任务的性能测量),与通常的BERT-92.55相比,该模型在数据上显示的值为93.89。

最后


因此,这几乎是我们想要向您介绍我们的会话BERT的全部内容。 并且不要忘记DeepPavlov有一个论坛 -提出有关库和模型的问题。 做生意!

Source: https://habr.com/ru/post/zh-CN462989/


All Articles