阅读科学如何使科学受益?

上次我们在哈布雷(Habré)上写过关于语言数据的众包。它涉及俄语中现代文本的形态标记(语音标记的一部分)。自那时以来,已标记了约220万个任务,约有3000人参加了这项工作。我们走了一半多一点。感谢您对我们的帮助!

在OpenCorpora中,我们创建了开放数据,用于训练和测试俄语文本分析的数学模型。因此,我们帮助俄罗斯计算机语言学赶上了西方。然后,我们将帮助超越;)

今天,我们将讨论命名实体的标记。这是开放式机箱中的文本标记的另一层。我们将在文本中突出显示人员姓名,公司名称和地理对象。




我们为什么要这样做?

我们开始进行形态标记,并继续主动进行。我们正在与factRuEval-2016竞赛的组委会一起进行实体标记,该竞赛将作为Dialog-21计算机语言学会议的一部分举行。在此阶段,实体并没有在整个建筑中标出,而只是在其中的一小部分被标出,这将成为比赛参与者的培训和测验集。总共约3-4个段落,共约1000条新闻文本。与往常一样,标记结果将根据知识共享许可发布。资料库的培训部分将在进行审核后发布,而测试部分的标记将在比赛及其结果结束之前发布。

什么是命名实体的标记?

从文本中提取命名实体是文本分析的热门功能之一(例如,在Textocat博客中,请参见详细信息)。

如果有几十个竞争解决方案列出文本中提到的所有对象,并提供其标准化名称和相应的对象标识符,那将很酷。而所有这些都是针对俄语和开源的。参加事实竞赛的组织并为此准备数据,我们朝着这个方向迈出了一步,并邀请您参加。

简而言之,命名实体的选择包括在文本中查找专有名称(人的全名,组织名称和地理对象),突出显示它们并用适当的标记对其进行标记。例如,对于人员,有必要分别记下姓氏,名字和父系,然后将选定的段组合成一个对人员类型对象的引用。我们为此写了详细的说明并录制了一个小视频



接下来会发生什么?

标记实体已经在进行中。为factRuEval标记文本集合的下一步是识别对象之间的引用,以及它们与WikiData的关联和事实标记。前两点暗示现实世界中同一对象的文本中的几个单独引用(例如,Ivanov Ivan,Ivanov和Ivanov II)将彼此组合为一个实体。来自WikiData的标识符将为此实体指定。



实际上,我们指的是文本中在前一阶段已突出显示的对象之间描述的关系:人与组织之间的职业关系(公司中的工作),人与组织之间的所有权关系以及其他类似关系。



如何帮助我们?

1.参与标记。
现在我们有两个工作领域:命名实体和形态。要双向完成任务,只需阅读说明。

2.在社交网络上写这篇文章,并请您的朋友帮助我们。
并非每个人都阅读GeekTimes,但是许多人愿意提供一点帮助。

更新:直接链接到实体标记:http : //opencorpora.org/ner.php(在说明中,也请在此处使用)。

Source: https://habr.com/ru/post/zh-CN388061/


All Articles