Comment la lecture scientifique peut-elle bénéficier à la science?
La dernière fois, nous avons écrit sur Habré sur le crowdsourcing des données linguistiques . Il s'agissait du balisage morphologique (partie du balisage vocal) des textes modernes en russe. Depuis lors, environ 2,2 millions de tâches ont été marquées et environ 3 000 personnes y ont participé. Nous avons parcouru un peu plus de la moitié du chemin. Merci de nous aider!Dans OpenCorpora, nous créons des données ouvertes pour la formation et le test de modèles mathématiques d'analyse de texte en russe. Ainsi, nous aidons la linguistique informatique russe à rattraper celle de l'ouest. Ensuite, nous aiderons à dépasser;)Aujourd'hui, nous parlerons du balisage des entités nommées. Il s'agit d'une autre couche de balisage de texte dans le boîtier ouvert. Nous mettrons en évidence dans le texte les noms des personnes, les noms des entreprises et des objets géographiques.
Pourquoi on fait ça?Nous avons commencé le marquage morphologique et continuons de notre propre initiative. Nous travaillons sur le balisage d'entité avec le comité d'organisation du concours factRuEval-2016 , qui se tiendra dans le cadre de la conférence Dialog-21 sur la linguistique informatique . À ce stade, les entités ne sont pas délimitées dans l'ensemble du bâtiment, mais seulement dans un petit sous-ensemble de celui-ci, qui deviendra des collections de formation et de test pour les participants du concours. Au total, cela représente environ 1000 textes d'actualité dans un volume de 3 à 4 paragraphes. Comme d'habitude, le résultat du balisage sera publié sous une licence Creative Commons. La partie formation de la collection sera publiée telle qu'elle est modérée, et le balisage de la partie test sera publié au plus tôt à la fin du concours et ses résultats.Qu'est-ce que le balisage des entités nommées?Extraire des entités nommées du texte est l'une des fonctions recherchées de l'analyse de texte (voir cela en détail, par exemple, dans le blog Textocat ).Ce serait cool s'il y avait plusieurs dizaines de solutions concurrentes qui répertorieraient tous les objets mentionnés dans le texte, donneraient leurs noms normalisés et les identificateurs d'objet correspondants. Et tout cela pour la langue russe et l'open source. Participant à l'organisation du concours factRuEval et à la préparation de ses données, nous faisons un pas dans cette direction et vous invitons à nous rejoindre.En bref, la sélection des entités nommées consiste à trouver les noms propres dans les textes (noms complets des personnes, noms des organisations et des objets géographiques), à les mettre en évidence et à les marquer avec la balise appropriée. Par exemple, pour les personnes, il est nécessaire de noter séparément le nom, le prénom et le patronyme, puis de combiner les segments sélectionnés en une seule référence à un objet de type Personne. Nous avons écrit des instructions détaillées à ce sujet et enregistré une petite vidéo .
Que se passera-t-il ensuite?Le marquage des entités est déjà en cours. Les prochaines étapes de balisage d'une collection de textes pour factRuEval seront l'identification de références à des objets entre eux, leur association avec WikiDataet balisage des faits. Les deux premiers points impliquent que plusieurs références distinctes dans le texte du même objet du monde réel (par exemple, Ivanov Ivan, Ivanov et Ivanov II) seront combinées entre elles en une seule entité. Un identifiant de WikiData sera spécifié pour cette entité.
Par faits, nous entendons les relations décrites dans le texte entre les objets déjà mis en évidence aux étapes précédentes: la relation d'occupation (travail dans l'entreprise) entre la personne et l'organisation, la relation de propriété entre la personne et l'organisation et d'autres relations similaires.
Comment nous aider?1. participez au balisage.Nous avons maintenant deux domaines de travail: les entités nommées et la morphologie. Pour effectuer des tâches dans les deux sens, lisez simplement les instructions.2. Écrivez sur ce travail sur les réseaux sociaux et demandez à vos amis de nous aider.Tout le monde ne lit pas GeekTimes, mais beaucoup sont prêts à aider un peu.Mise à jour: lien direct vers le balisage d'entité: http://opencorpora.org/ner.php (c'est dans les instructions, que ce soit ici aussi). Source: https://habr.com/ru/post/fr388061/
All Articles