Wie kann das Lesen von Wissenschaft der Wissenschaft zugute kommen?
Das letzte Mal haben wir über Habré über Crowdsourcing von Sprachdaten geschrieben . Es ging um das morphologische Markup (Teil der Sprachkennzeichnung) moderner russischer Texte. Seitdem wurden ungefähr 2,2 Millionen Aufgaben markiert, und ungefähr 3.000 Menschen haben daran teilgenommen. Wir sind etwas mehr als die Hälfte des Weges gegangen. Vielen Dank, dass Sie uns geholfen haben!In OpenCorpora erstellen wir offene Daten zum Trainieren und Testen mathematischer Modelle der Textanalyse in russischer Sprache. So helfen wir der russischen Computerlinguistik, die westliche einzuholen. Dann werden wir helfen zu überholen;)Heute werden wir über das Markup von benannten Entitäten sprechen. Dies ist eine weitere Ebene des Textmarkups im Open Enclosure. Wir werden im Text die Namen von Personen, die Namen von Unternehmen und geografischen Objekten hervorheben.
Warum machen wir das?Wir haben mit der morphologischen Markierung begonnen und fahren von uns aus fort. Wir arbeiten gemeinsam mit dem Organisationskomitee des factRuEval-2016- Wettbewerbs , der im Rahmen der Dialog-21- Konferenz über Computerlinguistik stattfinden wird, am Entity Markup . Zu diesem Zeitpunkt sind die Entitäten nicht im gesamten Korpus gekennzeichnet, sondern nur in einem kleinen Teil davon, der zu Trainings- und Testsammlungen für die Teilnehmer des Wettbewerbs wird. Insgesamt sind dies etwa 1000 Nachrichtentexte in einem Umfang von 3-4 Absätzen. Wie üblich wird das Markup-Ergebnis unter einer Creative Commons-Lizenz veröffentlicht. Der Trainingsteil der Sammlung wird veröffentlicht, sobald er moderiert wird, und das Markup des Testteils wird frühestens am Ende des Wettbewerbs und seiner Ergebnisse veröffentlicht.Was ist ein Markup für benannte Entitäten?Das Extrahieren benannter Entitäten aus Text ist eine der begehrten Funktionen der Textanalyse (siehe dies beispielsweise im Textocat-Blog im Detail ).Es wäre cool, wenn es mehrere Dutzend konkurrierende Lösungen gäbe, die alle im Text erwähnten Objekte auflisten, ihre normalisierten Namen und ihre entsprechenden Objektkennungen angeben würden. Und das alles für die russische Sprache und Open Source. Wir nehmen an der Organisation des factRuEval-Wettbewerbs teil und bereiten Daten dafür vor. Wir machen einen Schritt in diese Richtung und laden Sie ein, daran teilzunehmen.Kurz gesagt, die Auswahl benannter Entitäten besteht darin, Eigennamen in den Texten zu finden (vollständige Namen von Personen, Namen von Organisationen und geografischen Objekten), diese hervorzuheben und mit dem entsprechenden Tag zu kennzeichnen. Für Personen ist es beispielsweise erforderlich, den Nachnamen, den Namen und das Patronym getrennt zu notieren und dann die ausgewählten Segmente zu einem Verweis auf ein Objekt vom Typ Person zu kombinieren. Wir haben detaillierte Anweisungen dazu geschrieben und ein kleines Video aufgenommen .
Was wird als nächstes passieren?Die Kennzeichnung von Unternehmen ist bereits im Gange. Die nächsten Schritte beim Markieren einer Textsammlung für factRuEval sind die Identifizierung von Verweisen auf Objekte untereinander und deren Zuordnung zu WikiDataund Markup von Fakten. Die ersten beiden Punkte implizieren, dass mehrere separate Verweise im Text desselben Objekts der realen Welt (zum Beispiel Ivanov Ivan, Ivanov und Ivanov II) miteinander zu einer Einheit zusammengefasst werden. Für diese Entität wird ein Bezeichner aus WikiData angegeben.
Mit Fakten meinen wir die im Text beschriebenen Beziehungen zwischen den Objekten, die bereits in den vorherigen Phasen hervorgehoben wurden: die Berufsbeziehung (Arbeit im Unternehmen) zwischen der Person und der Organisation, die Eigentümerbeziehung zwischen der Person und der Organisation und andere ähnliche Beziehungen.
Wie können wir uns helfen?1. Nehmen Sie am Markup teil.Jetzt haben wir zwei Arbeitsbereiche: benannte Entitäten und Morphologie. Um Aufgaben in beide Richtungen zu erledigen, lesen Sie einfach die Anweisungen.2. Schreiben Sie über diese Arbeit in sozialen Netzwerken und bitten Sie Ihre Freunde, uns zu helfen.Nicht jeder liest GeekTimes, aber viele sind bereit, ein bisschen zu helfen.Update: Direkter Link zum Entity Markup: http://opencorpora.org/ner.php (es steht in der Anleitung, lass es auch hier sein). Source: https://habr.com/ru/post/de388061/
All Articles