Neujahrs-Datensatz 2019: offenes Tonwörterbuch der russischen Sprache

Normalerweise aktualisieren wir am Vorabend des neuen Jahres unseren Datensatz auf Open Semantics. In diesem Jahr ist viel Arbeit geleistet worden, aber es ist noch nicht zu einem logischen Abschluss gekommen, und wir werden es nächstes Jahr fortsetzen. Jetzt wollen wir über einen nicht weniger wichtigen offenen Datensatz sprechen, der in diesem Jahr auf einer Reihe von Sprachkonferenzen sowohl bei Forschern als auch bei Vertretern der Branche großes Interesse geweckt hat. Dieser Beitrag konzentriert sich auf das offene Tonwörterbuch der russischen Sprache.




Warum?


Tonalität oder in einfachen Worten gut / schlecht ist ein natürliches Merkmal von Wörtern. Natürlich für den Menschen und seine Wahrnehmung, aber nicht für das Computerverständnis. Die Sprache ist so angeordnet, dass sie Symmetrie in Bezug auf die Polarität von Wörtern enthält und es nicht möglich ist, gute Wörter von schlechten zu trennen, ohne auf eine externe Markierung zurückzugreifen. Tatsächlich entstand die Aufgabe, ein Tonwörterbuch zu erstellen, zunächst aus der Notwendigkeit, vom Algorithmus automatisch empfangene Wortlisten entsprechend ihrer Polarität zu gruppieren.

Natürlich ist die Tonalität nur ein Aspekt der Bedeutung eines Wortes, und ein wirkliches Verständnis des Gefühls erfordert eine vollständige semantische Analyse, ein Verständnis der Rollen in einer bestimmten Situation und die Kenntnis der Position, die der Beobachter einnimmt. So kann zum Beispiel "Preisreduzierung von Aktien" für verschiedene Parteien eine unterschiedliche Tonalität haben, "Kosten haben zugenommen" und "Gewinne haben zugenommen" haben unterschiedliche Polarität, obwohl in beiden Phrasen das Verb grow wächst, was eine eher positive Bewertung hat (gemäß unserem Datensatz).

Es gibt eine Vielzahl von Gründen, warum wir einem bestimmten Schlüssel ein bestimmtes Wort zuordnen. Manchmal sind dies unsere unmittelbaren Empfindungen - Freude und Sehnsucht; manchmal sind es die Qualitäten eines Menschen - Professionalität und Nachlässigkeit: und manchmal Begriffe wie Bildung oder Unternehmertum, die mit komplexen sozialen Institutionen verbunden sind und langfristig Vorteile bringen. Und die Bewertung solcher Wörter hängt stark mit Kultur und Gesellschaftsvertrag zusammen. Und dementsprechend kann es sein, dass es keine allgemein anerkannte und universelle Bewertung gibt.

Dennoch könnten Sprache und Kommunikation nicht existieren, wenn die Koordinatensysteme verschiedener Menschen innerhalb derselben Kultur nichts miteinander gemein hätten. Und deshalb ist ihre geschätzte Komponente für ziemlich große Wortgruppen mehr oder weniger konsistent.

Auf welche Weise?


Es gibt zwei Möglichkeiten, um eine große Menge sprachlicher Daten zu sammeln: Experten anzulocken und Menschen zu befragen (oder eine modernere Version davon - Crowdsourcing). Wir werden die offensichtlichen Unterschiede zwischen diesen Ansätzen nicht wiederholen, sondern auf diejenigen achten, die einen direkten Einfluss auf die Eigenschaften des resultierenden Datensatzes haben.

Die Kennzeichnung durch Sachverständige setzt eine klare Orientierung für die künftige Verwendung voraus und schreibt dementsprechend eine Entscheidungsfindungsmethode in einer von dieser Anwendung vorgegebenen Mehrdeutigkeitssituation vor. Für einen endgültigen Datensatz bedeutet dies:

  1. Fixierung des Themenbereichs;
  2. klare Definition der Position des Beobachters.

Wenn also ein Experte ein Tonwörterbuch zur Analyse von Nachrichten für ein Massenpublikum erstellt, nimmt er die Position eines verallgemeinerten Lesers ein und akzeptiert unausgesprochene Vereinbarungen zwischen den Medien und den Lesern. Angenommen, „Kostensenkung“ in solchen Anlagen wird positiv bewertet, und „Tarifwachstum“ ist negativ (laut RusCentiLex-2017-Datensatz).

Crowdsourcing ist nicht in der Lage, einen solchen Rahmen zu schaffen, und ist kaum das optimale Instrument zur Lösung hochspezialisierter Anwendungsprobleme. Es ermöglicht uns jedoch, einen weiteren wichtigen Aspekt der Bewertung der Tonalität festzuhalten - die Konsistenz zwischen den Befragten. Einige Wörter werden eindeutig als positiv oder negativ bewertet. Einige werden die Bewertung zwischen der neutralen und der polaren Option aufteilen. und eine kleine Gruppe von Wörtern zeigt eine ausgeprägte Inkonsistenz der Bewertungen.

Verteilung der Sortenkonsistenz
Links im Diagramm ist die maximale Konsistenz der Schätzungen angegeben, rechts die maximale Inkonsistenz.


Im Gegensatz zu Experteneinschätzungen können Sie beim Crowdsourcing einen kontinuierlichen Wert für die Polarität ermitteln, indem Sie ausschließlich positive (negative), eher positive (negative) und neutrale Wörter abgrenzen. Die Verteilung auf diese Gruppen hängt natürlich von den gewählten Schwellenwerten ab. Die Probenahme ist jedoch völlig optional - für eine Reihe von Anwendungen kann ein kontinuierlicher Wert praktischer sein.

Klassenverteilung


Datensatzstruktur


Die Struktur des Datensatzes ist recht einfach: Es handelt sich um ein Tonwörterbuch, das Wörter mit ihrer Bewertung im Bereich von -1 (negative Randbewertung) bis +1 (positive Randbewertung) vergleicht. Der Einfachheit halber wird ein für Menschen lesbares Etikett aus dem Satz "positiv", "neutral" und "negativ" angegeben, das unter Verwendung von Schwellenwerten berechnet wurde.

Beispiele für positive, neutrale und negative Wörter aus dem Datensatz
  • positiv: zuverlässig, versöhnen, Freundlichkeit, Verzeihung, gewissenhaft, Inspiration, fotogen, Gewinn, gute Zucht, Wiedervereinigung, inspirieren, Vertrauen, Begeisterung, Kinder, verwandeln, Wellness, Einweihungsparty, Trost, vernünftig, Gelehrsamkeit, Freiwilligenarbeit;
  • neutral: abkürzung, rechnung, stock, tunika, polyeder, berühren, möbel, wohnhaft, klicken, schmelzen, gebrauch, übersteigen, straße, zutat, entleeren, betonen, wappen, schlafen gehen, langarmig, sieben, zeichnen;
  • negativ: schwul, kichernd, blab, geisel, redneck, arrogant, falsch, verschmutzung, neidisch, erwürgen, einfrieren, verschwenden, betrügerisch, degradieren, süchtig, beißen, erkälten, Schuld finden, Angst bekommen, Räuber, Ignorant;


Zusätzlich werden in dieser Version des Datensatzes (es gibt noch eine frühere, erste Version) Rohdaten angegeben - der Prozentsatz der abgegebenen Stimmen für jede der Optionen. Auf diese Weise können Sie benutzerdefinierte Modelle zur Berechnung der Gesamtpolarität und der Konsistenz des Markups anwenden.

Hinweis Die vorgestellte Version des Datensatzes umfasst die bekanntesten Wörter von OW (aktives Vokabular); Sätze wurden nicht beschriftet. Beim Vergleich mit anderen Tonalitätswörterbüchern haben wir eine Reihe von Wörtern gefunden, die im aktiven Wortschatz verfügbar sind, aber in unserem Datensatz nicht enthalten sind. Wir werden weitere Markups durchführen und planen, die fehlenden Spracheinheiten im nächsten Jahr aufzunehmen.

Weitere Pläne


Das Markieren von Sentiment gehört zu den besonderen Aufgaben im Rahmen des Studiums des semantischen Sprachsystems. Wie oben erwähnt, hängt die Nützlichkeit des dargestellten Datensatzes direkt von der Fähigkeit ab, die darin dargestellten Polaritätswerte mit anderen semantischen Informationen zu verknüpfen. Zum Beispiel mit Wortklassen. Wir haben diese Arbeit begonnen und planen, sie in Zukunft weiterzuentwickeln.

Ein weiteres wichtiges Forschungsgebiet ist das Bestreben, den Grund für das Färben bestimmter Wörter zu verstehen, Wörter zu züchten, die mit Gefühlen, Emotionen und direkter Bewertung zusammenhängen, sowie jene Wörter, bei denen das von ihnen beschriebene Konzept oder die von ihnen beschriebene Situation einen verzögerten Gewinn oder Verlust verspricht. Daher sind solche Wörter anfälliger für kulturelle und soziale Einflüsse.

Es ist auch geplant, das Markup mit Phrasen zu erweitern, einschließlich stabiler Ausdrücke und phrasenbezogener Einheiten. Aber hier sprechen wir bereits über völlig unterschiedliche Vokabeln. Die allgemeine Aufgabe besteht darin, zu verstehen, wie die Stimmung auf einer allgemeineren Ebene funktioniert (mehr unter dem Einfluss der Spoiler).

Gefühl und Semantik
Bei näherer Betrachtung wird deutlich, dass die Sprache in Bezug auf die Anzahl der Wörter und deren Kombinationen mit einer kompakten Menge von Begriffen arbeitet, die jeweils auf mehrere Arten ausgedrückt werden können. Diese Beobachtung spiegelte sich detailliert in den Werken russischer Linguisten und in dem von ihnen erstellten Sense-Text-Modell wider.

Zum Beispiel "Preissenkung", "Preissenkung", "Preisverfall", "Preissenkung" - dies sind verschiedene Arten, einen ähnlichen Prozess zu beschreiben, die sich jedoch in verschiedenen Sprachen ausdrücken lassen. Gleichzeitig kann man in ähnlichen Zusammenhängen auf andere Konzepte stoßen, die einen quantitativen Ausdruck haben - „ein Absinken des Vertrauensniveaus“, „eine Erhöhung des Einkommensniveaus“ usw. In jedem Fall reicht es aus, die Entsprechung oben / unten zu verstehen - gut / schlecht (Kenntnisstand und Welt) und mit welchen lexikalischen Mitteln Bewegung in eine bestimmte Richtung ausgedrückt wird (Sprachniveau).

Feedback und Verteilung


Wir freuen uns über jegliches Feedback in den Kommentaren - von Kritik an der Arbeit und unseren Ansätzen zu Links zu interessanten Studien und verwandten Artikeln.

Wenn Sie Bekannte oder Kollegen haben, die an dem veröffentlichten Datensatz interessiert sind, senden Sie ihnen einen Link zu dem Artikel oder dem Repository, um die Verbreitung offener Daten zu unterstützen.

Link zu Datensatz und Lizenz


Datensatz: offenes Tonwörterbuch der russischen Sprache

Der Datensatz ist 28197 Wörter lang .

Der Datensatz ist lizenziert unter CC BY-NC-SA 4.0 .

Links zu verwandten Projekten


Source: https://habr.com/ru/post/de482052/


All Articles