Fuzzywuzzy und "Unsichtbarer Missbrauch" zwischen Menschen und Übersetzungsrobotern

Beginn des Guten, des freundlichsten Wesens und des Endes, das Recht wird die Grenzen der Dinge nicht respektiert


Wahrscheinlich gab es in allen Altersgruppen literarische Übersetzer und Freidenker. Letzterer fühlte sich völlig berechtigt, den Text zu ändern, erneut zu bearbeiten, einige Teile zu verwerfen und andere anzuhängen. Und moderne Forscher stehen vor einer typischen Frage: „Was ist bei der Transformation des Originals im Detail passiert? Was ist durchgestrichen, was wird gespeichert, was wird erneuert, was wird hinzugefügt? “


Bevor ich die Texte mit aller Sorgfalt las, wollte ich versuchen, sie den Robotern zum Vorstudium zu geben. Wir hatten wenig Hoffnung auf Roboter, aber wir erhielten erhebliche Hilfe von ihnen. Wie wir Google Translate und Yandex.Translator dazu gebracht haben, an dem griechischen Text von Invisible Battle zu arbeiten, lesen Sie unter der Katze.


Arbeitsmaterial


Unsichtbarer Missbrauch “ - eine asketische Abhandlung, die ursprünglich in italienischer Sprache verfasst, dann im 18. Jahrhundert ins Griechische übersetzt, gemäß der ostchristlichen asketischen Praxis herausgegeben und dann ins Russische übersetzt wurde. Aber auch nicht wörtlich, sondern mit wesentlichen Änderungen. Der Heilige Theophan der Einsiedler beschrieb die Prinzipien seiner Arbeit bei der Übersetzung ins Russische und schrieb:


Ich übersetze [dieses Buch] nicht, aber ich benutze meine Rede frei ... Hinzufügen und Verringern und Ändern gegenüber dem Original.

Ein allgemeiner Überblick über redaktionelle Änderungen ist in der Arbeit der ep. Feoktista , aber ich wollte genau einen detaillierten Unterschied im gesamten Text haben.


Matching-Methode


Zu diesem Zweck wurden beide Texte (Neugriechisch und Russisch) in Absätze unterteilt. Es stellte sich heraus, dass jeweils ungefähr 700 Absätze vorhanden waren.


Wir haben den griechischen Text zweimal ins Russische übersetzt - einmal mit Yandex.Translator, ein anderes Mal mit Google Translate. Sie erstellten einfach große Seiten mit Volltext und öffneten sie durch die entsprechenden Webmündungen. Es war fast unmöglich, den übersetzten Text zu lesen: Anscheinend war das Original zu kompliziert, aber aus diesem Horror konnte etwas gelernt werden. Die Schlüsselwörter sollten irgendwo zusammenfallen, die Zahlen auch.


Es gab keine besondere Vielfalt an Werkzeugen zum Auffinden von Fuzzy-Duplikaten. Sie griffen fuzzywuzzy , der die Levenshtein-Entfernung berücksichtigt. Von den vier Funktionen: ratio , partial_ratio , token_sort_ratio , token_set_ratio - wurde die letzte ausgewählt, die weder mit der Wortreihenfolge noch mit ihren Wiederholungen zusammenhängt. Und wie sich später herausstellte, war die Wahl richtig.


Für alle token_set_ratio (Russisch vs. Griechisch) wurden die Ähnlichkeitsgrade des token_set_ratio der token_set_ratio Übersetzung mit Yandex und Google berechnet. Wir haben uns entschieden, uns nicht auf einen von ihnen einzeln zu verlassen, sondern auf ihre Summe (à la Dual-Currency-Basket - und dies stellte sich auch als die richtige Entscheidung heraus), und dann schauten und überprüften die Kandidaten mit großen Werten dieser Summe mit ihren Augen und Stiften sowie den Nachbarn verifizierte Paare.


Infolgedessen war es über mehrere Arbeitsstunden möglich, 2/3 Absätze zu vergleichen, von den übrigen können nur Einheiten manuell verglichen werden.


Methoden erneut prüfen


Nach der geleisteten Arbeit und dem erzielten Ergebnis war es interessant, zurückzukehren und erneut zu fuzzywuzzy welche fuzzywuzzy Funktionen und welcher der Übersetzer für eine solche Aufgabe am besten geeignet sind.


Die Berechnung des partial_ratio ratio partial_ratio zu zeitaufwändig (es waren faule 120 Stunden, um Ihren Computer hintereinander zu fahren), aber die verbleibenden drei Funktionen wurden in etwa einer Stunde berechnet: ratio , token_sort_ratio und token_set_ratio für token_set_ratio und Google-Übersetzungen. Insgesamt sechs Funktionen des Proximity-Textes und die siebte - unser "Doppelwährungskorb".


Jetzt können Sie sich die folgenden Tablets ansehen. Der erste beantwortet die Frage: "Wenn wir für einen bestimmten russischen Absatz nach dem entsprechenden Griechisch suchen und die Absätze in absteigender Reihenfolge der Ähnlichkeit (berechnet durch diese Funktion) betrachten, wie hoch ist dann die Wahrscheinlichkeit, dass wir den richtigen Absatz sehen, wenn wir nur die ersten drei Kandidaten betrachten ?"


FunktionWahrscheinlichkeit des Findens mit drei Versuchen
google_set_ratio + yandex_set_ratio66,5%
google_ratio65,0%
google_set_ratio64,8%
yandex_ratio62,0%
google_sort_ratio61,8%
yandex_set_ratio56,2%
yandex_sort_ratio54,6%

Das heißt, in etwa 2/3 der Fälle stoßen wir fast sofort auf den gewünschten Absatz. Und im verbleibenden Drittel der Fälle muss man viel leiden. Schauen Sie sich also die zweite Tafel an, die die Frage beantwortet: „Wie viele Kandidaten müssen durchschnittlich schauen, bis wir den richtigen Absatz sehen?“


Funktiondurchschnittliche Anzahl von Versuchen
google_set_ratio + yandex_set_ratio36.7
google_set_ratio37.6
yandex_set_ratio47.0
google_sort_ratio65,9
yandex_sort_ratio69.7
google_ratio71.7
yandex_ratio75.3

40 oder mehr Absätze anzeigen - das ist traurige Traurigkeit, und das Auto sieht in diesem Fall nicht nach einem vernünftigen Hinweis aus. Infolgedessen besteht die optimale Strategie beim Vergleichen von Texten darin, „die Creme zu überfliegen“, indem nur die wahrscheinlichsten Kandidaten betrachtet werden, und den Rest des Vergleichs anhand der Struktur und einiger anderer Faktoren durchzuführen.


Lob für die eigene Intuition


Es war für uns überraschend, dass der " google_set_ratio + yandex_set_ratio " google_set_ratio + yandex_set_ratio "von der Decke" am besten funktionierte, sogar besser als jede dieser Funktionen einzeln. Darüber hinaus zeigen die Werte in beiden Tabellen, dass Google Translate diese Aufgabe in jeder Hinsicht besser erledigt als Yandex.Translator. Hausroboter haben also Raum zum Wachsen.


PS: Die verwendeten Skripte enthalten keine besonderen Kenntnisse, aber wenn jemand sie benötigt, können wir sie veröffentlichen. Das Ergebnis des Vergleichs ist hier .


PPS Wenn Sie interessiert sind, ist das Bild im Titel ein Fragment einer Seite aus Fjodor Polikarpov-Orlows „ Primer des slawisch-griechisch-lateinischen “ (1701).


PPPS Vielleicht gibt es eine wissenschaftliche Zeitschrift, in der dieser entsprechend synchronisierte Text zur Veröffentlichung angeboten werden sollte?

Source: https://habr.com/ru/post/de419367/


All Articles