Der Bericht wurde im Dezember 2017 verfasst.
Es ist nicht derjenige, der den besten Algorithmus hat, der gewinnt. Es ist, wer die meisten Daten hat. Der Gewinner ist nicht derjenige, der den besten Algorithmus hat, sondern derjenige, der mehr Daten hat. Andrew Ng, Dozent für maschinelles Lernen bei Coursera.
Wenn Sie sowohl die Größe des Modells als auch die Datenmenge, mit der Sie es trainieren, vergrößern, können Sie feinere Unterscheidungen oder komplexere Funktionen lernen. ... Diese Modelle können normalerweise viel mehr Kontext annehmen. Jeff Dean, ein Ingenieur, der die Forschung bei Google leitet. Wenn Sie das Modell vergrößern und ihm mehr Daten für das Training geben, wird zwischen subtileren und komplexeren Merkmalen unterschieden. ... Diese Modelle nehmen normalerweise einen breiteren Kontext ein. Jeff Dean, ein Ingenieur, der das Forschungsmanagement bei Google unterstützt.
Ich habe Google Translate im März und Dezember 2011, Januar 2016 und Dezember 2017 an denselben Texten getestet. Sie nahm die gleichen Passagen in Englisch, Russisch, Deutsch, Französisch, Ukrainisch und Polnisch und übersetzte sie jeweils aus der Stichprobe in die anderen fünf Sprachen. Darüber hinaus hat sie im Dezember 2017 neue Texte aufgenommen und in alle Übersetzungsrichtungen getestet. Die Ergebnisse der gegenseitigen Überprüfung stimmten im Allgemeinen mit den Trends in der ersten Stichprobe überein. Das Ergebnis war ein Teil der Arbeit des Google-Übersetzers für 2011 - 2017, und basierend auf diesen Materialien können wir Schlussfolgerungen über die Entwicklung des Dienstes ziehen und die Marketingaussagen des Unternehmens kommentieren (Angebote sollen separat veröffentlicht werden).
Chronik der Ereignisse
Bis 2011 (und möglicherweise später) behauptete Google tatsächlich, dass der statistische Übersetzer selbstlernend ist (siehe die entsprechenden Zitate von Mitarbeitern in meinem Artikel „Sprachkompatibilität“ [1]) und dass sich in jeder Sprache parallele Texte ansammeln Paar, Produktqualität strebt stetig nach menschlichem Niveau nur durch einen innovativen statistischen Ansatz. 2012 startete Google ein selbstlernendes neuronales Netzwerk [6] und kündigte im September 2016 die Umstellung seines maschinellen Übersetzers auf Deep Learning an, was wiederum eine stetige Steigerung der Produktqualität verspricht [3, 4, 5]. Seit März 2017 wird das neuronale Netz für die Übersetzung ins Russische verwendet.
Schauen wir uns an, was Google Übersetzer im Laufe der Jahre speziell verwaltet hat und welche Stärken es hat (niemand bestreitet, dass dies einer der besten maschinellen Übersetzer ist).
Rückblick
Jahr 2011
(Basierend auf meinem Artikel von 2012, [1].)
Die Übersetzung in vielen Sprachpaaren durchläuft eine Zwischenübersetzung ins Englische mit dem Effekt eines „kaputten Telefons“.
Bei der Übersetzung in diese Richtungen fungiert die englische Sprache als „Vermittler“: Der Text wird zuerst ins Englische und erst dann in die ausgewählte Übersetzungssprache übersetzt. Eine verzerrte englische Version wird in die Zielsprache übersetzt, wobei ungenaue Fragmente während der maschinellen Übersetzung unvermeidbar sind. Somit wird der "Primärverformung" eine zweite Schicht überlagert. Infolgedessen wird derselbe Text bei der Übersetzung ins Deutsche, Französische und andere Sprachen stärker verzerrt als ins Englische.
Wir nehmen die erhaltene englische Phrase [Übersetzung aus dem Russischen] und übersetzen den Service ins Deutsche und Französische. Das Ergebnis ist zu 100% das gleiche wie in der dritten und vierten Zeile der Übersetzung, angeblich aus dem Russischen. Fehler in deutschen und französischen Übersetzungen korrelieren mit der Ungenauigkeit und Struktur der englischen Phrase, nicht jedoch des russischen Originals.
Wenn die Wortreihenfolge im englischen Text gestört ist, sind die Wortformen und ihre Reihenfolge kein verlässlicher Indikator für die Rolle dieser Wörter im Satz [mit weiterer Übersetzung in Zielsprachen].
Die statistische Übersetzung ist zwischen verwandten Sprachen optimal
Die Google-Übersetzung vom Russischen ins Ukrainische und umgekehrt ist die „intuitivste“ Korrektur aller betrachteten, dem fertigen Produkt am nächsten liegenden, weniger verzerrten Bedeutungen oder Regeln der Sprache, weniger wörtliche Übersetzung.
Die korrekte "Umwandlung" der grammatikalischen Konstruktionen einer Sprache durch eine andere ist die Grenze für die statistische maschinelle Übersetzung. Diese Einschränkung wird auch auf der Grundlage verwandter Sprachen nicht aufgehoben und erzeugt je weniger „Rauschen“ bei der Interpretation, desto weniger grammatikalische Ähnlichkeit der Sprachen in einem Paar.
Google kann weiterhin Webdokumente analysieren und die Korrespondenzdatenbank füllen. Die Übersetzung wird jedoch nicht nur durch "Optimierung der Suchergebnisse" verbessert. Sie können nicht für alle möglichen Phrasen eine Übersetzungsdatenbank erstellen. Dies bedeutet, dass ein bestimmter signifikanter Prozentsatz von Sätzen, Phrasen, die Maschine unabhängig zusammengesetzt und nicht fertig gemacht werden muss, und dies bedeutet, dass der Entwickler die Maschinengrammatik auf andere, "nicht statistische" Arten unterrichten muss.
Englisch ist die Kernsprache in Google Translate
Die Übersetzung von Englisch nach Englisch in Google Translate erfolgt direkt ohne Vermittlung einer anderen Sprache. Dies bietet eine gute Qualität, bei der sich die Vorteile des Dienstes besonders bemerkbar machen: häufig die korrekte Übersetzung von Namen und Begriffen, Ausdruckseinheiten, die Verwendung von Live-Sprache im Gegensatz zur wörtlichen Übersetzung, häufig die richtige Wahl der lexikalischen Bedeutung je nach Kontext.
In anderen Sprachgebieten übersetzt, ist "Englisch-Zentrizität" das größte Minus der Arbeit von Google Translate. Die Übersetzung ins Nicht-Englische oder Nicht-Englische ist noch nicht die erfolgreichste: Der Text wird doppelt verzerrt, da das Original nicht direkt in die Zielsprache übersetzt wird, sondern aus einer „mittelschweren“, gebrochenen Übersetzung ins Englische. Eine der Optionen zur Verbesserung der Übersetzungsqualität im Dienst kann das "Entladen" von Englisch und das Erstellen von "Nestern" um andere Schlüsselsprachen sein: eine der slawischen, türkischen, romanischen usw.
Eine signifikante Verbesserung der Qualität der Übersetzungen tritt im Laufe der Zeit nicht auf
Übersetzungen desselben Textes zu unterschiedlichen Zeiten (März, Oktober, Dezember 2011) zeigten die Regelmäßigkeit der Entwicklung der statistischen Übersetzung von Google. In späteren Übersetzungen gab es eine deutlich größere Vielfalt an Vokabeln, aber im Allgemeinen waren sie in Bezug auf Genauigkeit und Klarheit nicht viel besser, stellenweise sogar schlechter.
Jahr 2016
Google entfernt Wiederholungen aus der Übersetzung. besser gebauter, zusammenhängender Satz, manchmal eine bessere Wortwahl; manchmal Rollback auf eine weniger erfolgreiche Übersetzung („Steinwerkzeug“ anstelle von „Steinwerkzeug“ im Jahr 2011); manchmal ist eine weniger erfolgreiche Interpretation der Rolle des Satzmitglieds manchmal mehr. Insgesamt: An einigen Stellen ist es besser, an einigen Stellen schlechter als bei den Übersetzungen von 2011, aber im Allgemeinen sind Höhe und Obergrenze gleich.
Jahr 2017
Englisch als Vermittlersprache behält seine Rolle, verliert aber an Boden
Es gibt mehr Variationen, Abweichungen von der englischen Zwischenübersetzung. Oft sind diese Experimente erfolglos, dh wenn die Übersetzung in die Zielsprache noch blind nach Englisch erfolgte, wäre das Ergebnis besser. Parallel dazu wurde die „Beherrschung“ der Grammatik der Zielsprache verbessert: Wenn der Text in der englischen Version ausreichend dekodiert ist, können Sie zu 90% sicher sein, dass die richtigen Endungen in Übersetzungen in andere Sprachen geschrieben werden, geeignete lexikalische Werkzeuge ausgewählt und die optimale Wortreihenfolge erstellt wird. Wenn auf Englisch "Brei" ... Nein, Brei in den Ergebnissen von 2017 ist nicht mehr da und dies ist eine großartige Leistung. Wenn die englische Übersetzung einen kleinen Fehler aufweist, wird das Missverständnis bei der Übersetzung in die Zielsprachen nach dem Gesetz eines kaputten Telefons verstärkt. Eine Verzerrung (falsche Wortwahl) in den Zielsprachen findet sich jedoch auch in einer perfekten englischen Übersetzung.
Im Vergleich zu den Übersetzungen von 2011 - 2016 sind die Abweichungen von der englischen Übersetzung im Jahr 2017 so beschaffen, dass 1) der „Randomizer“ vermasselt wurde, 2) der Übersetzer den Text in mehreren Schritten verarbeitet und dabei einzelne Teile verzerren oder im Gegenteil verfeinern kann Wert nach der Quelle, nicht der englische Vermittler.
Die Struktur der Sätze und die Wahl des Wortschatzes in den Zielsprachen werden jedoch immer noch weitgehend von der englischen Übersetzung bestimmt, und Übersetzungen in Sprachen, die das lateinische Alphabet verwenden, enthalten manchmal Teile in Englisch, die nicht im Original enthalten waren.
Die Tendenz, Text in der Zielsprache gemäß den Gesetzen seiner Grammatik zu erzeugen
Die Korrelation zwischen Übersetzungen eines Textes in verschiedene Sprachen ist geringer als zuvor. Der Dienst übersetzt nicht wörtlich, das Ergebnis ist freier geworden: angemessene Umformulierung, Neuanordnung von Wörtern, Neuanordnung von Wörtern vom Anfang bis zum Ende des Satzes, wenn die Sprachregeln dies erfordern (auf Deutsch ist dies hervorragend umgesetzt). Im Gegensatz zur vorherigen Ebene (phrasenbasierte Übersetzung - einmaliges Abgleichen einzelner Wörter und Phrasen) transformiert der neuronale Übersetzer die Sätze in gewissem Maße, analysiert sie als Ganzes und stellt die Entsprechung „von Ende zu Ende“ in mehreren Stufen her (Ende-) To-End-Mapping - End-to-End-Konvertierung, vollständiger Zyklus, kontinuierliche Transformation einer Vielzahl von Daten von Eingabe zu Ausgabe).
Genauere Analyse der Satz- und Wortstruktur
Die wichtigste Errungenschaft bei den Übersetzungsergebnissen 2017 ist eine solidere und sicherere Erkennung der Satzstruktur und die Übertragung grammatikalischer Bedeutungen in den Zielsprachen. Im Englischen spielen Endungen keine so wichtige Rolle bei der Vermittlung grammatikalischer Bedeutungen wie im Russischen, Deutschen, Polnischen und Ukrainischen. Während des „Durchlaufens“ des neuronalen Netzwerks gingen jedoch grammatikalische Verbindungen seltener „verloren“ als während der statistischen Übersetzung. Es wurden auch selten verwendete Wörter mit mehreren Wurzeln erkannt: Der Übersetzer kommt gut mit der Aufteilung nicht nur von Sätzen, sondern auch von Wörtern zurecht.
Die „Fähigkeit“ der Analyse hängt jedoch weitgehend von der Sprache ab. Es ist besser und konsequenter in Deutsch und Polnisch als in Russisch (aber auch nicht schlecht). Bei Übersetzungen aus dem Ukrainischen funktioniert es manchmal, dann ist es offen gesagt fehlerhaft (in solchen Fragmenten ist das Niveau schlechter als in Übersetzungen der Vorjahre).
Die Übersetzungsqualität ist im letzten Jahr erheblich gestiegen
In den Jahren 2011 - 2016 enthielten Übersetzungen komplexer Phrasen ins Englische nur einen Anschein von Konnektivität: Die übersetzten Wörter und Phrasen wurden in einer leicht angepassten Reihenfolge aneinander gereiht, aber es gab kein „tiefes Verständnis“ der Struktur, und manchmal sah die Übersetzung nur glatt aus, weil dies im Englischen oft nicht der Fall war Endungen sind erforderlich, und das Fehlen von Servicewörtern in einigen Stilen ist zulässig. Dieses "Missverständnis" hat sich jedoch immer in weiteren Übersetzungen in Zielsprachen manifestiert. In den Übersetzungen für Dezember 2017 ist die Struktur des englischen Satzes besser aufeinander abgestimmt - und besser in andere Sprachen interpretiert. Die Qualität in diesen Sprachen verbesserte sich proportional: etwas niedriger als Englisch, aber viel höher als das vorherige Plus, es gibt sporadische Auslassungen und Abweichungen vom Englischen (in den meisten Fällen erfolglos).
Einige Positionen zur lexikalischen Genauigkeit gehen im Vergleich zu den Übersetzungen von 2011 und 2016 verloren, aber die allgemeine Klarheit des endgültigen Textes ist wichtiger als die Tatsache, dass der Übersetzer Kenntnisse über einzelne Begriffe und Ausdrücke zur Schau stellt. Vor dem Hintergrund anderer maschineller Übersetzer war 2011 eine qualitativ hochwertige Arbeit mit Wortschatz und Ausdrucksweise eine Errungenschaft. Nur die Besten haben es geschafft, so genaue Übereinstimmungen von stabilen Phrasen, Eigennamen und Begriffen zu finden. Einzelkorrespondenzen mit allgemeiner Inkohärenz reichten jedoch nicht aus. Es war notwendig, "Grammatikkenntnisse" zu vertiefen. Während des fünfjährigen „Selbsttrainings“ des statistischen Übersetzers (von 2011 bis 2016) gab es keine Zunahme der Konnektivität. Ein qualitativer Sprung trat nach der Integration in das neuronale Netzwerk auf (oder fiel damit zusammen). An den Beispielen, die ich am 3. Dezember 2017 genommen habe, kann ich nun bestätigen, dass die Superaufgabe erreichbarer geworden ist: Ein "Computer" (eher ein riesiges Computernetzwerk) kann Text erkennen, ohne dass Regeln mühsam manuell geschrieben werden müssen. (Aber manchmal irrt er sich. Deshalb ist es besser, ihm einfachere Texte zu geben, ohne verzierte Sätze, die fünf Zeilen lang sind.)
Wenn in den Jahren 2011 und 2016 der Anteil der „dunklen Orte“ (inkohärente Wortgruppe) an den Übersetzungsbeispielen in alle von mir verwendeten Sprachen 1 2 Fragmente pro Text mit einer Länge von 65 bis 90 Wörtern betrug, gab es 2017 keine „dunklen Orte“. (Ich habe keine Wortspiele und andere abstruse Ausdrücke für die Übersetzung verwendet, sondern einfache Texte. Eine falsche und sogar komische Übersetzung einzelner Wörter und Phrasen findet immer noch statt, führt jedoch nicht zur Schaffung von „dunklen Orten“.) Wenn Sie die Übersetzung lesen, verstehen Sie, was Sprache, auch wenn sie ungeschickt ist. Darüber hinaus ist die Qualität der Übersetzung ins Englische höher als in anderen Zielsprachen.
Wenn 2011 das Hauptmerkmal des Google-Übersetzers darin bestand, in diesem Zusammenhang ideale Übereinstimmungen zwischen Sprachen (lexikalische, phrasale Ebene) zu finden, gewann der Übersetzer 2017, nachdem er ein wenig an lexikalischer Genauigkeit verloren hatte, an Dynamik beim Parsen von Sätzen und beim Übertragen grammatikalischer Beziehungen.
Im Jahr 2011 nahm der Dienst Teile eines komplexen Satzes manchmal als isoliert wahr und reihte ihre Übersetzung einfach nacheinander in eine Kette ein. Nachdem dieses Problem gelöst wurde, werden im Jahr 2017 auch wirklich fremde Teile besser isoliert, damit sie keinen „Lärm“ verursachen. Dies sind Wortflecken in einer anderen Sprache und Tippfehler. Dies bringt die Maschine näher an die Ebene einer Person: Wenn wir im Satz nicht einige Wörter hören, hindert uns dies in der Regel nicht daran, die allgemeine Bedeutung zu erfassen.Die Übersetzung ins Ukrainische wurde aus der russischen Zwischensprache „gelöst“
Zuvor (bis zur vorletzten „Messung“ im Januar 2016) fielen die Übersetzungen ins Ukrainische und Russische um 99,9% zusammen, und selbst wenn dies die Qualität der Übersetzung ins Ukrainische beeinträchtigte, war dies trotz der Tatsache, dass die Übersetzung zuerst vom Original durch getrennt wurde, nicht wesentlich Englisch, dann ins Russische („drittes Wasser auf Gelee“).
Jetzt gibt es eine Streuung zwischen den Übersetzungen eines Textes ins Russische und Ukrainische. Anstatt blind der russischen Übersetzung zu folgen, geht das Ukrainische jetzt seinen eigenen Weg. Manchmal bedeutet dies, dass es einfach mehr falsche Übersetzungen und Wortformen enthält. Manchmal - dass es keine Fehler gibt, wo es auf Russisch ist.
Zuvor eine falsche Übersetzung, falls vorhanden, dann sofort in allen Sprachen: am gleichen Ort der gleiche Fehler. Dies war auf ein „Problem“ in der englischen Übersetzung zurückzuführen. Jetzt treten sporadisch Fehler auf: entweder in einer Sprache oder in einer anderen, wenn in Englisch und anderen Zielsprachen alles in Ordnung ist. Im Ukrainischen geschieht dies bisher häufiger als in anderen Sprachen aus der Stichprobe. Darüber hinaus gibt es bei der Übersetzung von drei verschiedenen Texten aus dem Ukrainischen ins Deutsche, Französische und Polnische viele absurde Verzerrungen, die nicht ins Englische übersetzt werden. In Kombination mit Ukrainisch ist etwa ein Drittel der Namen verzerrt, obwohl die genaue Übertragung von Namen eine traditionelle Google-Funktion aus "seit undenklichen Zeiten" ist. Beispiele: Bloodd anstelle von Bloodood, Daphne du Morley anstelle von Daphne de Maurier, Racine anstelle von Rachel; an anderer Stelle wurde Rachel nur auf Englisch richtig geschrieben, aber Racch erschien auf Deutsch, Französisch und Polnisch. Ich schlug vor, dass solche Verzerrungen kein Glossarfehler sind, sondern ein „situativer“ Systemfehler, und in einem anderen Text kann der gleiche Name korrekt übertragen werden. Die Hypothese wurde bestätigt, außer im Fall von Daphne du "Morley".
Der neuronale Übersetzer arbeitet nicht mit Bedeutungen
Der statistische Übersetzer arbeitete gut mit der Erkennung von Begriffen, Namen, Phrasen und wählte häufig erfolgreich die Bedeutung von Wörtern im Kontext eines Satzes. Probleme begannen, als es nicht möglich war, die Beziehung zwischen Wörtern und ihre grammatikalische Rolle richtig zu interpretieren. In den Übersetzungen von 2017 ist eine signifikante Verbesserung in dieser Richtung erkennbar, d. H. Nicht erkannte Orte sind weniger geworden. Ist das eine angemessene Übersetzung? Nicht wirklich. Der neuronale Übersetzer ist an die Struktur des Satzes gebunden. Es macht einen guten Job, Sprachkonstrukte von Sprache zu Sprache zu transformieren. Der Dienst hat nicht die Bedeutung eines Satzes oder Absatzes, sondern kleinerer Segmente (deren Definition viel besser wurde) und „klebt“ Teile gemäß den Grammatikregeln der Zielsprache.
Solche Produkte sind immer noch eine Hilfe zum Verständnis des Originals, aber kein qualitativ hochwertiger Text (obwohl einige der Sätze perfekt übersetzt werden können).
Was fehlt?
Professionelle Übersetzer lernen, Bedeutung in eigenen Worten zu vermitteln, ohne an die Struktur des Ausgangssatzes gebunden zu sein. Eine angemessene Übersetzung sollte von der Wort-für-Wort- und Phrasenübertragung bis hin zu semantischen Transformationen reichen.
Wie viele Zwischenphasen von der gegenwärtigen Entwicklungsstufe der maschinellen Übersetzung bis zur literarischen Phase, die den Besitz von Stilnormen und die Übertragung von Bildern impliziert? So viel wie vor der Schaffung künstlicher Intelligenz, die in der Lage ist zu argumentieren.
Manchmal scheint es mir, dass sich Sprachnormen früher ändern werden. Aufgrund der Tatsache, dass wir viele "Unterübersetzungen" aus dem Englischen lesen, kann unsere Muttersprache gegenüber Englischismen toleranter werden - nicht nur gegenüber einzelnen Phrasen, sondern auch gegenüber der Fremdstruktur von Phrasen. Die Sprachen, die auf der Grundlage der Sprache des Kolonialisten und der Sprache der lokalen Bevölkerung gebildet werden, werden Pidjins genannt. Sie nehmen dem Kolonisator Neologismen ab; Grammatik verlassen ihre eigenen. Ein anschauliches Beispiel: eine Rede unserer ehemaligen Mitbürger am Brighton Beach (und an anderen Wohnorten im Ausland) oder ein Büro-Ruglish: Russische Endungen „hängen“ an englischen Wörtern. Validieren, anhängen, teilen usw.
Was bei der maschinellen Übersetzung passiert, ist das Gegenteil: Russische Wörter mit russischen Endungen bilden etwas umständliche, aber verständliche Sätze. Das sagen wir nicht. Aber du kannst verstehen. Es ist wie die Rede eines Ausländers, der gut Russisch spricht: Es scheint keinen Akzent zu geben, und der Wortschatz ist schick, und die Wortformen sind korrekt, aber manchmal müssen wir „eine Dusche nehmen“, „Ich nehme ein Taxi“, „um dieses Prinzip einzuhalten, eine neue Überzeugungsmethode ausprobieren ". Dieses Niveau ist immer noch die Grenze für den neuronalen Übersetzer. Unnötig zu sagen, dass dies eine sehr hohe Messlatte ist? Darüber hinaus "besitzt" der Dienst auf dieser Ebene mehr als hundert Sprachen und fügt relativ leicht neue hinzu. « ».
, , .
No one reflecting on their life has ever wished there had been fewer such moments.
Google: , , , .
Human: , , .
Is civilization just a veneer over a violent core?
Google: ?
Human: ? // – ?
Referenzen
1.
Google Translate, 20122.
: 7 -, 20123.
Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation, 20164.
Google's Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation, 20165.
A Neural Network for Machine Translation, at Production Scale, 20166.
Google Puts Its Virtual Brain Technology to Work, 20127.
Google Translate , 20168.
(), 20179. Neuronale Netzwerkarchitekturen [über das GNMT-Framework], 2017