Dies ist der letzte Bericht aus dem
sechsten Hyperbaton , den wir auf Habré veröffentlichen werden. Grigory Sapunov von Intento teilte einen Ansatz zur Bewertung der Qualität von Cloud-Maschinenübersetzungsdiensten und sprach über die Bewertungsergebnisse und die Hauptunterschiede zwischen den verfügbaren Diensten.
- Mein Name ist Grigory Sapunov. Ich werde Ihnen etwas über die Landschaft der maschinellen Cloud-Übersetzungsdienste erzählen. Wir messen diese Landschaft seit mehr als einem Jahr, sie ist sehr dynamisch und interessant.

Ich werde Ihnen sagen, was es ist, warum es nützlich ist, zu verstehen, was dort passiert, über erschwingliche Lösungen, die ziemlich zahlreich sind, über den Vergleich von Lagermodellen, vorgefertigten maschinellen Übersetzungsmodellen, über benutzerdefinierte Modelle, die im letzten Jahr aktiv erschienen sind, und ich werde meine Empfehlungen dazu geben Auswahl der Modelle.
Die maschinelle Übersetzung ist zu einem sehr nützlichen Werkzeug geworden, mit dem sich viele verschiedene Aufgaben automatisieren lassen. Es ersetzt eine Person nur in einigen Themenbereichen, kann aber zumindest die Kosten erheblich senken. Wenn Sie viele Produktbeschreibungen oder Bewertungen in einem großen Webdienst übersetzen müssen, ist die Person hier einfach nicht in der Lage, einen großen Datenfluss zu bewältigen, und die maschinelle Übersetzung ist wirklich gut. Und es gibt bereits viele vorgefertigte Lösungen auf dem Markt. Dies sind einige vorab trainierte Modelle, die häufig als Aktienmodelle bezeichnet werden, und Modelle mit Domänenanpassung, die sich in letzter Zeit stark entwickelt haben.
Gleichzeitig ist die Erstellung einer eigenen maschinellen Übersetzungslösung recht schwierig und teuer. Moderne maschinelle Übersetzungstechnologien, maschinelle Übersetzung neuronaler Netze, erfordern eine Menge Dinge, die sich im Inneren abheben müssen. Wir brauchen Talente, die dies tun, wir brauchen viele Daten, um es zu trainieren, und Zeit, um es zu tun. Darüber hinaus erfordert die maschinelle Übersetzung neuronaler Netze erheblich mehr Maschinenressourcen als frühere Versionen maschineller Übersetzungen wie SMT oder regelbasiert.
Gleichzeitig ist die maschinelle Übersetzung, die in der Cloud verfügbar ist, sehr unterschiedlich. Mit der richtigen Wahl der maschinellen Übersetzung können Sie Ihr Leben erheblich vereinfachen, Zeit und Geld sparen und letztendlich Ihr Problem lösen oder es nicht lösen. Die Streuung der Qualität in von uns gemessenen referenzbasierten Metriken kann viermal betragen.

Gleichzeitig kann der Spread zu Preisen in der Regel das 200-fache betragen. Dies ist eine völlig abnormale Situation. Dienstleistungen von mehr oder weniger gleicher Qualität können sich 200-mal unterscheiden. Dies ist eine einfache Möglichkeit, zusätzliches Geld zu sparen oder auszugeben.
Gleichzeitig unterscheiden sich die Dienstleistungen erheblich in den Produkteigenschaften. Dies kann die Unterstützung von Formaten, die Unterstützung von Dateien, das Vorhandensein eines Stapelmodus oder dessen Fehlen sein. Dies ist die maximale Textmenge, die ein Dienst gleichzeitig übersetzen kann, und vieles mehr. Und all dies muss bei der Auswahl eines Dienstes verstanden werden. Wenn Sie den falschen Service wählen, müssen Sie ihn entweder wiederholen oder Sie erhalten nicht die Qualität, die Sie erhalten möchten. Infolgedessen läuft es darauf hinaus, dass Sie etwas schneller auf den Markt bringen, Geld sparen und die beste Qualität für Ihr Produkt liefern. Oder nicht zur Verfügung stellen.

Vergleichen Sie diese Dienste, um zu verstehen, was für Sie richtig ist, lang und teuer. Wenn Sie dies selbst tun, müssen Sie sich in alle Cloud-Übersetzungsdienste integrieren, diese Integrationen schreiben, Vereinbarungen treffen, zunächst eine separate Abrechnung vereinbaren und sich in alle integrieren. Führen Sie dann alle diese Dienste durch, um einige Ihrer Daten auszuwerten. Es ist unerschwinglich teuer. Das Budget eines solchen Projekts kann das Budget des Hauptprojekts überschreiten, für das Sie dies tun.
Das ist also ein wichtiges Thema, aber es ist schwierig, es alleine zu machen, und wir an diesem Ort helfen uns zu verstehen, was was ist.

Es gibt eine Reihe von Technologien auf dem Markt. Fast alle Dienste wurden auf maschinelle Übersetzung neuronaler Netze oder eine Art Hybrid umgestellt. Es gibt immer noch eine Reihe statistischer maschineller Übersetzer auf dem Markt.

Jeder hat seine eigenen Eigenschaften. BDCs scheinen modernere gute Technologie zu sein, aber es gibt auch Feinheiten.
Im Allgemeinen funktioniert die maschinelle Übersetzung neuronaler Netze besser als frühere Modelle, aber Sie müssen sie auch befolgen, da es völlig unerwartete Ergebnisse gibt. Als echter Yoda kann er schweigen, eine leere Antwort auf eine Zeile geben, und Sie müssen in der Lage sein, sie zu erfassen und zu verstehen, dass er sich in Ihren Daten so verhält. Oder ein wunderbares Beispiel aus dem E-Commerce, als eine große Beschreibung der Waren an die maschinelle Übersetzung gesendet wurde und er einfach sagte, es sei ein Rucksack und das war's. Und es war das stabile Verhalten dieses Maschinenservices, das gut ist und gut mit allgemeinen Daten und Nachrichtendaten funktioniert. Aber E-Commerce funktioniert in diesem speziellen Bereich nicht gut. Und Sie müssen dies verstehen. Sie müssen alle diese Dienste für Ihre Daten ausführen, um den für Ihre Daten am besten geeigneten auszuwählen. Dies ist kein Dienst, der in den Nachrichten oder etwas anderem besser funktioniert. Dies ist diejenige, die in Ihrem speziellen Fall besser funktionieren sollte. Dies muss in jedem Fall verstanden werden.

Es gibt viele Anpassungsstufen. Nullpegel - seine Abwesenheit. Es gibt vorab geschulte Bestandsmodelle. Dies sind alles Modelle, die jetzt bei verschiedenen Anbietern in der Cloud bereitgestellt werden. Es gibt eine Option mit vollständig angepassten Modellen für Ihre Fälle. Wenn Sie unter bestimmten Bedingungen eine Bestellung bei einem Unternehmen aufgeben, das sich mit maschineller Übersetzung befasst, wird das Modell anhand Ihrer Daten von Grund auf für Sie trainiert. Aber es dauert lange, teuer, erfordert große Gehäuse. Es gibt einen großen Anbieter, der Ihnen 5.000 US-Dollar für ein solches Experiment abnehmen wird, Zahlen dieser Bestellung. Dinge, deren Versuch teuer ist. Und das garantiert Ihnen nichts. Sie können das Modell trainieren, und es wird sich als schlechter herausstellen als das auf dem Markt erhältliche, und das Geld wird weggeworfen. Dies sind zwei extreme Optionen. Entweder das Lagermodell oder auf Ihren Fall zugeschnitten.
Es gibt Zwischenfälle. Es gibt Glossare, eine sehr gute Sache, die dazu beiträgt, aktuelle maschinelle Übersetzungsmodelle zu verbessern. Und es gibt eine Domänenanpassung, die sich jetzt aktiv entwickelt, eine Art Transferlernen, alles, was sich hinter diesen Wörtern verbirgt, wodurch Sie ein allgemeines Modell oder sogar ein spezielles Modell trainieren können, um Ihre Daten neu zu trainieren, und die Qualität eines solchen Modells ist besser als nur ein allgemeines Modell. Dies ist eine gute Technologie, sie funktioniert, sie befindet sich derzeit in der aktiven Entwicklung. Folge ihr, ich erzähle dir mehr über sie.

Es gibt noch eine weitere wichtige Dimension, um zu Hause zu erhöhen oder die Cloud zu nutzen. An diesem Ort gibt es ein weit verbreitetes Missverständnis. Die Leute glauben immer noch, dass die maschinellen Cloud-Übersetzungsdienste, wenn Sie sie verwenden, Ihre Daten nehmen und ihre Modelle darauf trainieren. Dies gilt nicht für die letzten ein oder zwei Jahre. Alle wichtigen Dienste lehnten dies ab. Sie gaben in Bezug auf den Service deutlich an, dass wir Ihre Daten nicht zum Trainieren unserer Modelle verwenden. Es ist wichtig. Dies beseitigt eine Reihe von Hindernissen für die Anpassung der Cloud-Maschinenübersetzung. Jetzt können Sie diese Dienste sicher nutzen und sicherstellen, dass der Dienst Ihre Daten nicht zum Trainieren seiner Modelle verwendet und im Laufe der Zeit nicht zu einem Konkurrenten für Sie wird. Es ist sicher.
Dies ist der erste Vorteil von Wolken im Vergleich zu vor zwei Jahren.
Der zweite Vorteil, wenn Sie eine Übersetzung eines neuronalen Netzwerks in sich selbst bereitstellen, müssen Sie eine ziemlich schwere Infrastruktur mit Grafikbeschleunigern aufbauen, um alle diese neuronalen Netzwerke zu trainieren. Und selbst nach dem Inferenztraining müssen Sie noch Hochleistungsgrafikkarten verwenden, damit dies funktioniert. Es stellt sich als teuer heraus. Die Betriebskosten einer solchen Lösung sind sehr hoch. Und ein Unternehmen, das API nicht professionell auf den Markt bringen wird, muss dies nicht tun. Sie müssen einen vorgefertigten Cloud-Service nutzen. An diesem Ort sparen Sie Geld, Zeit und es gibt eine Garantie dafür, dass Ihre Daten nicht für die Bedürfnisse des Dienstes verwendet werden.
Über den Vergleich.

Wir beschäftigen uns schon lange mit diesem Thema, wir messen seit anderthalb Jahren regelmäßig die Qualität. Wir haben automatische Referenzmetriken gewählt, die es ermöglichen, dies auf massive Weise zu tun und bestimmte Konfidenzintervalle zu erhalten. Wir wissen mehr oder weniger, wie viele Datenqualitätsmetriken sich einstellen, und wir können eine angemessene Wahl zwischen verschiedenen Diensten treffen. Wir müssen uns jedoch daran erinnern, dass sich automatische und menschliche Metriken ergänzen. Automatische Metriken eignen sich gut für die Durchführung einer vorläufigen Analyse, für die Auswahl von Orten, auf die besonders geachtet werden sollte. Dann sollten Linguisten oder Domain-Experten diese Übersetzungsoptionen prüfen und auswählen, was zu Ihnen passt.

Ich erzähle Ihnen, welche Systeme auf dem Markt sind, wie wir sie alle analysiert haben, wie sie zu Preisen verglichen werden, und ich erzähle Ihnen von unseren Analyseergebnissen, was hier für die Qualität wichtig ist und was außerhalb der Qualität bei der Auswahl eines Dienstes wichtig ist.

Erstens gibt es bereits eine große Anzahl von Cloud-basierten maschinellen Übersetzungsdiensten. Wir haben nur diejenigen berücksichtigt, in denen es vorgefertigte Modelle gibt, die Sie verwenden können, und sie verfügen über eine öffentliche API.
Es gibt immer noch eine Reihe von Diensten, die keine öffentliche API haben oder intern bereitgestellt werden. Wir berücksichtigen sie in unserer Studie nicht. Aber auch unter diesen Diensten gibt es bereits eine große Anzahl von ihnen. Wir messen und bewerten 19 dieser Dienste. Die Praxis zeigt, dass die durchschnittliche Person mehrere Marktführer kennt, aber nichts über den Rest weiß. Und sie sind es und an einigen Stellen sind sie gut.

Wir haben die Popularität von Sprachen im Web genommen und sie in vier Gruppen unterteilt. Die beliebtesten, mehr als 2% der Websites, weniger beliebt und noch weniger. Es gibt vier Gruppen von Sprachen, für die wir weiter analysieren, und von all dem konzentrieren wir uns auf die erste Gruppe, die beliebtesten Sprachen, und ein wenig auf die zweite.

Die Unterstützung innerhalb der ersten drei Gruppen beträgt fast 100%. Wenn Sie eine Sprache benötigen, die nicht super exotisch ist, erhalten Sie sie aus der Cloud. Und wenn Sie ein exotisches Paar brauchen, kann sich herausstellen, dass einige der Sprachen von keinem maschinellen Cloud-Übersetzungsdienst unterstützt werden. Trotz aller Einschränkungen wird ungefähr die Hälfte aller möglichen Paare unterstützt. Das ist nicht schlecht.

Aus all dem haben wir 48 Paare getestet, die eine solche Matrix bildeten, hauptsächlich Englisch und alle Sprachen der ersten Gruppe, teilweise Sprachen innerhalb der ersten Gruppe und ein wenig Englisch und Sprachen der zweiten Gruppe ausgewählt. Dies deckt mehr oder weniger typische Nutzungsszenarien ab, aber viele andere interessante Dinge bleiben draußen. Wir haben diese Paare ausgewertet, gemessen und Ihnen gesagt, was dort passiert. Der vollständige Bericht ist hier, er ist kostenlos, wir aktualisieren ihn regelmäßig. Ich werde Sie dafür einsetzen, ihn zu verwenden.

Zahlen und Achsen sind in diesem Diagramm nicht sichtbar, es geht jedoch darum, verschiedene Sprachen mit verschiedenen maschinellen Übersetzungssystemen zu unterstützen. Es gibt verschiedene maschinelle Übersetzungssysteme entlang der X-Achse, entlang der Y-Achse in der logarithmischen Skala die Anzahl der unterstützten Paare im Allgemeinen und eindeutig. In diesem Bild ist Rot einzigartig, Blau ist alles. Wenn Sie eine sehr exotische Kombination von Sprachen haben, kann sich herausstellen, dass Sie aufgrund der Einzigartigkeit sieben verschiedene Anbieter verwenden müssen, da nur einer von ihnen das von Ihnen benötigte Paar unterstützt.

Um die Qualität zu beurteilen, haben wir Nachrichtengebäude und allgemeine Domänengebäude ausgewählt. Dies garantiert nicht, dass die Situation bei Ihren spezifischen Daten aus einem anderen Bereich dieselbe ist, höchstwahrscheinlich nicht dieselbe. Dies ist jedoch eine gute Demonstration, wie Sie sich einer solchen Studie im Allgemeinen nähern und wie Sie den richtigen Service auswählen, der zu Ihnen passt. Ich werde Ihnen das Beispiel von Nachrichtenbereichen zeigen. Es kann problemlos in jeden anderen Bereich von Ihnen übertragen werden.

Wir haben die hLEPOR-Metrik gewählt, sie entspricht in etwa der von BLEU, vermittelt jedoch in unserem intuitiven Sinne einen besseren Eindruck davon, wie die Services zueinander in Beziehung stehen. Betrachten Sie der Einfachheit halber, dass eine Metrik von 0 bis 1, 1 eine vollständige Entsprechung zu einer bestimmten Referenzübersetzung ist, 0 eine vollständige Diskrepanz ist. hLEPOR vermittelt ein intuitives Gefühl, was einen Unterschied von 10 Einheiten gegenüber BLEU bedeutet. Sie können die Metrik separat lesen, alles ist in der Forschungsmethodik beschrieben. Dies ist eine normale Metrik, eine Proxy-Metrik, die nicht perfekt ist, aber die Essenz gut vermittelt.

Der Preisunterschied ist enorm. Wir haben eine Matrix zusammengestellt, für die Sie eine Übersetzung von 1 Million Zeichen erhalten können. Sie können herunterladen und sehen, der Unterschied ist enorm, von 5 bis 1.000 US-Dollar pro Million Zeichen. Die Wahl des falschen Dienstes erhöht einfach Ihre Kosten enorm, oder die Wahl des richtigen Dienstes kann Ihnen dabei helfen, an diesem Ort viel zu sparen. Der Markt ist undurchsichtig, Sie müssen verstehen, was wert ist und wo welche Qualität ist. Denken Sie an diese Matrix. Es ist schwierig, alle Dienstleistungen zu vergleichen, für den Preis sind die Preise oft nicht sehr transparent, die Politik ist nicht sehr klar, es gibt einige Noten. Es ist alles kompliziert, diese Tabelle hilft, eine Entscheidung zu treffen.

Wir haben die Ergebnisse unserer Analyse auf so lustige Bilder reduziert. Dieses Bild zeigt, welche maximal verfügbare Qualität für die von uns gemessenen Paare gilt, je grüner - je höher die verfügbare Qualität ist, wie die Konkurrenz bei diesen Paaren ist, gibt es wirklich etwas zur Auswahl, bedingt, irgendwo bieten dies etwa 8 Anbieter an Die günstigste Qualität, irgendwo nur 2, und es gibt auch ein Dollar-Symbol, es geht um den Preis, für den Sie die maximale Qualität erhalten. Die Verbreitung ist groß, irgendwo billig kann man eine akzeptable Qualität bekommen, irgendwo ist es nicht sehr akzeptabel und teuer, verschiedene Kombinationen sind möglich. Die Landschaft ist komplex, es gibt keinen Superplayer, der überall besser ist, billig, gut und so weiter. Überall gibt es eine Wahl, und überall muss es vernünftig gemacht werden.

Hier haben wir die besten Systeme für diese Sprachpaare gezeichnet. Es ist ersichtlich, dass es kein besseres System gibt, unterschiedliche Dienste sind für unterschiedliche Paare in diesem bestimmten Bereich besser - Nachrichten, in anderen Bereichen wird sich die Situation ändern. Irgendwo ist Google gut, irgendwo gut Deepl, es ist ein frischer europäischer Übersetzer, von dem nur wenige wissen, es ist ein kleines Unternehmen, das erfolgreich mit Google kämpft und es besiegt, wirklich gute Qualität. Yandex ist im russisch-englischen Paar durchweg gut. Amazon erschien vor kurzem, verband die russische Sprache und andere, und es ist auch nicht schlecht. Dies sind neue Änderungen. Vor einem Jahr gab es vieles nicht, es gab weniger Führer. Jetzt ist die Situation sehr dynamisch.

Es ist nicht immer wichtig, das beste System zu kennen. Oft ist es wichtig, das optimale System zu kennen. Wenn Sie sich die Top 5% der Systeme für diese Qualität ansehen, dann sind die Top 5% die billigsten, was eine gute Qualität ergibt. An diesem Ort ist die Situation deutlich anders. Google verlässt diesen Vergleich, Microsoft steigt sehr stark an, es wird mehr Yandex, Amazon kriecht noch mehr heraus, es erscheinen mehr exotische Anbieter. Die Situation wird anders.

Wenn Sie sich alle Anbieter von maschineller Übersetzung horizontal ansehen - verschiedene Anbieter, vertikal -, wie oft sich der Anbieter in einem dieser Top befindet, dann sind früher oder später fast alle in den Top 5%. Die besten für einige bestimmte gemessene Paare sind 7 Anbieter, die optimalen sind auch 7. Dies bedeutet, dass Sie einen Anbieter benötigen, wenn Sie über eine Reihe von Sprachen verfügen, in die Sie übersetzen müssen, und die maximale oder optimale Qualität sicherstellen möchten Nicht genug, Sie müssen das Portfolio dieser Anbieter verbinden, und dann haben Sie maximale Qualität, maximale Geldeffizienz und so weiter. Es gibt keinen Spieler, der besser ist. Wenn Sie komplexe Aufgaben haben, viele verschiedene Paare benötigen, haben Sie eine direkte Möglichkeit, verschiedene Anbieter zu verwenden. Dies ist besser als die Verwendung eines.

Der Markt ist sehr dynamisch, die Anzahl der Angebote wächst rasant. Wir haben zu Beginn des 17. Jahres mit der Messung begonnen. Im Juli wurde ein neuer Benchmark veröffentlicht. Die Anzahl der verfügbaren Dienste wächst, einige von ihnen befinden sich noch in der Vorschau, sie haben keine öffentlichen Preise, sie befinden sich in einer Art Alpha oder Beta, die Sie verwenden können, aber die Bedingungen sind nicht sehr klar.

Qualität wächst langsamer, aber auch. Das Hauptinteresse tritt innerhalb bestimmter Sprachpaare auf.

Zum Beispiel ist die Situation innerhalb des englisch-russischen Sprachpaares sehr dynamisch. Yandex hat in den letzten sechs Monaten seine Qualität erheblich verbessert. Amazon erschien, es wird durch einen Punkt rechts dargestellt, es geht auch nicht weit hinter Yandex. Der GTCom-Anbieter hat gut gepumpt, was fast niemand weiß, er ist ein chinesischer Anbieter, er übersetzt gut vom Chinesischen ins Englische und Russische und Englisch - Russisch funktioniert auch gut.
Ein ähnliches Bild tritt mehr oder weniger in allen Sprachpaaren auf. Überall, wo sich etwas ändert, tauchen ständig neue Spieler auf, ihre Qualität ändert sich, Modelle werden umgeschult. Sie sehen, es gibt stabile Anbieter, deren Qualität sich nicht ändert. In diesem Fall sind stabile eher tot, weil es andere instabile gibt, deren Qualität sich mehr oder weniger verbessert. Das ist eine gute Geschichte, sie verbessern sich fast ständig.

Wenn Sie eine komplexere Metrik für die Preisqualität in Betracht ziehen, gibt es stabile Verbesserungen. Dies bedeutet, dass die Kosten für qualitativ hochwertige maschinelle Übersetzungen ständig sinken. Mit jedem Monat und jedem Jahr stehen Ihnen immer mehr hochwertige maschinelle Übersetzungen für weniger Geld zur Verfügung. Das ist gut.

Neben Preisen und Qualität gibt es eine Vielzahl von Themen, die auch bei der Auswahl eines bestimmten Anbieters wichtig sind. Dies sind alle Arten von Produktfunktionen, HTML-, XML-Unterstützung, Unterstützung für knifflige und nicht sehr formate Formate, Massenmodus, automatische Erkennung einer Sprache - ein beliebtes Thema, Unterstützung für Glossare, Anpassung, Servicezuverlässigkeit. Und auch das, was wir das Glück des Entwicklers nennen, können Sie dann lesen, was wir unter dem Link verstehen.

Dies soll eine Autokatastrophe verursachen. DX , , , HTTP, , API, , , . , API, . , , API , - . .
, . , , SDK, , , . . .
, , API NDA. . . , - .
, . , , , . - , , .
— , . , , .

- . , , . , - , Google, Microsoft, IBM, - , , , .

? , , , . — , . 10 . 1 . 2 . , 2 . . 50 .
hLEPOR, , , , , , . , . — . , . , , - , . , . , , , . .

, . Microsoft, 3 API. , , , Microsoft . . , , . , , 10 . Microsoft . , . , , .

IBM, , . , . 2% — .

Google AutoML , , 10 100 . .

, Microsoft, Google, - — , Deepl, Amazon, Google, Microsoft. , . ? , - , - . , Google Deepl, , , . Das ist interessant. , . .
, , , , . . , , . , , . . , . , .
?

. . , , .
, . , - . . , , , -. , , , . , , , - , , . — .
- , , . -, . , , . , , , . . — , , .

: , , , ,
? . , . , , , . , .
, , . API . , , . SDK NodeJS, .NET, CLI. , API, . . , , . , , , — .
web tools . , , , API. . , , .
, . -, , . Es ist nicht so. , . . , , , , . , , , , . Deepl? , Google .
, , , , . , , , , , . Vielen Dank.