Traduction automatique de neurones de Google

Le rapport a été rédigé en décembre 2017.
Ce n'est pas qui a le meilleur algorithme qui gagne. C'est qui a le plus de données. Le gagnant n'est pas celui qui a le meilleur algorithme, mais celui qui a le plus de données. Andrew Ng, maître de conférences en apprentissage automatique à Coursera.
Si vous augmentez à la fois la taille du modèle et la quantité de données avec lesquelles vous l'entraînez, vous pouvez apprendre des distinctions plus fines ou des fonctionnalités plus complexes. ... Ces modèles peuvent généralement prendre beaucoup plus de contexte. Jeff Dean, un ingénieur aidant à diriger la recherche chez Google. Si vous augmentez la taille du modèle et lui donnez plus de données pour la formation, il commencera à distinguer les fonctionnalités plus subtiles et complexes. ... Ces modèles prennent généralement un contexte plus large. Jeff Dean, ingénieur aidant à la gestion de la recherche chez Google.
J'ai testé Google Translate sur les mêmes textes en mars et décembre 2011, janvier 2016 et décembre 2017. Elle a pris les mêmes passages en anglais, russe, allemand, français, ukrainien et polonais et les a traduits chacun dans les cinq autres langues de l'échantillon. En outre, en décembre 2017, elle a également pris de nouveaux textes et testé dans toutes les directions de la traduction. Les résultats de la vérification croisée coïncident généralement avec les tendances de l'échantillon initial. Le résultat a été une tranche du travail du traducteur Google pour 2011-2017, et sur la base de ces documents, nous pouvons tirer des conclusions sur l'évolution du service et commenter les déclarations marketing de l'entreprise (les citations devraient être publiées séparément).

Chronique des événements


Jusqu'en 2011 (et peut-être plus tard), Google a en fait affirmé que le traducteur statistique est auto-apprenant (voir les citations correspondantes des employés dans mon article «Compatibilité linguistique», [1]) et que, comme des textes parallèles s'accumulent dans chaque langue couple, la qualité des produits n'a cessé de s'efforcer au niveau humain uniquement grâce à une approche statistique innovante. En 2012, Google a lancé un réseau de neurones auto-apprenant [6] et en septembre 2016, ils ont annoncé le transfert de leur traducteur automatique vers le deep learning, qui promet à nouveau une augmentation régulière de la qualité des produits [3, 4, 5]. Depuis mars 2017, le réseau de neurones a commencé à être utilisé pour la traduction en russe.

Voyons ce que le traducteur Google a spécifiquement géré au fil des ans, quelles sont ses forces (personne ne nie que c'est l'un des meilleurs traducteurs automatiques).

Rétrospective


Année 2011


(Basé sur mon article de 2012, [1].)

La traduction dans de nombreuses paires de langues passe par une traduction intermédiaire en anglais avec l'effet d'un «téléphone cassé»


Lors de la traduction dans ces directions, la langue anglaise agit comme un «intermédiaire»: le texte est d'abord traduit en anglais puis seulement dans la langue de traduction choisie. Une version anglaise déformée est traduite dans la langue cible, avec des fragments inexacts inévitables lors de la traduction automatique. Ainsi, une deuxième couche se superpose à la "déformation primaire". Par conséquent, le même texte est plus déformé lorsqu'il est traduit en allemand, en français et dans d'autres langues qu'en anglais.

Nous prenons la phrase anglaise reçue [traduction du russe] et traduisons le service en allemand et en français. Le résultat est 100% le même que celui donné dans les troisième et quatrième lignes de la traduction, prétendument du russe. Les erreurs dans les traductions allemandes et françaises sont en corrélation avec les inexactitudes et la structure de la phrase anglaise, mais pas de l'original russe.

Lorsque l'ordre des mots dans le texte anglais est perturbé, les formes des mots et leur séquence ne sont pas un indicateur fiable du rôle de ces mots dans la phrase [avec une traduction supplémentaire dans les langues cibles].

La traduction statistique est optimale entre les langues apparentées


La traduction Google du russe vers l'ukrainien et vice versa est la plus «intuitive» correcte de toutes considérées, la plus proche du produit fini, elle a moins de distorsion du sens ou des règles de la langue, moins de traduction littérale.

La "conversion" correcte des constructions grammaticales d'une langue au moyen d'une autre est la limite de la traduction automatique statistique. Cette restriction n'est pas éliminée même sur la base des langues apparentées et crée plus de «bruit» d'interprétation, moins la similitude grammaticale des langues dans une paire.

Google peut continuer d'analyser des documents Web, de remplir la base de données de correspondance, mais ils n'amélioreront pas la traduction uniquement en «optimisant les résultats de la recherche». Vous ne pouvez pas créer une base de données de traduction pour toutes les phrases possibles. Cela signifie qu'un certain pourcentage significatif de phrases, d'expressions, la machine doit être composée de manière indépendante et non préparée, ce qui signifie que le développeur doit enseigner la grammaire de la machine par d'autres moyens "non statistiques".

L'anglais est la langue principale de Google Translate


La traduction de l'anglais vers l'anglais dans Google Translate est directe, sans la médiation d'une autre langue. Cela fournit une bonne qualité, dans laquelle les avantages du service sont particulièrement visibles: souvent la traduction correcte des noms et des termes, les unités phraséologiques, l'utilisation de la parole en direct contrairement à la traduction littérale, souvent le bon choix de sens lexical selon le contexte.

Traduit dans d'autres domaines linguistiques, "l'anglais-centricité" est le plus gros inconvénient du travail de Google Translate. La traduction en non-anglais ou en non-anglais n'est pas encore la plus réussie: le texte subit une double distorsion du fait que l'original n'est pas traduit directement dans la langue cible, mais d'une traduction «intermédiaire» rompue en anglais. L'une des options pour améliorer la qualité de la traduction dans le service peut être de «décharger» l'anglais et de créer des «nids» autour d'autres langues clés: l'une des langues slaves, turques, romanes, etc.

Une amélioration significative de la qualité des traductions ne se produit pas au fil du temps


Les traductions du même texte à différents moments (mars, octobre, décembre 2011) ont démontré la régularité du développement de la traduction statistique de Google. Dans les traductions ultérieures, le vocabulaire était sensiblement plus varié, mais en général, en termes d'exactitude et de clarté, il n'était pas beaucoup mieux, voire pire par endroits.

Année 2016


Google supprime les répétitions de la traduction; phrase mieux construite et cohérente, parfois un meilleur choix de mots; parfois revenir à une traduction moins réussie («outil de pierre» au lieu de «outil de pierre» en 2011); parfois une interprétation moins réussie du rôle du membre de la peine est parfois plus. Total: dans certains endroits, c'est mieux, dans certains endroits pire que les traductions de 2011, mais en général le niveau et le plafond sont les mêmes.

Année 2017


L'anglais comme langue intermédiaire conserve son rôle, mais perd du terrain


Il y a plus de variations, d'écarts par rapport à la traduction intermédiaire anglaise. Souvent, ces expériences échouent, c'est-à-dire que si la traduction dans la langue cible suivait toujours aveuglément l'anglais, le résultat serait meilleur. Cependant, la «maîtrise» de la grammaire de la langue cible s'est améliorée en parallèle: si le texte de la version anglaise est correctement décodé, alors vous pouvez être sûr à 90% que les terminaisons correctes seront inscrites dans les traductions dans d'autres langues, les outils lexicaux appropriés seront sélectionnés et l'ordre optimal des mots sera construit. Si en anglais «porridge» ... Non, la bouillie dans les résultats de 2017 n'est plus là et c'est une belle réussite. S'il y a un léger problème dans la traduction anglaise, puis dans la traduction dans les langues cibles, selon la loi d'un téléphone cassé, le malentendu s'intensifie. Cependant, la distorsion (choix incorrect des mots) dans les langues cibles se retrouve également dans une traduction anglaise parfaite.

Par rapport aux traductions de 2011 à 2016, la nature des écarts par rapport à la traduction anglaise en 2017 est telle qu'il semble que 1) ils ont foiré le «randomiseur», 2) le traducteur traite le texte en plusieurs étapes et peut déformer des pièces individuelles dans le processus ou, au contraire, les affiner valeur selon la source, pas l'intermédiaire anglais.

Néanmoins, la structure des phrases et le choix du vocabulaire dans les langues cibles sont encore largement déterminés par la traduction anglaise, et les traductions dans les langues utilisant l'alphabet latin contiennent parfois des pièces en anglais qui n'étaient pas dans l'original.

La tendance à générer du texte dans la langue cible conformément aux lois de sa grammaire
La corrélation entre les traductions d'un texte dans différentes langues est moindre qu'auparavant. Le service ne traduit pas mot pour mot, le résultat est devenu plus libre: reformulation adéquate, réarrangement des mots, réarrangement des mots du début à la fin de la phrase, si les règles linguistiques l'exigent (en allemand, cela est parfaitement mis en œuvre). Contrairement au niveau précédent (traduction basée sur des phrases - correspondance unique de mots et de phrases individuels), le traducteur neuronal transforme dans une certaine mesure les phrases, les analyse dans leur ensemble et établit la correspondance «de bout en bout» en plusieurs étapes (fin- mappage de bout en bout - conversion de bout en bout, cycle complet, transformation continue d'une variété de données d'entrée en sortie).

Analyse plus précise de la structure des phrases et des mots


La principale réalisation des résultats de traduction de 2017 est une reconnaissance plus solide et plus sûre de la structure des phrases et la transmission des significations grammaticales dans les langues cibles. En anglais, les terminaisons ne jouent pas un rôle aussi important dans la transmission des significations grammaticales qu'en russe, allemand, polonais et ukrainien. Néanmoins, lors du «balayage» à travers le réseau neuronal, les connexions grammaticales ont commencé à «se perdre» moins souvent que lors de la traduction statistique. Les mots multi-racines rarement utilisés ont également commencé à être reconnus: le traducteur gère bien la division non seulement des phrases, mais aussi des mots.
Cependant, la «compétence» de l'analyse dépend largement de la langue. Il est mieux et plus systématiquement mis en œuvre en allemand et en polonais qu'en russe (mais pas mal non plus). Dans les traductions de l'ukrainien, ça marche parfois, puis c'est franchement buggé (dans de tels fragments le niveau est pire que dans les traductions des années précédentes).

La qualité de la traduction a considérablement augmenté au cours de la dernière année


En 2011-2016, les traductions de phrases complexes en anglais ne contenaient qu'un semblant de connectivité: les mots et les phrases traduits étaient enchaînés dans un ordre légèrement ajusté, mais il n'y avait pas de «compréhension approfondie» de la structure, et parfois la traduction semblait fluide uniquement parce qu'en anglais, ce n'était souvent pas le cas. des terminaisons sont nécessaires et l'absence de mots de service dans certains styles est autorisée. Mais ce "malentendu" s'est toujours manifesté dans d'autres traductions dans les langues cibles. Dans les traductions de décembre 2017, la structure de la phrase anglaise est mieux alignée - et mieux interprétée dans d'autres langues. La qualité dans ces langues s'est améliorée proportionnellement: légèrement inférieure à l'anglais, mais beaucoup plus élevée que le précédent plus, il y a des omissions et des écarts sporadiques par rapport à l'anglais (dans la plupart des cas infructueux).

Certaines positions sur la précision lexicale sont perdues par rapport aux traductions de 2011 et 2016, mais la clarté générale du texte final est plus importante que le fait que le traducteur affiche une connaissance des termes et expressions individuels. En 2011, sur fond d'autres traducteurs automatiques, un travail de qualité avec vocabulaire et phraséologie a été une réussite. Seuls les meilleurs ont réussi à trouver de telles correspondances exactes de phrases stables, de noms propres et de termes. Cependant, les correspondances individuelles avec incohérence générale n'étaient pas suffisantes. Il fallait resserrer la «connaissance de la grammaire». Au cours des cinq années «d'autoformation» du traducteur statistique (de 2011 à 2016), il n'y a pas eu d'augmentation de la connectivité. Un saut qualitatif s'est produit après l'intégration avec le réseau neuronal (ou coïncidé). Maintenant, sur les échantillons que j'ai pris le 3 décembre 2017, je peux confirmer que la super-tâche est devenue plus réalisable: un "ordinateur" (plutôt un immense réseau informatique) peut reconnaître du texte sans l'orthographe laborieuse des règles manuellement. (Mais parfois il se trompe. Par conséquent, il vaut mieux lui donner des textes plus simplement, sans phrases ornées de cinq lignes.)

Si en 2011 et 2016 la part des «endroits sombres» (ensemble incohérent de mots) dans les échantillons de traduction dans toutes les langues que j'ai prélevés était de 1 2 fragments par texte d'une longueur de 65 à 90 mots, alors en 2017 il n'y avait pas de «endroits sombres». (Je n'ai pas pris de jeux de mots et d'autres expressions abstruses pour la traduction, mais des textes simples. Une traduction incorrecte et même comique de mots et de phrases individuels a toujours lieu, mais elle ne conduit pas à la création de «lieux sombres».) En lisant la traduction, vous comprenez ce que discours, même s'il est maladroit. De plus, la qualité de la traduction en anglais est plus élevée que dans les autres langues cibles.

Si en 2011 la principale caractéristique du traducteur Google était de trouver des correspondances idéales dans ce contexte entre les langues (niveau lexical, phrasal), puis en 2017, ayant un peu perdu en précision lexicale, le traducteur a pris de l'ampleur dans l'analyse des phrases et le transfert des relations grammaticales.

En 2011, le service a parfois perçu des morceaux d'une phrase complexe comme isolés et a simplement enchaîné leur traduction les uns après les autres dans une chaîne. En 2017, après avoir résolu ce problème, il isole également mieux les pièces véritablement étrangères afin qu'elles ne créent pas de «bruit». Ce sont des taches de mots dans une autre langue et des fautes de frappe. Cela rapproche la machine du niveau d'une personne: si nous n'entendons pas quelques mots dans la phrase, cela ne nous empêche généralement pas de saisir le sens général.

La traduction en ukrainien a été «déliée» de la langue intermédiaire russe


Auparavant (jusqu'à l'avant-dernière «mesure» en janvier 2016), les traductions en ukrainien et en russe coïncidaient de 99,9%, et même si cela réduisait la qualité de la traduction en ukrainien, cela ne le faisait pas de manière significative, malgré le fait que la traduction a d'abord été séparée de l'original par L'anglais, puis le russe («troisième eau sur la gelée»).

Maintenant, il y a une dispersion entre les traductions d'un texte en russe et en ukrainien. Au lieu de suivre aveuglément la traduction russe, l'ukrainien suit désormais sa propre voie. Parfois, cela signifie qu'il contient simplement des traductions et des formes de mots plus incorrectes. Parfois - qu'il n'y a aucune erreur là où il est en russe.

Auparavant, une traduction incorrecte, s'il y en avait, puis immédiatement dans toutes les langues: au même endroit la même erreur. Cela était dû à un «accroc» dans la traduction anglaise. Maintenant, les erreurs apparaissent sporadiquement: soit dans une langue, puis dans une autre, quand tout va bien en anglais et dans les autres langues cibles. En ukrainien, cela se produit beaucoup plus souvent que dans d'autres langues de l'échantillon. De plus, dans la traduction de trois textes différents de l'ukrainien en allemand, français et polonais, il existe de nombreuses distorsions absurdes qui ne sont pas traduites en anglais. En outre, associé à l'ukrainien, environ un tiers des noms sont déformés, bien que le transfert exact des noms soit une fonctionnalité traditionnelle de Google depuis "des temps immémoriaux". Exemples: Bloodd au lieu de Bloodood, Daphne du Morley au lieu de Daphne de Maurier, Racine au lieu de Rachel; ailleurs, Rachel n'était orthographiée correctement qu'en anglais, mais Racch apparaissait en allemand, français et polonais). J'ai suggéré que de telles distorsions ne sont pas une erreur de glossaire, mais une défaillance du système «situationnelle», et dans un autre texte, le même nom peut être transféré correctement. L'hypothèse a été confirmée, sauf dans le cas de Daphne du "Morley".

Le traducteur neuronal ne fonctionne pas avec des significations


Le traducteur statistique a bien travaillé avec la reconnaissance des termes, noms, phrases, souvent sélectionné avec succès la signification des mots dans le contexte de la phrase. Les problèmes ont commencé quand il n'était pas possible d'interpréter correctement la relation entre les mots, leur rôle grammatical. En 2017, une amélioration significative dans cette direction est notable, c'est-à-dire que les lieux non reconnus sont devenus moins nombreux. Est-ce une traduction adéquate? Pas vraiment. Le traducteur neuronal est lié à la structure de la phrase. Il fait un bon travail de transformation des constructions linguistiques d'une langue à l'autre. Le service prend le sens non pas d'une phrase ou d'un paragraphe, mais de segments plus petits (qu'il est devenu beaucoup mieux de définir) et de «colles» conformément aux règles de grammaire de la langue cible.

Ces produits sont toujours une aide pour comprendre l'original, mais pas un texte de haute qualité (bien que certaines phrases puissent être parfaitement traduites).

Qu'est-ce qui manque?


Les traducteurs professionnels apprennent à transmettre du sens dans leurs propres mots, sans être liés à la structure de la phrase source. Une traduction adéquate devrait s'efforcer de passer de la transmission mot à mot et par phrase aux transformations sémantiques.

Combien de phases intermédiaires du stade actuel de développement de la traduction automatique à la littérature, ce qui implique la possession de normes de style et le transfert d'images? Autant qu'avant la création d'une intelligence artificielle, capable de raisonner.
Parfois, il me semble que les normes linguistiques changeront plus tôt. En raison du fait que nous lisons beaucoup de "sous-traductions" de l'anglais, notre langue maternelle peut devenir plus tolérante aux anglicismes - non seulement aux phrases individuelles, mais aussi à la structure étrangère des phrases. Les langues qui se forment sur la base de la langue du colonialiste et de la langue de la population locale sont appelées pidjins. Ils prennent des néologismes du colonisateur; la grammaire laisse la sienne. Un exemple frappant: un discours de nos anciens concitoyens à Brighton Beach (et dans d'autres lieux de résidence à l'étranger) ou un bureau en langue roumaine: les terminaisons russes «s'attachent» aux mots anglais. Validez, ajoutez, partagez, etc.

Ce qui se passe dans la traduction automatique est le processus inverse: les mots russes avec des terminaisons russes forment des phrases un peu maladroites mais compréhensibles. Nous ne disons pas cela. Mais tu peux comprendre. C'est comme le discours d'un étranger qui parle bien le russe: il ne semble pas y avoir d'accent, et le vocabulaire est chic, et les formes des mots sont correctes, mais parfois «je prends une douche», «je prends un taxi», «honorer ce principe nous oblige à essayer une nouvelle méthode de persuasion ". Ce niveau reste la limite pour le traducteur neuronal. Inutile de dire que c'est une barre très haute? De plus, le service "possède" à ce niveau plus d'une centaine de langues et en ajoute relativement facilement de nouvelles. "Traducteur avec un accent anglais."

Ce qui manque exactement au niveau de la traduction littéraire


Pour clarifier ce que grondent les traducteurs, je vais en conclusion donner des exemples de traduction automatique et non automatique de l'anglais vers le russe.

Personne ne réfléchissant à sa vie n'a jamais souhaité qu'il y ait eu moins de tels moments.
Google: Personne ne réfléchissant à sa vie n'a jamais rêvé qu'il y avait moins de tels moments.
Humain: En regardant la vie passée, personne ne dira qu'il y a eu trop de tels moments.

La civilisation est-elle juste un placage sur un noyau violent?
Google: La civilisation est-elle juste un placage sur un noyau féroce?
Humain: l'homme est-il une bête cruelle sous une mince couche de civilisation? // Une personne sous une mince couche de civilisation est-elle une bête cruelle?

Les références


1. Compatibilité linguistique et autres limitations de la traduction statistique Google Translate, 2012
2. Du natif à l'étranger et vice versa: tester 7 traducteurs en ligne, 2012
3. Système de traduction automatique neuronal de Google: combler l'écart entre la traduction humaine et la traduction automatique, 2016
4. Système multilingue de traduction automatique de neurones de Google: activation de la traduction sans tir, 2016
5. Un réseau neuronal pour la traduction automatique, à l'échelle de la production, 2016
6. Google met sa technologie de cerveau virtuel au travail, 2012
7. Le réseau neuronal de Google Translate ne constituait qu'une seule base de significations humaines mots, 2016
8. Les limites de l'apprentissage en profondeur et l'avenir (traduction), 2017
9. Architectures de réseaux neuronaux [sur le cadre GNMT], 2017

Source: https://habr.com/ru/post/fr414343/


All Articles