
Probablement, à tous les âges, il y a eu des traducteurs littéraires et des libres penseurs. Ce dernier se sentait tout à fait en droit de changer le texte, de le rééditer, de jeter certains morceaux et d'en ajouter d'autres. Et les chercheurs modernes sont confrontés à une question typique: «Que s'est-il passé en détail lors de la transformation de l'original? Qu'est-ce qui est barré, qu'est-ce qui est sauvegardé, qu'est-ce qui est refait, qu'est-ce qui est ajouté? »
Avant de lire les textes avec le plus grand soin, j'ai voulu essayer de les remettre aux robots pour étude préalable. Nous avions peu d'espoir pour les robots, mais nous avons reçu une aide substantielle de leur part. À propos de la façon dont nous avons fait concurrencer Google Translate et Yandex.Translator en travaillant sur le texte grec d'Invisible Battle, lu sous le chat.
Matériel de travail
« Abus invisible » - un traité ascétique, écrit à l'origine en italien, puis traduit en grec au XVIIIe siècle, édité conformément à la pratique ascétique chrétienne orientale, puis traduit en russe. Mais aussi pas littéralement, mais avec des changements importants. Décrivant les principes de son travail de traduction en russe, Saint Théophane le Réclus a écrit:
Je ne traduis pas [ce livre], mais j'utilise librement mon discours ... en ajoutant et en diminuant et en changeant par rapport à l'original.
Un aperçu général des changements éditoriaux est dans le travail de l'ep. Feoktista , mais je voulais obtenir exactement un diff détaillé dans tout le texte.
Méthode d'appariement
Pour cela, les deux textes (grec moderne et russe) ont été divisés en paragraphes. Il s'est avéré environ 700 paragraphes chacun.
Nous avons traduit le texte grec en russe deux fois - une fois en utilisant Yandex.Translator, une autre fois en utilisant Google Translate. Ils ont simplement créé de grandes pages avec du texte intégral et les ont ouvertes via les museaux Web correspondants. Il était presque impossible de lire le texte traduit: apparemment l'original était trop compliqué, mais quelque chose pouvait être appris de cette horreur. Les mots-clés quelque part auraient dû coïncider, les chiffres aussi.
Il n'y avait pas de variété particulière d'outils pour trouver des doublons flous, ils ont saisi fuzzywuzzy
, qui considère la distance de Levenshtein . Des quatre fonctions: ratio
, partial_ratio
, token_sort_ratio
, token_set_ratio
- la dernière a été sélectionnée, sans rapport ni avec l'ordre des mots ni avec leurs répétitions. Et, comme il s'est avéré plus tard, le choix était bon.
Pour toutes les paires de paragraphes (russe vs grec), les degrés de similitude du token_set_ratio
traduction de Feofanov avec Yandex et Google ont été calculés. Nous avons décidé de ne pas compter sur l'un d'eux individuellement, mais sur leur somme (à la corbeille à deux devises - et cela s'est également avéré être la bonne décision), puis les candidats avec de grandes valeurs de cette somme ont regardé et vérifié avec leurs yeux et leurs stylos, ainsi que les voisins couples vérifiés.
En conséquence, sur plusieurs heures de travail, il a été possible de comparer 2/3 paragraphes, du reste, seules les unités peuvent être comparées manuellement.
Revérifier les méthodes
Après le travail effectué et le résultat obtenu, il était intéressant de revenir sur les fonctions fuzzywuzzy
et fuzzywuzzy
et sur les traducteurs les mieux adaptés à une telle tâche.
Le calcul de partial_ratio
trop de temps (il fallait 120 heures paresseux pour conduire votre ordinateur d'affilée), mais les trois fonctions restantes ont été calculées en environ une heure: ratio
, token_sort_ratio
et token_set_ratio
pour les traductions Yandex et Google. Un total de six fonctions de texte de proximité et la septième - notre "panier à deux devises".
Vous pouvez maintenant jeter un œil aux comprimés suivants. Le premier répond à la question: "Si pour un paragraphe russe donné nous recherchons le grec correspondant, en considérant les paragraphes par ordre décroissant de similitude (calculé par cette fonction), alors quelle est la probabilité que nous voyions le bon paragraphe en ne regardant que les trois premiers candidats ?"
fonction | probabilité de trouver avec trois tentatives |
---|
google_set_ratio + yandex_set_ratio | 66,5% |
google_ratio | 65,0% |
google_set_ratio | 64,8% |
yandex_ratio | 62,0% |
google_sort_ratio | 61,8% |
yandex_set_ratio | 56,2% |
yandex_sort_ratio | 54,6% |
Autrement dit, dans environ 2/3 des cas, nous tombons presque immédiatement sur le paragraphe souhaité. Et dans le tiers restant des cas, vous devez beaucoup souffrir. Jetez donc un œil à la deuxième plaque, qui répond à la question: «Combien de candidats devront regarder en moyenne jusqu'à ce que nous voyions le bon paragraphe?
fonction | nombre moyen de tentatives |
---|
google_set_ratio + yandex_set_ratio | 36,7 |
google_set_ratio | 37,6 |
yandex_set_ratio | 47,0 |
google_sort_ratio | 65,9 |
yandex_sort_ratio | 69,7 |
google_ratio | 71,7 |
yandex_ratio | 75,3 |
Afficher 40 paragraphes ou plus - c'est une triste tristesse, et la voiture dans ce cas ne ressemble pas à un indice raisonnable. Par conséquent, la stratégie optimale lors de la comparaison de textes consiste à «écrémer la crème» en ne regardant que les candidats les plus probables et à effectuer le reste de la comparaison en fonction de la structure et de certains autres facteurs.
Louange pour sa propre intuition
Il était surprenant pour nous que le «panier à deux devises» google_set_ratio + yandex_set_ratio
pris «du plafond» fonctionne mieux, encore mieux que chacune de ces fonctions individuellement. De plus, les valeurs des deux tableaux montrent qu'à tous égards, Google Translate gère mieux cette tâche que Yandex.Translator. Les robots domestiques ont donc de la place pour grandir.
PS Il n'y a pas de sagesse particulière dans les scripts utilisés, mais si quelqu'un en a besoin, nous pouvons le poster. Le résultat même de la comparaison est ici .
PPS Si vous êtes intéressé, l'image dans le titre est un fragment d'une page de «l' amorce du slave-grec-latin » de Fyodor Polikarpov-Orlov (1701).
PPPS Peut-être existe-t-il une revue scientifique où ce texte, convenablement doublé, devrait être proposé pour publication?