fuzzywuzzy y "abuso invisible" entre humanos y robots de traducción

Principio del bien, el ser más amable y el fin, el derecho no respeta los límites de las cosas.


Probablemente, en todas las edades ha habido traductores literarios y librepensadores. Este último se sintió completamente autorizado para cambiar el texto, reeditarlo, descartar algunas piezas y agregar otras. Y los investigadores modernos se enfrentan a una pregunta típica: “¿Qué sucedió en detalle durante la transformación del original? ¿Qué se tacha, qué se guarda, qué se vuelve a hacer, qué se agrega?


Antes de leer los textos con todo cuidado, quería intentar entregárselos a los robots para su estudio preliminar. Teníamos pocas esperanzas para los robots, pero recibimos una ayuda sustancial de ellos. Acerca de cómo hicimos que Google Translate y Yandex.Translator compitieran trabajando en el texto griego de Invisible Battle, lea debajo del gato.


Material de trabajo


Abuso invisible ”: un tratado ascético, originalmente escrito en italiano, luego traducido al griego en el siglo XVIII, editado de acuerdo con la práctica ascética cristiana oriental, y luego traducido al ruso. Pero tampoco literalmente, sino con cambios significativos. Al describir los principios de su trabajo en la traducción al ruso, San Teófano el Recluso escribió:


No traduzco [este libro], pero uso libremente mi discurso ... agregando, disminuyendo y cambiando contra el original.

Una visión general de los cambios editoriales se encuentra en el trabajo del ep. Feoktista , pero quería obtener exactamente una diferencia detallada en todo el texto.


Método de correspondencia


Para esto, ambos textos (griego y ruso modernos) se dividieron en párrafos. Resultó aproximadamente 700 párrafos cada uno.


Tradujimos el texto griego al ruso dos veces, una vez usando Yandex.Translator, otra vez usando Google Translate. Simplemente crearon páginas grandes con texto completo y las abrieron a través de los bozales web correspondientes. Era casi imposible leer el texto traducido: aparentemente el original era demasiado complicado, pero se podía aprender algo de este horror. Las palabras clave en algún lugar deberían haber coincidido, los números también.


No había una variedad particular de herramientas para encontrar duplicados difusos, se aferraron fuzzywuzzy , que considera la distancia de Levenshtein . De las cuatro funciones: ratio , token_sort_ratio , token_sort_ratio , token_set_ratio : se seleccionó la última, no relacionada con el orden de las palabras o sus repeticiones. Y, como resultó más tarde, la elección fue correcta.


Para todos los pares de párrafos (ruso vs griego), se calcularon los grados de similitud del token_set_ratio traducción de Feofanov con Yandex y Google. Decidimos no confiar en ninguno de ellos individualmente, sino en su suma (a la canasta de doble moneda, y esto también resultó ser la decisión correcta), y luego los candidatos con grandes valores de esta suma miraron y comprobaron con sus ojos y bolígrafos, así como con sus vecinos parejas verificadas


Como resultado, durante varias horas de trabajo, fue posible comparar 2/3 párrafos, del resto solo las unidades se pueden comparar manualmente.


Métodos de verificación


Después del trabajo realizado y el resultado, fue interesante volver y mirar de nuevo qué funciones fuzzywuzzy y cuál de los traductores es el más adecuado para tal tarea.


El cálculo de partial_ratio demasiado tiempo (fue lento 120 horas para manejar su computadora en una fila), pero las tres funciones restantes se calcularon en aproximadamente una hora: ratio , token_sort_ratio y token_set_ratio para las traducciones de Yandex y Google. Un total de seis funciones de texto de proximidad y la séptima: nuestra "canasta de doble moneda".


Ahora puedes echar un vistazo a las siguientes tabletas. El primero responde a la pregunta: "Si para un párrafo ruso determinado buscamos el griego correspondiente, considerando los párrafos en orden descendente de similitud (calculado por esta función), entonces, ¿cuál es la probabilidad de que veamos el párrafo correcto mirando solo los primeros tres candidatos ?"


funcionprobabilidad de encontrar con tres intentos
google_set_ratio + yandex_set_ratio66,5%
google_ratio65,0%
google_set_ratio64,8%
yandex_ratio62,0%
google_sort_ratio61,8%
yandex_set_ratio56,2%
yandex_sort_ratio54,6%

Es decir, en aproximadamente 2/3 de los casos, casi inmediatamente nos topamos con el párrafo deseado. Y en el tercio restante de los casos, tienes que sufrir mucho. Así que eche un vistazo a la segunda placa, que responde a la pregunta: "¿Cuántos candidatos tendrán que mirar en promedio hasta que veamos el párrafo correcto?"


funcionnúmero promedio de intentos
google_set_ratio + yandex_set_ratio36,7
google_set_ratio37,6
yandex_set_ratio47,0
google_sort_ratio65,9
yandex_sort_ratio69,7
google_ratio71,7
yandex_ratio75,3

Ver 40 o más párrafos: esta es una tristeza triste, y el automóvil en este caso no parece una pista razonable. Como resultado, la estrategia óptima cuando se comparan textos es "descremar la crema" mirando solo a los candidatos más probables, y hacer el resto de la comparación en función de la estructura y algunos otros factores.


Alabado sea la propia intuición.


Fue sorprendente para nosotros que la "canasta de doble moneda" google_set_ratio + yandex_set_ratio tomada "desde el techo" funcionó mejor, incluso mejor que cada una de estas funciones individualmente. Además, los valores en ambas tablas muestran que, en todos los aspectos, Google Translate maneja esta tarea mejor que Yandex.Translator. Entonces los robots domésticos tienen espacio para crecer.


PD: No hay una sabiduría especial en los scripts utilizados, pero si alguien lo necesita, podemos publicarlo. El resultado de la comparación está aquí .


PPS Si está interesado, la imagen en el título es un fragmento de una página de " Primer of the Slavic-Greek-Latin " (1701) de Fyodor Polikarpov-Orlov.


PPPS ¿Tal vez hay una revista científica donde este texto, apropiadamente doblado, debería ofrecerse para publicación?

Source: https://habr.com/ru/post/es419367/


All Articles