Este es el último informe del
sexto Hyperbaton , que publicaremos en Habré. Grigory Sapunov de Intento compartió un enfoque para evaluar la calidad de los servicios de traducción automática en la nube, habló sobre los resultados de la evaluación y las principales diferencias entre los servicios disponibles.
- Mi nombre es Grigory Sapunov, te contaré sobre el panorama de los servicios de traducción automática en la nube. Hemos estado midiendo este paisaje durante más de un año, es muy dinámico e interesante.

Te diré qué es, por qué es útil entender lo que está sucediendo allí, sobre soluciones asequibles, que son bastante numerosas, sobre la comparación de modelos de stock, modelos de traducción automática pre-entrenados, sobre modelos personalizados que comenzaron a aparecer activamente en el último año, y daré mis recomendaciones sobre selección de modelos.
La traducción automática se ha convertido en una herramienta muy útil que ayuda a automatizar muchas tareas diferentes. Reemplaza a una persona solo en algunos temas, pero al menos puede reducir en gran medida los costos. Si necesita traducir muchas descripciones de productos o reseñas en un gran servicio web, entonces la persona aquí simplemente no puede hacer frente a un gran flujo, y la traducción automática es realmente buena. Y ya hay muchas soluciones preparadas en el mercado. Estos son algunos modelos pre-entrenados, a menudo se los llama modelos de stock y modelos con adaptación de dominio, que se ha desarrollado fuertemente recientemente.
Al mismo tiempo, crear su propia solución de traducción automática es bastante difícil y costoso. Las modernas tecnologías de traducción automática, la traducción automática de redes neuronales, requieren muchas cosas para despegar en el interior. Necesitamos talentos que hagan esto, necesitamos muchos datos para entrenarlo y tiempo para hacerlo. Además, la traducción automática de redes neuronales requiere significativamente más recursos de máquina que las versiones anteriores de traducciones automáticas, como SMT o basadas en reglas.
Al mismo tiempo, la traducción automática, que está disponible en la nube, es muy diferente. Y la elección correcta de traducción automática le permite simplificar enormemente su vida, ahorrar tiempo, dinero y, en última instancia, resolver su problema o no resolverlo. La extensión en calidad, en métricas basadas en referencias que medimos, puede ser cuatro veces.

Al mismo tiempo, a precios, el diferencial puede ser generalmente 200 veces. Esta es una situación completamente anormal. Los servicios de más o menos la misma calidad pueden diferir 200 veces. Esta es una manera fácil de ahorrar o gastar dinero extra.
Al mismo tiempo, los servicios difieren significativamente en las características del producto. Esto puede ser soporte para formatos, soporte para archivos, la presencia de un modo por lotes o su ausencia, esta es la cantidad máxima de texto que un servicio puede traducir a la vez, y mucho más. Y todo esto debe entenderse al elegir un servicio. Si elige el servicio incorrecto, tendrá que rehacerlo o no obtendrá la calidad que desea recibir. Como resultado, se reduce al hecho de que trae algo al mercado más rápido, ahorra dinero y proporciona la mejor calidad para su producto. O no proporcionar.

Compare estos servicios para comprender lo que es adecuado para usted, largo y costoso. Si hace esto usted mismo, debe integrarse con todos los servicios de traducción automática en la nube, escribir estas integraciones, celebrar acuerdos, primero organizar la facturación por separado, integrarse con todos. Luego, revise todos estos servicios y evalúe algunos de sus datos. Es prohibitivamente caro. El presupuesto de dicho proyecto puede exceder el presupuesto del proyecto principal para el que está haciendo esto.
Este es un tema importante, pero es difícil hacerlo por nuestra cuenta, y en este lugar nos ayuda a entender qué es qué.

Existe una gama de tecnologías en el mercado. Casi todos los servicios cambiaron a traducción automática de redes neuronales o algún tipo de híbrido. Todavía hay una serie de traductores automáticos estadísticos en el mercado.

Cada uno tiene sus propias características. Los BDC parecen ser una buena tecnología más moderna, pero también hay sutilezas.
En general, la traducción automática de la red neuronal funciona mejor que los modelos anteriores, pero también debe seguirla, ya que hay resultados completamente inesperados. Como un verdadero Yoda, puede permanecer en silencio, dar una respuesta vacía a alguna línea, y debe ser capaz de captarla y comprender que se comporta así en sus datos. O un maravilloso ejemplo del comercio electrónico, cuando se envió una gran descripción de los productos a la traducción automática, y él simplemente dijo que era una mochila y eso es todo. Y fue el comportamiento estable de este servicio de máquina, que es bueno y funciona bien en datos generales, noticias. Pero el comercio electrónico no funciona bien en esta área en particular. Y debe comprender esto, debe ejecutar todos estos servicios en sus datos para elegir el que mejor se adapte a sus datos. Este no es un servicio que funcionará mejor en las noticias u otra cosa. Este es el que debería funcionar mejor en su caso particular. Esto debe entenderse en cada caso.

Hay muchos niveles de personalización. Nivel cero: su ausencia. Hay modelos de stock pre-entrenados, estos son todos los que se implementan en la nube ahora en diferentes proveedores. Hay una opción con modelos totalmente personalizados en sus casos, cuando usted, condicionalmente, hace un pedido en una empresa que se dedica a la traducción automática, entrena el modelo para usted, desde sus datos, desde cero. Pero lleva mucho tiempo, es costoso, requiere grandes recintos. Hay un gran proveedor que tomará $ 5,000 de usted para tal experimento, cifras de este pedido. Cosas que son caras de probar. Y esto no te garantiza nada. Puede entrenar al modelo, y resultará ser peor que el disponible en el mercado, y el dinero será desechado. Estas son dos opciones extremas. Ya sea el modelo de stock, o personalizado en su caso.
Hay casos intermedios. Hay glosarios, algo muy bueno que ayuda a mejorar los modelos actuales de traducción automática. Y hay una adaptación de dominio que ahora se está desarrollando activamente, una especie de transferencia de aprendizaje, todo lo que está oculto detrás de estas palabras, que le permite entrenar algún modelo general o incluso un modelo especial para volver a entrenar sus datos, y la calidad de dicho modelo será mejor que solo un modelo general. Esta es una buena tecnología, está funcionando, ahora está en desarrollo activo. Síguela, te contaré más sobre ella.

Hay otra dimensión importante, criar en casa o usar la nube. Hay un concepto erróneo popular en este lugar, la gente todavía piensa que los servicios de traducción automática en la nube, si los usa, tomarán sus datos y entrenarán sus modelos en ellos. Esto no es cierto durante el último año o dos. Todos los servicios principales rechazaron esto, declararon claramente en términos de servicio que no usamos sus datos para entrenar a nuestros modelos. Esto es importante Esto elimina un montón de barreras para adaptar la traducción automática en la nube. Ahora puede utilizar estos servicios de forma segura y asegurarse de que el servicio no utilizará sus datos para entrenar a sus modelos, y no se convertirá en un competidor para usted con el tiempo. Es seguro
Esta es la primera ventaja de las nubes en comparación con lo que era hace dos años.
La segunda ventaja, si implementa una traducción de red neuronal dentro de usted, necesita levantar una infraestructura bastante pesada con aceleradores gráficos para entrenar todas estas redes neuronales. E incluso después del entrenamiento para la inferencia, aún necesita usar tarjetas gráficas de alto rendimiento para que esto funcione. Resulta caro. El costo de propiedad de tal solución es realmente alto. Y una empresa que no va a proporcionar API profesionalmente al mercado no necesita hacer esto, debe tomar un servicio en la nube listo para usar y usarlo. En este lugar, ahorra dinero, tiempo y existe una garantía de no uso de sus datos para las necesidades del servicio.
Sobre la comparación.

Hemos estado lidiando con este tema durante mucho tiempo, hemos estado midiendo regularmente la calidad durante un año y medio. Elegimos métricas de referencia automáticas, permiten que se realice de manera masiva y obtienen ciertos intervalos de confianza. Sabemos más o menos cuánto se establecen las métricas de calidad de datos, y podemos hacer una elección adecuada entre los diferentes servicios. Pero debemos recordar que las métricas automáticas y humanas se complementan entre sí. Las métricas automáticas son buenas para realizar un análisis preliminar, elegir lugares a los que las personas deberían prestar especial atención, y luego los lingüistas o expertos en dominios deberían analizar estas opciones de traducción y elegir lo que más le convenga.

Le contaré sobre qué sistemas hay en el mercado, cómo lo analizamos todos, cómo se comparan a precios, y sobre los resultados de nuestro análisis, lo que es importante aquí en calidad y lo que es importante fuera de la calidad al elegir un servicio.

En primer lugar, ya hay una gran cantidad de servicios de traducción automática basados en la nube, consideramos solo aquellos en los que hay modelos previamente capacitados que puede tomar y comenzar a usar, y tienen una API pública.
Todavía hay una serie de servicios que no tienen una API pública o que se implementan internamente; no los consideramos en nuestro estudio. Pero incluso entre estos servicios ya hay un gran número de ellos, medimos y evaluamos 19 de estos servicios. La práctica muestra que la persona promedio conoce a varios líderes del mercado, pero no sabe sobre el resto. Y lo son, y en algunos lugares son buenos.

Tomamos la popularidad de los idiomas en la web y los dividimos en cuatro grupos. Los más populares, más del 2% de los sitios, menos populares e incluso menos. Hay cuatro grupos de idiomas para los que analizamos aún más, y de todo esto nos enfocamos en el primer grupo, los idiomas más populares y un poco en el segundo.

El apoyo dentro de los primeros tres grupos es casi del 100%. Si necesita un lenguaje que no sea súper exótico, lo obtendrá de la nube. Y si necesita una pareja exótica, puede resultar que algunos de los idiomas no sean compatibles con ningún servicio de traducción automática en la nube. Pero incluso con todas las restricciones, se admite aproximadamente la mitad de todos los pares posibles. Esto no esta mal.

De todo esto, probamos 48 pares, formamos una matriz de este tipo, seleccionamos principalmente inglés y todos los idiomas del primer grupo, parcialmente idiomas dentro del primer grupo y un poco de inglés e idiomas del segundo grupo. Esto cubre más o menos los escenarios de uso típicos, pero muchas otras cosas interesantes permanecen fuera. Evaluamos estos pares, los medimos y le contamos lo que está sucediendo allí. El informe completo está aquí, es gratis, lo actualizamos regularmente, haré campaña para que lo use.

Los números y los ejes no son visibles en este gráfico, pero se trata de admitir diferentes idiomas con diferentes sistemas de traducción automática. Existen diferentes sistemas de traducción automática a lo largo del eje X, a lo largo del eje Y en la escala logarítmica, el número de pares soportados en general y únicos. En esta imagen, el rojo es único, el azul lo es todo. Puede verse que si tiene una combinación de idiomas muy exótica, puede resultar que debido a la singularidad necesita usar siete proveedores diferentes, porque solo uno de ellos admite el par muy específico que necesita.

Para evaluar la calidad, elegimos edificios de noticias, edificios de dominio general. Esto no garantiza que la situación sea la misma en sus datos específicos de otra área, probablemente no sea la misma, pero esta es una buena demostración de cómo abordar dicho estudio en general, cómo elegir el servicio adecuado que le convenga. Te mostraré el ejemplo de las áreas de noticias. Se transfiere fácilmente a cualquier otra área tuya.

Elegimos la métrica hLEPOR, es casi lo mismo que BLEU, pero en nuestro sentido intuitivo da una mejor impresión de cómo se relacionan los servicios entre sí. Para simplificar, considere que una métrica de 0 a 1, 1 es una correspondencia completa a una determinada traducción de referencia, 0 es una discrepancia completa. hLEPOR brinda una sensación intuitiva mejor, lo que significa una diferencia de 10 unidades en comparación con BLEU. Puede leer sobre la métrica por separado, todo se describe en la metodología de investigación. Esta es una métrica normal, una métrica proxy, no perfecta, pero transmite bien la esencia.

La diferencia de precio es enorme. Hemos compilado una matriz para cuyo precio puede obtener una traducción de 1 millón de caracteres. Puede descargar y ver, la diferencia es enorme, de $ 5 a $ 1,000 por millón de caracteres. Elegir el servicio incorrecto simplemente aumenta enormemente sus costos, o elegir el correcto puede ayudarlo a ahorrar mucho en este lugar. El mercado es opaco, debe comprender lo que vale y dónde está la calidad. Ten en cuenta esta matriz. Es difícil comparar todos los servicios, por el precio, los precios a menudo no son muy transparentes, la política no es muy clara, hay algunos grados. Todo es complicado, esta tabla ayuda a tomar una decisión.

Redujimos los resultados de nuestro análisis a imágenes tan divertidas. Esta imagen muestra cuál es la calidad máxima disponible para esos pares que medimos, cuanto más verde: mayor calidad está disponible, cuál es la competencia en estos pares, ¿hay realmente algo para elegir, condicionalmente, en algún lugar alrededor de 8 proveedores proporcionan esto? la calidad más asequible, en algún lugar solo 2, y también hay un ícono en dólares, se trata del precio por el cual obtienes la máxima calidad. La extensión es grande, en algún lugar barato puede obtener una calidad aceptable, en algún lugar no es muy aceptable y costoso, son posibles diferentes combinaciones. El paisaje es complejo, no hay un súper jugador que sea mejor en todas partes, barato, bueno, etc. En todas partes hay una opción, y en todas partes se debe hacer razonablemente.

Aquí hemos dibujado los mejores sistemas para estos pares de idiomas. Se puede ver que no hay un sistema mejor, diferentes servicios son mejores en diferentes pares en esta área en particular - noticias, en otras áreas la situación cambiará. En algún lugar, Google es bueno, en algún lugar bueno, Deepl, es un traductor europeo reciente, del que pocas personas saben, es una pequeña empresa que lucha con éxito con Google y lo derrota, de muy buena calidad. Yandex es consistentemente bueno en el par ruso-inglés. Amazon apareció recientemente, conectó el idioma ruso y otros, y tampoco está mal. Estos son nuevos cambios. Hace un año, gran parte de esto no era, había menos líderes. Ahora la situación es muy dinámica.

Conocer el mejor sistema no siempre es importante. Más a menudo es importante conocer el sistema óptimo. Si observa el 5% superior de los sistemas para esta calidad, entre estos, el 5% superior es el más barato, lo que le da una buena calidad. En este lugar, la situación es significativamente diferente. Google deja esta comparación, Microsoft sube mucho, se vuelve más Yandex, Amazon rastrea aún más, aparecen proveedores más exóticos. La situación se está volviendo diferente.

Si observa a todos los proveedores de traducción automática, horizontalmente, diferentes proveedores, verticalmente, con qué frecuencia el proveedor está en una de estas partes superiores, entonces, en el 5% superior, está casi cada uno de ellos, tarde o temprano. Los mejores para algunos pares medidos específicos son 7 proveedores, los óptimos también son 7. Esto significa que si tiene algún conjunto de idiomas que necesita traducir y desea garantizar la calidad máxima u óptima, necesita un proveedor no es suficiente, necesita conectar la cartera de estos proveedores, y luego tendrá la máxima calidad, la máxima eficiencia monetaria, etc. No hay un jugador que sea mejor. Si tiene tareas complejas, necesita muchos pares diferentes, tiene una forma directa de usar diferentes proveedores, esto es mejor que usar uno.

El mercado es muy dinámico, el número de ofertas está creciendo rápidamente. Comenzamos a medir a principios del año 17, se publicó un nuevo punto de referencia en julio. El número de servicios disponibles está creciendo, algunos de ellos todavía están en versión preliminar, no tienen una lista de precios pública, están en algún tipo de alfa o beta que puede usar, pero las condiciones no están muy claras.

La calidad está creciendo más lentamente, pero también está creciendo. El interés principal se produce dentro de pares de idiomas específicos.

Por ejemplo, la situación dentro del par de idiomas inglés-ruso es muy dinámica. Yandex en los últimos seis meses ha mejorado enormemente su calidad. Apareció Amazon, está representado por un punto a la derecha, también va muy por detrás de Yandex. El proveedor de GTCom bombeó bien, lo que casi nadie sabe, es un proveedor chino, se traduce bien del chino al inglés y ruso, y el inglés - ruso también se maneja bien.
Una imagen similar ocurre más o menos en todos los pares de idiomas. En todas partes algo está cambiando, aparecen nuevos jugadores constantemente, su calidad está cambiando, los modelos están siendo readaptados. Verá, hay proveedores estables cuya calidad no cambia. En este caso, es más probable que los estables estén muertos, porque hay otros inestables cuya calidad está mejorando más o menos. Esta es una buena historia, están mejorando casi constantemente.

Si considera una métrica más compleja sobre la calidad del precio, existen mejoras estables. Esto significa que el costo de la traducción automática de alta calidad está disminuyendo constantemente, con cada mes, cada año, más y más traducciones automáticas de alta calidad están disponibles para usted por menos dinero. Esto es bueno

Además de los precios y la calidad, hay una gran cantidad de problemas que también son importantes al elegir un proveedor en particular. Estos son todo tipo de características del producto, html, soporte xml, soporte para formatos difíciles y no muy complejos, modo masivo, detección automática de un idioma: un tema popular, soporte para glosarios, personalización, confiabilidad del servicio. Y también lo que llamamos la felicidad del desarrollador, puede leer lo que queremos decir con el enlace.

Esto es para crear un desastre automovilístico. DX , , , HTTP, , API, , , . , API, . , , API , - . .
, . , , SDK, , , . . .
, , API NDA. . . , - .
, . , , , . - , , .
— , . , , .

- . , , . , - , Google, Microsoft, IBM, - , , , .

? , , , . — , . 10 . 1 . 2 . , 2 . . 50 .
hLEPOR, , , , , , . , . — . , . , , - , . , . , , , . .

, . Microsoft, 3 API. , , , Microsoft . . , , . , , 10 . Microsoft . , . , , .

IBM, , . , . 2% — .

Google AutoML , , 10 100 . .

, Microsoft, Google, - — , Deepl, Amazon, Google, Microsoft. , . ? , - , - . , Google Deepl, , , . . , . .
, , , , . . , , . , , . . , . , .
?

. . , , .
, . , - . . , , , -. , , , . , , , - , , . — .
- , , . -, . , , . , , , . . — , , .

: , , , ,
? . , . , , , . , .
, , . API . , , . SDK NodeJS, .NET, CLI. , API, . . , , . , , , — .
web tools . , , , API. . , , .
, . -, , . Esto no es asi. , . . , , , , . , , , , . Deepl? , Google .
, , , , . , , , , , . Gracias