Mejorando tu inglés: reinventando los subtítulos

1. Introducción




- Tatyana Leonidovna, ¿podemos ver esta película con subtítulos?
- No, pájaros carpinteros juveniles, entrenamos tu percepción auditiva, ¡así que verás una película sin ellos! Con subtítulos, solo leerás el texto y no escucharás.
- Tatyana Leonidovna, ¡pero no entendemos más de la mitad sin subtítulos!
- Pero estos son tus problemas.

A principios de la década de 2000, un diálogo con un profesor en una escuela especial francesa, San Petersburgo.



2. ¿Cuál es el problema?


Los programas de televisión y las películas son excelentes para mejorar el inglés. Ya conoces la gramática, tienes un gran conjunto de palabras. Es demasiado temprano para mantener una conversación gratuita con un hablante nativo, y ya es aburrido practicar pruebas y ejercicios. Empiezas a ver películas y programas de televisión.

Te miras a ti mismo y te miras. Parece que todo está claro, pero aquí comienza un diálogo rápido entre dos héroes, del cual solo entiendes las preposiciones. Ok, enciende los submarinos. Y resuelven el problema: comienzas a entender lo que está sucediendo.

Sin embargo, después de ver varios videos con subwoofers, las personas a menudo notan dos cosas.
  • . , , . , , . , — « » .
  • Algunas secciones de la película siguen siendo completamente incomprensibles debido al hecho de que contienen palabras difíciles. ¿"No puedo poner en peligro el éxito de mi empresa"? Que, perdon? ¿Poner en peligro? . Ok Google, haré una pausa en la película y dirás lo que eso significa.
    Hay muchachos que ofrecen ver películas con subtítulos en dos idiomas a la vez: inglés y ruso. Lo que rápidamente lo convierte en un campeón absoluto en la lectura a alta velocidad de subwoofers en dos idiomas, pero contribuye poco a la percepción auditiva y al desarrollo del pensamiento lingüístico.


Sin los subwoofers, nada es comprensible, pero con los subwoofers se inhibe el progreso en la percepción auditiva y ... todavía es incomprensible.

3. ¿Y ahora qué?




En esta pantalla del "South Park" puedes ver 7 palabras. 6 de ellos son familiares para casi todos los que aprenden inglés. Y pueden ser reconocidos y entendidos, incluso si se pronuncian rápidamente y con acento. Queda una palabra con la que (con alta probabilidad) habrá problemas. La palabra cansado está cansado, cansado.

  • Esta palabra no es tan común. Es muy probable que no lo reconozca de oído.
  • Sería bueno mostrar la traducción directamente en la pantalla. De lo contrario, tendrá que distraerse y traducir con un diccionario, o simplemente anotar y buscar más.


Y el resto de las palabras se pueden tirar. Son familiares para casi todos y no es necesario que se muestren en la pantalla. Si aplicamos esta lógica al resto de las escenas, obtendremos subs, en los que solo aparecen palabras difíciles, y el resto tendremos que escuchar y comprender.

Al final resultó que, esta idea no es nueva en absoluto. Una búsqueda rápida en Google mostró que al menos unos pocos bloggers escribieron artículos con una idea similar, pero ofrecieron hacer la adaptación de los subtítulos manualmente. ¡Y los geeks haremos la adaptación automática de subwoofers mediante programación!

4. Construye una bicicleta


La tarea es buscar palabras complejas en el texto que necesiten traducción.

La idea principal es que puede analizar tantos textos en inglés, calcular estadísticas sobre el uso de palabras y comprender que algunas palabras se usan con mucha menos frecuencia que otras. Estas palabras raras y caen bajo el concepto de "palabra compuesta" - son raras, por lo que no conoce su traducción y ortografía.

Ya hice todo esto como un pasatiempo después del trabajo (por cierto, aquí hay un artículo sobre cómo comenzó todo). Todo esto resultó en el proyecto Bamboo Ninja , que le permite analizar libros en inglés, encontrar palabras complejas en ellos, insertar una traducción y recoger el libro. Los subtítulos también son texto, así que tomaré las ideas a partir de ahí y las aplicaré a los subtítulos.

Abrimos los subs, los dividimos en pedazos, luego en palabras separadas y comenzamos el análisis. Para cada palabra, necesitamos resolver el problema de clasificación binaria: pasar la palabra a través de un algoritmo que devuelve 1 o 0 en la salida, ya sea que la palabra sea simple para un estudiante de inglés o compleja. El clasificador toma su decisión sobre la base de datos estadísticos obtenidos del análisis de ~ 40 GB de datos de texto de varias fuentes (en general, realmente valió la pena recopilar datos de fuentes muy diferentes: destripar los registros de chat, noticias, letras), pero era demasiado vago y usaba principalmente textos de libros, pero más sobre eso más tarde).

Luego hay un cierto alboroto con la base de datos, escribiendo código, y obtienes subs que se parecen a esto


5. Montamos una bicicleta construida


Ejecuté 3-4 docenas de suscriptores a través del programa, estimé los valores de las métricas que emitió el analizador. Traté de ver películas con lo que pasó. Mostrado a amigos, conocidos y visitantes del sitio.

Para evaluar los resultados, utilicé dos métricas clásicas para las tareas de aprendizaje automático:
  • Precisión : la capacidad de clasificar correctamente una palabra
  • Completitud (recordar): la capacidad de encontrar todas las palabras que requieren traducción

Resultó que los valores métricos tienden a saltar de película en película. En algunas películas, la plenitud y la precisión mostraron 85% -90% de lo deseado, y en otras, alrededor del 55%. Analizando el problema, encontré la razón: recopilé la mayoría de los datos para el análisis estadístico de los libros de arte en los últimos 300 años y algunas palabras en ellos son más comunes que en inglés moderno. Por ejemplo, la palabra bayoneta (bayoneta) era mucho más común en aquellos días que ahora, pero nuestro clasificador considera que esta palabra no es tan rara.

Aunque Colin, mi amigo de Gran Bretaña, se rió por mucho tiempo y dijo que la expresión “mi bayoneta de carne” ( bayoneta de res ) ahora es muy común entre los militares, pero no consideraremos este caso.

Decidí volver a la versión anterior del clasificador, que usaba hace unos meses. Fue construido en el verano usando solo 500 libros grandes, pero los libros de esa muestra eran más diversos: Harry Potter, Canción de hielo y fuego, documentación técnica para programadores, libros de psicología, medicina y mucho más. Un clasificador con una cantidad de datos más pequeña pero más diversa resultó ser un orden de magnitud mejor que un clasificador basado solo en ficción inglesa. El algoritmo de reconocimiento de palabras comenzó a cometer errores con mucha menos frecuencia.

El resultado obtenido generalmente cumple con el objetivo, pero el algoritmo aún produce subs que son adecuados para una persona que tiene una sólida experiencia en el uso del inglés. Debe tener cierta habilidad para reconocer el habla de oído y un vocabulario tangible de varios miles de palabras básicas. En este caso, los subs servirán bien para mejorar el inglés.

Formalicé todas mis experiencias en el servicio y lo fijé a mi sitio de pasatiempos y agregué una pequeña biblioteca de subs para aquellos que quieran probar esto sin dejar la caja.

6. Outro


Convertir ver programas de televisión en un proceso de aprendizaje en lugar de leer una pantalla tonta parece una tarea que vale la pena. Y mejorar el funcionamiento del algoritmo permitirá pasar muchas noches más con beneficio.

Gracias a todos! Buenas películas y éxito en inglés.

Source: https://habr.com/ru/post/es390677/


All Articles