Melhorando o seu inglês: reinventando legendas

1. Introdução




- Tatyana Leonidovna, podemos ver este filme com legendas?
- Não, pica-paus juvenil, treinamos sua percepção auditiva, para que você assista a um filme sem eles! Com legendas, você lerá apenas o texto e não escutará.
- Tatyana Leonidovna, mas não entendemos mais da metade sem legendas!
- Mas esses são seus problemas.

No início dos anos 2000, um diálogo com um professor de uma escola especial francesa, São Petersburgo.



2. Qual é o problema?


Programas de TV e filmes são ótimos para melhorar o inglês. Você já conhece a gramática, possui um grande conjunto de palavras. É muito cedo para manter uma conversa gratuita com um falante nativo e já é chato praticar testes e exercícios. Você começa a assistir filmes e programas de TV.

Você olha para si mesmo e olha. Parece que tudo está claro, mas aqui começa um rápido diálogo entre dois heróis, dos quais você entende apenas preposições. Ok, ligue os subs. E eles resolvem o problema - você começa a entender o que está acontecendo.

No entanto, depois de assistir a vários vídeos com subwoofers, as pessoas geralmente percebem duas coisas.
  • . , , . , , . , — « » .
  • Algumas seções do filme permanecem completamente incompreensíveis devido ao fato de conterem palavras difíceis. "Não posso comprometer o sucesso da minha empresa"? Desculpe? Pôr em risco? . Ok Google, vou pausar o filme e você diz o que isso significa.
    Existem caras que se oferecem para assistir filmes com legendas em dois idiomas ao mesmo tempo - inglês e russo. O que rapidamente faz de você um campeão absoluto na leitura em alta velocidade de subwoofers em dois idiomas, mas pouco contribui para a percepção auditiva e o desenvolvimento do pensamento da linguagem.


Sem subwoofers, nada é compreensível, mas com subwoofers o progresso na percepção auditiva é inibido e ... ainda é incompreensível.

3. Agora o que?




Nesta tela do "South Park" você pode ver 7 palavras. 6 deles são familiares a quase todos que aprendem inglês. E eles podem ser reconhecidos e compreendidos, mesmo que sejam pronunciados rapidamente e com sotaque. Uma palavra permanece com a qual (com uma alta probabilidade) haverá problemas. A palavra cansado está cansado, cansado.

  • Esta palavra não é tão comum. É grande a chance de você não a reconhecer de ouvido.
  • Seria bom mostrar a tradução diretamente na tela. Caso contrário, você terá que se distrair e traduzir com um dicionário ou apenas pontuar e procurar mais.


E o restante das palavras pode ser jogado fora. Eles são familiares a quase todos e absolutamente não precisam ser exibidos na tela. Se aplicarmos essa lógica ao restante das cenas, obteremos subs, nas quais apenas palavras difíceis aparecem, e o restante teremos que ouvir e entender.

Como se viu, essa ideia não é nova. Uma rápida pesquisa no Google mostrou que pelo menos alguns blogueiros escreveram artigos com uma idéia semelhante, mas se ofereceram para fazer a adaptação das legendas manualmente. E nós, geeks, faremos a adaptação automática de subwoofers programaticamente!

4. Construa uma bicicleta


A tarefa é procurar por palavras complexas no texto que precisam de tradução.

A idéia principal é que você pode analisar muuuito muitos textos em inglês, calcular estatísticas sobre o uso de palavras e entender que algumas palavras são usadas com muito menos frequência do que outras. Essas palavras raras e se enquadram no conceito de "palavra composta" - elas são raras, portanto você não sabe a tradução e a ortografia delas.

Eu já fiz tudo isso como um hobby depois do trabalho (a propósito, aqui está um artigo sobre como tudo começou). Tudo isso resultou no projeto Bamboo Ninja , que permite analisar livros em inglês, encontrar palavras complexas neles, inserir uma tradução e coletar o livro de volta. As legendas também são textos, por isso vou pegar as ideias e aplicá-las às legendas.

, , . — , 1 0 — . , ~40 ( : , , . , ).

, ,


5.


Eu executei 3-4 dezenas de subs no programa, estimou os valores das métricas que o analisador emitiu. Eu tentei assistir filmes com o que aconteceu. Exibido a amigos, conhecidos e visitantes do site.

Para avaliar os resultados, usei duas métricas clássicas para tarefas de aprendizado de máquina:
  • Precisão - a capacidade de classificar corretamente uma palavra
  • Completude (recordação) - a capacidade de encontrar todas as palavras que requerem tradução

, . 85%-90% , — 55%. , — 300 , . , bayonet () , , .

, , , « » (beef bayonet) , .

Decidi reverter para a versão antiga do classificador, que usei alguns meses atrás. Foi construído no verão usando apenas 500 livros grandes, mas os livros dessa amostra eram mais diversos: Harry Potter, Canção de Gelo e Fogo, documentação técnica para programadores, livros sobre psicologia, medicina e muito mais. Um classificador com uma quantidade menor, porém mais diversificada, de dados acabou sendo uma ordem de magnitude melhor do que um classificador baseado apenas na ficção inglesa. O algoritmo de reconhecimento de palavras começou a cometer erros com muito menos frequência.

O resultado obtido geralmente cumpre o objetivo, mas o algoritmo ainda produz submarinos adequados para uma pessoa com sólida experiência no uso do inglês. Você precisa ter uma certa habilidade em reconhecer a fala de ouvido e um vocabulário tangível de vários milhares de palavras básicas. Nesse caso, os substitutos servirão bem para melhorar o inglês.

Formalizei todas as minhas experiências no serviço, fixei-o no meu site de hobby e adicionei uma pequena biblioteca de subs para aqueles que desejam testar isso sem sair da caixa.

6. Outro


Transformar a exibição de programas de TV em um processo de aprendizado em vez de ler a tela muda parece uma tarefa que vale a pena. E melhorar a operação do algoritmo permitirá passar muito mais noites com benefícios.

Obrigado a todos! Bons filmes e sucesso em inglês.

Source: https://habr.com/ru/post/pt390677/


All Articles