1. Introdução

- Tatyana Leonidovna, podemos ver este filme com legendas?
- Não, pica-paus juvenil, treinamos sua percepção auditiva, para que você assista a um filme sem eles! Com legendas, você lerá apenas o texto e não escutará.
- Tatyana Leonidovna, mas não entendemos mais da metade sem legendas!
- Mas esses são seus problemas.
No início dos anos 2000, um diálogo com um professor de uma escola especial francesa, São Petersburgo.2. Qual é o problema?
Programas de TV e filmes são ótimos para melhorar o inglês. Você já conhece a gramática, possui um grande conjunto de palavras. É muito cedo para manter uma conversa gratuita com um falante nativo e já é chato praticar testes e exercícios. Você começa a assistir filmes e programas de TV.Você olha para si mesmo e olha. Parece que tudo está claro, mas aqui começa um rápido diálogo entre dois heróis, dos quais você entende apenas preposições. Ok, ligue os subs. E eles resolvem o problema - você começa a entender o que está acontecendo.No entanto, depois de assistir a vários vídeos com subwoofers, as pessoas geralmente percebem duas coisas.- . , , . , , . , — « » .
- Algumas seções do filme permanecem completamente incompreensíveis devido ao fato de conterem palavras difíceis. "Não posso comprometer o sucesso da minha empresa"? Desculpe? Pôr em risco? . Ok Google, vou pausar o filme e você diz o que isso significa.
Existem caras que se oferecem para assistir filmes com legendas em dois idiomas ao mesmo tempo - inglês e russo. O que rapidamente faz de você um campeão absoluto na leitura em alta velocidade de subwoofers em dois idiomas, mas pouco contribui para a percepção auditiva e o desenvolvimento do pensamento da linguagem.
Sem subwoofers, nada é compreensível, mas com subwoofers o progresso na percepção auditiva é inibido e ... ainda é incompreensível.3. Agora o que?
Nesta tela do "South Park" você pode ver 7 palavras. 6 deles são familiares a quase todos que aprendem inglês. E eles podem ser reconhecidos e compreendidos, mesmo que sejam pronunciados rapidamente e com sotaque. Uma palavra permanece com a qual (com uma alta probabilidade) haverá problemas. A palavra cansado está cansado, cansado.- Esta palavra não é tão comum. É grande a chance de você não a reconhecer de ouvido.
- Seria bom mostrar a tradução diretamente na tela. Caso contrário, você terá que se distrair e traduzir com um dicionário ou apenas pontuar e procurar mais.
E o restante das palavras pode ser jogado fora. Eles são familiares a quase todos e absolutamente não precisam ser exibidos na tela. Se aplicarmos essa lógica ao restante das cenas, obteremos subs, nas quais apenas palavras difíceis aparecem, e o restante teremos que ouvir e entender.Como se viu, essa ideia não é nova. Uma rápida pesquisa no Google mostrou que pelo menos alguns blogueiros escreveram artigos com uma idéia semelhante, mas se ofereceram para fazer a adaptação das legendas manualmente. E nós, geeks, faremos a adaptação automática de subwoofers programaticamente!4. Construa uma bicicleta
A tarefa é procurar por palavras complexas no texto que precisam de tradução.A idéia principal é que você pode analisar muuuito muitos textos em inglês, calcular estatísticas sobre o uso de palavras e entender que algumas palavras são usadas com muito menos frequência do que outras. Essas palavras raras e se enquadram no conceito de "palavra composta" - elas são raras, portanto você não sabe a tradução e a ortografia delas.Eu já fiz tudo isso como um hobby depois do trabalho (a propósito, aqui está um artigo sobre como tudo começou). Tudo isso resultou no projeto Bamboo Ninja , que permite analisar livros em inglês, encontrar palavras complexas neles, inserir uma tradução e coletar o livro de volta. As legendas também são textos, por isso vou pegar as ideias e aplicá-las às legendas., , . — , 1 0 — . , ~40 ( : , , . , ).
, ,

5.
Eu executei 3-4 dezenas de subs no programa, estimou os valores das métricas que o analisador emitiu. Eu tentei assistir filmes com o que aconteceu. Exibido a amigos, conhecidos e visitantes do site.Para avaliar os resultados, usei duas métricas clássicas para tarefas de aprendizado de máquina:- Precisão - a capacidade de classificar corretamente uma palavra
- Completude (recordação) - a capacidade de encontrar todas as palavras que requerem tradução
, . 85%-90% , — 55%. , — 300 , . ,
bayonet () , , .
, , , « » (
beef bayonet) , .
Decidi reverter para a versão antiga do classificador, que usei alguns meses atrás. Foi construído no verão usando apenas 500 livros grandes, mas os livros dessa amostra eram mais diversos: Harry Potter, Canção de Gelo e Fogo, documentação técnica para programadores, livros sobre psicologia, medicina e muito mais. Um classificador com uma quantidade menor, porém mais diversificada, de dados acabou sendo uma ordem de magnitude melhor do que um classificador baseado apenas na ficção inglesa. O algoritmo de reconhecimento de palavras começou a cometer erros com muito menos frequência.O resultado obtido geralmente cumpre o objetivo, mas o algoritmo ainda produz submarinos adequados para uma pessoa com sólida experiência no uso do inglês. Você precisa ter uma certa habilidade em reconhecer a fala de ouvido e um vocabulário tangível de vários milhares de palavras básicas. Nesse caso, os substitutos servirão bem para melhorar o inglês.Formalizei todas as minhas experiências no serviço, fixei-o no meu site de hobby e adicionei uma pequena biblioteca de subs para aqueles que desejam testar isso sem sair da caixa.6. Outro
Transformar a exibição de programas de TV em um processo de aprendizado em vez de ler a tela muda parece uma tarefa que vale a pena. E melhorar a operação do algoritmo permitirá passar muito mais noites com benefícios.Obrigado a todos! Bons filmes e sucesso em inglês.