Améliorer votre anglais: réinventer les sous-titres

1. Intro




- Tatyana Leonidovna, pouvons-nous regarder ce film avec sous-titres?
- Non, pics juvéniles, nous formons votre perception auditive, vous pourrez donc regarder un film sans eux! Avec des sous-titres, vous ne lirez que le texte et vous n'écouterez pas.
- Tatyana Leonidovna, mais sans sous-titres on ne comprend pas plus de la moitié!
- Mais ce sont vos problèmes.

Début des années 2000, dialogue avec un enseignant d'une école spéciale française de Saint-Pétersbourg.



2. Quel est le problème?


Les émissions de télévision et les films sont parfaits pour améliorer l'anglais. Vous connaissez déjà la grammaire, vous possédez un grand nombre de mots. Il est trop tôt pour maintenir une conversation libre avec un locuteur natif, et c'est déjà ennuyeux de pratiquer des tests et des exercices. Vous commencez à regarder des films et des émissions de télévision.

Vous vous regardez et vous regardez. Il semble que tout soit clair, mais ici commence un dialogue rapide entre deux héros, dont vous ne comprenez que les prépositions. Ok, allumez les sous-marins. Et ils résolvent le problème - vous commencez à comprendre ce qui se passe.

Cependant, après avoir regardé plusieurs vidéos avec des subwoofers, les gens remarquent souvent deux choses.
  • . , , . , , . , — « » .
  • Certaines parties du film restent totalement incompréhensibles du fait qu'elles contiennent des mots difficiles. "Je ne peux pas compromettre le succès de mon entreprise"? Quoi, désolé? Mettre en péril? . Ok Google, je vais mettre le film en pause et vous direz ce que cela signifie.
    Il y a des gars qui proposent de regarder des films avec sous-titres en deux langues à la fois - anglais et russe. Ce qui fait rapidement de vous un champion absolu de la lecture à haut débit des caissons de basse en deux langues, mais contribue peu à la perception auditive et au développement de la pensée langagière.


Sans subwoofers, rien n'est compréhensible, mais avec les subwoofers les progrès dans la perception auditive sont inhibés et ... c'est encore incompréhensible.

3. Et maintenant?




Sur cet écran du "South Park", vous pouvez voir 7 mots. 6 d'entre eux sont familiers à presque tous ceux qui apprennent l'anglais. Et ils peuvent être reconnus et compris, même s'ils sont prononcés rapidement et avec un accent. Il reste un mot avec lequel (avec une forte probabilité) il y aura des problèmes. Le mot las est fatigué, las.

  • Ce mot n'est pas si courant. Il y a de grandes chances que vous ne le reconnaissiez pas à l'oreille.
  • Ce serait bien de montrer la traduction directement sur l'écran. Sinon, vous devrez soit être distrait et traduire avec un dictionnaire, soit simplement marquer et regarder plus loin.


Et le reste des mots peut être jeté. Ils sont familiers à presque tout le monde et n'ont absolument pas besoin d'être affichés à l'écran. Si nous appliquons cette logique au reste des scènes, nous obtiendrons des sous-marins, dans lesquels seuls des mots difficiles apparaissent, et le reste nous devrons écouter et comprendre.

Il s'est avéré que cette idée n'était pas nouvelle du tout. Une recherche rapide sur Google a montré qu'au moins quelques blogueurs ont écrit des articles avec une idée similaire, mais ont proposé de faire l'adaptation des sous-titres manuellement. Et nous, les geeks, ferons l'adaptation automatique des subwoofers par programmation!

4. Construisez un vélo


La tâche consiste à rechercher dans le texte des mots complexes qui nécessitent une traduction.

L'idée principale est que vous pouvez analyser tellement de textes en anglais, calculer des statistiques sur l'utilisation des mots et comprendre que certains mots sont utilisés beaucoup moins souvent que d'autres. Ces mots rares et tombent sous le concept de "mot composé" - ils sont rares, donc vous ne connaissez pas leur traduction et leur orthographe.

J'ai déjà fait tout cela comme passe-temps après le travail (au fait, voici un article sur la façon dont tout a commencé). Tout cela a abouti au projet Bamboo Ninja , qui vous permet d'analyser des livres en anglais, d'y trouver des mots complexes, d'insérer une traduction et de récupérer le livre. Les sous-titres sont également du texte, je vais donc les reprendre à partir de là et les appliquer aux sous-titres.

Nous ouvrons les sous-marins, les divisons en morceaux, puis en mots séparés et commençons l'analyse. Pour chaque mot, nous devons résoudre le problème de classification binaire - passer le mot à travers un algorithme qui renvoie 1 ou 0 en sortie - que le mot soit simple pour un élève d'anglais ou complexe. Le classificateur prend sa décision sur la base de données statistiques obtenues à partir de l'analyse de ~ 40 Go de données textuelles provenant de diverses sources (en général, cela valait vraiment la peine de collecter des données provenant de sources très différentes: éviscérer les journaux de discussion, les actualités, les paroles), mais j'étais trop paresseux et utilisais principalement les textes des livres, mais plus à ce sujet plus tard).

Ensuite, il y a une certaine agitation avec la base de données, l'écriture de code et vous obtenez des sous-marins qui ressemblent à ceci


5. Nous montons un vélo construit


J'ai exécuté 3-4 dizaines de sous-marins dans le programme, estimé les valeurs des mesures émises par l'analyseur. J'ai essayé de regarder des films avec ce qui s'est passé. Présenté aux amis, connaissances et visiteurs du site.

Pour évaluer les résultats, j'ai utilisé deux mesures classiques pour les tâches d'apprentissage automatique:
  • Précision - la capacité de classer correctement un mot
  • Complétude (rappel) - la capacité de trouver tous les mots qui nécessitent une traduction

Il s'est avéré que les valeurs métriques ont tendance à sauter d'un film à l'autre. Sur certains films, la plénitude et la précision ont montré 85% à 90% des souhaits, et sur d'autres - environ 55%. En fouillant dans le problème, j'ai trouvé la raison - j'ai collecté la plupart des données pour l'analyse statistique des livres d'art au cours des 300 dernières années et certains mots y sont plus courants qu'en anglais moderne. Par exemple, le mot baïonnette (baïonnette) était beaucoup plus courant à cette époque qu'aujourd'hui, mais notre classificateur considère que ce mot n'est pas si rare.

Bien que Colin, mon ami de Grande-Bretagne, ait longtemps ri et dit que l'expression «ma baïonnette de viande» ( baïonnette de boeuf ) est maintenant très courante parmi les militaires, mais nous ne considérerons pas ce cas.

J'ai décidé de revenir à l'ancienne version du classificateur, que j'ai utilisée il y a quelques mois. Il a été construit en été en utilisant seulement 500 gros livres, mais les livres de cet échantillon étaient plus diversifiés: Harry Potter, Song of Ice and Fire, documentation technique pour les programmeurs, livres sur la psychologie, la médecine et bien plus encore. Un classificateur avec une quantité de données plus petite mais plus diversifiée s'est avéré être un ordre de grandeur meilleur qu'un classificateur basé uniquement sur la fiction anglaise. L'algorithme de reconnaissance de mots a commencé à faire des erreurs beaucoup moins souvent.

Le résultat obtenu atteint généralement l'objectif, mais l'algorithme produit toujours des sous-marins qui conviennent à une personne ayant une solide expérience de l'utilisation de l'anglais. Vous devez avoir une certaine habileté à reconnaître la parole à l'oreille et un vocabulaire tangible de plusieurs milliers de mots de base. Dans ce cas, les abonnés serviront bien à améliorer l'anglais.

J'ai officialisé toutes mes expériences dans le service et l'ai attaché à mon site de loisirs et j'ai ajouté une petite bibliothèque de sous-marins pour ceux qui veulent tester cette chose sans quitter la caisse.

6. Outro


Transformer le fait de regarder des émissions de télévision en un processus d'apprentissage au lieu d'une lecture sur écran stupide semble être une tâche utile. Et l'amélioration du fonctionnement de l'algorithme permettra de passer beaucoup plus de soirées avec profit.

Merci à tous! Bons films et succès en anglais.

Source: https://habr.com/ru/post/fr390677/


All Articles