Verbessern Sie Ihr Englisch: Neuerfindung von Untertiteln

1. Intro




- Tatyana Leonidovna, können wir diesen Film mit Untertiteln sehen?
- Nein, jugendliche Spechte, wir trainieren Ihre Hörwahrnehmung, damit Sie einen Film ohne sie sehen können! Mit Untertiteln lesen Sie nur den Text und hören nicht zu.
- Tatyana Leonidovna, aber ohne Untertitel verstehen wir nicht mehr als die Hälfte!
- Aber das sind deine Probleme.

Anfang der 2000er Jahre ein Dialog mit einem Lehrer an einer französischen Sonderschule in St. Petersburg.



2. Was ist los?


TV-Shows und Filme eignen sich hervorragend zur Verbesserung der Englischkenntnisse. Sie kennen die Grammatik bereits, Sie besitzen eine große Anzahl von Wörtern. Es ist zu früh, um ein kostenloses Gespräch mit einem Muttersprachler zu führen, und es ist bereits langweilig, Tests und Übungen zu üben. Sie sehen sich Filme und Fernsehsendungen an.

Du siehst dich an und du siehst. Es scheint alles klar zu sein, aber hier beginnt ein kurzer Dialog zweier Helden, aus dem Sie nur Präpositionen verstehen. Ok, schalte die U-Boote ein. Und sie lösen das Problem - Sie beginnen zu verstehen, was passiert.

Nach dem Ansehen mehrerer Videos mit Subwoofern bemerken die Leute jedoch oft zwei Dinge.
  • . , , . , , . , — « » .
  • Einige Abschnitte des Films bleiben völlig unverständlich , da sie schwierige Wörter enthalten. "Ich kann meinen Unternehmenserfolg nicht gefährden "? Wie bitte? Gefährden? . Ok, Google, ich werde den Film anhalten und Sie werden sagen, was das bedeutet.
    Es gibt Leute, die anbieten, Filme mit Untertiteln in zwei Sprachen gleichzeitig anzusehen - Englisch und Russisch. Das macht Sie schnell zu einem absoluten Champion beim Hochgeschwindigkeitslesen von Subwoofern in zwei Sprachen, trägt aber wenig zur Hörwahrnehmung und zur Entwicklung des Sprachdenkens bei.


Ohne Subwoofer ist manchmal nichts verständlich, aber mit Subwoofern ist der Fortschritt in der Hörwahrnehmung gehemmt und ... immer noch unverständlich.

3. Was nun?




Auf diesem Bildschirm aus dem "South Park" sehen Sie 7 Wörter. 6 von ihnen sind fast jedem bekannt, der Englisch lernt. Und sie können erkannt und verstanden werden, auch wenn sie schnell und mit Akzent ausgesprochen werden. Es bleibt ein Wort, mit dem (mit hoher Wahrscheinlichkeit) Probleme auftreten werden. Das Wort müde ist müde, müde.

  • Dieses Wort ist nicht so häufig. Die Chance ist groß, dass Sie es nicht am Ohr erkennen.
  • Es wäre schön, die Übersetzung direkt auf dem Bildschirm anzuzeigen. Andernfalls müssen Sie entweder abgelenkt sein und mit einem Wörterbuch übersetzen oder einfach punkten und weiter suchen.


Und der Rest der Wörter kann weggeworfen werden. Sie sind fast jedem bekannt und müssen unbedingt nicht auf dem Bildschirm angezeigt werden. Wenn wir diese Logik auf den Rest der Szenen anwenden, erhalten wir Subs, in denen nur schwierige Wörter vorkommen, und den Rest müssen wir zuhören und verstehen.

Wie sich herausstellte, ist diese Idee überhaupt nicht neu. Ein kurzes Googeln zeigte, dass zumindest einige Blogger Artikel mit einer ähnlichen Idee schrieben, aber anboten, die Untertitel manuell anzupassen. Und wir Geeks werden die Subwoofer programmgesteuert automatisch anpassen!

4. Bauen Sie ein Fahrrad


Die Aufgabe besteht darin, im Text nach komplexen Wörtern zu suchen, die übersetzt werden müssen.

Die Hauptidee ist, dass Sie viele Texte auf Englisch analysieren, Statistiken über die Verwendung von Wörtern berechnen und verstehen können, dass einige Wörter viel seltener verwendet werden als andere. Diese seltenen Wörter fallen unter das Konzept des "zusammengesetzten Wortes" - sie sind selten, so dass Sie ihre Übersetzung und Rechtschreibung nicht kennen.

Ich habe das alles schon als Hobby nach der Arbeit gemacht (übrigens hier ein Artikel darüber, wie alles begann). All dies führte zum Bamboo Ninja- Projekt , mit dem Sie Bücher auf Englisch analysieren, komplexe Wörter darin finden, eine Übersetzung einfügen und das Buch zurückholen können. Untertitel sind auch Text, daher nehme ich die Ideen von dort und wende sie auf die Untertitel an.

Wir öffnen die U-Boote, zerlegen sie in Stücke, dann in separate Wörter und beginnen mit der Analyse. Für jedes Wort müssen wir das Problem der binären Klassifizierung lösen - das Wort durch einen Algorithmus führen, der am Ausgang 1 oder 0 zurückgibt - unabhängig davon, ob das Wort für einen Englischschüler einfach oder komplex ist. Der Klassifikator trifft seine Entscheidung auf der Grundlage statistischer Daten, die aus der Analyse von ~ 40 GB Textdaten aus verschiedenen Quellen stammen (im Allgemeinen hat es sich wirklich gelohnt, Daten aus sehr unterschiedlichen Quellen zu sammeln: aus den Chat-Protokollen, Nachrichten, Texten), aber ich war zu faul und benutzte hauptsächlich Lehrbücher. aber dazu später mehr).

Dann gibt es eine gewisse Aufregung mit der Datenbank, dem Schreiben von Code und Sie erhalten Subs, die ungefähr so ​​aussehen


5. Wir fahren ein gebautes Fahrrad


Ich habe 3-4 Dutzend Subs durch das Programm geführt und die Werte der vom Analysator ausgegebenen Metriken geschätzt. Ich habe versucht, Filme mit dem zu sehen, was passiert ist. Wird Freunden, Bekannten und Besuchern der Website gezeigt.

Um die Ergebnisse auszuwerten, habe ich zwei klassische Metriken für maschinelle Lernaufgaben verwendet:
  • Präzision - die Fähigkeit, ein Wort richtig zu klassifizieren
  • Vollständigkeit (Rückruf) - die Fähigkeit, alle Wörter zu finden, die übersetzt werden müssen

Es stellte sich heraus, dass metrische Werte dazu neigen, von Film zu Film zu springen. Bei einigen Filmen zeigten die Fülle und Genauigkeit 85% bis 90% des gewünschten Wertes, bei anderen etwa 55%. Beim Durchsuchen des Problems fand ich den Grund: Ich habe in den letzten 300 Jahren die meisten Daten für statistische Analysen aus Belletristikbüchern gesammelt, und einige Wörter in ihnen sind häufiger als im modernen Englisch. Zum Beispiel war das Wort Bajonett (Bajonett) in jenen Tagen viel häufiger als heute, aber unser Klassifikator hält dieses Wort für nicht so selten.

Obwohl Colin, mein Freund aus Großbritannien, lange gelacht hat und gesagt hat, dass der Ausdruck „mein Fleischbajonett“ ( Rindfleischbajonett ) heute beim Militär sehr verbreitet ist, werden wir diesen Fall nicht berücksichtigen.

Ich habe mich entschlossen, auf die alte Version des Klassifikators zurückzugreifen, die ich vor einigen Monaten verwendet habe. Es wurde im Sommer mit nur 500 großen Büchern gebaut, aber die Bücher in dieser Stichprobe waren vielfältiger: Harry Potter, Lied von Eis und Feuer, technische Dokumentation für Programmierer, Bücher über Psychologie, Medizin und vieles mehr. Ein Klassifikator mit einer kleineren, aber vielfältigeren Datenmenge erwies sich als um eine Größenordnung besser als ein Klassifikator, der nur auf englischer Fiktion basiert. Der Worterkennungsalgorithmus begann viel seltener Fehler zu machen.

Das erzielte Ergebnis erfüllt im Allgemeinen das Ziel, aber der Algorithmus erzeugt immer noch Subs, die für eine Person geeignet sind, die über solide Erfahrung im Umgang mit Englisch verfügt. Sie müssen über eine gewisse Fähigkeit verfügen, Sprache nach Gehör zu erkennen, und über ein greifbares Vokabular von mehreren tausend Grundwörtern. In diesem Fall können Subs gut Englisch verbessern.

Ich habe alle meine Erfahrungen mit dem Service formalisiert und an meiner Hobby-Site befestigt und eine kleine Bibliothek mit Subwoofern für diejenigen hinzugefügt , die dieses Ding testen möchten, ohne die Kasse zu verlassen.

6. Outro


Das Fernsehen in einen Bildungsprozess zu verwandeln, anstatt dummes Lesen auf dem Bildschirm, scheint eine lohnende Aufgabe zu sein. Durch die Verbesserung der Funktionsweise des Algorithmus können viel mehr Abende mit Vorteil verbracht werden.

Danke an alle! Gute Filme und Erfolg auf Englisch.

Source: https://habr.com/ru/post/de390677/


All Articles