Meningkatkan Bahasa Inggris Anda: menciptakan kembali subtitle
1. Pendahuluan

- Tatyana Leonidovna, bisakah kita melihat film ini dengan subtitle?
- Tidak, pelatuk remaja, kami melatih persepsi pendengaran Anda, sehingga Anda akan menonton film tanpa mereka! Dengan subtitle, Anda hanya akan membaca teks dan tidak mendengarkan.
- Tatyana Leonidovna, tetapi tanpa subtitle kita tidak mengerti lebih dari setengah!
- Tapi ini masalahmu.
Awal tahun 2000-an, dialog dengan seorang guru di sekolah khusus Prancis, St. Petersburg.2. Ada apa?
Acara TV dan film sangat bagus untuk meningkatkan bahasa Inggris. Anda sudah tahu tata bahasanya, Anda memiliki banyak kata. Masih terlalu dini untuk mempertahankan percakapan gratis dengan penutur asli, dan sudah membosankan untuk melakukan tes dan latihan. Anda mulai menonton film dan acara TV.Anda melihat diri sendiri dan melihat. Tampaknya semuanya jelas, tetapi di sini dimulai dialog cepat antara dua pahlawan, dari mana Anda hanya memahami preposisi. Ok, hidupkan kapal selam. Dan mereka memecahkan masalah - Anda mulai memahami apa yang terjadi.Namun, setelah menonton beberapa video dengan subwoofer, orang sering memperhatikan dua hal.- . , , . , , . , β Β« Β» .
- Beberapa bagian dari film ini tetap tidak dapat dimengerti karena mengandung kata-kata yang sulit. "Saya tidak dapat membahayakan kesuksesan perusahaan saya"? Apa maaf Membahayakan? . Oke Google, saya akan menghentikan sebentar filmnya, dan Anda akan mengatakan apa artinya itu.
Ada orang yang menawarkan untuk menonton film dengan terjemahan dalam dua bahasa sekaligus - Bahasa Inggris dan Rusia. Yang dengan cepat membuat Anda sudah menjadi juara mutlak dalam subwoofer membaca cepat dalam dua bahasa, tetapi berkontribusi sedikit terhadap persepsi pendengaran dan pengembangan pemikiran bahasa.
Tanpa subwoofer, tidak ada yang bisa dipahami, tetapi dengan kemajuan subwoofer dalam persepsi pendengaran terhambat dan ... itu masih tidak bisa dipahami.3. Sekarang apa?
Di layar ini dari "South Park" Anda dapat melihat 7 kata. 6 dari mereka akrab bagi hampir semua orang yang belajar bahasa Inggris. Dan mereka dapat dikenali dan dipahami, bahkan jika mereka diucapkan dengan cepat dan dengan aksen. Satu kata tetap dengan yang (dengan probabilitas tinggi) akan ada masalah. Kata lelah adalah lelah, lelah.- Kata ini tidak begitu umum. Kesempatannya besar bahwa Anda tidak akan mengenalinya dengan telinga.
- Akan menyenangkan untuk menunjukkan terjemahan langsung di layar. Jika tidak, Anda harus terganggu dan menerjemahkan dengan kamus, atau hanya mencetak dan melihat lebih jauh.
Dan sisa kata-kata bisa dibuang. Mereka akrab bagi hampir semua orang dan sama sekali tidak perlu ditampilkan di layar. Jika kita menerapkan logika ini ke seluruh adegan, kita akan mendapatkan subs, di mana hanya kata-kata sulit yang muncul, dan sisanya kita harus mendengarkan dan memahami.Ternyata, ide ini sama sekali bukan hal baru. Googling cepat menunjukkan bahwa setidaknya beberapa blogger menulis artikel dengan ide yang sama, tetapi menawarkan untuk melakukan adaptasi subtitle secara manual. Dan kami Geeks akan melakukan adaptasi otomatis subwoofer secara terprogram!4. Bangun sepeda
Tugasnya adalah mencari kata-kata kompleks dalam teks yang perlu diterjemahkan.Gagasan utamanya adalah Anda dapat menganalisis banyak teks bahasa Inggris, menghitung statistik penggunaan kata-kata, dan memahami bahwa beberapa kata lebih jarang digunakan daripada yang lain. Kata-kata langka ini termasuk dalam konsep "kata majemuk" - kata-kata itu jarang, jadi Anda tidak tahu terjemahan dan ejaannya.Saya sudah melakukan semua ini sebagai hobi setelah bekerja (ngomong-ngomong, ini adalah artikel tentang bagaimana semuanya dimulai). Semua ini menghasilkan proyek Bamboo Ninja , yang memungkinkan Anda menganalisis buku dalam bahasa Inggris, menemukan kata-kata rumit di dalamnya, menyisipkan terjemahan, dan mengumpulkan kembali buku itu. Teks juga teks, jadi saya akan mengambil ide dari sana dan menerapkannya pada teks film.Kami membuka kapal selam, memecahnya menjadi beberapa bagian, kemudian menjadi kata-kata yang terpisah dan memulai analisis. Untuk setiap kata, kita perlu memecahkan masalah klasifikasi biner - melewati kata melalui algoritma yang mengembalikan 1 atau 0 pada output - apakah kata itu sederhana untuk siswa bahasa Inggris atau kompleks. Klasifikasi membuat keputusan berdasarkan data statistik yang diperoleh dari analisis ~ 40 GB data teks dari berbagai sumber (secara umum, sangat layak mengumpulkan data dari sumber yang sangat berbeda: isi log obrolan, berita, lirik), tetapi saya terlalu malas dan terutama menggunakan buku teks. tetapi lebih lanjut tentang itu nanti).Lalu ada sejumlah keributan dengan database, menulis kode dan Anda mendapatkan subs yang terlihat seperti ini
5. Kami mengendarai sepeda buatan
Saya menjalankan 3-4 lusin subs melalui program, memperkirakan nilai-nilai metrik yang dikeluarkan analyzer. Saya mencoba menonton film dengan apa yang terjadi. Ditunjukkan kepada teman, kenalan, dan pengunjung situs.Untuk mengevaluasi hasil, saya menggunakan dua metrik klasik untuk tugas pembelajaran mesin:- Presisi - kemampuan untuk mengklasifikasikan kata dengan benar
- Completeness (recall) - kemampuan untuk menemukan semua kata yang membutuhkan terjemahan
Ternyata nilai-nilai metrik cenderung melompat dari film ke film. Pada beberapa film, kepenuhan dan akurasi menunjukkan 85% -90% dari yang diinginkan, dan pada yang lain - sekitar 55%. Mengaduk-aduk masalah, saya menemukan alasannya - saya mengumpulkan sebagian besar data untuk analisis statistik dari buku-buku seni selama 300 tahun terakhir dan beberapa kata di dalamnya lebih umum daripada di Inggris modern. Sebagai contoh, kata bayonet (bayonet) jauh lebih umum pada masa itu daripada sekarang, tetapi classifier kami menganggap kata ini tidak terlalu jarang.Meskipun Colin, teman saya dari Inggris, tertawa untuk waktu yang lama dan mengatakan bahwa ungkapan "bayonet daging saya" ( bayonet daging sapi ) sekarang sangat umum di kalangan militer, tetapi kami tidak akan mempertimbangkan kasus ini.Saya memutuskan untuk kembali ke versi lama dari classifier, yang saya gunakan beberapa bulan yang lalu. Itu dibangun pada musim panas dengan hanya menggunakan 500 buku besar, tetapi buku-buku dalam sampel itu lebih beragam: Harry Potter, Song of Ice and Fire, dokumentasi teknis untuk programmer, buku-buku tentang psikologi, kedokteran, dan banyak lagi. Klasifikasi dengan jumlah data yang lebih kecil tetapi lebih beragam ternyata urutan besarnya lebih baik daripada klasifikasi yang hanya berdasarkan fiksi bahasa Inggris. Algoritma pengenalan kata mulai membuat kesalahan jauh lebih jarang.Hasil yang diperoleh umumnya memenuhi tujuan, tetapi algoritma masih menghasilkan kapal selam yang cocok untuk orang yang memiliki pengalaman yang kuat dalam menggunakan bahasa Inggris. Anda perlu memiliki keterampilan tertentu dalam mengenali pembicaraan dengan telinga dan kosa kata nyata dari beberapa ribu kata dasar. Dalam hal ini, kapal selam akan berfungsi dengan baik dalam meningkatkan bahasa Inggris.Saya memformalkan semua pengalaman saya dalam layanan dan mengaitkannya ke situs hobi saya dan menambahkan perpustakaan kecil subs untuk mereka yang ingin menguji hal ini tanpa meninggalkan meja kas.6. Outro
Mengubah menonton acara TV menjadi proses pembelajaran alih-alih membaca layar bodoh sepertinya merupakan tugas yang berharga. Dan meningkatkan operasi algoritma akan memungkinkan untuk menghabiskan lebih banyak malam dengan manfaat.Terima kasih semuanya! Film bagus dan sukses dalam bahasa Inggris.Source: https://habr.com/ru/post/id390677/
All Articles