Terjemahan Mesin Neural Google

Laporan ini ditulis pada bulan Desember 2017.
Bukan siapa yang memiliki algoritma terbaik yang menang. Itu yang memiliki data terbanyak. Pemenangnya bukan orang yang memiliki algoritma terbaik, tetapi orang yang memiliki lebih banyak data. Andrew Ng, Dosen Pembelajaran Mesin di Coursera.
Jika Anda meningkatkan ukuran model dan jumlah data yang Anda latih, Anda dapat mempelajari perbedaan yang lebih halus atau fitur yang lebih kompleks. ... Model-model ini biasanya dapat mengambil lebih banyak konteks. Jeff Dean, seorang insinyur yang membantu memimpin penelitian di Google. Jika Anda menambah ukuran model dan memberinya lebih banyak data untuk pelatihan, itu akan mulai membedakan antara fitur yang lebih halus dan kompleks. ... Model-model ini biasanya mengambil konteks yang lebih luas. Jeff Dean, seorang insinyur yang membantu manajemen penelitian di Google.
Saya menguji Google Terjemahan pada teks yang sama pada bulan Maret dan Desember 2011, Januari 2016 dan Desember 2017. Dia mengambil bagian yang sama dalam bahasa Inggris, Rusia, Jerman, Prancis, Ukraina dan Polandia dan menerjemahkan masing-masing ke dalam lima bahasa lainnya dari sampel. Selain itu, pada bulan Desember 2017, ia juga mengambil teks-teks baru dan menguji semua arah terjemahan. Hasil verifikasi silang umumnya bertepatan dengan tren pada sampel awal. Hasilnya adalah sepotong karya penerjemah Google untuk 2011 - 2017, dan berdasarkan materi ini kita dapat menarik kesimpulan tentang evolusi layanan dan mengomentari pernyataan pemasaran perusahaan (kutipan direncanakan akan dipublikasikan secara terpisah).

Kronik peristiwa


Hingga 2011 (dan mungkin nanti), Google sebenarnya mengklaim bahwa penerjemah statistik adalah belajar sendiri (lihat kutipan yang sesuai dari karyawan dalam artikel saya "Kompatibilitas Bahasa", [1]) dan itu, ketika teks paralel terakumulasi dalam setiap bahasa pasangan, kualitas produk terus berjuang untuk tingkat manusia semata-mata melalui pendekatan statistik yang inovatif. Pada 2012, Google meluncurkan jaringan saraf belajar mandiri [6] dan pada September 2016 mereka mengumumkan transfer penerjemah mesin mereka ke pembelajaran mendalam, yang sekali lagi menjanjikan peningkatan kualitas produk yang stabil [3, 4, 5]. Sejak Maret 2017, jaringan saraf mulai digunakan untuk terjemahan ke dalam bahasa Rusia.

Mari kita lihat apa yang dikelola oleh penerjemah Google selama bertahun-tahun, apa kekuatannya (tidak ada yang menyangkal bahwa ini adalah salah satu penerjemah mesin terbaik).

Retrospektif


Tahun 2011


(Berdasarkan artikel saya tahun 2012, [1].)

Terjemahan dalam banyak pasangan bahasa melalui terjemahan antara ke dalam bahasa Inggris dengan efek "telepon rusak"


Saat menerjemahkan ke arah ini, bahasa Inggris bertindak sebagai “perantara”: teks pertama-tama diterjemahkan ke dalam bahasa Inggris dan baru kemudian ke dalam bahasa terjemahan yang dipilih. Versi bahasa Inggris yang terdistorsi diterjemahkan ke dalam bahasa target, dengan fragmen yang tidak akurat tidak dapat dihindari selama terjemahan mesin. Dengan demikian, lapisan kedua ditumpangkan pada "deformasi primer". Akibatnya, teks yang sama menjadi lebih terdistorsi ketika diterjemahkan ke dalam bahasa Jerman, Prancis, dan bahasa lainnya daripada ke bahasa Inggris.

Kami mengambil frasa bahasa Inggris yang diterima [terjemahan dari Rusia] dan menerjemahkan layanan ke Jerman dan Perancis. Hasilnya adalah 100% sama dengan yang diberikan pada baris ketiga dan keempat terjemahan, diduga dari Rusia. Kesalahan dalam terjemahan Jerman dan Prancis berkorelasi dengan ketidakakuratan dan struktur frasa bahasa Inggris, tetapi tidak dari aslinya Rusia.

Ketika urutan kata dalam teks bahasa Inggris terganggu, kata-kata tersebut membentuk dan urutannya bukan merupakan indikator andal dari peran kata-kata ini dalam kalimat [dengan terjemahan lebih lanjut ke bahasa target].

Terjemahan statistik optimal antar bahasa terkait


Terjemahan Google dari Rusia ke Ukraina dan sebaliknya adalah yang paling "intuitif" benar dari semua yang dipertimbangkan, paling dekat dengan produk jadi, ia memiliki sedikit distorsi makna atau aturan bahasa, terjemahan kurang literal.

"Konversi" yang benar dari konstruksi gramatikal dari satu bahasa dengan bahasa lain adalah batas untuk terjemahan mesin statistik. Pembatasan ini tidak dihilangkan bahkan atas dasar bahasa terkait dan menciptakan lebih banyak "kebisingan" dalam interpretasi, semakin sedikit kesamaan gramatikal bahasa dalam suatu pasangan.

Google dapat terus menganalisis dokumen web, mengisi database korespondensi, tetapi mereka tidak akan meningkatkan terjemahan hanya dengan "mengoptimalkan hasil pencarian". Anda tidak dapat membuat database terjemahan untuk semua frasa yang mungkin. Ini berarti bahwa persentase tertentu dari kalimat, frasa, mesin harus dibuat secara independen, dan tidak siap, dan ini berarti bahwa pengembang perlu mengajarkan tata bahasa mesin dengan cara lain, "non-statistik".

Bahasa Inggris adalah bahasa inti dalam Google Translate


Terjemahan dari bahasa Inggris ke bahasa Inggris di Google Translate bersifat langsung, tanpa mediasi bahasa lain. Ini memberikan kualitas yang baik, di mana keunggulan layanan sangat mudah terlihat: sering kali terjemahan nama dan istilah, unit frasa, penggunaan ucapan langsung yang berbeda dengan terjemahan literal, seringkali pilihan makna leksikal yang benar tergantung pada konteksnya.

Diterjemahkan dalam bidang bahasa lain, "English-centricity" adalah minus terbesar dari karya Google Translate. Penerjemahan ke dalam non-Inggris atau non-Inggris belum menjadi yang paling sukses: teks mengalami distorsi ganda karena fakta bahwa aslinya tidak diterjemahkan ke dalam bahasa target secara langsung, tetapi dari terjemahan "intermediate", dipecah ke dalam bahasa Inggris. Salah satu opsi untuk meningkatkan kualitas terjemahan dalam layanan ini dapat “membongkar” bahasa Inggris dan membuat “sarang” di sekitar bahasa-bahasa utama lainnya: salah satu bahasa Slavik, Turki, Romansa, dll.

Peningkatan kualitas terjemahan yang signifikan tidak terjadi seiring waktu


Terjemahan dari teks yang sama pada waktu yang berbeda (Maret, Oktober, Desember 2011) menunjukkan keteraturan pengembangan terjemahan statistik Google. Dalam terjemahan-terjemahan selanjutnya ada variasi kosa kata yang jauh lebih besar, tetapi secara umum, dalam hal akurasi dan kejelasan, mereka tidak jauh lebih baik, bahkan lebih buruk di beberapa tempat.

Tahun 2016


Google menghapus pengulangan dari terjemahan; kalimat yang lebih baik dibangun, koheren, kadang-kadang pilihan kata yang lebih baik; terkadang kembalikan ke terjemahan yang kurang berhasil (“alat batu” alih-alih “alat batu” pada 2011); terkadang penafsiran yang kurang berhasil tentang peran anggota hukuman terkadang lebih. Total: di beberapa tempat lebih baik, di beberapa tempat lebih buruk daripada terjemahan 2011, tetapi secara umum level dan plafonnya sama.

Tahun 2017


Bahasa Inggris sebagai bahasa perantara mempertahankan perannya, tetapi kehilangan arah


Ada lebih banyak variasi, penyimpangan dari terjemahan antara bahasa Inggris. Seringkali percobaan ini tidak berhasil, yaitu, jika terjemahan ke bahasa target masih mengikuti bahasa Inggris secara membabi buta, hasilnya akan lebih baik. Namun, "penguasaan" tata bahasa bahasa target ditingkatkan secara paralel: jika teks dalam versi bahasa Inggris diterjemahkan secara memadai, maka Anda dapat yakin 90% bahwa ujung yang benar akan dimasukkan ke dalam terjemahan ke dalam bahasa lain, alat leksikal yang tepat akan dipilih, dan susunan kata yang optimal akan dibangun. Jika dalam bahasa Inggris "bubur" ... Tidak, bubur dalam hasil 2017 tidak lagi ada dan ini merupakan prestasi yang luar biasa. Jika ada sedikit kesalahan dalam terjemahan bahasa Inggris, maka dalam terjemahan ke bahasa target, menurut hukum telepon yang rusak, kesalahpahaman semakin meningkat. Namun, distorsi (pilihan kata yang salah) dalam bahasa target juga ditemukan dalam terjemahan bahasa Inggris yang sempurna.

Dibandingkan dengan terjemahan 2011 - 2016, sifat penyimpangan dari terjemahan bahasa Inggris pada tahun 2017 sedemikian rupa sehingga tampaknya 1) mereka mengacaukan "pengacak", 2) penerjemah memproses teks dalam beberapa tahap dan dapat mengubah masing-masing bagian dalam proses atau, sebaliknya, memperbaikinya. nilai menurut sumbernya, bukan perantara bahasa Inggris.

Namun demikian, struktur kalimat dan pilihan kosa kata dalam bahasa target masih sangat ditentukan oleh terjemahan bahasa Inggris, dan terjemahan ke dalam bahasa menggunakan alfabet Latin kadang-kadang mengandung bagian-bagian dalam bahasa Inggris yang tidak asli.

Kecenderungan untuk menghasilkan teks dalam bahasa target sesuai dengan hukum tata bahasanya
Korelasi antara terjemahan satu teks ke bahasa yang berbeda lebih sedikit dari sebelumnya. Layanan tidak menerjemahkan kata demi kata, hasilnya menjadi lebih bebas: pengejaan ulang yang memadai, penataan ulang kata-kata, penataan ulang kata-kata dari awal hingga akhir kalimat, jika aturan bahasa mengharuskannya (dalam bahasa Jerman ini sangat baik diimplementasikan). Berbeda dengan tingkat sebelumnya (terjemahan berbasis frase - pencocokan satu kali kata dan frase individual), penerjemah saraf sampai batas tertentu mengubah kalimat, menganalisisnya secara keseluruhan dan membangun korespondensi "dari ujung ke ujung" dalam beberapa tahap (akhir pemetaan ujung ke ujung - konversi ujung ke ujung, siklus penuh, transformasi berkelanjutan dari berbagai data dari input ke output).

Analisis struktur kalimat dan kata yang lebih akurat


Pencapaian utama dalam hasil terjemahan 2017 adalah pengakuan struktur kalimat yang lebih solid dan percaya diri dan transmisi makna tata bahasa dalam bahasa target. Dalam bahasa Inggris, akhiran tidak memainkan peran penting dalam menyampaikan makna tata bahasa seperti dalam bahasa Rusia, Jerman, Polandia, dan Ukraina. Namun demikian, selama "sweep" melalui jaringan saraf, koneksi gramatikal mulai "hilang" lebih jarang daripada selama terjemahan statistik. Kata-kata multi-root yang jarang digunakan juga mulai dikenal: penerjemah berupaya dengan baik dengan pembagian tidak hanya kalimat, tetapi juga kata-kata.
Namun, "keterampilan" analisis sangat tergantung pada bahasa. Ini lebih baik dan lebih konsisten diterapkan di Jerman dan Polandia daripada di Rusia (tetapi juga tidak buruk). Dalam terjemahan dari bahasa Ukraina, kadang-kadang berhasil, maka itu terus terang buggy (dalam fragmen seperti tingkat lebih buruk daripada dalam terjemahan tahun-tahun sebelumnya).

Kualitas terjemahan telah meningkat secara signifikan selama setahun terakhir


Pada tahun 2011 - 2016, terjemahan frasa kompleks ke dalam bahasa Inggris hanya memiliki kemiripan konektivitas: kata-kata dan frasa yang diterjemahkan disusun bersatu dalam urutan yang sedikit disesuaikan, tetapi tidak ada "pemahaman mendalam" dari struktur, dan kadang-kadang terjemahannya tampak lancar hanya karena dalam bahasa Inggris sering akhir diperlukan, dan tidak adanya kata-kata layanan dalam beberapa gaya diizinkan. Tetapi "kesalahpahaman" ini selalu diwujudkan dalam terjemahan lebih lanjut ke dalam bahasa target. Dalam terjemahan untuk Desember 2017, struktur kalimat bahasa Inggris lebih selaras - dan lebih baik ditafsirkan ke dalam bahasa lain. Kualitas dalam bahasa-bahasa ini meningkat secara proporsional: sedikit lebih rendah dari bahasa Inggris, tetapi jauh lebih tinggi dari nilai tambah sebelumnya, ada penghilangan dan penyimpangan sporadis dari bahasa Inggris (dalam kebanyakan kasus tidak berhasil).

Beberapa posisi pada akurasi leksikal hilang dibandingkan dengan terjemahan 2011 dan 2016, tetapi kejelasan umum teks akhir lebih penting daripada fakta bahwa penerjemah memamerkan pengetahuan tentang istilah dan ungkapan individu. Pada tahun 2011, dengan latar belakang penerjemah mesin lain, pekerjaan berkualitas dengan kosa kata dan frasa merupakan sebuah pencapaian. Hanya yang terbaik yang berhasil menemukan kecocokan persis dari frasa stabil, nama dan istilah yang tepat. Namun, korespondensi individual dengan inkoherensi umum tidak cukup. Itu perlu untuk memperketat "pengetahuan tata bahasa." Selama lima tahun “pelatihan mandiri” penerjemah statistik (2011-2016), tidak ada peningkatan konektivitas. Lompatan kualitatif terjadi setelah integrasi dengan jaringan saraf (atau lebih tepatnya bertepatan). Sekarang, pada sampel yang saya ambil pada 3 Desember 2017, saya dapat mengonfirmasi bahwa tugas super telah menjadi lebih dapat dicapai: "komputer" (bukan jaringan komputer yang sangat besar) dapat mengenali teks tanpa ejaan peraturan yang melelahkan secara manual. (Tapi kadang-kadang dia salah. Karena itu, lebih baik memberinya teks lebih sederhana, tanpa kalimat hiasan lima kalimat panjang.)

Jika pada tahun 2011 dan 2016 bagian "tempat gelap" (kumpulan kata yang tidak jelas) dalam sampel terjemahan ke semua bahasa yang saya ambil adalah 1 2 fragmen per teks dengan panjang 65 - 90 kata, maka pada tahun 2017 tidak ada "tempat gelap". (Saya tidak mengambil permainan kata-kata dan ungkapan muskil lainnya untuk terjemahan, tetapi teks biasa. Terjemahan yang salah dan bahkan lucu dari kata-kata dan frasa individu masih terjadi, tetapi itu tidak mengarah pada penciptaan "tempat-tempat gelap".) Membaca terjemahan, Anda mengerti tentang apa pidato, bahkan jika itu canggung. Selain itu, kualitas terjemahan ke dalam bahasa Inggris lebih tinggi daripada di bahasa target lainnya.

Jika pada tahun 2011 fitur utama penerjemah Google adalah menemukan kecocokan yang ideal dalam konteks ini antara bahasa (leksikal, level phrasal), maka pada 2017, setelah kehilangan sedikit dalam akurasi leksikal, penerjemah memperoleh momentum dalam penguraian kalimat dan transfer hubungan tata bahasa.

Pada tahun 2011, layanan ini kadang-kadang menganggap potongan kalimat yang rumit sebagai terisolasi dan hanya merangkai terjemahannya satu per satu ke dalam rantai. Pada 2017, setelah menyelesaikan masalah ini, itu juga lebih baik mengisolasi potongan-potongan asing sehingga mereka tidak membuat "noise". Ini adalah bercak kata dalam bahasa lain dan kesalahan ketik. Ini membawa mesin lebih dekat ke level seseorang: jika kita tidak mendengar beberapa kata dalam kalimat, sebagai suatu peraturan, ini tidak mencegah kita untuk menangkap makna umum.

Terjemahan ke dalam bahasa Ukraina “tidak mengikat” dari bahasa perantara Rusia


Sebelumnya (hingga "pengukuran" kedua dari belakang pada Januari 2016), terjemahan ke Ukraina dan Rusia bertepatan dengan 99,9%, dan bahkan jika ini mengurangi kualitas terjemahan ke Ukraina, itu tidak signifikan, meskipun faktanya terjemahan pertama kali dipisahkan dari aslinya oleh Bahasa Inggris, lalu ke bahasa Rusia (“air ketiga di atas agar-agar”).

Sekarang ada perbedaan antara terjemahan satu teks ke dalam bahasa Rusia dan Ukraina. Alih-alih secara membabi buta mengikuti terjemahan Rusia, Ukraina sekarang berjalan dengan caranya sendiri. Terkadang ini berarti bahwa itu hanya berisi lebih banyak terjemahan yang salah dan bentuk kata. Kadang-kadang - bahwa tidak ada kesalahan di dalamnya di Rusia.

Sebelumnya, terjemahan yang salah, jika ada, maka segera dalam semua bahasa: di tempat yang sama kesalahan yang sama. Ini karena "hambatan" dalam terjemahan bahasa Inggris. Sekarang kesalahan muncul secara sporadis: baik dalam satu bahasa, kemudian dalam bahasa lain, ketika semuanya OK dalam bahasa Inggris dan bahasa target lainnya. Di Ukraina, ini terjadi jauh lebih sering daripada dalam bahasa lain dari sampel. Selain itu, dalam terjemahan tiga teks yang berbeda dari Ukraina ke Jerman, Prancis dan Polandia ada banyak distorsi yang tidak masuk akal, yang tidak diterjemahkan ke dalam bahasa Inggris. Juga, dipasangkan dengan Ukraina, sekitar sepertiga dari nama-nama itu terdistorsi, meskipun transfer nama yang tepat adalah fitur tradisional Google dari "jaman dahulu". Contoh: Bloodd bukannya Bloodood, Daphne du Morley bukannya Daphne de Maurier, Racine bukannya Rachel; di tempat lain, Rachel dieja dengan benar hanya dalam bahasa Inggris, tetapi Racch muncul dalam bahasa Jerman, Prancis, dan Polandia). Saya menyarankan bahwa distorsi semacam itu bukan kesalahan glosarium, tetapi kegagalan sistem "situasional", dan dalam teks lain nama yang sama dapat ditransfer dengan benar. Hipotesis dikonfirmasi, kecuali dalam kasus Daphne du "Morley".

Penerjemah saraf tidak beroperasi dengan makna


Penerjemah statistik bekerja dengan baik dengan pengenalan istilah, nama, frasa, dan sering berhasil memilih arti kata-kata dalam konteks kalimat. Masalah dimulai ketika tidak mungkin untuk menafsirkan dengan benar hubungan antara kata-kata, peran tata bahasa mereka. Pada terjemahan 2017, peningkatan yang signifikan dalam arah ini terlihat, yaitu, tempat-tempat yang tidak dikenal menjadi kurang. Apakah ini terjemahan yang memadai? Tidak juga. Penerjemah saraf terikat pada struktur kalimat. Itu pekerjaan yang baik untuk mengubah konstruksi bahasa dari bahasa ke bahasa. Layanan mengambil makna bukan dari kalimat atau paragraf, tetapi dari segmen yang lebih kecil (yang menjadi jauh lebih baik untuk didefinisikan) dan "menempelkan" potongan sesuai dengan aturan tata bahasa bahasa target.

Produk semacam itu masih membantu untuk memahami yang asli, tetapi bukan teks yang berkualitas tinggi (walaupun beberapa kalimat dapat diterjemahkan dengan sempurna).

Apa yang hilang


Penerjemah profesional diajarkan untuk menyampaikan makna dengan kata-kata mereka sendiri, tanpa terikat dengan struktur kalimat sumber. Terjemahan yang memadai harus berusaha dari transmisi kata demi kata dan frase-bijaksana untuk transformasi semantik.

Berapa banyak fase peralihan dari tahap pengembangan terjemahan mesin saat ini ke yang sastra, yang menyiratkan kepemilikan norma gaya dan transfer citra? Sebanyak sebelum penciptaan kecerdasan buatan, mampu beralasan.
Terkadang menurut saya norma-norma bahasa akan berubah lebih awal. Karena fakta bahwa kita membaca banyak "terjemahan dalam" dari bahasa Inggris, bahasa ibu kita bisa menjadi lebih toleran terhadap bahasa Inggris - tidak hanya pada frasa individual, tetapi juga pada struktur frasa asing. Bahasa-bahasa yang dibentuk berdasarkan bahasa penjajah dan bahasa penduduk setempat disebut pidjin. Mereka mengambil neologisme dari penjajah; tata bahasa meninggalkan mereka sendiri. Contoh nyata: pidato mantan warga kami di Pantai Brighton (dan di tempat-tempat lain di luar negeri) atau kantor ruglish: Ujung bahasa Rusia “melekat” pada kata-kata bahasa Inggris. Validasi, tambahkan, bagikan, dll.

Apa yang terjadi dalam terjemahan mesin adalah proses yang berlawanan: kata-kata Rusia dengan akhiran Rusia membentuk frase yang sedikit canggung tetapi dapat dimengerti. Kami tidak mengatakan itu. Tapi kamu bisa mengerti. Ini seperti ucapan orang asing yang berbicara bahasa Rusia dengan baik: tampaknya tidak ada aksen, dan kosa katanya sangat bagus, dan bentuk kata-katanya benar, tetapi kadang-kadang "Saya mandi", "Saya naik taksi", "menghormati prinsip ini mengharuskan kami mencoba metode persuasi baru" ". Level ini masih menjadi batas bagi penerjemah saraf. Tak perlu dikatakan, ini adalah bar yang sangat tinggi? Selain itu, layanan "memiliki" pada tingkat ini lebih dari seratus bahasa dan relatif mudah menambahkan yang baru. "Penerjemah dengan aksen bahasa Inggris."

Apa yang sebenarnya hilang ke tingkat terjemahan sastra


Untuk memperjelas apa yang dikeluhkan para penerjemah, sebagai kesimpulan saya akan memberikan contoh terjemahan mesin dan non-mesin dari bahasa Inggris ke bahasa Rusia.

Tidak ada yang merenungkan kehidupan mereka yang berharap ada lebih sedikit momen seperti itu.
Google: Tidak ada yang merenungkan hidupnya yang pernah bermimpi bahwa ada lebih sedikit momen seperti itu.
Manusia: Melihat kembali kehidupan masa lalu, tidak ada yang akan mengatakan bahwa ada terlalu banyak momen seperti itu.

Apakah peradaban hanya lapisan atas inti kekerasan?
Google: Apakah peradaban hanya lapisan atas inti yang sengit?
Manusia: apakah manusia binatang buas di bawah lapisan tipis peradaban? // Apakah seseorang di bawah lapisan tipis peradaban adalah binatang yang kejam?

Referensi


1. Kompatibilitas bahasa dan batasan lain dalam terjemahan statistik Google Translate, 2012
2. Dari asli ke asing dan sebaliknya: menguji 7 penerjemah online, 2012
3. Sistem Terjemahan Mesin Neural Google: Menjembatani Kesenjangan antara Terjemahan Manusia dan Mesin, 2016
4. Sistem Terjemahan Mesin Saraf Multibahasa Google: Mengaktifkan Terjemahan Tanpa Suntingan, 2016
5. Jaringan Saraf untuk Penerjemahan Mesin, pada Skala Produksi, 2016
6. Google Menerapkan Teknologi Otak Virtualnya, 2012
7. Jaringan saraf Google Translate membuat satu basis makna manusia. kata-kata, 2016
8. Keterbatasan pembelajaran yang mendalam dan masa depan (terjemahan), 2017
9. Arsitektur jaringan saraf [tentang kerangka kerja GNMT], 2017

Source: https://habr.com/ru/post/id414343/


All Articles