Lansekap layanan terjemahan mesin cloud. Kuliah di Yandex

Ini adalah laporan terakhir dari Hyperbaton keenam , yang akan kami terbitkan di Habré. Grigory Sapunov dari Intento berbagi pendekatan untuk menilai kualitas layanan terjemahan mesin cloud, berbicara tentang hasil evaluasi dan perbedaan utama antara layanan yang tersedia.


- Nama saya Grigory Sapunov, saya akan memberi tahu Anda tentang lanskap layanan terjemahan mesin cloud. Kami telah mengukur lanskap ini selama lebih dari satu tahun, sangat dinamis dan menarik.



Saya akan memberi tahu Anda apa itu, mengapa berguna untuk memahami apa yang terjadi di sana, tentang solusi yang terjangkau, yang cukup banyak, tentang membandingkan model stok, model terjemahan mesin yang sudah dilatih sebelumnya, tentang model kustom yang mulai muncul secara aktif pada tahun lalu, dan saya akan memberikan rekomendasi saya tentang pemilihan model.

Terjemahan mesin telah menjadi alat yang sangat berguna yang membantu mengotomatiskan banyak tugas yang berbeda. Ini menggantikan seseorang hanya dalam beberapa topik, tetapi setidaknya itu dapat sangat mengurangi biaya. Jika Anda perlu menerjemahkan banyak deskripsi produk atau ulasan pada layanan web yang besar, maka orang di sini sama sekali tidak dapat mengatasi aliran yang besar, dan terjemahan mesin sangat bagus. Dan sudah ada banyak solusi siap pakai di pasaran. Ini adalah beberapa model pra-pelatihan, mereka sering disebut model stok, dan model dengan adaptasi domain, yang telah berkembang sangat baru-baru ini.

Pada saat yang sama, membuat solusi terjemahan mesin Anda sendiri cukup sulit dan mahal. Teknologi terjemahan mesin modern, terjemahan mesin jaringan saraf, membutuhkan banyak hal untuk lepas landas di dalam. Kami membutuhkan talenta yang akan melakukan ini, kami membutuhkan banyak data untuk melatihnya, dan waktu untuk melakukannya. Selain itu, terjemahan mesin jaringan saraf membutuhkan sumber daya mesin yang jauh lebih banyak daripada versi terjemahan mesin sebelumnya seperti SMT atau berbasis aturan.

Pada saat yang sama, terjemahan mesin, yang tersedia di cloud, sangat berbeda. Dan pilihan terjemahan mesin yang tepat memungkinkan Anda menyederhanakan hidup Anda, menghemat waktu, uang, dan akhirnya menyelesaikan masalah Anda atau tidak menyelesaikannya. Penyebaran kualitas, dalam metrik berbasis referensi yang kami ukur, bisa empat kali.



Pada saat yang sama, pada harga, spread biasanya 200 kali lipat. Ini adalah situasi yang sepenuhnya tidak normal. Layanan dengan kualitas yang kurang lebih sama mungkin berbeda 200 kali. Ini adalah cara mudah bagi Anda untuk menabung atau membelanjakan uang ekstra.

Pada saat yang sama, layanan berbeda secara signifikan dalam karakteristik produk. Ini dapat berupa dukungan untuk format, dukungan untuk file, keberadaan mode batch atau ketidakhadirannya, ini adalah jumlah maksimum teks yang dapat diterjemahkan oleh suatu layanan pada satu waktu, dan banyak lagi. Dan semua ini harus dipahami ketika memilih layanan. Jika Anda memilih layanan yang salah, Anda harus mengulanginya atau Anda tidak akan mendapatkan kualitas yang ingin Anda terima. Akibatnya, itu bermuara pada kenyataan bahwa Anda membawa sesuatu ke pasar lebih cepat, menghemat uang, dan memberikan kualitas terbaik untuk produk Anda. Atau tidak menyediakan.



Bandingkan layanan ini untuk memahami apa yang tepat untuk Anda, lama dan mahal. Jika Anda melakukannya sendiri, Anda harus berintegrasi dengan semua layanan terjemahan mesin cloud, menulis integrasi ini, membuat perjanjian, pertama-tama mengatur penagihan terpisah, berintegrasi dengan semua orang. Kemudian jalankan melalui semua layanan ini beberapa data Anda, evaluasi. Itu sangat mahal. Anggaran proyek semacam itu mungkin melebihi anggaran proyek utama yang Anda lakukan ini.

Jadi ini adalah topik penting, tetapi sulit untuk melakukannya sendiri, dan kami di tempat ini membantu kami untuk memahami apa itu.



Ada berbagai teknologi di pasar. Hampir semua layanan beralih ke terjemahan mesin jaringan saraf atau semacam hibrida. Masih ada sejumlah penerjemah mesin statistik di pasaran.



Masing-masing memiliki karakteristik sendiri. BDC tampaknya merupakan teknologi bagus yang lebih modern, tetapi ada juga kehalusan.

Secara umum, terjemahan mesin jaringan saraf bekerja lebih baik dari model sebelumnya, tetapi Anda juga harus mengikutinya, ada hasil yang sama sekali tidak terduga. Sebagai Yoda sejati, ia dapat tetap diam, memberikan jawaban kosong pada beberapa baris, dan Anda harus dapat menangkapnya dan memahami bahwa ia berperilaku seperti ini pada data Anda. Atau contoh yang bagus dari e-commerce, ketika deskripsi besar barang dikirim ke terjemahan mesin, dan dia hanya mengatakan bahwa itu adalah tas punggung dan hanya itu. Dan itu adalah perilaku stabil dari layanan mesin ini, yang bagus dan bekerja dengan baik pada data umum, data berita. Tetapi e-commerce tidak berfungsi dengan baik di area khusus ini. Dan Anda perlu memahami ini, Anda perlu menjalankan semua layanan ini pada data Anda untuk memilih salah satu yang paling sesuai dengan data Anda. Ini bukan layanan yang akan bekerja lebih baik pada berita atau yang lainnya. Ini adalah yang harus bekerja lebih baik pada kasus khusus Anda. Ini harus dipahami dalam setiap kasus.



Ada banyak tingkatan penyesuaian. Level nol - ketidakhadirannya. Ada model stok yang sudah dilatih sebelumnya, ini semua yang digunakan di cloud sekarang di penyedia yang berbeda. Ada opsi dengan model yang sepenuhnya disesuaikan pada kasus Anda, ketika Anda, secara kondisional, memesan di beberapa perusahaan yang bergerak dalam terjemahan mesin, itu melatih model untuk Anda, dari data Anda, dari awal. Tapi butuh waktu lama, mahal, membutuhkan selungkup besar. Ada penyedia besar yang akan mengambil $ 5.000 dari Anda untuk percobaan seperti itu, angka pesanan ini. Hal-hal yang mahal untuk dicoba. Dan ini tidak menjamin Anda apa pun. Anda dapat melatih modelnya, dan itu akan menjadi lebih buruk daripada yang tersedia di pasar, dan uangnya akan dibuang. Ini adalah dua opsi ekstrem. Baik model stok, atau disesuaikan pada kasus Anda.

Ada kasus menengah. Ada glosarium, hal yang sangat baik yang membantu meningkatkan model terjemahan mesin saat ini. Dan ada adaptasi domain yang sekarang aktif berkembang, semacam transfer belajar, apa pun yang tersembunyi di balik kata-kata ini, yang memungkinkan Anda untuk melatih beberapa model umum atau bahkan model khusus untuk melatih kembali data Anda, dan kualitas model seperti itu akan lebih baik daripada hanya model umum. Ini adalah teknologi yang baik, berfungsi, sekarang sedang dalam pengembangan aktif. Ikuti dia, aku akan memberitahumu lebih banyak tentang dia.



Ada dimensi penting lainnya, untuk membesarkan di rumah atau menggunakan cloud. Ada kesalahpahaman yang populer di tempat ini, orang masih berpikir bahwa layanan terjemahan mesin cloud, jika Anda menggunakannya, akan mengambil data Anda dan melatih model mereka pada mereka. Ini tidak benar untuk satu atau dua tahun terakhir. Semua layanan utama menolak ini, mereka dengan jelas menyatakan dalam hal layanan bahwa kami tidak menggunakan data Anda untuk melatih model kami. Ini penting. Ini menghilangkan banyak hambatan untuk mengadaptasi terjemahan mesin cloud. Sekarang Anda dapat menggunakan layanan ini dengan aman dan memastikan bahwa layanan tersebut tidak akan menggunakan data Anda untuk melatih modelnya, dan itu tidak akan menjadi pesaing bagi Anda seiring waktu. Itu aman.

Ini adalah keunggulan pertama cloud dibandingkan dengan dua tahun yang lalu.

Keuntungan kedua, jika Anda menggunakan terjemahan jaringan saraf dalam diri Anda, Anda perlu mengangkat infrastruktur yang agak berat dengan akselerator grafis untuk melatih semua jaringan saraf ini. Dan bahkan setelah pelatihan untuk inferensi, Anda masih perlu menggunakan kartu grafis berkinerja tinggi agar ini berfungsi. Ternyata mahal. Biaya kepemilikan solusi semacam itu sangat tinggi. Dan perusahaan yang tidak akan secara profesional menyediakan API ke pasar tidak perlu melakukan ini, Anda perlu mengambil layanan cloud yang sudah jadi dan menggunakannya. Di tempat ini Anda menghemat uang, waktu, dan ada jaminan tidak digunakannya data Anda untuk kebutuhan layanan.

Tentang perbandingan.



Kami telah berurusan dengan topik ini untuk waktu yang lama, satu setengah tahun kami secara teratur mengukur kualitas. Kami memilih metrik referensi otomatis, memungkinkannya dilakukan secara masif, dan mendapatkan interval kepercayaan tertentu. Kami lebih atau kurang tahu berapa banyak metrik kualitas data menetap, dan kami dapat membuat pilihan yang memadai antara berbagai layanan. Tetapi kita harus ingat bahwa metrik otomatis dan manusia saling melengkapi. Metrik otomatis baik untuk melakukan analisis pendahuluan, memilih tempat yang harus diperhatikan orang, dan kemudian ahli bahasa atau pakar domain harus melihat opsi terjemahan ini dan memilih yang cocok untuk Anda.



Saya akan memberi tahu Anda tentang sistem apa yang ada di pasar, bagaimana kami semua menganalisanya, bagaimana mereka membandingkannya dengan harga, dan saya akan memberi tahu Anda tentang hasil analisis kami, apa yang penting di sini dalam kualitas dan apa yang penting di luar kualitas ketika memilih layanan.



Pertama-tama, sudah ada sejumlah besar layanan terjemahan mesin berbasis cloud, kami menganggap hanya yang memiliki model pra-terlatih yang dapat Anda ambil dan mulai gunakan, dan mereka memiliki API publik.

Masih ada sejumlah layanan yang tidak memiliki API publik atau digunakan secara internal, kami tidak mempertimbangkannya dalam penelitian kami. Tetapi bahkan di antara layanan ini sudah ada sejumlah besar dari mereka, kami mengukur dan mengevaluasi 19 dari layanan ini. Praktek menunjukkan bahwa rata-rata orang mengenal beberapa pemimpin pasar, tetapi tidak tahu sisanya. Dan mereka ada, dan di beberapa tempat mereka baik.



Kami mengambil popularitas bahasa di web dan membaginya menjadi empat kelompok. Yang paling populer, lebih dari 2% situs, kurang populer dan bahkan kurang. Ada empat kelompok bahasa yang kami analisis lebih lanjut, dan dari semua ini kami fokus pada kelompok pertama, bahasa yang paling populer, dan sedikit pada yang kedua.



Dukungan dalam tiga kelompok pertama hampir 100%. Jika Anda membutuhkan bahasa yang tidak super eksotis, maka Anda akan mendapatkannya dari cloud. Dan jika Anda membutuhkan pasangan eksotis, mungkin ternyata beberapa bahasa tidak didukung oleh layanan terjemahan cloud mesin. Tetapi bahkan dengan semua batasan, sekitar setengah dari semua pasangan yang mungkin didukung. Ini tidak buruk.



Dari semua ini, kami menguji 48 pasangan, membuat matriks seperti itu, terutama memilih bahasa Inggris dan semua bahasa dari kelompok pertama, sebagian bahasa dalam kelompok pertama, dan sedikit bahasa Inggris dan bahasa-bahasa dari kelompok kedua. Ini kurang lebih mencakup skenario penggunaan umum, tetapi banyak hal menarik lainnya tetap ada di luar. Kami mengevaluasi pasangan ini, mengukurnya dan memberi tahu Anda apa yang terjadi di sana. Laporan lengkapnya ada di sini, gratis, kami memperbaruinya secara berkala, saya akan mengkampanyekan Anda untuk menggunakannya.



Angka dan sumbu tidak terlihat pada grafik ini, tetapi ini tentang mendukung berbagai bahasa dengan sistem terjemahan mesin yang berbeda. Ada sistem terjemahan mesin yang berbeda di sepanjang sumbu X, di sepanjang sumbu Y dalam skala logaritmik jumlah pasangan yang didukung secara umum dan unik. Dalam gambar ini, merah itu unik, biru adalah segalanya. Dapat dilihat bahwa jika Anda memiliki kombinasi bahasa yang sangat eksotis, mungkin karena keunikan Anda perlu menggunakan tujuh penyedia yang berbeda, karena hanya satu dari mereka yang mendukung pasangan yang sangat spesifik yang Anda butuhkan.



Untuk menilai kualitas, kami memilih gedung berita, bangunan domain umum. Ini tidak menjamin bahwa situasinya akan sama pada data spesifik Anda dari area lain, kemungkinan besar tidak sama, tetapi ini adalah demonstrasi yang baik tentang bagaimana mendekati studi seperti itu secara umum, bagaimana memilih layanan yang tepat yang cocok untuk Anda. Saya akan menunjukkan contoh area berita. Mudah mentransfer ke area lain dari Anda.



Kami memilih metrik hLEPOR, ini hampir sama dengan BLEU, tetapi dalam pengertian intuitif kami memberikan kesan yang lebih baik tentang bagaimana layanan terkait satu sama lain. Untuk kesederhanaan, pertimbangkan bahwa metrik dari 0 hingga 1, 1 adalah korespondensi lengkap dengan terjemahan referensi tertentu, 0 adalah perbedaan total. hLEPOR memberikan perasaan intuitif yang lebih baik, yang berarti perbedaan 10 unit dibandingkan dengan BLEU. Anda dapat membaca tentang metrik secara terpisah, semuanya dijelaskan dalam metodologi penelitian. Ini adalah metrik normal, metrik proksi, tidak sempurna, tetapi menyampaikan esensinya dengan baik.



Perbedaan harga sangat besar. Kami telah menyusun matriks dengan harga berapa Anda bisa mendapatkan terjemahan 1 juta karakter. Anda dapat mengunduh dan melihat, perbedaannya sangat besar, dari $ 5 hingga $ 1.000 per juta karakter. Memilih layanan yang salah hanya akan meningkatkan biaya Anda secara drastis, atau memilih layanan yang tepat dapat membantu Anda menghemat banyak biaya di tempat ini. Pasarnya buram, Anda perlu memahami apa yang bernilai dan di mana kualitasnya. Ingatlah matriks ini. Sulit untuk membandingkan semua layanan, untuk harga, harga seringkali tidak terlalu transparan, kebijakannya tidak terlalu jelas, ada beberapa nilai. Ini semua rumit, tabel ini membantu untuk membuat keputusan.



Kami mengurangi hasil analisis kami menjadi gambar-gambar lucu. Gambar ini menunjukkan apa kualitas maksimum yang tersedia untuk pasangan yang kami ukur, lebih hijau - kualitas lebih tinggi tersedia, apa kompetisi dalam pasangan ini, apakah benar-benar ada sesuatu untuk dipilih, secara kondisional, di suatu tempat di sekitar 8 penyedia menyediakan ini kualitas paling terjangkau, di suatu tempat hanya 2, dan ada juga ikon dolar, ini tentang harga yang Anda dapatkan kualitas maksimal. Penyebarannya besar, di suatu tempat murah Anda bisa mendapatkan kualitas yang dapat diterima, di suatu tempat itu tidak terlalu dapat diterima dan mahal, kombinasi yang berbeda dimungkinkan. Lansekapnya kompleks, tidak ada satu pemain super yang lebih baik di mana-mana, murah, bagus, dan sebagainya. Di mana-mana ada pilihan, dan di mana pun itu harus dilakukan secara wajar.



Di sini kami telah menggambar sistem terbaik untuk pasangan bahasa ini. Dapat dilihat bahwa tidak ada satu sistem yang lebih baik, layanan yang berbeda lebih baik pada pasangan yang berbeda di bidang khusus ini - berita, di daerah lain situasinya akan berubah. Di suatu tempat Google itu bagus, di suatu tempat yang bagus Deepl, itu adalah penerjemah Eropa yang baru, yang hanya diketahui sedikit orang, itu adalah perusahaan kecil yang berhasil bertarung dengan Google dan mengalahkannya, kualitasnya sangat bagus. Yandex secara konsisten baik pada pasangan Rusia-Inggris. Amazon baru-baru ini muncul, menghubungkan bahasa Rusia dan lainnya, dan juga tidak buruk. Ini adalah perubahan baru. Setahun yang lalu, banyak dari ini tidak, ada lebih sedikit pemimpin. Sekarang situasinya sangat dinamis.



Mengetahui sistem terbaik tidak selalu penting. Lebih sering penting untuk mengetahui sistem yang optimal. Jika Anda melihat 5% teratas sistem untuk kualitas ini, maka di antara ini 5% teratas adalah yang termurah, memberikan kualitas yang baik. Di tempat ini, situasinya sangat berbeda. Google meninggalkan perbandingan ini, Microsoft naik sangat banyak, menjadi lebih Yandex, Amazon semakin merangkak keluar, semakin banyak penyedia eksotis yang muncul. Situasinya menjadi berbeda.



Jika Anda melihat semua penyedia terjemahan mesin, horizontal - penyedia berbeda, secara vertikal - seberapa sering penyedia berada di salah satu puncak ini, maka di atas 5% hampir setiap dari mereka cepat atau lambat. Yang terbaik dari mereka untuk beberapa pasangan terukur spesifik adalah 7 penyedia, yang optimal juga 7. Ini berarti bahwa jika Anda memiliki beberapa bahasa yang perlu diterjemahkan dan Anda ingin memastikan kualitas maksimum atau optimal, Anda memerlukan satu penyedia tidak cukup, Anda perlu menghubungkan portofolio penyedia ini, dan kemudian Anda akan memiliki kualitas maksimum, efisiensi uang maksimum dan sebagainya. Tidak ada satu pemain pun yang lebih baik. Jika Anda memiliki tugas yang kompleks, Anda memerlukan banyak pasangan berbeda, Anda memiliki cara langsung untuk menggunakan penyedia yang berbeda, ini lebih baik daripada menggunakan satu.



Pasar sangat dinamis, jumlah penawaran berkembang pesat. Kami mulai mengukur pada awal tahun ke-17, tolok ukur baru diterbitkan pada bulan Juli. Jumlah layanan yang tersedia terus bertambah, beberapa dari mereka masih dalam pratinjau, mereka tidak memiliki harga publik, mereka dalam beberapa jenis alfa atau beta, yang dapat Anda gunakan, tetapi kondisinya tidak begitu jelas.



Kualitas tumbuh lebih lambat, tetapi juga tumbuh. Minat utama terjadi dalam pasangan bahasa tertentu.



Misalnya, situasi di dalam pasangan bahasa Inggris-Rusia sangat dinamis. Yandex selama enam bulan terakhir telah sangat meningkatkan kualitasnya. Amazon muncul, diwakili oleh satu titik di sebelah kanan, juga tidak jauh di belakang Yandex. Penyedia GTCom dipompa dengan baik, yang hampir tidak ada yang tahu, itu adalah penyedia Cina, itu diterjemahkan dengan baik dari Cina ke dalam bahasa Inggris dan Rusia, dan Inggris - Rusia juga menangani dengan baik.

Gambar serupa terjadi lebih atau kurang di semua pasangan bahasa. Di mana-mana ada sesuatu yang berubah, pemain baru terus-menerus muncul, kualitas mereka berubah, model sedang dilatih ulang. Soalnya, ada penyedia stabil yang kualitasnya tidak berubah. Dalam hal ini, yang stabil lebih mungkin mati, karena ada yang tidak stabil lainnya yang kualitasnya lebih atau kurang membaik. Ini adalah cerita yang bagus, mereka meningkat hampir secara konstan.



Jika Anda mempertimbangkan metrik yang lebih kompleks tentang kualitas harga, maka ada peningkatan yang stabil. Ini berarti bahwa biaya terjemahan mesin berkualitas tinggi terus menurun, dengan setiap bulan, setiap tahun, semakin banyak terjemahan mesin berkualitas tinggi tersedia untuk Anda dengan lebih sedikit uang. Ini bagus.


Tautan dari slide

Selain harga dan kualitas, ada lapisan besar masalah yang juga penting ketika memilih penyedia tertentu. Ini semua jenis fitur produk, dukungan html, xml, dukungan untuk format yang rumit dan tidak terlalu banyak, mode massal, deteksi otomatis bahasa - topik populer, dukungan untuk glosarium, penyesuaian, keandalan layanan. Dan juga apa yang kami sebut kebahagiaan pengembang, Anda kemudian dapat membaca apa yang kami maksud dengan tautan tersebut.



Ini untuk membuat bencana mobil. DX , , , HTTP, , API, , , . , API, . , , API , - . .

, . , , SDK, , , . . .

, , API NDA. . . , - .

, . , , , . - , , .

— , . , , .



- . , , . , - , Google, Microsoft, IBM, - , , , .



? , , , . — , . 10 . 1 . 2 . , 2 . . 50 .

hLEPOR, , , , , , . , . — . , . , , - , . , . , , , . .



, . Microsoft, 3 API. , , , Microsoft . . , , . , , 10 . Microsoft . , . , , .



IBM, , . , . 2% — .



Google AutoML , , 10 100 . .



, Microsoft, Google, - — , Deepl, Amazon, Google, Microsoft. , . ? , - , - . , Google Deepl, , , . . , . .

, , , , . . , , . , , . . , . , .

?



. . , , .

, . , - . . , , , -. , , , . , , , - , , . — .

- , , . -, . , , . , , , . . — , , .


: , , , ,

? . , . , , , . , .

, , . API . , , . SDK NodeJS, .NET, CLI. , API, . . , , . , , , — .

web tools . , , , API. . , , .

, . -, , . Ini tidak benar. , . . , , , , . , , , , . Deepl? , Google .

, , , , . , , , , , . Terima kasih

Source: https://habr.com/ru/post/id430266/


All Articles