fuzzywuzzy dan “penyalahgunaan tak terlihat” antara manusia dan robot terjemahan

Mulai dari yang baik, yang paling baik dan yang terakhir, yang benar tidak dihormati batas hal


Mungkin, di segala usia telah ada penerjemah sastra dan pemikir bebas. Yang terakhir merasa sepenuhnya berhak untuk mengubah teks, mengeditnya kembali, membuang beberapa bagian dan menambahkan yang lain. Dan peneliti modern dihadapkan dengan pertanyaan khas: "Apa yang terjadi secara rinci selama transformasi yang asli? Apa yang dicoret, apa yang diselamatkan, apa yang diperbaiki, apa yang ditambahkan? "


Sebelum membaca teks dengan hati-hati, saya ingin mencoba memberikannya kepada robot untuk studi pendahuluan. Kami memiliki sedikit harapan untuk robot, tetapi kami menerima bantuan besar dari mereka. Tentang bagaimana kami membuat Google Terjemahan dan Yandex.Translator bersaing dalam mengerjakan teks Yunani Pertempuran Tak Terlihat, baca di bawah kucing.


Bahan kerja


" Pelecehan tak terlihat " - risalah asketik, awalnya ditulis dalam bahasa Italia, kemudian diterjemahkan ke dalam bahasa Yunani pada abad ke-18, diedit sesuai dengan praktik asket Kristen Timur, dan kemudian diterjemahkan ke dalam bahasa Rusia. Tetapi juga tidak secara harfiah, tetapi dengan perubahan signifikan. Menggambarkan prinsip-prinsip karyanya dalam menerjemahkan ke dalam bahasa Rusia, Saint Theophan the Recluse menulis:


Saya tidak menerjemahkan [buku ini], tetapi dengan bebas menggerakkan pidato saya ... menambah dan mengurangi dan mengubah terhadap aslinya.

Gambaran umum tentang perubahan editorial adalah dalam karya ep. Feoktista , tapi saya ingin mendapatkan perbedaan yang detail di seluruh teks.


Metode pencocokan


Untuk ini, kedua teks (Yunani modern dan Rusia) dibagi menjadi beberapa paragraf. Ternyata masing-masing sekitar 700 paragraf.


Kami menerjemahkan teks Yunani ke dalam bahasa Rusia dua kali - sekali menggunakan Yandex.Translator, lain kali menggunakan Google Translate. Mereka hanya membuat halaman besar dengan teks lengkap dan membukanya melalui moncong web yang sesuai. Hampir tidak mungkin untuk membaca teks yang diterjemahkan: tampaknya aslinya terlalu rumit, tetapi sesuatu dapat dipelajari dari kengerian ini. Kata kunci di suatu tempat seharusnya bertepatan, angkanya juga.


Tidak ada variasi alat khusus untuk menemukan duplikat fuzzy, mereka meraih fuzzywuzzy , yang mempertimbangkan jarak Levenshtein . Dari empat fungsi: ratio , partial_ratio , token_sort_ratio , token_set_ratio - yang terakhir dipilih, tidak terkait dengan urutan kata atau pengulangan mereka. Dan, ternyata kemudian, pilihannya benar.


Untuk semua pasangan paragraf (Rusia vs Yunani), tingkat kemiripan token_set_ratio terjemahan Feofanov dengan Yandex dan Google dihitung. Kami memutuskan untuk tidak mengandalkan salah satu dari mereka secara individu, tetapi pada jumlah mereka (à la keranjang dua mata uang - dan ini juga ternyata merupakan keputusan yang tepat), dan kemudian para kandidat dengan nilai besar dari jumlah ini melihat dan memeriksa dengan mata dan pena mereka, serta tetangga mereka. pasangan terverifikasi.


Akibatnya, selama beberapa jam kerja, dimungkinkan untuk membandingkan 2/3 paragraf, dari sisanya hanya unit yang dapat dibandingkan secara manual.


Periksa kembali metode


Setelah pekerjaan selesai dan hasilnya diperoleh, menarik untuk kembali dan melihat lagi fungsi fuzzywuzzy dan penerjemah mana yang paling cocok untuk tugas seperti itu.


Perhitungan partial_ratio terlalu memakan waktu (itu malas 120 jam untuk mengarahkan komputer Anda berturut-turut), tetapi tiga fungsi lainnya dihitung dalam waktu sekitar satu jam: ratio , token_sort_ratio dan token_set_ratio untuk terjemahan Yandex dan Google. Total enam fungsi teks kedekatan dan ketujuh - "keranjang mata uang ganda" kami.


Sekarang Anda dapat melihat tablet-tablet berikut. Yang pertama menjawab pertanyaan: "Jika untuk paragraf Rusia tertentu kita mencari Yunani yang sesuai, dengan mempertimbangkan paragraf dalam urutan kesamaan (dihitung dengan fungsi ini), lalu berapa probabilitas bahwa kita akan melihat paragraf yang tepat dengan hanya melihat tiga kandidat pertama ?"


fungsiprobabilitas penemuan dengan tiga upaya
google_set_ratio + yandex_set_ratio66,5%
google_ratio65,0%
google_set_ratio64,8%
yandex_ratio62,0%
google_sort_ratio61,8%
yandex_set_ratio56,2%
yandex_sort_ratio54,6%

Yaitu, dalam sekitar 2/3 dari kasus, kami segera menemukan paragraf yang diinginkan. Dan dalam sisa sepertiga kasus, Anda harus banyak menderita. Jadi lihatlah pelat kedua, yang menjawab pertanyaan: "Berapa banyak calon yang harus melihat rata-rata sampai kita melihat paragraf yang tepat?"


fungsijumlah upaya rata-rata
google_set_ratio + yandex_set_ratio36.7
google_set_ratio37.6
yandex_set_ratio47.0
google_sort_ratio65.9
yandex_sort_ratio69.7
google_ratio71.7
yandex_ratio75.3

Lihat 40 paragraf atau lebih - ini adalah kesedihan yang menyedihkan, dan mobil dalam hal ini tidak terlihat seperti petunjuk yang masuk akal. Hasilnya, strategi optimal ketika membandingkan teks adalah dengan “membaca skim” dengan hanya melihat kandidat yang paling mungkin, dan melakukan perbandingan berdasarkan struktur dan beberapa faktor lainnya.


Puji untuk intuisi sendiri


Sangat mengejutkan bagi kami bahwa "keranjang mata uang ganda" google_set_ratio + yandex_set_ratio diambil "dari langit-langit" bekerja paling baik, bahkan lebih baik daripada masing-masing fungsi ini secara individual. Selain itu, nilai-nilai di kedua tabel menunjukkan bahwa dalam semua hal Google Terjemahan menangani tugas ini lebih baik daripada Yandex.Translator. Jadi robot domestik memiliki ruang untuk tumbuh.


PS Tidak ada kebijaksanaan khusus dalam skrip yang digunakan, tetapi jika ada yang membutuhkan, kami dapat mempostingnya. Hasil perbandingannya ada di sini .


PPS Jika Anda tertarik, gambar pada judulnya adalah sepenggal halaman dari Fyodor Polikarpov-Orlov " Primer of the Slavic-Greek-Latin " (1701).


PPPS Mungkin ada jurnal ilmiah di mana teks ini, dijuluki dengan tepat, harus ditawarkan untuk publikasi?

Source: https://habr.com/ru/post/id419367/


All Articles