Insinyur dari University of Maryland telah mengembangkan sistem yang "memotong" reCAPTCHA dari Google dengan probabilitas hampir seratus persen. Ini menggunakan algoritma pengenalan suara untuk memecahkan captcha audio. Kami memberi tahu cara kerjanya.
Foto photographymontreal / PDLatar belakang
Untuk pertama kalinya, pengembang dari University of Maryland
memperkenalkan sistem untuk memotong reCAPTCHA "suara" (mereka menyebut solusi mereka unCAPTCHA) pada tahun 2017. Kemudian captcha audio Google adalah catatan di mana penyiar memanggil urutan angka. Para penulis menggunakan algoritma pengenalan suara untuk mengotomatiskan proses memasukkan nilai. Mereka berhasil mencapai akurasi solusi captcha di 85%.
Penulis mengirim informasi tentang kerentanan terhadap Google. Raksasa IT
memperbarui reCAPTCHA di mana ia mengganti urutan angka dengan frasa. Namun, pada akhir tahun lalu, insinyur dari Maryland menyelesaikan jaringan saraf mereka. Dia berhasil menyiasati captcha audio yang diperbarui dengan akurasi 90%.
Bagaimana cara kerjanya
Bot mengunjungi halaman di Internet yang dilindungi oleh reCAPTCHA, dan kemudian melakukan beberapa tindakan untuk mensimulasikan perilaku manusia. Setelah dia mengklik captcha dan memilih opsi untuk menyelesaikannya menggunakan rekaman audio.
Dalam versi 2017 unCAPTCHA, file audio
dibagi menjadi beberapa segmen. Penanda dijeda antar angka. Hasilnya adalah beberapa rekaman suara dengan kata-kata yang terpisah. Pengembang mengirim rekaman ini ke layanan pengenalan suara cloud: Google Cloud Speech-to-Text API </ iron>, Bing Speech Recognition, IBM Bluemix dan Wit-AI. Mereka menentukan konten rekaman audio dengan pola frekuensi spektogram. Pada saat yang sama, beberapa layanan cloud digunakan oleh pengembang untuk meminimalkan kesalahan pengakuan nilai numerik.
Kemudian unCAPTCHA v1 menyusun apa yang disebut peta fonetik. Itu termasuk jawaban dari sistem yang berbeda untuk bagian yang sama. Selanjutnya, jaringan saraf convolutional mulai berperan, yang mengekstraksi kata-kata dari kartu yang tidak menunjukkan nama digit, memperbaiki kesalahan, dan memilih jawaban yang paling mungkin untuk mengisi reCAPTCHA. Secara umum, prosesnya adalah sebagai berikut:

Dalam versi kedua unCAPTCHA (yang diperkenalkan pada bulan Desember), segmentasi dan peta fonetik tidak
lagi diperlukan . Google captcha yang diperbarui menggunakan frasa terpisah alih-alih angka, dan layanan cloud mereka menentukan lebih baik. Oleh karena itu, dimungkinkan untuk mencapai akurasi tinggi dalam mengenali captcha audio menggunakan satu alat - Google Speech-to-Text. Setelah analisis, bot segera memasukkan teks yang diterima ke dalam garis captcha.
Beginilah
cara mengirim audio ke cloud dan memasukkan respons (dari repositori di GitHub). Demonstrasi program dapat dilihat
pada gif-ke ini .
Apa yang mereka katakan tentang teknologi
Menurut penulis unCAPTCHA, versi baru captcha Google tidak menyulitkan, tetapi, sebaliknya, menyederhanakan peretasan. Sekarang layanan untuk input otomatis tidak perlu mengirim permintaan ke platform cloud yang berbeda dan melatih jaringan saraf yang terpisah untuk mengevaluasi hasilnya.
Foto AdNorrel / CC BY-SAUntuk mempertahankan reCAPTCHA, perlu dicatat bahwa versi baru tetap menambahkan beberapa kendala bagi peretas. Yang pertama adalah mensimulasikan perilaku pengguna pada halaman menjadi lebih sulit. Di unCAPTCHA v1, pendaftaran akun sepenuhnya otomatis dengan
Selenium . Sekarang captcha Google
mengakui jika halaman menggunakan layanan ini dan secara otomatis memblokir akses. Pengembang dari University of Maryland harus secara manual meresepkan tindakan "pengguna" dan mengubah skrip untuk setiap upaya input baru. Sementara para insinyur dari Maryland sedang mengerjakan solusi mereka, Google memperbarui kembali reCAPTCHA lagi, dan unCAPTCHA masih tidak bisa mengatasinya. Namun, banyak situs masih menggunakan versi perlindungan DDoS yang lebih lama. Oleh karena itu, kerentanan tetap relevan.
Bagaimana lagi meretas captcha audio
Di jaringan Anda dapat menemukan informasi tentang solusi lain untuk meretas captcha audio. Salah satu sistem pertama didasarkan pada klasifikasi manual file audio. Audio dibagi menjadi beberapa segmen dengan kata-kata yang terpisah - huruf dan angka, yang berkorelasi dengan spektrogram mereka. Sebagai contoh, metode peretasan ini diusulkan oleh proyek devoicecaptcha 2006. Kemudian program mem-bypass captcha Google dengan akurasi 33%.
Proyek-proyek lain menerapkan algoritma yang lebih kompleks yang sepenuhnya otomatis proses penyelesaian captcha. Misalnya, mereka menggunakan program
Sphinx untuk peretasan, yang pertama kali dikembangkan pada akhir 1990-an di Universitas Carnegie Mellon. Sphinx meretas captcha di situs eBay dalam 75% kasus, tetapi kemudian efektivitasnya turun menjadi 25-30%.
Pada 2012, penulis proyek Stiltwalker memperkenalkan jaringan saraf yang mampu membedakan "pola" frekuensi kata-kata individual, meskipun kebisingan latar belakang. Menurut pengembang, sistem berhasil melewati pemeriksaan validasi Google saat ini pada saat itu dalam 99% kasus.
Adapun pencipta unCAPTCHA, kita cenderung
mendengar lebih banyak tentang pekerjaan mereka. Ada kemungkinan bahwa mereka akan mencoba untuk memecahkan reCAPTCHA yang diperbarui untuk ketiga kalinya dengan cara yang sama.
Bacaan tambahan dari saluran Telegram kami dan "Hi-Fi World":
Apa itu audio 8D - mendiskusikan tren baru
Chip Bluetooth yang tidak membutuhkan baterai
A.
Ilmuwan Belajar Mengirim Suara dengan Laser
A.
Label KPM mendigitalkan seluruh katalognya