Seperti yang dikatakan captcha tentang kerentanan Yandex

Halo, Habr!


Duduk, buat dirimu burung camar, karena aku menulis sedikit ketat dan melalui telinga kanan. Jadi, sudah siap? Baiklah, mari kita mulai.


PERHATIAN! Informasi yang dijelaskan di bawah ini ditulis hanya untuk tujuan penelitian dan tidak dimaksudkan untuk digunakan untuk keuntungan pribadi !


Saya akan mulai, mungkin, dengan latar belakang. Yaitu, dengan pengembangan drive jaringan, yang sektornya ada di cloud. Inti dari teknologi ini memungkinkan untuk membuat salah satu Yandex yang sama. Disk 10 Gb dari beberapa akun (well, sekitar 100 atau 1k akun) dari Yandex yang sama. Masing-masing (bisa berubah pada saat membaca), katakan 10Tb. Di sini ...


Saya mengambilnya, itu artinya, untuk pengembangan program ini beberapa tahun yang lalu (saya masih menulis program itu, tetapi lebih pada itu di artikel lain) dan muncul pertanyaan - bagaimana cara memperkenalkan YaCaptcha.


Berikut ini beberapa contohnya:
gambar
gambar
gambar
gambar

Jadi saya melihat captcha ini, googled sedikit dan saya pikir - perlu menggunakan TensorFlow, dan kemudian transfer ke FANN. Kesal, tentu saja, sedikit, tetapi tidak ada hubungannya. Biarkan saya berpikir bahwa saya akan mengunduh beberapa gambar (~ 100rb) sehingga Anda dapat melatih neuron, tetapi untuk sekarang saya akan mengingat segmentasi U-net. Yah, saya membuat sketsa beberapa baris kode pada Delphi + Synapase, meluncurkannya dan googling tentang neuron. Saya mengunduh selama pencarian, saya harus mengatakan, sebelum ... banyak, secara umum. Dan di sini kesenangan dimulai.


Saya masuk, artinya, saya di ayah dengan gambar dan saya melihat - hanya mengulangi! Ya, ya, ada banyak gambar berulang. Yah, saya pikir ini tidak akan berhasil, dan saya mengunduh program pertama yang muncul untuk menghapus file yang sama (sepertinya, jika memori tidak berubah, clonespy ). Meluncurkannya, tetapi berbaring di atas kompor untuk tidur. Di pagi hari saya melihat statistik dan bijaksana: dari 100 ribu gambar, 76 ribu pengulangan dihapus, dan mereka tidak hanya mirip - mereka 100% identik! Apa artinya ini, Anda bertanya? Saya akan jelaskan sekarang.


Jika Anda mengambil neuron, Anda bisa mendapatkan pengakuan di suatu tempat ~ 18%, seperti yang ditulis teman kami (menurut saya, Anda dapat menekan hingga 45-50% jika Anda mau). Tetapi bahkan jika demikian, jangan lupa berapa banyak keributan dengan metode yang serupa (database harus dibuat, masukkan dox secara manual ... banyak captcha, maka Anda perlu mensistematisasikan semuanya dan menunggu sampai semuanya berkumpul) dan berapa banyak ruang yang akan diambil, dan waktu kinerja juga tidak mengatakan bahwa programnya akan hebat.


Apakah mungkin untuk pergi ke arah lain? - kamu bertanya. Dan di sini saya mengusulkan untuk menghitung - kami memiliki 100 ribu gambar, yang 76 ribu repetisi, mis. jika kita menyumbat database dari gambar-gambar ini (misalnya, mengambil hash dari jumlah tersebut), kita mendapatkan persentase pengenalan sebanyak 76%, yang lebih tinggi dari neuron, dan berat basis data hampir sama (jika tidak kurang) seperti tabel berat untuk TensorFlow. Pada saat yang sama, metode ini akan bekerja di mana saja dan tidak memerlukan banyak perpustakaan.


Kami mendapatkan bahwa Yandex sangat kuat sehingga mereka menciptakan beberapa variasi captcha. Dan terima kasih untuk ini, Anda dapat menulis sebuah program yang saya tulis di atas. Bukankah ini kerentanan visual sistem. Atau apakah menurut Anda ruang hard disk lebih dari 100TB murah?


Terima kasih telah menonton!


Informasi yang digunakan:
  1. Artikel YaCaptcha
  2. Artikel di U-net (Rusia)
  3. Artikel U-net
  4. Pengakuan beberapa CAPTCHA modern
    Terima kasih khusus kepada penulis artikel ini untuk pekerjaan mereka!

Source: https://habr.com/ru/post/id425779/


All Articles