كما أخبرت captcha عن ثغرة Yandex

مرحبا يا هبر!


استرخ ، اجعل نفسك طائر النورس ، لأنني أكتب قليلاً مشدودة ومن خلال الأذن اليمنى. لذا ، هل أنت مستعد؟ حسنًا ، فلنبدأ.


انتباه! المعلومات الموضحة أدناه مكتوبة لأغراض البحث فقط وليس الغرض منها استخدامها لتحقيق مكاسب شخصية !


سأبدأ ربما بالخلفية. وهي ، مع تطوير محرك أقراص الشبكة ، الذي توجد قطاعاته في السحابة. جعل جوهر هذه التقنية من الممكن إنشاء Yandex.Disk 10 غيغابايت لكل منها (والتي قد تتغير في وقت القراءة) قرص واحد كبير ، على سبيل المثال ، 10 تيرابايت ، من عدة حسابات (حسنا ، حوالي 100 أو 1k حسابات). هنا ...


لقد أخذتها ، وهذا يعني ، لتطوير هذا البرنامج قبل عامين (ما زلت أكتب البرنامج ، ولكن أكثر عن ذلك في مقال آخر) وسأل السؤال - كيفية تقديم YaCaptcha.


إليك بعض الأمثلة:
الصورة
الصورة
الصورة
الصورة

لذلك نظرت إلى هذه الكابتشا ، وظهورت Google قليلاً وأعتقد - أنه سيكون من الضروري استخدام TensorFlow ، ثم الانتقال إلى FANN. منزعج ، بالطبع ، قليلاً ، لكن لا شيء يفعله. دعني أعتقد أنني سأقوم بتنزيل بعض الصور (~ 100k) حتى تتمكن من تدريب الخلايا العصبية ، ولكن الآن سأتذكر تقسيم U-net. حسنًا ، لقد قمت برسم سطرين من التعليمات البرمجية على Delphi + Synapase ، وأطلقته وذهبت إلى Google بشأن العصبون. لقد قمت بتنزيله أثناء البحث ، يجب أن أقول ، قبل ... كثيرًا بشكل عام. وهنا يبدأ المرح.


دخلت ، وهذا يعني ، أنا في بابا مع الصور وأرى - يتكرر فقط! نعم ، نعم ، كان هناك الكثير من الصور المتكررة. حسنًا ، أعتقد أن هذا لن يعمل ، وقمت بتنزيل البرنامج الأول الذي بدا أنه يحذف نفس الملفات (يبدو ، إذا لم تتغير الذاكرة ، clonespy ). أطلقته ، لكنه استلقى على الموقد للنوم. في الصباح نظرت إلى الإحصاءات ومدروسة: من 100 ألف صورة ، تم حذف 76 ألف تكرار ، وهي ليست متشابهة فحسب - إنها متطابقة 100٪! ماذا يعني هذا ، تسأل؟ سأشرح الآن.


إذا كنت تأخذ خلية عصبية ، يمكنك الحصول على اعتراف في مكان ما ~ 18 ٪ ، كما يكتب صديقنا (حسنًا ، يبدو لي ، يمكنك الضغط حتى 45-50 ٪ إذا كنت تريد). ولكن حتى لو كان الأمر كذلك ، دعونا لا ننسى مقدار الضجة مع الأساليب المماثلة (يلزم إنشاء قواعد البيانات ، وإدخال dox يدويًا ... والكثير من captcha ، ثم لا تزال بحاجة إلى تنظيم كل شيء والانتظار حتى يتحد كل شيء) ومقدار المساحة التي ستستغرقها ، والوقت الأداء ولا نقول أن البرنامج سيكون رائعا.


هل من الممكن أن يذهب بطريقة أو بأخرى في الاتجاه الآخر؟ - تسأل. وهنا أقترح أن نحسب - لدينا 100 ألف صورة ، منها 76 ألف تكرار ، أي إذا قمنا بسد قاعدة البيانات من هذه الصور (على سبيل المثال ، أخذ تجزئة المجموع) ، نحصل على نسبة التعرف تصل إلى 76 ٪ ، وهي أعلى من العصبون ، ووزن قاعدة البيانات يساوي تقريبًا (إن لم يكن أقل) جدول الوزن لـ TensorFlow. في نفس الوقت ، ستعمل هذه الطريقة في كل مكان ولا تحتاج إلى مجموعة من المكتبات.


لقد أدركنا أن Yandex قوي جدًا لدرجة أنه أنشأ مثل هذه الاختلافات القليلة في اختبار CAPTCHA. وبفضل هذا ، يمكنك كتابة برنامج كتبت عنه أعلاه. أليست هذه ثغرة بصرية للنظام. أو هل تعتقد أن أكثر من 100 تيرابايت من مساحة القرص الصلب رخيصة؟


شكرا للمشاهدة!


المعلومات المستخدمة:

Source: https://habr.com/ru/post/ar425779/


All Articles