كيف نتعامل مع نسخ المحتوى ، أو الهجوم العدائي الأول في همز

مرحبا.


هل تعلم أن الأنظمة الإعلانية غالبًا ما تنسخ المحتوى من المنافسين لزيادة عدد الإعلانات التي تستضيفها؟ يفعلون ذلك بهذه الطريقة: يسمون البائعين ويعرضون عليهم الاستقرار على منصتهم. وأحيانًا يقومون بنسخ الإعلانات تمامًا دون إذن المستخدم. Avito هو مكان شعبي ، وكثيراً ما نواجه مثل هذه المنافسة غير العادلة. اقرأ عن كيف نحارب هذه الظاهرة ، اقرأ تحت الخفض.



المشكلة


نسخ المحتوى من Avito إلى منصات أخرى موجود في عدة فئات من السلع والخدمات. هذه المادة سوف تركز فقط على السيارات. في منشور سابق ، تحدثت عن كيفية قيامنا برقم تلقائي للاختباء على السيارات.



لكن اتضح (وفقًا لنتائج بحث منصات أخرى) أننا أطلقنا هذه الميزة على الفور في ثلاثة مواقع إعلان.



بعد إطلاق ميزة ، أوقف أحد هذه المواقع مؤقتًا الاتصال بمستخدمينا مع عروض لنسخ الإعلان على النظام الأساسي الخاص بهم: كان هناك الكثير من المحتوى مع شعار Avito على موقعهم ، في نوفمبر 2018 وحده كان هناك أكثر من 70،000 إعلان. على سبيل المثال ، هذه هي الطريقة التي تبدو بها نتائج البحث يوميًا في جمهورية الشيشان.



بعد الانتهاء من الخوارزمية لإخفاء لوحات الترخيص بحيث تكتشف وتغلق شعار Avito تلقائيًا ، استأنفت العملية.



من وجهة نظرنا ، فإن نسخ محتوى المنافسين واستخدامه لأغراض تجارية أمر غير أخلاقي وغير مقبول. نتلقى شكاوى من مستخدمينا ، غير راضين عن ذلك ، في دعمنا. وهنا مثال على رد الفعل في إحدى القصص.



يجب أن أقول إن طلب موافقة الناس على نسخ الإعلانات لا يبرر مثل هذه الإجراءات. يعد هذا انتهاكًا لقوانين "الإعلانات" و "البيانات الشخصية" وقواعد Avito وحقوق العلامات التجارية وقاعدة بيانات الإعلانات.


لم نتمكن من الاتفاق بسلام مع منافس ، لكننا لم نرغب في ترك الوضع كما هو.


طرق لحل المشكلة


الطريقة الأولى قانونية. سوابق مماثلة كانت موجودة بالفعل في بلدان أخرى. على سبيل المثال ، استحوذ المصنف الأمريكي المعروف كريغزلست على مبالغ كبيرة من المواقع التي تنسخ المحتوى منه.
الطريقة الثانية لحل مشكلة النسخ هي إضافة علامة مائية كبيرة على الصورة بحيث لا يمكن اقتصاصها.
الطريقة الثالثة هي التكنولوجية. قد نعقد عملية نسخ المحتوى الخاص بنا. من المنطقي افتراض أن بعض النماذج تعمل على إخفاء شعار Avito عن المنافسين. من المعروف أيضًا أن العديد من النماذج عرضة لـ "الهجمات" التي تمنعهم من العمل بشكل صحيح. هذه المقالة ستكون عنهم فقط.


الهجوم العدواني



من الناحية المثالية ، يشبه المثال العدائي للشبكة ضوضاء لا يمكن تمييزها بالعين البشرية ، ولكن بالنسبة إلى المصنف ، فإنه يضيف إشارة كافية إلى الفئة غير الموجودة في الصورة. نتيجة لذلك ، يتم تصنيف الصورة ، على سبيل المثال ، مع الباندا ، بثقة عالية باعتبارها غيبون. لا يمكن إنشاء ضوضاء عدوانية لشبكات تصنيف الصور فحسب ، ولكن أيضًا للتجزئة والكشف. مثال مثير للاهتمام هو عمل حديث من Keen Labs: لقد خدعوا الطيار الآلي Tesla مع نقاط على الرصيف وجهاز الكشف عن المطر من خلال عرض مثل هذه الضوضاء العدائية . هناك أيضًا هجمات على مجالات أخرى ، على سبيل المثال ، الصوت: الهجوم المعروف على Amazon Alexa والمساعدين الصوتيين الآخرين يتألفون من لعب فرق لا يمكن تمييزها عن طريق الأذن البشرية (عرضت المفرقعات شراء شيء ما على Amazon).


من الممكن إنشاء ضوضاء خصومة لنماذج تحليل الصور بسبب الاستخدام غير القياسي للتدرج الضروري لتدريب النموذج. عادة ، في طريقة انتشار الأخطاء ، باستخدام التدرج المحسوب للدالة الموضوعية ، يتم تغيير أوزان طبقات الشبكة فقط بحيث تكون مخطئة في مجموعة بيانات التدريب. كما هو الحال بالنسبة لطبقات الشبكة ، يمكنك حساب تدرج الوظيفة الهدف من صورة الإدخال وتغييرها. تم استخدام تغيير صورة الإدخال باستخدام التدرج اللوني لمختلف الخوارزميات المعروفة. تذكر الحلم ؟



إذا قمنا بحساب التدرج اللوني للوظيفة الهدفية بشكل متكرر من صورة الإدخال وأضفنا هذا التدرج اللوني ، تظهر المزيد من المعلومات حول الفئة السائدة من ImageNet في الصورة: تظهر المزيد من الوجوه للكلاب ، مما يؤدي إلى انخفاض قيمة وظيفة الخسارة ويصبح النموذج أكثر ثقة في فئة "الكلاب". لماذا الكلب في المثال؟ فقط في ImageNet من 1000 فصول - 120 فصول من الكلاب . تم استخدام طريقة مماثلة لتعديل الصورة في خوارزمية نقل النمط ، والمعروفة بشكل أساسي بسبب تطبيق Prisma.
لإنشاء مثال خصم ، يمكنك أيضًا استخدام الطريقة التكرارية لتغيير صورة الإدخال.



هناك العديد من التعديلات على هذه الطريقة ، لكن الفكرة الأساسية بسيطة: يتم نقل الصورة الأصلية بشكل متكرر في اتجاه التدرج اللوني لفقدان وظيفة المصنف J (لأنه يتم استخدام الإشارة فقط) مع الخطوة α. 'y' هي الفئة الممثلة في الصورة لتقليل ثقة الشبكة في الإجابة الصحيحة. مثل هذا الهجوم يسمى غير مستهدف. يمكنك اختيار الخطوة المثلى وعدد التكرارات بحيث يتعذر تمييز التغيير في صورة الإدخال عن المعتاد للشخص. ولكن من وجهة نظر تكاليف الوقت ، فإن مثل هذا الهجوم لا يناسبنا. 5-10 تكرارات لصورة واحدة في همز هو وقت طويل.
بديل الطرق التكرارية هو طريقة ختان الإناث.



هذه طريقة طلقة واحدة ، أي لاستخدامها ، تحتاج إلى حساب التدرج اللوني لوظيفة الخسارة لصورة الإدخال مرة واحدة ، وتكون ضوضاء الخصومة جاهزة للإضافة إلى الصورة. من الواضح أن هذه الطريقة أكثر إنتاجية. يمكن استخدامه في الإنتاج.


خلق أمثلة عدائية


قررنا أن نبدأ من خلال اختراق نموذجنا.
هذه هي الصورة التي تقلل من احتمال العثور على لوحة ترخيص لطرازنا.



من الواضح أن هذه الطريقة لها عيب: التغييرات التي تضيفها إلى الصورة مرئية للعين. كما أن هذه الطريقة غير مستهدفة ، ولكن يمكن تغييرها للقيام بهجوم موجه. ثم سيتنبأ النموذج بمكان لوحة الرخصة في مكان آخر. هذه هي طريقة T-FGSM.



من أجل كسر نموذجنا مع هذه الطريقة ، تحتاج إلى تغيير صورة الإدخال بشكل ملحوظ أكثر قليلاً.



ليس من الممكن بعد القول أن النتائج مثالية ، ولكن على الأقل تم التحقق من كفاءة الأساليب. لقد جربنا أيضًا مكتبات جاهزة للتسلل إلى شبكات Foolbox و CleverHans و ART-IBM ، ولكن بمساعدتهم لم يكن من الممكن كسر شبكتنا للكشف عنها. الأساليب المقدمة هناك أفضل لشبكات التصنيف. هذا ميل عام في القرصنة على الشبكة: من الصعب جعل الهجوم أكثر صعوبة في اكتشاف الكائنات ، خاصة عندما يتعلق الأمر بالموديلات المعقدة ، على سبيل المثال ، Mask RCNN.


اختبار الهجوم


لم يتجاوز كل ما تم وصفه حتى الآن تجاربنا الداخلية ، ولكن كان من الضروري معرفة كيفية اختبار الهجمات على أجهزة الكشف عن منصات الإعلانات الأخرى.
اتضح أنه عند التقديم لأحد المنصات ، يتم اكتشاف لوحة الترخيص تلقائيًا ، بحيث يمكنك تحميل الصور عدة مرات والتحقق من كيفية تعامل خوارزمية الكشف مع مثال الخصومة الجديد.



هذا رائع! لكن ...
لا شيء من الهجمات التي عملت على نموذجنا عملت عند الاختبار على منصة أخرى. لماذا حدث هذا؟ هذا هو نتيجة للاختلافات في النماذج وكيف تتعمم الهجمات العدائية الضعيفة على بنيات الشبكات المختلفة. نظرًا لتعقيد تكاثر الهجمات ، يتم تقسيمها إلى مجموعتين: المربع الأبيض والمربع الأسود.



تلك الهجمات التي قمنا بها على نموذجنا - كان مربعًا أبيض. ما نحتاج إليه هو مربع أسود مع قيود إضافية على الاستدلال: لا يوجد واجهة برمجة تطبيقات ، كل ما يمكنك فعله هو تحميل الصور يدويًا والتحقق من الهجمات. إذا كان هناك واجهة برمجة تطبيقات ، فيمكنك إنشاء نموذج بديل.



تكمن الفكرة في إنشاء مجموعة من الصور المدخلة وإجابات نموذج الصندوق الأسود ، والتي يمكنك من خلالها تدريب عدة نماذج من بنيات مختلفة ، لتقريب نموذج الصندوق الأسود. بعد ذلك ، يمكنك تنفيذ هجوم على مربع أبيض على هذه الطرز ، ومن المحتمل أن تعمل على صندوق أسود. في حالتنا ، هذا ينطوي على الكثير من العمل اليدوي ، لذلك هذا الخيار لم يناسبنا.


كسر الجمود


بحثًا عن أعمال مثيرة للاهتمام حول موضوع هجمات الصندوق الأسود ، تم العثور على مقالة ShapeShifter: هجوم عدواني جسدي قوي على كاشف كائن أسرع R-CNN
قام مؤلفو المقال بشن هجمات على اكتشاف الكائنات لشبكة من آلات القيادة الذاتية عن طريق إضافة الصور بشكل متكرر بخلاف الفئة الحقيقية إلى خلفية علامة التوقف.




مثل هذا الهجوم مرئي للعين البشرية بشكل واضح ، ولكنه يكسر بنجاح عمل شبكة الكشف عن الأشياء ، وهو ما نحتاجه. لذلك ، قررنا إهمال الخفاء المطلوب للهجوم من أجل القدرة على العمل.


أردنا التحقق من مدى إعادة تدريب نموذج الكشف ، هل يستخدم معلومات عن السيارة ، أم أنها لوحة Avito المطلوبة؟


للقيام بذلك ، أنشأت الصورة التالية:



لقد حمّلناه كجهاز إلى منصة إعلانية بنموذج الصندوق الأسود. تلقينا:



هذا يعني أنه يمكنك فقط تغيير لوحة Avito ، وبقية المعلومات في صورة الإدخال ليست ضرورية للكشف عن نموذج الصندوق الأسود.
بعد عدة محاولات ، نشأت فكرة إضافة ضوضاء عدوانية على لوحة Avito تم الحصول عليها من خلال طريقة FGSM ، التي كسرت النموذج الخاص بنا ، ولكن مع معامل كبير إلى حد ما ε. اتضح مثل هذا:



بالسيارة ، يبدو مثل هذا:



لقد حملنا صورة إلى المنصة باستخدام نموذج الصندوق الأسود. كانت النتيجة ناجحة.



بتطبيق هذه الطريقة على العديد من الصور الأخرى ، اكتشفنا أنها لا تعمل كثيرًا. بعد عدة محاولات ، قررنا التركيز على الجزء الأكثر بروزًا من المشكلة - الحدود. من المعروف أن الطبقات التلافيفية الأولية للشبكة لها عمليات تنشيط على كائنات بسيطة مثل الخطوط والزوايا. من خلال "كسر" الخط الحدودي ، يمكننا منع الشبكة من اكتشاف مساحة الرقم بشكل صحيح. يمكن القيام بذلك ، على سبيل المثال ، عن طريق إضافة ضوضاء في شكل مربعات بيضاء ذات حجم عشوائي على كامل حدود الغرفة.



عن طريق تحميل هذه الصورة على منصة مع نموذج الصندوق الأسود ، حصلنا على مثال خصم ناجح.



بعد أن جربت هذه الطريقة على مجموعة من الصور الأخرى ، اكتشفنا أن نموذج الصندوق الأسود لم يعد بإمكانه اكتشاف لوحة Avito (تم تجميع المجموعة يدويًا ، وهناك أقل من مائة صورة ، وبالطبع ، ليست ممثلة ، ولكنها تستغرق الكثير من الوقت لتحقيق المزيد). ملاحظة مهمة: الهجوم ناجح فقط عند الجمع بين الضوضاء في أحرف Avito والمربعات البيضاء العشوائية في إطار ، باستخدام هذه الأساليب بشكل منفصل لا يعطي نتيجة ناجحة.
نتيجة لذلك ، قمنا بتطبيق هذه الخوارزمية في المنتج ، وإليك ما خرج منها :)


تم العثور على إعلانات متعددة




شيء أعذب:



حتى وصلنا إلى منصة الإعلان:



في المجموع


نتيجة لذلك ، تمكنا من شن هجوم عدائي ، والذي في تنفيذه لا يزيد من وقت معالجة الصور. الوقت الذي قضيناه في إنشاء الهجوم هو قبل أسبوعين من رأس السنة الجديدة. إذا لم يكن من الممكن القيام بذلك خلال هذا الوقت ، فسيضعون علامة مائية. الآن تم تعطيل لوحة ترخيص الخصوم ، لأنه الآن يقوم المنافس باستدعاء المستخدمين ، ويقدم لهم تحميل الصور إلى الإعلان بأنفسهم أو استبدال صور السيارة بأخرى مخزنة من الإنترنت.

Source: https://habr.com/ru/post/ar452142/


All Articles