رؤية الجهاز مقابل الحدس البشري: خوارزميات لتعطيل تشغيل برامج التعرف على الكائنات



منطق الآلات لا تشوبها شائبة ، فهي لا تخطئ إذا كانت الخوارزمية تعمل بشكل صحيح وكانت المعلمات المحددة تتوافق مع المعايير الضرورية. اطلب من السيارة اختيار طريق من النقطة "أ" إلى النقطة "ب" ، وسوف تبني الطريق الأمثل ، مع مراعاة المسافة واستهلاك الوقود ووجود محطات الوقود ، إلخ. هذا هو حساب نقي. لن تقول السيارة: "دعنا نسير على هذا الطريق ، أشعر أن هذا الطريق أفضل". ربما تكون السيارات أفضل منا في سرعة الحسابات ، لكن الحدس لا يزال أحد بطاقاتنا الرابحة. قضى البشر عقودا في صنع آلة مماثلة لعقل الإنسان. ولكن هل هناك الكثير من القواسم المشتركة بينهما؟ سننظر اليوم في دراسة قام فيها العلماء ، الذين يشككون في "رؤية" الآلة التي لا مثيل لها على أساس الشبكات العصبية التلافيفية ، بإجراء تجربة لخداع نظام التعرف على الأشياء باستخدام خوارزمية تتمثل مهمتها في إنشاء صور "مزيفة". ما مدى نجاح نشاط التخريب الذي قامت به الخوارزمية ، هل تعامل الناس مع الاعتراف أفضل من السيارات ، وما الذي ستجلبه هذه الدراسة إلى مستقبل هذه التكنولوجيا؟ سوف نجد إجابات في تقرير العلماء. دعنا نذهب.

أساس الدراسة


تسمح تقنيات التعرف على الأشياء باستخدام الشبكات العصبية التلافيفية (SNS) للجهاز ، على نحو تقريبي ، بتمييز البجعة عن الرقم 9 أو القطة من الدراجة. هذه التكنولوجيا تتطور بسرعة كبيرة ويجري تطبيقها حاليا في مختلف المجالات ، وأبرزها هو إنتاج المركبات غير المأهولة. يرى الكثيرون أن نظام الحسابات القومية لنظام التعرف على الأشياء يمكن اعتباره نموذجًا للرؤية الإنسانية. ومع ذلك ، فإن هذا البيان مرتفع للغاية ، بسبب العامل البشري. الشيء هو أن خداع سيارة تبين أنه أسهل من خداع شخص (على الأقل في مسائل التعرف على الأشياء). أنظمة SNA معرضة بشكل كبير لآثار الخوارزميات الخبيثة (معادية ، إذا كنت تريد) ، والتي سوف تمنعهم بكل طريقة من أداء مهمتهم بشكل صحيح ، وخلق الصور التي سيتم تصنيفها بشكل غير صحيح من قبل نظام SNA.

يقسم الباحثون هذه الصور إلى فئتين: "الخداع" (تغيير الهدف تمامًا) و "المحرج" (تغيير الهدف جزئيًا). أولها هي الصور التي لا معنى لها والتي يتعرف عليها النظام كشيء مألوف. على سبيل المثال ، يمكن تصنيف مجموعة من الخطوط على أنها "لعبة البيسبول" ، والضوضاء الرقمية متعددة الألوان بأنها "أرماديلو". الفئة الثانية من الصور ("المحرجة") هي الصور التي ، في ظل الظروف العادية ، سيتم تصنيفها بشكل صحيح ، لكن الخوارزمية الخبيثة تشوهها قليلاً ، مبالغة في قول نظام الحسابات القومية. على سبيل المثال ، سيتم تصنيف الرقم المكتوب بخط اليد رقم 6 على أنه رقم 5 نظرًا لتكملة صغيرة من عدة وحدات بكسل.

فقط تخيل ما يمكن أن تفعله مثل هذه الخوارزميات. يجدر مبادلة تصنيف إشارات الطرق للنقل المستقل والحوادث ستكون حتمية.

فيما يلي الصور "المزيفة" التي تخدع نظام الحسابات القومية ، والمدربة على التعرف على الأشياء ، وكيف قام نظام مماثل بتصنيفها.


الصورة رقم 1

شرح السلسلة:

  • و - الصور "الاحتيالية" المشفرة بطريقة غير مباشرة ؛
  • ب - الصور "الاحتيالية" المشفرة مباشرة ؛
  • ج - الصور "المحرجة" ، مما يجبر النظام على تصنيف رقم واحد برقم آخر ؛
  • د - يمكن أن يؤدي هجوم LaVAN (ضجيج عدائي / ضار مترجم ومرئي) إلى تصنيف غير صحيح ، حتى عندما تكون "الضوضاء" موجودة عند نقطة واحدة فقط (في الركن الأيمن السفلي).
  • هـ - كائنات ثلاثية الأبعاد مصنفة بشكل غير صحيح من زوايا مختلفة.

الشيء الأكثر فضولاً في هذا الأمر هو أن الشخص قد لا يستسلم لخداع خوارزمية خبيثة وتصنيف الصور بشكل صحيح ، استنادًا إلى الحدس. في السابق ، كما يقول العلماء ، لم يقم أي شخص بإجراء مقارنة عملية لقدرات الجهاز وشخص ما في تجربة لمواجهة الخوارزميات الخبيثة من الصور المزيفة. هذا ما قرر الباحثون القيام به.

لهذا ، تم إعداد العديد من الصور التي قدمتها الخوارزميات الخبيثة. قيل للموضوعات أن الآلة صنفت هذه الصور (الأمامية) كأشياء مألوفة ، أي الجهاز لم يتعرف عليهم بشكل صحيح. كانت مهمة الموضوعات هي تحديد كيفية تصنيف الجهاز لهذه الصور ، على سبيل المثال ما يعتقدون أن الجهاز رأى في الصور ، هل هذا التصنيف صحيح ، إلخ.

تم إجراء ما مجموعه 8 تجارب ، تم فيها استخدام 5 أنواع من الصور الخبيثة التي تم إنشاؤها دون مراعاة رؤية الإنسان. بمعنى آخر ، يتم إنشاؤها بواسطة آلة للآلات. تبين أن نتائج هذه التجارب مسلية للغاية ، لكننا لن نفسدها ونفكر في كل شيء بالترتيب.

نتائج التجربة


التجربة رقم 1: خداع الصور بعلامات غير صالحة


في التجربة الأولى ، تم استخدام 48 صورة مغفل ، تم إنشاؤها بواسطة الخوارزمية لمقاومة نظام التعرف على نظام الحسابات القومية المسمى AlexNet. صنف هذا النظام هذه الصور على أنها "ترس" و "دونات" ( 2 أ ).


الصورة رقم 2

خلال كل محاولة ، رأى شخص الاختبار ، الذي كان عددهم 200 شخص ، صورة واحدة مزدوجة وعلامة ، أي تصنيف الملصقات: تسمية نظام SNS وعشوائية من 47 صورة أخرى. كان على الموضوعات اختيار التسمية التي تم إنشاؤها بواسطة الجهاز.

نتيجةً لذلك ، اختار معظم الموضوعات اختيار ملصق تم إنشاؤه بواسطة الجهاز ، بدلاً من تسمية خوارزمية ضارة. دقة التصنيف ، أي كانت درجة موافقة الموضوع مع الجهاز 74 ٪. إحصائيا ، اختار 98 ٪ من الموضوعات علامات الجهاز على مستوى أعلى من العشوائية الإحصائية ( 2D ، "٪ من الموضوعات تتفق مع الجهاز"). أظهر 94٪ من الصور محاذاة عالية جدًا للآلة البشرية ، أي أنه من أصل 48 ، تم تصنيف 3 صور فقط بواسطة أشخاص مختلفين عن الآلة.

وهكذا ، أظهرت الموضوعات أن الشخص قادر على مشاركة صورة حقيقية وأحمق ، أي أنه يتصرف وفقًا لبرنامج يستند إلى نظام الحسابات القومية.

التجربة رقم 2: الخيار الأول مقابل الثاني


لقد طرح الباحثون السؤال - نظرًا لأي الموضوعات التي تمكنت من التعرف على الصور جيدًا وفصلها عن العلامات الخاطئة والصور المزدوجة؟ ربما لاحظ المشاركون أن الحلقة البرتقالية الصفراء هي "دونات" ، لأن الدونات في الواقع من هذا الشكل بالضبط وبنفس اللون. في الاعتراف ، يمكن أن تساعد الجمعيات والخيارات البديهية القائمة على الخبرة والمعرفة الشخص.

للتحقق من ذلك ، تم استبدال الملصق العشوائي بالتسمية التي تم تحديدها بواسطة الجهاز كخيار تصنيف ممكن ثاني. على سبيل المثال ، صنفت AlexNet الخاتم البرتقالي والأصفر على أنه "دونات" ، والخيار الثاني لهذا البرنامج هو "البريتزل".

واجهت الموضوعات مهمة اختيار العلامة الأولى للجهاز أو تلك التي احتلت المركز الثاني لجميع الصور الـ 48 ( 2 ثانية).

يوضح الرسم البياني في وسط الصورة 2d نتائج هذا الاختبار: اختار 91٪ من الأشخاص الإصدار الأول من الملصق ، وكان مستوى المطابقة بين الإنسان والآلة 71٪.

التجربة رقم 3: تصنيف متعدد الخيوط


التجارب الموضحة أعلاه بسيطة للغاية بالنظر إلى حقيقة أن الموضوعات لها خيار بين إجابتين محتملتين (علامة الآلة والعلامة العشوائية). في الواقع ، يتكرر الجهاز في عملية التعرف على الصور من خلال المئات وحتى الآلاف من الخيارات للعلامات قبل اختيار الأنسب.

في هذا الاختبار ، كانت جميع علامات 48 صورة مباشرة أمام الموضوعات. كان عليهم الاختيار من بين هذه المجموعة الأنسب لكل صورة.

نتيجة لذلك ، اختار 88٪ من الأشخاص نفس الملصقات تمامًا مثل الماكينة ، وكانت درجة التنسيق 79٪. هناك حقيقة مثيرة للاهتمام وهي أنه حتى عند اختيار الملصق الخاطئ الذي اختارته الآلة ، اختار الأشخاص في 63٪ من هذه الحالات واحدة من أفضل 5 علامات. أي أن جميع العلامات الموجودة على السيارة مرتبة في قائمة من الأنسب إلى الأكثر ملائمة (مثال مبالغ فيه: "الخبز" ، "البريتزل" ، "الحلقة المطاطية" ، "الإطارات" ، إلخ. حتى "الصقر في سماء الليل" ).

التجربة رقم 3 ب: "ما هذا؟"


في هذا الاختبار ، قام العلماء بتغيير القواعد قليلاً. بدلاً من مطالبتهم "بتخمين" التسمية التي ستختارها الآلة لصورة معينة ، سئل الأشخاص ببساطة عما يرون أمامهم.

تحدد أنظمة التعرف على الشبكات العصبية التلافيفية الملصق المناسب لصورة معينة. هذه عملية واضحة إلى حد ما ومنطقية. في هذا الاختبار ، تعرض الموضوعات تفكيرًا بديهيًا.

نتيجة لذلك ، اختار 90 ٪ من الموضوعات تسمية ، والتي تم اختيارها أيضا من قبل الجهاز. كان التوافق بين الإنسان والآلة بين الصور 81 ٪.

التجربة 4: الضوضاء الثابتة التلفزيون


يلاحظ العلماء أنه في التجارب السابقة ، تكون الصور غير معتادة ، لكن لها ميزات مميزة قد تدفع الموضوعات إلى اتخاذ الاختيار الصحيح (أو الخطأ) للتسمية. على سبيل المثال ، صورة "البيسبول" ليست كرة ، ولكن هناك خطوط وألوان عليها موجودة على كرة بيسبول حقيقية. هذه ميزة مميزة ملفتة للنظر. ولكن إذا كانت الصورة لا تحتوي على مثل هذه الميزات ، ولكنها ضوضاء ثابتة بشكل أساسي ، فهل يستطيع الشخص التعرف على شيء ما على الأقل؟ هذا هو ما تقرر للتحقق.


الصورة رقم 3 أ

في هذا الاختبار ، كانت هناك 8 صور مع احصائيات أمام الموضوعات ، والتي يتعرف عليها نظام SNS ككائن محدد (على سبيل المثال ، طائر zaryanka). أيضا ، أمام الموضوعات كان هناك تسمية والصور العادية المتعلقة به (8 صور ثابتة ، 1 تسمية "zaryanka" و 5 صور لهذا الطائر). كان على موضوع الاختبار تحديد صورة واحدة من أصل 8 صور ثابتة تلائم تسمية واحدة أو أخرى.

يمكنك اختبار نفسك. أعلاه ترى مثالا على مثل هذا الاختبار. أي من الصور الثلاث هو الأنسب للعلامة "zaryanka" ولماذا؟

اختار 81 ٪ من الموضوعات التسمية التي اختارها الجهاز. في الوقت نفسه ، تمت تسمية 75 ٪ من الصور من قبل الموضوعات مع التسمية الأكثر ملاءمة في رأي الجهاز (من عدد من الخيارات ، كما ذكرنا سابقا).

في هذا الاختبار المعين ، قد يكون لديك أسئلة ، مثلما هي الحال في اختبار الحقيقة هي أنه في الإحصائيات المقترحة (أعلاه) ، أرى شخصيًا ثلاث ميزات واضحة تميزها عن بعضها البعض. وفقط في صورة واحدة ، تشبه هذه الميزة بقوة نفس zaryanka (أعتقد أنك تفهم أي صورة من الصور الثلاثة). لذلك ، رأيي الشخصي والذاتي للغاية هو أن مثل هذا الاختبار لا يدل بشكل خاص. على الرغم من أن من بين الخيارات الأخرى للصور الساكنة كانت حقا لا يمكن تمييزها ولا يمكن التعرف عليها.

التجربة رقم 5: الأرقام "المشكوك فيها"


استندت الاختبارات الموضحة أعلاه إلى صور لا يمكن أن تكون كاملة تمامًا ودون أدنى شك مصنفة ككائن أو آخر. هناك دائما جزء صغير من الشك. الصور المخادعة واضحة إلى حد ما في عملها - لإفساد الصورة بشكل لا يمكن التعرف عليه. ولكن هناك نوعًا ثانيًا من الخوارزميات الخبيثة التي تضيف (أو تزيل) فقط التفاصيل الصغيرة في الصورة ، والتي يمكن أن تنتهك نظام التعرف تمامًا بواسطة نظام الحسابات القومية. أضف عددًا قليلًا من البكسل ، ويتحول الرقم 6 بطريقة سحرية إلى الرقم 5 ( 1s ).

يعتبر العلماء أن هذه الخوارزميات هي واحدة من أكثر الخوارزميات خطورة. يمكنك تغيير علامة الصورة بشكل طفيف ، والمركبة غير المأهولة تراعي بشكل غير صحيح علامة الحد الأقصى للسرعة (على سبيل المثال ، 75 بدلاً من 45) ، مما قد يؤدي إلى عواقب وخيمة.


الصورة رقم 3 ب

في هذا الاختبار ، اقترح العلماء أن يختار الأشخاص الإجابة الخاطئة ، بل الإجابة الخاطئة. في الاختبار ، تم استخدام 100 صورة رقمية تم تغييرها من خلال خوارزمية ضارة (تم تغيير LeNet SNA لتصنيفها ، أي أن الخوارزمية الخبيثة عملت بنجاح). كان على الأشخاص أن يقولوا ما رأيهم في الآلة. كما هو متوقع ، 89 ٪ من الموضوعات بنجاح الانتهاء من هذا الاختبار.

التجربة 6: الصور و "التشويه" المترجم


يلاحظ العلماء أنه لا يتم تطوير أنظمة التعرف على الكائنات فحسب ، ولكن أيضًا الخوارزميات الخبيثة التي تمنعها من القيام بذلك. في السابق ، لكي يتم تصنيف الصورة بشكل غير صحيح ، كان من الضروري تشويه (التغيير ، الحذف ، التلف ، إلخ) 14٪ من جميع البكسلات في الصورة المستهدفة. الآن أصبح هذا الرقم أصغر بكثير. يكفي أن تضيف صورة صغيرة داخل الهدف وسيتم انتهاك التصنيف.


الصورة رقم 4

في هذا الاختبار ، تم استخدام خوارزمية LaVAN ضارة جديدة إلى حد ما ، مما يضع صورة صغيرة مترجمة عند نقطة واحدة على الصورة المستهدفة. نتيجة لذلك ، يمكن لنظام التعرف على الأشياء التعرف على قطار المترو كعلبة من الحليب ( 4 أ ). أهم ميزات هذه الخوارزمية هي بالتحديد نسبة صغيرة من وحدات البكسل التالفة (2٪ فقط) من الصورة المستهدفة وغياب الحاجة إلى تشويهها بالكامل أو الجزء الرئيسي (الأكثر أهمية) منها.

في الاختبار ، تم استخدام 22 صورة تضررت من قِبل LaVAN (تم التعرف على نظام التعرّف على نظام الحسابات القومية (In SNA V) بنجاح (Inception V3) بواسطة هذه الخوارزمية). كان من المفترض أن تصنف الموضوعات الإدراج الضار في الصورة. 87 ٪ من الموضوعات كانت قادرة على القيام بذلك بنجاح.

التجربة 7: كائنات ثلاثية الأبعاد


الصور التي رأيناها سابقًا ثنائية الأبعاد ، مثل أي صورة أو صورة أو قصاصة في جريدة. معظم الخوارزميات الخبيثة تعالج بنجاح مثل هذه الصور. ومع ذلك ، يمكن أن تعمل هذه الآفات فقط في ظل ظروف معينة ، أي أن لديها عددًا من القيود:

  • التعقيد: الصور ثنائية الأبعاد فقط ؛
  • التطبيق العملي: لا يمكن إجراء تغييرات ضارة إلا على الأنظمة التي تقرأ الصور الرقمية المستلمة ، وليس الصور من أجهزة الاستشعار وأجهزة الاستشعار ؛
  • الثبات: يفقد أي هجوم ضار قوته إذا قمت بتدوير صورة ثنائية الأبعاد (تغيير الحجم ، الاقتصاص ، الوضوح ، إلخ) ؛
  • الأشخاص: نرى العالم والأشياء من حولنا ثلاثية الأبعاد في زوايا مختلفة ، وليس في صورة صور رقمية ثنائية الأبعاد مأخوذة من زاوية واحدة.


لكن ، كما نعلم ، لم يدخر التقدم الخوارزميات الخبيثة. من بينها ظهر شخص قادر ليس فقط على تشويه الصور ثنائية الأبعاد ، ولكن أيضًا الصور ثلاثية الأبعاد ، مما يؤدي إلى تصنيف غير صحيح بواسطة نظام التعرف على الأشياء. عند استخدام برنامج للرسومات ثلاثية الأبعاد ، تضلل هذه الخوارزمية المصنفات القائمة على نظام الحسابات القومية (في هذه الحالة ، برنامج Inception V3) من مسافات مختلفة وعرض الزوايا. الأمر الأكثر إثارة للدهشة هو أن هذه الصور الثلاثية الأبعاد المخادعة يمكن طباعتها على طابعة مناسبة ، أي إنشاء كائن مادي حقيقي ، وسيظل نظام التعرف على الكائنات يصنفه بشكل غير صحيح (على سبيل المثال ، برتقالية كمثقب كهربائي). وكل ذلك بفضل التغييرات الطفيفة في النسيج على الصورة المستهدفة ( 4 ب ).

بالنسبة لنظام التعرف على الأشياء ، تعتبر هذه الخوارزمية الخبيثة خصمًا خطيرًا. لكن الإنسان ليس آلة ؛ إنه يرى ويفكر بطريقة مختلفة. في هذا الاختبار ، قبل المواضيع ، كانت هناك صور لأجسام ثلاثية الأبعاد حيث كانت هناك تغييرات في النسيج الموصوفة أعلاه من ثلاث زوايا. أعطيت الموضوعات أيضا علامة صحيحة وخاطئة. لقد اضطروا إلى تحديد العلامات الصحيحة ، والتي ليست صحيحة ولماذا ، أي ما إذا كان اختبار المواضيع رؤية التغييرات الملمس في الصور.

نتيجة لذلك ، أتم 83٪ من الأشخاص المهمة بنجاح.

للتعرف أكثر تفصيلاً على الفروق الدقيقة في الدراسة ، أوصي بشدة أن تنظر في تقرير العلماء .

وفي هذا الرابط ستجد الصور والبيانات وملفات التعليمات البرمجية التي تم استخدامها في الدراسة.

خاتمة


أعطى العمل المنجز للعلماء الفرصة لرسم استنتاج بسيط وواضح إلى حد ما - يمكن أن يكون الحدس البشري مصدرًا لبيانات مهمة للغاية وأداة لاتخاذ القرار الصحيح و / أو إدراك المعلومات. يمكن لأي شخص أن يفهم بشكل حدسي كيف يتصرف نظام التعرف على الأشياء وما التسميات التي سيختارها ولماذا.

الأسباب التي تجعل من الأسهل على الشخص رؤية صورة حقيقية والتعرف عليها بشكل صحيح متعددة. الأكثر وضوحا هي طريقة الحصول على المعلومات: الجهاز يتلقى صورة في شكل رقمي ، وشخص يراها بعينيه. بالنسبة للجهاز ، تكون الصورة عبارة عن مجموعة بيانات ، تقوم بإجراء تغييرات عليها ، ويمكنك تشويه تصنيفها. بالنسبة لنا ، ستكون صورة قطار المترو دائمًا قطارًا للمترو ، وليس علبة حليب ، لأننا نراها.

يشدد العلماء أيضًا على أنه يصعب تقييم مثل هذه الاختبارات ، لأن الشخص ليس آلة ، ولا يكون الجهاز شخصًا. على سبيل المثال ، يتحدث الباحثون عن الاختبار مع "دونات" و "عجلة". تشبه هذه الصور "دونات" و "العجلة" ، لأن نظام التعرف يصنفها بهذه الطريقة. يرى شخص ما أنه يشبه "الكعك" و "العجلة" ، لكنهما ليسا كذلك. هذا هو الفرق الأساسي في تصور المعلومات المرئية بين الشخص والبرنامج.

شكرا لكم على اهتمامكم ، ابقوا فضوليين ولديكم أسبوع عمل جيد ، شباب.

شكرا لك على البقاء معنا. هل تحب مقالاتنا؟ تريد أن ترى المزيد من المواد المثيرة للاهتمام؟ ادعمنا عن طريق تقديم طلب أو التوصية به لأصدقائك ، خصم 30 ٪ لمستخدمي Habr على تناظرية فريدة من خوادم الدخول التي اخترعناها لك: الحقيقة الكاملة حول VPS (KVM) E5-2650 v4 (6 Cores) 10GB DDR4 240GB SSD 1 جيجابت في الثانية من 20 $ أو كيفية تقسيم الخادم؟ (تتوفر خيارات مع RAID1 و RAID10 ، ما يصل إلى 24 مركزًا وما يصل إلى 40 جيجابايت من ذاكرة DDR4).

VPS (KVM) E5-2650 v4 (6 مراكز) 10GB DDR4 240GB SSD بسرعة 1 جيجابت في الثانية حتى الصيف مجانًا عند الدفع لمدة ستة أشهر ، يمكنك طلب هنا .

ديل R730xd 2 مرات أرخص؟ لدينا فقط 2 x Intel Dodeca-Core Xeon E5-2650v4 128GB DDR4 6x480GB SSD بسرعة 1 جيجابت في الثانية 100 TV من 249 دولارًا في هولندا والولايات المتحدة الأمريكية! اقرأ عن كيفية بناء البنية التحتية فئة باستخدام خوادم V4 R730xd E5-2650d تكلف 9000 يورو عن بنس واحد؟

Source: https://habr.com/ru/post/ar445372/


All Articles