اقتراحات بشأن مواطن الضعف وحماية نماذج التعلم الآلي



في الآونة الأخيرة ، يعالج الخبراء بشكل متزايد مسألة أمان نماذج التعلم الآلي ويقدمون طرق حماية مختلفة. حان الوقت للدراسة بالتفصيل نقاط الضعف والدفوع المحتملة في سياق أنظمة النمذجة التقليدية الشعبية ، مثل النماذج الخطية والأشجار ، المدربة على مجموعات البيانات الثابتة. على الرغم من أن مؤلف هذا المقال ليس خبيرًا أمنيًا ، إلا أنه يتابع بعناية موضوعات مثل تصحيح الأخطاء والتفسيرات والإنصاف والقابلية للتفسير والخصوصية في التعلم الآلي.

في هذه المقالة ، نقدم العديد من العوامل المحتملة للهجمات على نظام نموذجي للتعلم الآلي في مؤسسة نموذجية ، ونقدم حلولًا مؤقتة للحماية ، وننظر في بعض المشاكل الشائعة والممارسات الواعدة.

1. هجمات الفساد البيانات


يعني تشويه البيانات أن شخصًا ما يغير بيانات التدريب بشكل منهجي لمعالجة تنبؤات نموذجك (وتسمى هذه الهجمات أيضًا الهجمات "السببية"). لتشويه البيانات ، يجب أن يتمتع المهاجم بالوصول إلى بعض أو كل بيانات التدريب الخاصة بك. وفي غياب السيطرة المناسبة في العديد من الشركات ، يمكن للموظفين المختلفين والاستشاريين والمقاولين الحصول على هذا الوصول. يمكن أيضًا الوصول إلى غير مصرح به لبعض أو كل بيانات التدريب بواسطة مهاجم خارج محيط الأمان.

قد يشتمل الهجوم المباشر على البيانات التالفة على تغيير تصنيفات مجموعة البيانات. وبالتالي ، أيا كان الاستخدام التجاري للنموذج الخاص بك ، يمكن للمهاجم إدارة توقعاته ، على سبيل المثال ، عن طريق تغيير الملصقات بحيث يمكن للطراز الخاص بك تعلم كيفية منح قروض كبيرة أو تخفيضات كبيرة أو إنشاء أقساط تأمين صغيرة للمهاجمين. إجبار النموذج على تقديم تنبؤات خاطئة لصالح مهاجم يسمى أحيانًا بانتهاك "سلامة" النموذج.

يمكن للمهاجم أيضًا استخدام تلف البيانات لتدريب النموذج الخاص بك لغرض التمييز المتعمد ضد مجموعة من الأشخاص ، وحرمانهم من قرض كبير أو تخفيضات كبيرة أو أقساط تأمين منخفضة يحق لهم الحصول عليها. في جوهرها ، هذا الهجوم يشبه DDoS. إن إجبار النموذج على تقديم تنبؤات خاطئة من أجل إلحاق الضرر بالآخرين يُطلق عليه أحيانًا انتهاك "إمكانية الوصول" للنموذج.

على الرغم من أنه قد يبدو من الأسهل تشويه البيانات من تغيير القيم في صفوف مجموعة البيانات الموجودة ، إلا أنه يمكنك أيضًا تقديم تشوهات عن طريق إضافة أعمدة إضافية غير مؤذية على ما يبدو إلى مجموعة البيانات. يمكن أن تتسبب القيم المتغيرة في هذه الأعمدة في تغيير توقعات النموذج.

الآن دعونا نلقي نظرة على بعض الحلول الممكنة للحماية والخبراء (الشرعي) في حالة تلف البيانات:

  • تحليل تأثير متباينة . تجري العديد من البنوك بالفعل تحليلًا للأثر التفاضلي للإقراض العادل لتحديد ما إذا كان نموذجها يتعرض للتمييز من جانب فئات مختلفة من الناس. ومع ذلك ، فإن العديد من المنظمات الأخرى لم تصل بعد. هناك العديد من الأدوات الممتازة مفتوحة المصدر للكشف عن التمييز وإجراء تحليل الأثر التفاضلي. على سبيل المثال ، Aequitas و Themis و AIF360 .
  • نماذج عادلة أو خاصة . تميل النماذج مثل تمثيلات التعلم العادلة (LFR) والتجميع الخاص لمجموعات المعلمين (PATE) إلى إيلاء اهتمام أقل للخصائص الديموغرافية الفردية عند إنشاء التوقعات. أيضًا ، قد تكون هذه النماذج أقل عرضة للهجمات التمييزية من أجل تشويه البيانات.
  • الرفض على الأثر السلبي (RONI) . RONI هي طريقة لإزالة صفوف البيانات من مجموعة بيانات تقلل من دقة التنبؤ. لمزيد من المعلومات حول RONI ، انظر القسم 8 ، أمان تعلم الآلة .
  • التحليل المتبقي . ابحث عن أنماط غريبة وملموسة في بقايا تنبؤاتك النموذجية ، خاصة تلك المتعلقة بالموظفين أو الاستشاريين أو المقاولين.
  • التأمل الذاتي . تقييم النماذج على موظفيك والاستشاريين والمقاولين لتحديد التوقعات المواتية بشكل غير طبيعي.

يمكن إجراء تحليل متباين للأثر والتحليل المتبقي والتفكير الذاتي أثناء التدريب وفي إطار المراقبة الفعلية للنماذج.

2. هجمات العلامة المائية


العلامة المائية هي مصطلح مستعار من الأدبيات المتعلقة بسلامة التعلم العميق ، والذي يشير غالبًا إلى إضافة وحدات بكسل خاصة إلى الصورة للحصول على النتيجة المرجوة من النموذج الخاص بك. من الممكن تمامًا فعل الشيء نفسه مع بيانات العميل أو المعاملة.

فكر في سيناريو يمكن فيه للموظف أو الاستشاري أو المقاول أو المهاجم من الخارج الوصول إلى الكود الخاص باستخدام إنتاج النموذج الخاص بك والذي يجعل التنبؤات في الوقت الفعلي. يمكن لمثل هذا الشخص تغيير الرمز للتعرف على مجموعة غريبة أو غير محتملة من قيم متغير الإدخال للحصول على نتيجة التنبؤ المطلوبة. مثل تلف البيانات ، يمكن استخدام هجمات العلامة المائية لانتهاك سلامة النموذج الخاص بك أو إمكانية الوصول إليه. على سبيل المثال ، من أجل انتهاك السلامة ، يمكن للمهاجم إدراج "حمولة" في كود التقييم لاستخدام إنتاج النموذج ، ونتيجة لذلك يتعرف على مزيج من 0 سنة في العنوان 99 ، مما سيؤدي إلى بعض التوقعات الإيجابية للمهاجم. ولمنع توفر النموذج ، يمكنه إدراج قاعدة تمييزية مصطنعة في رمز التقييم ، والتي لن تسمح للنموذج بإعطاء نتائج إيجابية لمجموعة معينة من الأشخاص.

يمكن أن تشمل الأساليب الوقائية والخبراء في الهجمات باستخدام العلامات المائية ما يلي:

  • كشف الشذوذ . أجهزة الترميز التلقائي هي نموذج للكشف عن الاحتيال يمكنه تحديد المدخلات المعقدة والغريبة ، أو لا تشبه البيانات الأخرى. من المحتمل ، يمكن لأجهزة التشفير التلقائي اكتشاف أي علامات مائية تستخدم لتحريك آليات ضارة.
  • قيود تكامل البيانات . لا تسمح العديد من قواعد البيانات بتركيبات غريبة أو غير واقعية لمتغيرات الإدخال ، والتي قد تمنع هجمات العلامات المائية. قد يعمل نفس التأثير على قيود التكامل على تدفقات البيانات التي يتم تلقيها في الوقت الفعلي.
  • تحليل التعرض متباينة : انظر القسم 1 .
  • التحكم في الإصدار . يجب أن يكون رمز التقييم لتطبيق إنتاج النموذج معتمداً ومراقب ، مثل أي منتج برمجي حاسم.

يمكن استخدام الكشف عن الشذوذ ، وقيود سلامة البيانات ، وتحليل التأثير التفاضلي أثناء التدريب وكجزء من مراقبة النماذج في الوقت الفعلي.

3. قلب النماذج البديلة


عادةً ما يطلق على "الانقلاب" الحصول على معلومات غير مصرح بها من نموذج ، بدلاً من وضع المعلومات فيه. أيضا ، يمكن أن يكون الانعكاس مثالا على "هجوم الهندسة العكسية الاستطلاعية". إذا كان المهاجم قادرًا على الحصول على الكثير من التنبؤات من واجهة برمجة التطبيقات الخاصة بطرازك أو أي نقطة نهاية أخرى (موقع ، تطبيق ، إلخ) ، فيمكنه تدريب نموذج بديل خاص به . ببساطة ، هذا محاكاة لنموذجك التنبئي! من الناحية النظرية ، يمكن للمهاجم تدريب نموذج بديل بين بيانات الإدخال المستخدمة لإنشاء التنبؤات المستلمة والتنبؤات بأنفسهم. بناءً على عدد التنبؤات التي يمكن تلقيها ، يمكن أن يصبح النموذج البديل محاكاة دقيقة إلى حد ما للنموذج الخاص بك. بعد تدريب النموذج البديل ، سيكون لدى المهاجم "صندوق رمل" يمكنه من خلاله التخطيط لانتحال شخصية (أي "تقليد") أو هجوم بمثال تنافسي على سلامة النموذج الخاص بك ، أو اكتساب القدرة على البدء في استعادة بعض جوانب بيانات التدريب السرية الخاصة بك. يمكن تدريب النماذج البديلة أيضًا باستخدام مصادر بيانات خارجية تتوافق بطريقة ما مع تنبؤاتك ، كما فعلت ProPublica ، على سبيل المثال ، مع نموذج عائد مؤلف COMPAS.

لحماية النموذج الخاص بك من الانعكاس باستخدام نموذج بديل ، يمكنك الاعتماد على مثل هذه الأساليب:

  • الوصول المصرح به . اطلب مصادقة إضافية (على سبيل المثال ، عاملان) للحصول على تنبؤات.
  • توقعات خنق الحد من عدد كبير من التوقعات السريعة من المستخدمين الفرديين ؛ النظر في إمكانية زيادة تأخير التنبؤ بشكل مصطنع.
  • نماذج "بيضاء" (القبعة البيضاء) . كتمرين للقرصنة البيضاء ، جرّب ما يلي: قم بتدريب نماذج بديلة خاصة بك بين تنبؤات المدخلات والنماذج الخاصة بتطبيق الإنتاج ، ومراقبة الجوانب التالية بعناية:
    • حدود دقة أنواع مختلفة من النماذج البديلة "البيضاء" ؛ حاول أن تفهم إلى أي مدى يمكن استخدام النموذج البديل بالفعل للحصول على بيانات غير مرغوب فيها عن النموذج الخاص بك.
    • أنواع اتجاهات البيانات التي يمكن تعلمها من نموذجك البديل "الأبيض" ، على سبيل المثال ، الاتجاهات الخطية التي تمثلها معاملات النموذج الخطي.
    • أنواع المقاطع أو التوزيعات الديموغرافية التي يمكن دراستها بتحليل عدد الأشخاص المعينين لعقد معينة من شجرة القرارات البديلة "البيضاء".
    • القواعد التي يمكن تعلمها من شجرة القرارات البديلة "البيضاء" ، على سبيل المثال ، كيفية تصوير دقيق للشخص الذي سيتلقى تنبؤات إيجابية.


4. هجمات التنافس


من الناحية النظرية ، يمكن للمتطفل المخلص أن يتعلم - على سبيل المثال ، التجربة والخطأ (أي "الذكاء" أو "تحليل الحساسية") - عكس نموذج بديل أو هندسة اجتماعية ، وكيفية اللعب مع النموذج الخاص بك للحصول على نتيجة التنبؤ المرغوبة أو تجنب النتيجة غير المرغوب فيها توقعات. تسمى محاولة تحقيق هذه الأهداف باستخدام سلسلة بيانات مصممة خصيصًا باسم "الهجوم التعددي". (في بعض الأحيان هجوم للتحقيق في النزاهة). يمكن للمهاجم استخدام هجوم الخصم للحصول على قرض كبير أو قسط تأمين منخفض ، أو لتجنب الحرمان من الإفراج المشروط مع تقييم عالٍ للمخاطر الجنائية. بعض الناس يسمون استخدام الأمثلة التنافسية لاستبعاد نتيجة غير مرغوب فيها من التنبؤ ب "التهرب".

جرب الطرق الموضحة أدناه للدفاع عن أي هجوم أو اكتشافه بمثال تنافسي:

  • تحليل التنشيط . يتطلب تحليل التنشيط آليات داخلية مقارنة في نماذجك التنبؤية ، على سبيل المثال ، متوسط ​​تنشيط الخلايا العصبية في شبكتك العصبية أو نسبة الملاحظات المتعلقة بكل عقدة نهاية في الغابة العشوائية الخاصة بك. ثم تقارن هذه المعلومات بسلوك النموذج مع تدفقات البيانات الواردة الحقيقية. كما قال أحد زملائي: " إنه نفس رؤية عقدة نهاية واحدة في مجموعة تفرعات عشوائية تتوافق مع 0.1٪ من بيانات التدريب ، ولكنها مناسبة لـ 75٪ من خطوط التسجيل في الساعة ".
  • كشف الشذوذ . انظر القسم 2 .
  • الوصول المصرح به . انظر القسم 3 .
  • نماذج المقارنة . عند تقييم البيانات الجديدة ، بالإضافة إلى نموذج أكثر تعقيدًا ، استخدم نموذجًا مقارنًا بشفافية عالية. من الصعب كسر النماذج المترجمة لأن آلياتها شفافة. عند تقييم البيانات الجديدة ، قارن النموذج الجديد بنموذج شفاف يمكن الاعتماد عليه ، أو نموذج تم تدريبه على البيانات التي تم التحقق منها وعلى عملية موثوق بها. إذا كان الفرق بين النموذج الأكثر تعقيدًا والغموض والنموذج الذي تم تفسيره (أو تم التحقق منه) كبيرًا جدًا ، فارجع إلى النموذج المحافظ أو توقع سطر البيانات يدويًا. سجل هذا الحادث ، فقد يكون هجومًا بمثال تنافسي.
  • توقعات خنق : انظر القسم 3 .
  • تحليل الحساسية "الأبيض" . استخدم تحليل الحساسية لإجراء الهجمات البحثية الخاصة بك لفهم القيم المتغيرة (أو مجموعات منها) التي يمكن أن تسبب تقلبات كبيرة في التوقعات. ابحث عن هذه القيم أو مجموعات القيم عند تقييم البيانات الجديدة. لإجراء تحليل بحثي "أبيض" ، يمكنك استخدام المشهورين من رزمة المصادر المفتوحة.
  • نماذج بديلة بيضاء: انظر القسم 3 .

يمكن استخدام تحليل التنشيط أو النماذج المقارنة أثناء التدريب وكجزء من مراقبة النماذج في الوقت الفعلي.

5. انتحال الشخصية


يمكن للمتطفل المخلص معرفة ذلك - مرة أخرى ، من خلال التجربة والخطأ ، من خلال الانقلاب باستخدام نموذج بديل أو هندسة اجتماعية - والتي تقوم بإدخال البيانات أو أشخاص محددين يحصلون على نتيجة التنبؤ المطلوبة. يمكن للمهاجم انتحال شخصية هذا الشخص للاستفادة من التنبؤ. تسمى أحيانًا هجمات الانتحال "هجمات محاكاة" ، ومن وجهة نظر النموذج ، فإن هذا يذكرنا بسرقة الهوية. كما هو الحال في هجوم مثال تنافسي ، مع انتحال شخصية البيانات المدخلة تتغير بشكل مصطنع وفقًا لطرازك. ولكن ، على عكس الهجوم نفسه بمثال تنافسي ، حيث يمكن استخدام مجموعة عشوائية محتملة من القيم لخداع ، في انتحال شخصية ، للحصول على التنبؤ المرتبط بهذا النوع من الكائنات ، المعلومات المرتبطة بكائن موحد آخر (على سبيل المثال ، عميل مدان ، الموظف ، المعاملات المالية ، المريض ، المنتج ، إلخ.). لنفترض أن المهاجم يمكنه معرفة خصائص النموذج التي يعتمد عليها تقديم خصومات أو فوائد كبيرة. ثم يمكنه تزوير المعلومات التي تستخدمها للحصول على هذا الخصم. يمكن للمهاجم مشاركة استراتيجيته مع الآخرين ، مما قد يؤدي إلى خسائر كبيرة لشركتك.

إذا كنت تستخدم نموذجًا من مرحلتين ، فاحذر من الهجوم "التحسسي": يمكن للمهاجم محاكاة سلسلة من بيانات الإدخال العادية للمرحلة الأولى من النموذج الخاص بك لمهاجمة مرحلته الثانية.

قد تشمل النهج الوقائية والخبرات الخاصة بالهجمات ذات الطابع الشخصي:

  • تحليل التنشيط. انظر القسم 4 .
  • الوصول المصرح به. انظر القسم 3 .
  • تحقق من التكرارات. في مرحلة التسجيل ، تتبع عدد السجلات المماثلة التي يتوفر لها النموذج الخاص بك. يمكن القيام بذلك في مساحة منخفضة الأبعاد باستخدام أجهزة الترميز التلقائي ، أو القياس متعدد الأبعاد (MDS) ، أو أساليب تقليص الأبعاد المماثلة. إذا كان هناك الكثير من الأسطر المتشابهة في فترة زمنية معينة ، فاتخذ التدابير التصحيحية.
  • ميزات الإخطار التهديد. قم بحفظ دالة num_similar_queries في خط num_similar_queries ، والتي قد تكون عديمة الفائدة فور التدريب أو تنفيذ النموذج الخاص بك ، ولكن يمكن استخدامها أثناء التقييم (أو أثناء إعادة التدريب في المستقبل) لإخطار النموذج أو خط أنابيب التهديدات. على سبيل المثال ، إذا كانت قيمة num_similar_queries في وقت التقييم أكبر من الصفر ، فيمكن إرسال طلب التقييم للتحليل اليدوي. في المستقبل ، عند إعادة تدريب النموذج ، ستكون قادرًا على تعليمه لإنتاج نتائج تنبؤات سلبية لخطوط الإدخال التي تحتوي على num_similar_queries عالية.

يمكن استخدام تحليل التنشيط والفحص المكرر والإخطار بالتهديدات المحتملة أثناء التدريب وفي مراقبة النماذج في الوقت الفعلي.

6. المشاكل المشتركة


بعض الاستخدامات الشائعة للتعلم الآلي تشكل أيضًا مشكلات أمنية عامة.

الصناديق السوداء والتعقيد غير الضروري . على الرغم من أن التطورات الحديثة في النماذج المفسرة وتفسيرات النماذج تجعل من الممكن استخدام مصنّعين ومراجعون غير خطية دقيقة وشفافة ، إلا أن العديد من عمليات التعلم الآلي تواصل التركيز على نماذج الصندوق الأسود. إنها مجرد نوع واحد من التعقيدات غير الضرورية في كثير من الأحيان في سير العمل القياسي لتعلم الآلة التجارية. من الأمثلة الأخرى للتعقيد المحتمل أن يكون ضارًا المواصفات الغريبة المفرطة أو عدد كبير من تبعيات الحزمة. يمكن أن يكون هذا مشكلة لسببين على الأقل:

  1. يستطيع المتسلل الدائم والمتحمس معرفة المزيد عن نظام محاكاة الصندوق الأسود المعقد للغاية أكثر مما تعرفه أنت أو فريقك (خاصة في السوق المحمومة والمتغيرة بسرعة من أجل "تحليل" البيانات). لهذا ، يمكن للمهاجم استخدام العديد من أساليب التفسير المستقلة الجديدة وتحليل الحساسية الكلاسيكية ، بصرف النظر عن العديد من أدوات القرصنة الأخرى الأكثر شيوعًا. يمكن أن يستخدم عدم التوازن في المعرفة لتنفيذ الهجمات الموضحة في الأقسام 1-5 ، أو لأنواع أخرى من الهجمات التي لا تزال مجهولة.
  2. يعتمد التعلم الآلي في بيئات البحث والتطوير اعتمادًا كبيرًا على نظام بيئي متنوع من حزم البرامج مفتوحة المصدر. تحتوي بعض هذه الحزم على العديد من المشاركين والمستخدمين ، والبعض الآخر متخصص للغاية ويحتاجون إليه بواسطة دائرة صغيرة من الباحثين والممارسين. من المعروف أن العديد من الحزم مدعومة من قبل الإحصائيين البارزين والباحثين في مجال التعلم الآلي الذين يركزون على الرياضيات أو الخوارزميات ، بدلاً من هندسة البرمجيات وبالتأكيد ليس الأمان. هناك حالات متكررة يعتمد فيها خط أنابيب التعلم الآلي على العشرات أو حتى المئات من الحزم الخارجية ، يمكن اختراق كل منها لإخفاء "حمولة" ضارة.

النظم الموزعة والنماذج . لحسن الحظ أو للأسف ، نحن نعيش في عصر البيانات الضخمة. تستخدم العديد من المؤسسات اليوم أنظمة معالجة البيانات الموزعة والتعلم الآلي. يمكن أن تكون الحوسبة الموزعة هدفًا كبيرًا للهجمات من الداخل أو من الخارج. يمكن تشويه البيانات فقط على عقد عمل واحد أو عدة نقاط لنظام تخزين أو توزيع بيانات كبير موزع. يمكن ترميز الباب الخلفي للعلامات المائية في نموذج واحد لمجموعة كبيرة. بدلاً من تصحيح مجموعة بيانات أو نموذج واحد بسيط ، يجب على الممارسين الآن دراسة البيانات أو النماذج المنتشرة عبر مجموعات حوسبة كبيرة.

هجمات رفض الخدمة الموزعة (DDoS) . إذا لعبت خدمة النمذجة التنبؤية دوراً رئيسياً في أنشطة مؤسستك ، فتأكد من مراعاة ما لا يقل عن هجمات DDoS الموزعة الأكثر شيوعًا عندما يهاجم المهاجمون خدمة تنبؤية بعدد كبير للغاية من الطلبات من أجل تأخير أو التوقف عن عمل تنبؤات للمستخدمين الشرعيين.

7. القرارات العامة


يمكنك استخدام العديد من الطرق الشائعة والقديمة والجديدة والأكثر فاعلية لتقليل نقاط الضعف في نظام الأمان وزيادة العدالة وإمكانية التحكم والشفافية والثقة في أنظمة التعلم الآلي.

الوصول المصرح به وتنظيم التردد (اختناق) التنبؤ . يمكن أن تكون ميزات الأمان القياسية ، مثل المصادقة الإضافية وضبط تردد التنبؤ ، فعالة جدًا في حظر عدد من متجهات الهجوم الموصوفة في الأقسام 1-5.

نماذج المقارنة . كنموذج مقارن لتحديد ما إذا كان قد تم إجراء أي تلاعب بالتوقعات ، يمكنك استخدام خط أنابيب النمذجة القديمة والمثبتة أو أداة تنبؤ أخرى موضحة بشفافية عالية. يتضمن التلاعب تلف البيانات أو هجمات العلامات المائية أو أمثلة تنافسية. إذا كان الفرق بين تنبؤ النموذج الذي قمت باختباره والتنبؤ بنموذج أكثر تعقيدًا ومعتمًا كبيرًا للغاية ، فقم بتدوين هذه الحالات. أرسلهم إلى المحللين أو اتخذوا تدابير أخرى لتحليل أو تصحيح الموقف. يجب اتخاذ احتياطات جدية لضمان بقاء المؤشر والناقل في أمان ودون تغيير عن حالتهما الأصلية الموثوقة.

نماذج مفسرة أو عادلة أو خاصة . حاليًا ، هناك طرق (على سبيل المثال ، رتابة GBM (M-GBM) ، وقواعد حكم Bayesian قابلة للتطوير (SBRLs) ، وشروحات الشبكة العصبية (XNNs) ) توفر كل من الدقة وقابلية التفسير. هذه النماذج الدقيقة والقابلة للتفسير أسهل في توثيقها وتصحيحها من المربعات السوداء الكلاسيكية للتعلم الآلي. يمكن تدريب الأنواع الأحدث من النماذج العادلة والخاصة (على سبيل المثال ، LFR ، PATE) على كيفية إيلاء اهتمام أقل للخصائص الديموغرافية المرئية خارجيًا المتاحة للمراقبة ، باستخدام الهندسة الاجتماعية أثناء الهجوم مع مثال تنافسي ، أو impersonalizirovaniya. هل تفكر في إنشاء عملية جديدة للتعلم الآلي في المستقبل؟ النظر في بنائها على أساس نماذج خاصة أو عادلة تفسير أقل خطورة. فهي أسهل في التصحيح وربما تقاوم التغييرات في خصائص الكائنات الفردية.

تصحيح نموذج للأمان . يتم تخصيص منطقة جديدة لنماذج تصحيح الأخطاء لاكتشاف الأخطاء في آليات وتوقعات نماذج التعلم الآلي وتصحيحها. يمكن استخدام أدوات تصحيح الأخطاء ، مثل النماذج البديلة ، والتحليل المتبقي ، وتحليل الحساسية ، في التجارب البيضاء لتحديد نقاط الضعف لديك ، أو في التدريبات التحليلية لتحديد أي هجمات محتملة قد تحدث أو قد تحدث.

وثائق نموذجية وشرح الطرق . الوثائق النموذجية هي استراتيجية للحد من المخاطر تم استخدامها في البنوك منذ عقود. يسمح لك بحفظ ونقل المعرفة حول أنظمة النمذجة المعقدة مع تغير تكوين ملاك النموذج. عادة ما تستخدم الوثائق في النماذج الخطية للشفافية العالية. ولكن مع ظهور أدوات شرح دقيقة ودقيقة (مثل شجرة SHAP والسمات المستمدة من الوظائف المحلية للشبكات العصبية) ، يمكن أن يتم شرح مهام سير العمل الموجودة مسبقًا لنماذج الصندوق الأسود على الأقل ، وتصحيحها وتوثيقها. من الواضح ، يجب أن تتضمن الوثائق الآن جميع أهداف الأمان ، بما في ذلك الثغرات الأمنية المعروفة أو الثابتة أو المتوقعة.

مراقبة وإدارة النماذج مباشرة لأسباب أمنية . يدرك الممارسون الجادون أن معظم النماذج يتم تدريبها على "لقطات" ثابتة للواقع في شكل مجموعات بيانات ، وأن دقة التنبؤات في الوقت الفعلي تتناقص ، نظرًا لأن الحالة الحالية للأشياء تتحرك بعيداً عن المعلومات التي تم جمعها مسبقًا. واليوم ، تهدف مراقبة معظم النماذج إلى تحديد هذا التحيز في توزيع متغيرات المدخلات ، مما سيؤدي في النهاية إلى انخفاض في الدقة. يجب تصميم مراقبة الطراز لتتبع الهجمات الموضحة في الأقسام 1-5 وأي تهديدات محتملة أخرى تظهر عند تصحيح أخطاء النموذج الخاص بك. على الرغم من أن هذا لا يرتبط دائمًا بالسلامة بشكل مباشر ، إلا أنه يجب أيضًا تقييم النماذج في الوقت الفعلي بحثًا عن تأثيرات متباينة. إلى جانب الوثائق النموذجية ، يجب إدارة جميع الأدوات الفنية للنمذجة والشفرة المصدرية والبيانات الوصفية المرتبطة بها وإصدارها والتحقق من الأمان ، بالإضافة إلى الأصول التجارية القيمة الموجودة بها.

ميزات الإخطار التهديد . قد يتم تضمين وظائف وقواعد ومراحل المعالجة الأولية أو اللاحقة في النماذج أو العمليات الخاصة بك المجهزة بوسائل الإخطار بالتهديدات المحتملة: على سبيل المثال ، عدد الأسطر المشابهة في النموذج ؛ ما إذا كان الخط الحالي يمثل موظفًا أو مقاولًا أو استشاريًا ؛ هل القيم في السطر الحالي مماثلة لتلك التي تم الحصول عليها من خلال الهجمات البيضاء بمثال تنافسي؟ هذه الوظائف قد تكون أو لا تكون مطلوبة أثناء التدريب الأول للنموذج. لكن توفير مساحة لهم يمكن أن يكون ذات يوم مفيدًا جدًا في تقييم البيانات الجديدة أو في إعادة التدريب اللاحقة للنموذج.

الكشف عن تشوهات النظام . قم بتدريب metadode على اكتشاف الحالات الشاذة بناءً على وحدة الترميز التلقائي على الإحصائيات التشغيلية لنظام النمذجة التنبؤية بأكمله (عدد التنبؤات لفترة معينة من الوقت والتأخير ووحدة المعالجة المركزية والذاكرة وتحميل القرص وعدد المستخدمين المتزامنين وما إلى ذلك) ، ثم قم بمراقبة هذا metamodel بعناية الشذوذ. يمكن أن الشذوذ معرفة ما إذا حدث خطأ ما. ستكون هناك حاجة إلى متابعة التحقيقات أو آليات خاصة لتتبع سبب المشكلة بدقة.

8. المراجع والمعلومات لمزيد من القراءة


يركز عدد كبير من الأدبيات الأكاديمية الحديثة حول أمان تعلم الآلة على التعلم التكيفي والتعلم العميق والتشفير. ومع ذلك ، لا يعرف المؤلف حتى الآن الممارسين الذين سيفعلون كل هذا بالفعل. لذلك ، بالإضافة إلى المقالات المنشورة مؤخرًا ، نقدم مقالات من التسعينيات وأوائل العقد الأول من القرن العشرين حول انتهاكات الشبكة ، واكتشاف الفيروسات ، وتصفية البريد العشوائي ، والموضوعات ذات الصلة ، والتي كانت أيضًا مصادر مفيدة. إذا كنت ترغب في معرفة المزيد حول الموضوع الرائع المتمثل في حماية نماذج التعلم الآلي ، فإليك الروابط الرئيسية - من الماضي والحاضر - التي استخدمت لكتابة المنشور.


استنتاج


يشعر الذين يهتمون بعلوم وممارسة التعلم الآلي بالقلق من حقيقة أن تهديد القرصنة بالتعلم الآلي ، إلى جانب التهديدات المتزايدة بانتهاك السرية والتمييز الخوارزمي ، يمكن أن يزيد من الشكوك العامة والسياسية المتزايدة بشأن التعلم الآلي والذكاء الاصطناعي. نحن جميعا بحاجة إلى تذكر الأوقات الصعبة لمنظمة العفو الدولية في الماضي القريب. يمكن دمج نقاط الضعف الأمنية ، وانتهاكات الخصوصية ، والتمييز الخوارزمي ، مما يؤدي إلى انخفاض التمويل لبحوث التدريب على الكمبيوتر ، أو إلى اتخاذ تدابير صارمة لتنظيم هذا المجال. دعونا نواصل مناقشة وحل هذه القضايا الهامة من أجل منع حدوث أزمة ، وليس لتعطيل عواقبها.

Source: https://habr.com/ru/post/ar458892/


All Articles