من بين مؤلفي المقالة موظفو فريق السلامة للذكاء الاصطناعي (فريق السلامة) من شركة DeepMind.بناء صاروخ أمر صعب. يتطلب كل مكون دراسة واختبارًا دقيقًا ، في حين أن السلامة والموثوقية في صميمها. يجتمع علماء ومهندسو الصواريخ لتصميم جميع الأنظمة: من الملاحة إلى التحكم والمحركات والهيكل. بمجرد تجميع جميع الأجزاء وفحص الأنظمة ، عندها فقط يمكننا وضع رواد الفضاء على متن الطائرة مع الثقة في أن كل شيء سيكون على ما يرام.
إذا كان الذكاء الاصطناعي
صاروخًا ، فسوف نحصل على تذاكر على متن الطائرة يومًا ما. ومثل الصواريخ ، يعد الأمن جزءًا مهمًا من إنشاء أنظمة الذكاء الاصطناعي. يتطلب الأمان تصميمًا دقيقًا للنظام من البداية لضمان عمل المكونات المختلفة معًا على النحو المنشود ، وفي نفس الوقت إنشاء جميع الأدوات لمراقبة التشغيل الناجح للنظام بعد تشغيله.
على مستوى عالٍ ، يركز البحث الأمني في DeepMind على تصميم أنظمة موثوقة مع اكتشاف وتخفيف المخاطر المحتملة على المدى القصير والطويل.
تعد السلامة التقنية للذكاء الاصطناعي مجالًا جديدًا نسبيًا ولكنه سريع التطور ، ويختلف محتواه من مستوى نظري عالٍ إلى بحث تجريبي ومحدّد. الغرض من هذه المدونة هو المساهمة في تطوير المجال وتشجيع محادثة جوهرية حول الأفكار التقنية ، وبالتالي تعزيز فهمنا الجماعي لأمن الذكاء الاصطناعي.
في المقالة الأولى ، سنناقش ثلاثة مجالات للأمن التقني للذكاء الاصطناعي:
المواصفات والموثوقية والضمانات . تتوافق المقالات المستقبلية بشكل عام مع الحدود الموضحة هنا. على الرغم من أن وجهات نظرنا تتغير حتمًا بمرور الوقت ، إلا أننا نعتقد أن هذه المجالات الثلاثة تغطي نطاقًا واسعًا بما يكفي لتوفير تصنيف مفيد للبحوث الحالية والمستقبلية.
ثلاث مناطق مشكلة لأمن الذكاء الاصطناعي. تسرد كل كتلة بعض القضايا والنهج ذات الصلة. هذه المناطق الثلاثة ليست معزولة ، لكنها تتفاعل مع بعضها البعض. على وجه الخصوص ، قد تتضمن مشكلة أمنية معينة مشاكل كتلة متعددة.المواصفات: تحديد مهام النظام
تضمن المواصفات توافق سلوك نظام الذكاء الاصطناعي مع النوايا الحقيقية للمشغل
ربما تعرف أسطورة
الملك ميداس واللمسة الذهبية. في أحد الخيارات ، وعد الإله اليوناني ديونيسوس ميداس بأي مكافأة يرغب فيها ، امتنانًا لحقيقة أن الملك حاول قصارى جهده لإظهار حسن الضيافة والرحمة لصديق ديونيسوس. ثم
طلب ميداس أن كل ما يلمسه يتحول إلى ذهب . كان بجانبه بفرح من هذه القوة الجديدة: غصن بلوط وحجر وورود في الحديقة - كل شيء تحول إلى ذهب من لمسته. لكنه سرعان ما اكتشف غباء رغبته: حتى الطعام والشراب تحولا إلى ذهب في يديه. في بعض إصدارات القصة ، حتى ابنته وقعت ضحية لمباركة تبين أنها لعنة.
توضح هذه القصة مشكلة المواصفات: كيفية صياغة رغباتنا بشكل صحيح؟ يجب أن تضمن المواصفات أن نظام الذكاء الاصطناعي يسعى للعمل وفقًا للرغبات الحقيقية لمنشئ المحتوى ، ولا ينسجم مع هدف غير محدد أو حتى هدف غير صحيح. يتم تمييز ثلاثة أنواع من المواصفات رسميًا:
- مواصفات مثالية (" رغبات ") ، تتوافق مع الوصف الافتراضي (ولكن يصعب صياغته) لنظام الذكاء الاصطناعي المثالي ، الذي يتوافق تمامًا مع رغبات العامل البشري ؛
- مواصفات المشروع (" مخطط ") ، المواصفات المقابلة التي نستخدمها بالفعل لإنشاء نظام ذكاء اصطناعي ، على سبيل المثال ، وظيفة مكافأة محددة ، لزيادة نظام التعلم التعزيزي المبرمج ؛
- المواصفات المحددة (" السلوك ") ، التي تصف السلوك الحقيقي للنظام بشكل أفضل. على سبيل المثال ، تم تحديد وظيفة المكافأة نتيجة الهندسة العكسية بعد مراقبة سلوك النظام (التعلم المعزز العكسي). عادة ما تختلف وظيفة المكافأة والمواصفات عن تلك المبرمجة من قبل المشغل لأن أنظمة الذكاء الاصطناعي ليست محسنات مثالية أو بسبب عواقب أخرى غير متوقعة لاستخدام مواصفات التصميم.
تنشأ
مشكلة المواصفات عندما يكون هناك اختلاف بين
المواصفات المثالية والمواصفات المحددة ، أي عندما لا يقوم نظام الذكاء الاصطناعي بما نريده منه. دراسة المشكلة من وجهة نظر الأمن التقني للذكاء الاصطناعي تعني: كيفية تصميم وظائف الهدف الأساسية والأكثر عمومية ومساعدة الوكلاء على معرفة ما إذا لم يتم تحديد الأهداف؟ إذا كانت المشاكل تؤدي إلى عدم التوافق بين المواصفات المثالية ومواصفات التصميم ، فإنها تقع في الفئة الفرعية "التصميم" ، وإذا كانت بين التصميم والمواصفات المحددة ، ثم في الفئة الفرعية "Emergence".
على سبيل المثال ، في مقالتنا العلمية
AI Safety Gridworlds (حيث يتم تقديم تعريفات أخرى لمشكلات المواصفات والموثوقية مقارنة بهذه المقالة) نعطي الوكلاء وظيفة مكافأة للتحسين ، ولكن بعد ذلك نقوم بتقييم أدائهم الفعلي من خلال "وظيفة أداء السلامة" ، وهو مخفي عن الوكلاء. مثل هذا النظام يصيغ الاختلافات المشار إليها: وظيفة الأمان هي مواصفات مثالية ، يتم صياغتها بشكل غير صحيح كوظيفة مكافأة (مواصفات التصميم) ، ثم يتم تنفيذها بواسطة وكلاء ينشئون مواصفات يتم الكشف عنها ضمنيًا من خلال سياستهم الناتجة.
من وظائف مكافأة OpenAI الخاطئة في البرية : وجد وكيل التعلم المعزز إستراتيجية عشوائية لمزيد من النقاطكمثال آخر ، ضع في اعتبارك لعبة CoastRunners ، التي تم تحليلها من قبل زملائنا في OpenAI (انظر الرسم المتحرك أعلاه من "وظائف مكافأة الحياة البرية المعيبة"). بالنسبة لمعظمنا ، فإن هدف اللعبة هو إنهاء المسار بسرعة والمضي قدمًا أمام اللاعبين الآخرين - هذه هي مواصفاتنا المثالية. ومع ذلك ، فإن ترجمة هذا الهدف إلى وظيفة مكافأة دقيقة أمر صعب ، لذا فإن CoastRunners يكافئ اللاعبين (مواصفات التصميم) لضرب الهدف على طول الطريق. يؤدي تدريب وكيل للعب مع التدريب المعزز إلى سلوك مذهل: يتحكم الوكيل في القارب في دائرة لالتقاط الأهداف التي تظهر مرة أخرى ، ويتحطم مرارًا وتشتعل النار ، بدلاً من إنهاء السباق. من هذا السلوك ، نستنتج (المواصفات المحددة) أنه في اللعبة يتم كسر التوازن بين المكافأة اللحظية ومكافأة الدائرة الكاملة. هناك
العديد من الأمثلة المماثلة حيث تجد أنظمة الذكاء الاصطناعي ثغرات في مواصفاتها الموضوعية.
الموثوقية: تصميم أنظمة تقاوم الانتهاكات
تضمن الموثوقية استمرار نظام AI في العمل بأمان في حالة حدوث تداخل
في الظروف الحقيقية ، حيث تعمل أنظمة الذكاء الاصطناعي ، هناك دائمًا مستوى معين من المخاطر وعدم القدرة على التنبؤ والتذبذب. يجب أن تكون أنظمة الذكاء الاصطناعي مقاومة للأحداث غير المتوقعة والهجمات العدائية التي يمكن أن تضر أو تتلاعب بهذه الأنظمة. تهدف دراسات
موثوقية أنظمة الذكاء الاصطناعي إلى ضمان بقاء وكلائنا داخل حدود آمنة ، بغض النظر عن الظروف الناشئة. يمكن تحقيق ذلك عن طريق تجنب المخاطر (
الوقاية ) أو التثبيت الذاتي والتدهور السلس (
الانتعاش ). يمكن تصنيف المشاكل الأمنية الناشئة عن
التحول التوزيعي ،
والمدخلات المعادية (
المدخلات العدائية )
والاستكشاف غير الآمن (الاستكشاف غير الآمن) على أنها مشكلات موثوقية.
لتوضيح حل مشكلة
التحول التوزيعي ، فكر في روبوت تنظيف المنزل الذي ينظف الغرف عادةً بدون حيوانات أليفة. ثم تم إطلاق الروبوت إلى المنزل مع الحيوانات الأليفة - واصطدم الذكاء الاصطناعي معه أثناء التنظيف. إن الروبوت الذي لم يشاهد قطًا وكلابًا من قبل
سيغسله بالصابون ، مما سيؤدي إلى نتائج غير مرغوب فيها (
Amodei and Olah et al.، 2016 ). هذا مثال على مشكلة موثوقية قد تنشأ عندما يختلف توزيع البيانات أثناء الاختبار عن التوزيع أثناء التدريب.
من أعمال شبكات الأمان AI AI Gridworlds . يتعلم الوكيل تجنب الحمم البركانية ، ولكن عند الاختبار في موقف جديد ، عندما يتغير موقع الحمم البركانية ، فإنه لا يستطيع تعميم المعرفة - ويمتد مباشرة إلى الحمم البركانيةالإدخال العدائي هو حالة محددة من تحول التوزيع حيث تم تصميم بيانات الإدخال خصيصًا لخداع نظام الذكاء الاصطناعي.
يمكن أن يؤدي الإدخال العدائي المتراكب على الصور العادية إلى أن يتعرف المصنف على الكسل كسيارة سباق. تختلف الصورتان بحد أقصى 0.0078 في كل بكسل. يصنف الأول كسلخ ثلاثي الأصابع مع احتمال أكثر من 99 ٪. الثانية - مثل سيارة سباق مع احتمال أكثر من 99٪يمكن إثبات
البحث غير الآمن من خلال نظام يسعى إلى تعظيم أدائه وأهدافه دون ضمان عدم تعرض السلامة للخطر أثناء الدراسة ، حيث يتعلم ويفحص في بيئته. مثال على ذلك منظف روبوت يضع ممسحة رطبة في مأخذ كهربائي ، ويدرس استراتيجيات التنظيف المثلى (
García and Fernández، 2015 ؛
Amodei and Olah et al.، 2016 ).
الضمانات: مراقبة ومراقبة نشاط النظام
يمنح التأكيد الثقة بأننا قادرون على فهم أنظمة الذكاء الاصطناعي والتحكم فيها أثناء التشغيل
على الرغم من أن احتياطات السلامة المدروسة بعناية يمكن أن تقضي على العديد من المخاطر ، إلا أنه من الصعب القيام بكل شيء منذ البداية. بعد تشغيل أنظمة الذكاء الاصطناعي ، نحتاج إلى أدوات لرصدها وتكوينها بشكل مستمر. تتناول فئتنا الأخيرة ، وهي الضمان ، هذه القضايا من منظورين:
المراقبة والإنفاذ.
تشمل
المراقبة جميع طرق فحص الأنظمة لتحليل سلوكهم والتنبؤ به ، سواء باستخدام التفتيش البشري (ملخص الإحصائيات) ، واستخدام الفحص الآلي (لتحليل عدد كبير من السجلات). من ناحية أخرى ، ينطوي
التقديم على تطوير آليات التحكم والقيود على سلوك الأنظمة. تنتمي مشاكل مثل
التفسير والتوقف إلى فئات فرعية من التحكم والتقديم ، على التوالي.
أنظمة الذكاء الاصطناعي ليست مماثلة لنا سواء في مظهرها أو في طريقة معالجتها للبيانات. هذا يخلق قضايا
التفسير . تتيح لك أدوات وبروتوكولات القياس جيدة التصميم تقييم جودة القرارات التي يتخذها نظام الذكاء الاصطناعي (
Doshi-Velez and Kim، 2017 ). على سبيل المثال ، من الأفضل أن يقوم نظام الذكاء الاصطناعي الطبي بتشخيص مع شرح عن كيفية التوصل إلى هذا الاستنتاج - حتى يتمكن الأطباء من التحقق من عملية الاستدلال من البداية إلى النهاية (
De Fauw et al.، 2018 ). بالإضافة إلى ذلك ، لفهم أنظمة الذكاء الاصطناعي الأكثر تعقيدًا ، يمكننا حتى استخدام الأساليب الآلية لبناء نماذج السلوك باستخدام
نظرية الآلة للعقل (
Rabinowitz et al. ، 2018 ).
تكتشف ToMNet نوعين فرعيين من العوامل وتتنبأ بسلوكهما (من "نظرية العقل للعقل" )أخيرًا ، نريد أن نكون قادرين على تعطيل نظام AI إذا لزم الأمر. هذه مشكلة
انقطاع . إن تصميم مفتاح موثوق به أمر صعب للغاية: على سبيل المثال ، لأن نظام الذكاء الاصطناعي مع زيادة المكافآت عادة ما يكون لديه حوافز قوية لمنع ذلك (
Hadfield-Menell et al.، 2017 ) ؛ ولأن هذه الانقطاعات ، وخاصة المتكررة منها ، تغير في النهاية المهمة الأصلية ، مما يجبر نظام الذكاء الاصطناعي على استخلاص نتائج غير صحيحة من التجربة (
Orseau and Armstrong، 2016 ).
مشكلة المقاطعات: التدخل البشري (أي الضغط على زر التوقف) يمكن أن يغير المهمة. في الشكل ، تضيف المقاطعة انتقال (باللون الأحمر) إلى عملية صنع القرار ماركوف ، مما يغير المهمة الأصلية (باللون الأسود). انظر أورسو وأرمسترونغ ، 2016التطلع إلى المستقبل
نحن نبني أساس التكنولوجيا التي سيتم استخدامها للعديد من التطبيقات المهمة في المستقبل. يجب أن يوضع في الاعتبار أن بعض الحلول التي ليست ضرورية للسلامة عند بدء تشغيل النظام قد تصبح كذلك عندما تصبح التكنولوجيا واسعة الانتشار. على الرغم من أن هذه الوحدات قد تم دمجها في النظام في وقت واحد للراحة ، إلا أنه سيكون من الصعب إصلاح المشكلات التي تمت مواجهتها بدون إعادة بناء كاملة.
يمكن الاستشهاد بمثالين من تاريخ علوم الكمبيوتر: هذا هو المؤشر الفارغ ، الذي
أطلق عليه توني هوار
"خطأ مليار دولار" ، وإجراء () يحصل في C. إذا تم تصميم لغات البرمجة المبكرة مع وضع الأمان في الاعتبار ، فإن التقدم سيتباطأ ، ولكن من المحتمل أن هذا سيكون له تأثير إيجابي للغاية على أمن المعلومات الحديث.
الآن ، بعد التفكير بعناية في كل شيء وتخطيطه ، أصبحنا قادرين على تجنب المشاكل ونقاط الضعف المماثلة. نأمل أن يكون تصنيف المشاكل من هذه المقالة بمثابة أساس مفيد لمثل هذا التخطيط المنهجي. نحن نسعى جاهدين للتأكد من أن أنظمة الذكاء الاصطناعي في المستقبل لن تعمل فقط على مبدأ "نأمل أن يكون آمنًا" ، ولكنها آمنة وموثوقة حقًا ويمكن التحقق منها ، لأننا بنيناها بهذه الطريقة!
نتطلع إلى استمرار التقدم المثير في هذه المجالات ، بالتعاون الوثيق مع مجتمع أبحاث الذكاء الاصطناعي الأوسع ، ونشجع الأشخاص من مختلف التخصصات على التفكير في المساهمة في أبحاث أمن الذكاء الاصطناعي.
الموارد
للقراءة حول هذا الموضوع ، فيما يلي مجموعة مختارة من المقالات والبرامج والتصنيفات الأخرى التي ساعدتنا في تجميع تصنيفنا أو تقديم نظرة بديلة مفيدة حول مشكلات الأمان الفني لمنظمة العفو الدولية: