علم البيانات ومؤتمر المناطق المدارية

مقالات حول رؤية الكمبيوتر ، التفسير ، البرمجة اللغوية العصبية - زرنا مؤتمر AISTATS في اليابان ونريد مشاركة نظرة عامة على المقالات. هذا مؤتمر كبير حول الإحصاء والتعلم الآلي ، وهو يعقد هذا العام في أوكيناوا ، وهي جزيرة بالقرب من تايوان. في هذا المنشور ، أعدت يوليا أنتوخينا ( Yulia_chan ) وصفًا للمقالات المشرقة من القسم الرئيسي ، في الجزء التالي مع آنا بابيتا ، ستتحدث عن تقارير المحاضرين المدعوين والدراسات النظرية. سنخبرنا قليلاً عن كيفية انعقاد المؤتمر نفسه وعن اليابان "غير اليابانية".

صورة

الدفاع ضد هجمات خصوصية Whitebox عبر التقدير العشوائي
يوتشين تشانغ (مايكروسوفت) ؛ بيرسي ليانغ (جامعة ستانفورد)
المادة
رمز

لنبدأ بمقال حول الحماية ضد الهجمات العدائية في رؤية الكمبيوتر. هذه هي الهجمات المستهدفة على النماذج ، عندما يكون الهدف من الهجوم هو جعل النموذج يخطئ ، حتى نتيجة محددة مسبقًا. يمكن أن تكون خاطئة خوارزميات رؤية الكمبيوتر حتى مع تغييرات طفيفة على الصورة الأصلية للشخص. المهمة ذات صلة ، على سبيل المثال ، برؤية الماكينة ، والتي تتعرف في حالات جيدة على علامات الطرق بشكل أسرع من الشخص ، ولكنها تعمل بشكل أسوأ أثناء الهجمات.

الهجوم العدائي بشكل واضح

صورة

الهجمات هي Blackbox - عندما لا يعرف المهاجم أي شيء عن الخوارزمية ، ويكون Whitebox هو الوضع المعاكس. هناك طريقتان رئيسيتان لحماية النماذج. النهج الأول هو تدريب النموذج على صور منتظمة و "مهاجمة" - يطلق عليه تدريب الخصومة. يعمل هذا النهج بشكل جيد على الصور الصغيرة مثل MNIST ، ولكن هناك مقالات توضح أنه لا يعمل بشكل جيد على الصور الكبيرة مثل ImageNet. النوع الثاني من الحماية لا يتطلب إعادة تدريب النموذج. يكفي معالجة الصورة مسبقًا قبل إرسالها إلى النموذج. أمثلة على التحويلات: ضغط JPEG ، تغيير الحجم. تتطلب هذه الطرق حسابًا أقل ، لكنها الآن تعمل فقط ضد هجمات Blackbox ، لأنه إذا كان التحويل معروفًا ، فيمكن تطبيق العكس.

طريقة

في المقالة ، يقترح المؤلفون طريقة لا تتطلب تجاوز النموذج وتعمل لهجمات Whitebox. الهدف هو تقليل المسافة بين Kullback و Leibner بين الأمثلة العادية والأخرى "المدللة" باستخدام التحول العشوائي. اتضح أنه يكفي إضافة ضوضاء عشوائية ، ثم أخذ عينات من الألوان بشكل عشوائي. أي ، يتم تغذية جودة الصورة "المعطوبة" بإدخال الخوارزمية ، لكنها لا تزال كافية لتشغيل الخوارزمية. وبسبب الصدفة ، هناك احتمال لمقاومة هجمات Whitebox.

على اليسار توجد الصورة الأصلية ، في الوسط مثال على تجميع ألوان البيكسل في مساحة Lab ، على اليمين صورة بعدة ألوان (على سبيل المثال ، بدلاً من 40 درجة من اللون الأزرق - لون واحد)

صورة

النتائج

تمت مقارنة هذه الطريقة بأقوى الهجمات على NIPS 2017 Adversarial Attacks & Defenses Competition ، وهي تُظهر في المتوسط ​​أفضل جودة ولا يتم إعادة تدريبها تحت "المهاجم".

مقارنة بين أقوى أساليب الدفاع ضد أقوى الهجمات على NIPS المنافسة

صورة

مقارنة دقة الطرق على MNIST مع تغييرات الصورة المختلفة


صورة

تخفيف التحيز في متجهات Word
صنيبا ديف (جامعة يوتا) ؛ جيف فيليبس (جامعة يوتا)
المادة

كان الحديث "الحديث" عن ناقلات الكلمات غير المتحيزة. في هذه الحالة ، يعني التحيز التحيزات حسب الجنس أو الجنسية في تمثيل الكلمات. قد يعارض أي من المنظمين هذا "التمييز" ، وبالتالي قرر علماء من جامعة يوتا دراسة إمكانية "معادلة الحقوق" في البرمجة اللغوية العصبية. في الواقع ، لماذا لا يمكن أن يكون الرجل "براقة" وامرأة "عالم بيانات"؟

أصلي - النتيجة التي يتم الحصول عليها الآن ، والباقي - نتائج الخوارزمية غير المتحيزة

صورة

تتناول المقالة طريقة للعثور على هذا التحيز. قرروا أن الجنس والجنسية تتميزان بالأسماء. لذلك ، إذا وجدت الإزاحة بالاسم وطرحها ، فربما يمكنك التخلص من تحيز الخوارزمية.
مثال على كلمات أكثر "ذكورية" و "أنثوية":

صورة

أسماء لإيجاد إزاحة بين الجنسين:

صورة

الغريب ، مثل هذه الطريقة البسيطة تعمل. قام المؤلفون بتدريب قفاز غير متحيز ووضعت في Git.

ما الذي جعلك تفعل هذا؟ فهم قرارات الصندوق الأسود مع مجموعات فرعية الإدخال كافية
براندون كارتر (معهد ماساتشوستس للتكنولوجيا CSAIL) ؛ Jonas Mueller (خدمات الويب من Amazon) ؛ سيدهارثا جاين (MIT CSAIL) ؛ ديفيد جيفورد (MIT CSAIL)
المادة
رمز مرة واحدة ومرتين

تتحدث المقالة التالية عن خوارزمية مجموعة الإدخال الكافي. SIS هي الحد الأدنى من المجموعات الفرعية للميزات التي ينتج عنها النموذج نتيجة معينة ، حتى إذا تمت إعادة تعيين جميع الميزات الأخرى. هذه طريقة أخرى لتفسير نتائج النماذج المعقدة بطريقة أو بأخرى. يعمل على كل من النصوص والصور.

خوارزمية البحث SIS بالتفصيل:

صورة

مثال التطبيق على النص مع ملاحظات حول البيرة:

صورة

مثال التطبيق على MNIST:

صورة

مقارنة بين طرق "التفسير" لمسافة Kullback - Leibler بالنسبة للنتيجة "المثالية":

صورة

يتم تصنيف الميزات أولاً حسب التأثير على النموذج ، ثم يتم تقسيمها إلى مجموعات فرعية منفصلة ، بدءًا من المجموعات الأكثر نفوذاً. إنه يعمل بالقوة الغاشمة ، وعلى مجموعة البيانات المسمى ، تفسر النتيجة بشكل أفضل من LIME. هناك تطبيق مناسب للبحث عن SIS من Google Research.

الحد من المخاطر التجريبية وتراجع التدرج العشوائي للبيانات العلائقية
فيكتور فيتش (جامعة كولومبيا) ؛ مورغان أوستيرن (جامعة كولومبيا) ؛ ويندا تشو (جامعة كولومبيا) ؛ ديفيد بلي (جامعة كولومبيا) ؛ بيتر أوربانز (جامعة كولومبيا)
المادة
رمز

في قسم التحسين ، كان هناك تقرير عن تقليل المخاطر التجريبية ، حيث استكشف المؤلفون طرقًا لتطبيق النسب التدرج العشوائي على الرسوم البيانية. على سبيل المثال ، عند إنشاء نموذج على بيانات الشبكة الاجتماعية ، يمكنك استخدام الميزات الثابتة فقط لملف التعريف (عدد المشتركين) ، ولكن بعد ذلك تُفقد المعلومات المتعلقة بالاتصالات بين ملفات التعريف (مشترك). علاوة على ذلك ، غالباً ما يصعب معالجة الرسم البياني بأكمله - على سبيل المثال ، لا يتناسب مع الذاكرة. عندما يحدث هذا الموقف على البيانات الجدولية ، يمكن تشغيل النموذج على نماذج فرعية. وكيفية اختيار التماثلية للعينة الفرعية على الرسم البياني لم تكن واضحة. وقد أثبت المؤلفون نظريًا إمكانية استخدام الرسومات الفرعية العشوائية كتماثلي للعينات الفرعية ، واتضح أن هذا "ليس فكرة مجنونة". هناك أمثلة قابلة للتكرار من مقالة جيثب ، بما في ذلك مثال ويكيبيديا.

الفئة حفلات الزفاف على بيانات "ويكيبيديا" مع الأخذ في الاعتبار هيكلها البياني ، فإن المقالات المختارة هي الأقرب في موضوع "الفيزيائيين الفرنسيين":

صورة

علم البيانات للبيانات الشبكية

كانت الرسوم البيانية للبيانات المنفصلة عبارة عن تقرير مراجعة آخر من قبل Data Science for Networked Data من المتحدث الضيف Poling Loh (جامعة ويسكونسن ماديسون). غطى العرض موضوعات الاستدلال الإحصائي ، تخصيص الموارد ، الخوارزميات المحلية. في الاستدلال الإحصائي ، على سبيل المثال ، كان حول كيفية فهم هيكل الرسم البياني على البيانات المتعلقة بالأمراض المعدية. يُقترح استخدام إحصائيات حول عدد الاتصالات بين العقد المصابة - وقد أثبتت النظرية للاختبار الإحصائي المقابل.
بشكل عام ، يكون التقرير أكثر إثارة للاهتمام لمشاهدته ، على الأرجح ، لأولئك الذين لا يشاركون في نماذج الرسوم البيانية ، ولكنهم يرغبون في المحاولة والمهتمين بكيفية اختبار فرضيات الرسوم البيانية بشكل صحيح.

كيف ذهب المؤتمر

AISTATS 2019 هو مؤتمر لمدة ثلاثة أيام في أوكيناوا. هذه هي اليابان ، لكن ثقافة أوكيناوا أقرب إلى الصين. يشبه شارع التسوق الرئيسي مثل ميامي الصغيرة ، فهناك سيارات طويلة في الشوارع وموسيقى ريفية ، وتقف قليلاً إلى الجانب - الغابة مع الثعابين وأشجار المانغروف الملتوية بالأعاصير. يتم إنشاء النكهة المحلية من خلال ثقافة Ryukyu - مملكة كانت موجودة في أوكيناوا ، ولكنها أصبحت في البداية شريكًا تجاريًا للصين ، ثم تم الاستيلاء عليها من قبل اليابانيين.

وفي أوكيناوا ، على ما يبدو ، غالباً ما يعقدون حفلات الزفاف ، لأن هناك الكثير من صالونات الزفاف ، وقد عقد المؤتمر في مقر قاعة الزفاف.

لقد جمع أكثر من 500 شخص العلماء ومؤلفي المقالات والمستمعين والمتحدثين. في ثلاثة أيام ، يمكنك الحصول على وقت للتحدث مع الجميع تقريبًا. على الرغم من أن المؤتمر عُقد "في نهايات العالم" - فقد حضر ممثلون من جميع أنحاء العالم. على الرغم من الجغرافيا الواسعة ، اتضح أن مصالحنا جميعًا متشابهة. لقد كانت مفاجأة لنا ، على سبيل المثال ، أن يحل علماء أستراليا نفس مشكلات علوم البيانات ونفس الأساليب التي نتبعها في فريقنا. ولكن ، بعد كل شيء ، نحن نعيش على جوانب متقاربة تقريبًا من الكوكب ... لم يكن هناك الكثير من المشاركين من الصناعة: Google و Amazon و MTS والعديد من الشركات الكبرى الأخرى.

كان هناك ممثلون عن الشركات اليابانية الراعية ، الذين شاهدوا معظمهم واستمعوا ، وربما كانوا يبحثون عن شخص ما ، على الرغم من أن "غير اليابانيين" كان من الصعب جدًا العمل في اليابان.

المقالات المقدمة إلى المؤتمر حول الموضوعات:

صورة

كل شيء آخر في نشرنا القادم. لا تفوت!

إعلان:

صورة

Source: https://habr.com/ru/post/ar455962/


All Articles