ProxylessNAS يحسن مباشرة بنية الشبكات العصبية لمهمة معينة والمعدات ، والتي يمكن أن تزيد بشكل كبير الإنتاجية مقارنة مع النهج الوكيل السابقة. على مجموعة بيانات ImageNet ، تم تصميم شبكة عصبية في 200 ساعة وحدة معالجة الرسومات (200-378 مرة أسرع من نظرائها) ، ويصل طراز CNN المصمم تلقائيًا للأجهزة المحمولة إلى نفس مستوى الدقة الذي يصل إليه MobileNetV2 1.4 ، ويعمل بشكل أسرع 1.8 مرة.طور الباحثون في معهد ماساتشوستس للتكنولوجيا خوارزمية فعالة للتصميم التلقائي للشبكات العصبية عالية الأداء لأجهزة معينة ،
ويكتب المنشور
MIT News .
تعد الخوارزميات الخاصة بالتصميم التلقائي لأنظمة التعليم الآلي مجالًا جديدًا للبحث في مجال الذكاء الاصطناعى. وتسمى هذه التقنية البحث عن الهندسة المعمارية العصبية (NAS) وتعتبر مهمة حسابية صعبة.
تتمتع الشبكات العصبية المصممة تلقائيًا بتصميم أكثر دقة وفعالية من تلك التي وضعها البشر. لكن البحث عن العمارة العصبية يتطلب حسابات ضخمة حقا. على سبيل المثال ، تحتاج خوارزمية NASNet-F الحديثة ، التي طورتها Google مؤخرًا لتعمل على وحدات معالجة الرسومات ، إلى 48000 ساعة من حوسبة GPU لإنشاء شبكة عصبية تلافيفية واحدة ، تستخدم لتصنيف الصور واكتشافها. بالطبع ، يمكن لـ Google تشغيل مئات وحدات معالجة الرسومات والأجهزة المتخصصة الأخرى بشكل متوازٍ. على سبيل المثال ، سوف يستغرق هذا الحساب يومين فقط من وحدات معالجة الرسومات. لكن ليس لدى جميع الباحثين مثل هذه الفرص ، وإذا قمت بتشغيل الخوارزمية في سحابة الحوسبة من Google ، فيمكنها الانتقال إلى فلس واحد.
أعد باحثو معهد ماساتشوستس للتكنولوجيا مقالا للمؤتمر الدولي حول
تمثيلات التعلم ،
ICLR 2019 ، الذي سيعقد في الفترة من 6 إلى 9 مايو 2019.
يصف المقال
ProxylessNAS: البحث المباشر عن الهندسة العصبية في مهمة الهدف والأجهزة خوارزمية ProxylessNAS التي يمكنها تطوير شبكات عصبية تلافيفية متخصصة مباشرة لمنصات أجهزة محددة.
عند تشغيل مجموعة هائلة من بيانات الصور ، صممت الخوارزمية الهيكل الأمثل خلال 200 ساعة فقط من تشغيل وحدة معالجة الرسومات. هذا أمران أسرع من تطوير بنية CNN باستخدام خوارزميات أخرى (انظر الجدول).

سيستفيد الباحثون والشركات ذات الموارد المحدودة من الخوارزمية. يقول سونج هان ، مؤلف مشارك في العلوم الهندسية الكهربائية وعلوم الكمبيوتر في مختبرات تكنولوجيا Microsystems Technology في معهد ماساتشوستس للتكنولوجيا ، إن الهدف الأكثر عمومية هو "دمقرطة الذكاء الاصطناعي".
وأضاف خان أن خوارزميات NAS هذه لن تحل محل العمل الفكري للمهندسين: "الهدف هو تفريغ العمل المتكرر والشاق الذي يأتي مع تصميم وتحسين بنية الشبكات العصبية".
في عملهم ، اكتشف الباحثون طرقًا لإزالة المكونات غير الضرورية للشبكة العصبية ، وتقليل الوقت الحسابي ، واستخدام جزء فقط من ذاكرة الجهاز لتشغيل خوارزمية NAS. هذا يضمن أن CNN المطورة تعمل بشكل أكثر كفاءة على منصات أجهزة محددة: وحدة المعالجة المركزية ، GPU والأجهزة المحمولة.
تتكون بنية CNN من طبقات ذات معلمات قابلة للتعديل تسمى "المرشحات" والعلاقات الممكنة بينها. تعمل عوامل التصفية على معالجة وحدات البكسل في صورة شبكات مربعة - مثل 3 × 3 أو 5 × 5 أو 7 × 7 - حيث يغطي كل مرشح مربعًا واحدًا. في الواقع ، تتحرك المرشحات حول الصورة وتجمع ألوان شبكة البيكسل في بكسل واحد. في الطبقات المختلفة ، تكون المرشحات بأحجام مختلفة ، متصلة بطرق مختلفة لتبادل البيانات. ينتج إخراج CNN صورة مضغوطة مجمعة من جميع المرشحات. نظرًا لأن عدد المباني المحتملة - ما يسمى "مساحة البحث" - كبير جدًا ، فإن استخدام NAS لإنشاء شبكة عصبية على مجموعات هائلة من بيانات الصور يتطلب موارد هائلة. عادةً ما يقوم المطورون بتشغيل NAS على مجموعات بيانات أصغر (وكلاء) ونقل بنيات CNN الناتجة إلى الهدف. ومع ذلك ، فإن هذه الطريقة تقلل من دقة النموذج. بالإضافة إلى ذلك ، تنطبق نفس البنية على جميع الأنظمة الأساسية للأجهزة ، مما يؤدي إلى مشاكل في الأداء.
قام باحثو معهد ماساتشوستس للتكنولوجيا بتدريب واختبار الخوارزمية الجديدة على مهمة تصنيف الصور مباشرة في مجموعة بيانات ImageNet ، والتي تحتوي على ملايين الصور في ألف فصل. أولاً ، قاموا بإنشاء مساحة بحث تحتوي على جميع "المسارات" المحتملة لمرشحي CNN بحيث تعثر الخوارزمية على الهيكل الأمثل فيما بينها. لملاءمة مساحة البحث في ذاكرة وحدة معالجة الرسومات ، استخدموا طريقة تسمى ثنائيات مستوى المسار ، والتي تقوم بحفظ مسار واحد فقط في كل مرة وحفظ الذاكرة بترتيب من حيث الحجم. يتم الجمع بين الترميز الثنائي مع التقليم على مستوى المسار ، وهي الطريقة التي تدرس تقليديًا الخلايا العصبية في الشبكة العصبية التي يمكن إزالتها بأمان دون الإضرار بالنظام. فقط بدلاً من إزالة الخلايا العصبية ، تعمل خوارزمية NAS على إزالة المسارات بأكملها ، وتغيير البنية تمامًا.
في النهاية ، تقطع الخوارزمية جميع المسارات غير المحتملة ، وتحفظ فقط المسار ذي الاحتمال الأكبر - وهذا هو هيكل CNN النهائي.
يعرض الرسم التوضيحي عينات من الشبكات العصبية لتصنيف الصور التي طورها ProxylessNAS من أجل وحدات معالجة الرسومات ووحدات المعالجة المركزية والمعالجات المتنقلة (من الأعلى إلى الأسفل على التوالي).
