الشبكات العصبية غير الحساسة للوزن (WANN)


يوفر عمل Google الجديد بنية الشبكات العصبية التي يمكنها محاكاة الغرائز الفطرية وردود الفعل للكائنات الحية ، تليها مزيد من التدريب طوال الحياة.


وكذلك تقليل عدد الاتصالات داخل الشبكة بشكل كبير ، وبالتالي زيادة سرعتها.


على الرغم من أن الشبكات العصبية الاصطناعية متشابهة من حيث المبدأ مع الشبكات البيولوجية ، إلا أنها لا تزال مختلفة تمامًا عن استخدامها في شكلها النقي لإنشاء الذكاء الاصطناعي القوي. على سبيل المثال ، أصبح من المستحيل الآن إنشاء نموذج لشخص في جهاز محاكاة (أو فأر ، أو حتى حشرة) ، ومنحه "دماغًا" في شكل شبكة عصبية حديثة وتدريبه. إنه لا يعمل فقط.


على الرغم من تجاهل الاختلافات في آلية التعلم (في الدماغ ، لا يوجد تناظر دقيق لخوارزمية الانتشار الخلفي للخطأ ، على سبيل المثال) وعدم وجود ارتباطات زمنية متعددة النطاقات ، والتي يقوم المخ البيولوجي على أساسها ببناء عملها ، ولكن لديها العديد من المشكلات التي لا تسمح لها بالمحاكاة بشكل كافٍ الدماغ الحي. من المحتمل أنه نظرًا لهذه المشكلات الملازمة للجهاز الرياضي المستخدمة الآن ، فإن Reinforcement Learning ، المصمم لتقليد أكبر قدر ممكن من تدريب الكائنات الحية على أساس المكافأة ، في الواقع لا يعمل بشكل جيد كما نود. على الرغم من أنها تقوم على أفكار جيدة وصحيحة حقًا. المزاحون أنفسهم يضحكون بأن الدماغ هو RNN + A3C (أي ، خوارزمية الناقد + شبكة متكررة لتدريبه).


أحد أكثر الاختلافات الملحوظة بين الدماغ البيولوجي والشبكات العصبية الاصطناعية هو أن بنية المخ الحي يتم تهيئتها مسبقًا بملايين السنين من التطور. على الرغم من أن القشرة المخية الحديثة (Neocortex) ، المسؤولة عن النشاط العصبي الأعلى في الثدييات ، لديها بنية موحدة تقريبًا ، فإن البنية العامة للدماغ تحددها الجينات بوضوح. علاوة على ذلك ، فإن الحيوانات الأخرى غير الثدييات (الطيور والأسماك) ليس لديها قشرة مخية حديثة على الإطلاق ، لكنها في الوقت نفسه تبدي سلوكًا معقدًا لا يمكن تحقيقه بواسطة الشبكات العصبية الحديثة. لدى الشخص أيضًا قيودًا جسدية في بنية الدماغ ، يصعب تفسيرها. على سبيل المثال ، تبلغ دقة عين واحدة حوالي 100 ميجابكسل (حوالي 100 مليون قضيب ومخروط حساس للضوء) ، مما يعني أنه من عينين ، يجب أن يكون دفق الفيديو حوالي 200 ميجابكسل مع تردد لا يقل عن 15 إطارًا في الثانية. ولكن في الواقع ، فإن العصب البصري قادر على المرور عبر ما لا يزيد عن 2-3 ميجابكسل. ولا يتم توجيه صلاته على الإطلاق إلى أقرب جزء من الدماغ ، ولكن إلى الجزء القذالي إلى القشرة البصرية.


لذلك ، من دون الانتقاص من أهمية القشرة المخية الحديثة (بشكل عام ، يمكن اعتبارها عند الولادة كتماثل لشبكات عصبية حديثة بدأت بشكل عشوائي) ، تشير الحقائق إلى أنه حتى عند البشر ، فإن بنية الدماغ المحددة مسبقًا تلعب دورًا كبيرًا. على سبيل المثال ، إذا كان عمر الطفل هو بضع دقائق فقط لإظهار لسانه ، فبفضل الخلايا العصبية المرآة ، سيؤدي أيضًا إلى إبطاء لسانه. يحدث الشيء نفسه مع ضحك الأطفال. من المعروف جيدًا أن الأطفال "منذ الولادة" تم "تخييطهم" بتقدير ممتاز لوجوه الإنسان. ولكن الأهم من ذلك ، هو أن الجهاز العصبي لجميع الكائنات الحية هو الأمثل لظروف معيشتهم. لن يبكي الطفل لساعات إذا كان جائعا. سوف يتعب. أو خائف من شيء و اخرس. لن يصل الثعلب إلى الإرهاق حتى يصل الجوع إلى عنب لا يمكن الوصول إليه. ستقوم بالعديد من المحاولات ، وتقرر أنه يشعر بالمرارة ويغادر. وهذه ليست عملية تعلم ، لكنها سلوك محدد مسبقًا بواسطة علم الأحياء. علاوة على ذلك ، الأنواع المختلفة لها مختلفة. بعض المفترسين يندفعون على الفور للفريسة ، بينما يجلس آخرون في كمين لفترة طويلة. وتعلموا هذا ليس من خلال التجربة والخطأ ، ولكن هذه هي بيولوجيتهم ، التي قدمتها الغرائز. وبالمثل ، فإن العديد من الحيوانات لديها برامج تجنب الحيوانات المفترسة من الدقائق الأولى من الحياة ، على الرغم من أنها جسديا لم تستطع تعلمها بعد.


من الناحية النظرية ، فإن الأساليب الحديثة لتدريب الشبكات العصبية تكون قادرة من شبكة متصلة بالكامل على خلق تشبه هذا العقل المدرّب مسبقًا ، والتخلص من الروابط غير الضرورية (في الواقع ، قطعها) وترك الروابط الضرورية فقط. لكن هذا يتطلب عددًا كبيرًا من الأمثلة ، وليس من المعروف كيفية تدريبهم ، والأهم من ذلك - في الوقت الحالي لا توجد طرق جيدة لإصلاح هذه البنية الدماغية "الأولية". التدريب اللاحق يغير هذه الأوزان وكل شيء سيء.


طرح الباحثون من Google هذا السؤال أيضًا. هل من الممكن إنشاء بنية دماغية أولية مماثلة للبنية البيولوجية ، أي أنها بالفعل مُحسَّنة جيدًا لحل المشكلة ، ثم إعادة تدريبها فقط؟ من الناحية النظرية ، سيؤدي ذلك إلى تضييق مساحة الحلول بشكل كبير ويسمح لك بتدريب الشبكات العصبية بسرعة.


لسوء الحظ ، تعمل خوارزميات تحسين بنية الشبكة الحالية ، مثل Neural Architecture Search (NAS) ، على كتل كاملة. بعد إضافة أو إزالة أيهما ، يجب تدريب الشبكة العصبية من البداية. هذه عملية كثيفة الاستخدام للموارد ولا تحل المشكلة تمامًا.


لذلك ، اقترح الباحثون نسخة مبسطة ، تسمى "الشبكات العصبية الوزن اللاأدري" (WANN). الفكرة هي استبدال جميع الأوزان في الشبكة العصبية بوزن واحد "مشترك". وفي عملية التعلم ، لا يتعلق الأمر باختيار الأوزان بين الخلايا العصبية ، كما هو الحال في الشبكات العصبية العادية ، ولكن لاختيار بنية الشبكة نفسها (عدد الخلايا العصبية وموقعها) ، والتي تظهر بنفس النتائج أفضل النتائج. وبعد ذلك ، قم بتحسينها بحيث تعمل الشبكة بشكل جيد مع جميع القيم الممكنة لهذا الوزن الكلي (مشترك لجميع الاتصالات بين الخلايا العصبية!).


نتيجة لذلك ، يعطي هذا بنية الشبكة العصبية ، والتي لا تعتمد على أوزان محددة ، ولكنها تعمل بشكل جيد مع الجميع. لأنه يعمل بسبب بنية الشبكة الشاملة. هذا مشابه لدماغ الحيوان الذي لم يتم تهيئته بعد بمقاييس محددة عند الولادة ، ولكنه يحتوي بالفعل على غرائز مضمنة بسبب هيكله العام. كما أن الضبط اللاحق للموازين أثناء التدريب طوال الحياة ، يجعل هذه الشبكة العصبية أفضل.


يتمثل التأثير الإيجابي الجانبي لهذا النهج في انخفاض كبير في عدد الخلايا العصبية في الشبكة (نظرًا لأن أهم الروابط تبقى فقط) ، مما يزيد من سرعته. فيما يلي مقارنة لتعقيد شبكة عصبية كلاسيكية متصلة بالكامل (يسار) وشبكة جديدة متطابقة (يمين).



للبحث عن مثل هذه الهندسة المعمارية ، استخدم الباحثون خوارزمية البحث في الطوبولوجيا (NEAT). أولاً ، يتم إنشاء مجموعة من الشبكات العصبية البسيطة ، ثم يتم تنفيذ أحد الإجراءات الثلاثة: تتم إضافة خلية عصبية جديدة إلى الاتصال الموجود بين عصبونين ، أو إضافة اتصال جديد بأخرى عشوائية إلى عصبون آخر ، أو تتغير وظيفة التنشيط في الخلية العصبية (انظر الأشكال أدناه). وبعد ذلك ، على عكس NAS الكلاسيكي ، حيث يتم البحث عن الأوزان المثلى بين الخلايا العصبية ، يتم هنا تهيئة جميع الأوزان برقم واحد. ويتم إجراء التحسين للعثور على بنية الشبكة التي تعمل بشكل أفضل في نطاق واسع من قيم هذا الوزن الكلي. وبالتالي ، يتم الحصول على شبكة لا تعتمد على الوزن المحدد بين الخلايا العصبية ، ولكنها تعمل بشكل جيد في المجموعة بأكملها (ولكن لا تزال جميع الأوزان تبدأ برقم واحد ، ولا تختلف عن الشبكات العادية). علاوة على ذلك ، كهدف إضافي للتحسين ، يحاولون تقليل عدد الخلايا العصبية في الشبكة.



يوجد أدناه مخطط عام للخوارزمية.



  1. يخلق مجموعة من الشبكات العصبية البسيطة
  2. كل شبكة تهيئة جميع الأوزان برقم واحد ، ومجموعة واسعة من الأرقام: ث = -2 ... + 2
  3. يتم فرز الشبكات الناتجة حسب جودة الحل للمشكلة وعدد الخلايا العصبية (أسفل)
  4. في جزء من أفضل الممثلين ، تتم إضافة خلية عصبية واحدة ، اتصال واحد أو وظيفة التنشيط في خلية عصبية واحدة تتغير
  5. تستخدم هذه الشبكات المعدلة كما هو موضح في النقطة 1)

كل هذا جيد ، لكن تم اقتراح مئات ، إن لم يكن الآلاف من الأفكار المختلفة للشبكات العصبية. هل هذا العمل في الممارسة؟ نعم هو كذلك. فيما يلي مثال لنتائج البحث لمثل هذه البنية الشبكية لمشكلة عربة البندول الكلاسيكية. كما يتضح من الشكل ، تعمل الشبكة العصبية بشكل جيد مع جميع المتغيرات من الوزن الكلي (أفضل مع +1.0 ، ولكن أيضًا تحاول رفع البندول من -1.5). وبعد تحسين هذا الوزن الفردي ، يبدأ العمل بشكل مثالي (خيار الأوزان الدقيقة في الشكل).



عادةً ، يمكنك إعادة التدريب لأن هذا الوزن الكلي الفردي ، حيث يتم اختيار البنية على عدد محدد منفصل من المعلمات (في المثال أعلاه -2 ، -1،1،2). ويمكنك الحصول على معلمة مثالية أكثر دقة ، على سبيل المثال ، 1.5. ويمكنك استخدام أفضل وزن إجمالي كنقطة انطلاق لإعادة تدريب جميع الأوزان ، كما في التدريب الكلاسيكي للشبكات العصبية.


هذا مشابه لكيفية تدريب الحيوانات. وجود غرائز قريبة من المستوى الأمثل عند الولادة ، وباستخدام بنية الدماغ هذه المقدمة من الجينات باعتبارها الجينة الأولى ، خلال فترة حياتها ، تقوم الحيوانات بتدريب دماغها في ظل ظروف خارجية محددة. مزيد من التفاصيل في مقال نشر مؤخرا في مجلة الطبيعة .


يوجد أدناه مثال على شبكة عثر عليها WANN لمهمة التحكم في الماكينة القائمة على البكسل. يرجى ملاحظة أن هذا هو ركوب على "الغرائز العارية" ، مع نفس الوزن الكلي في جميع المفاصل ، دون الضبط الكلاسيكي لجميع الأوزان. في الوقت نفسه ، الشبكة العصبية بسيطة للغاية في الهيكل.



يقترح الباحثون إنشاء مجموعات من شبكات WANN كحالة استخدام أخرى لـ WANN. لذلك ، فإن الشبكة العصبية المعتادة التهيئة بشكل عشوائي على MNIST تظهر دقة حوالي 10 ٪. تعطي الشبكة العصبية الفردية المختارة WANN حوالي 80٪ ، لكن مجموعة من WANN ذات إجمالي أوزان مختلف تظهر بالفعل> 90٪.


ونتيجة لذلك ، فإن الطريقة التي اقترحها باحثو Google للبحث عن البنية الأولية لشبكة عصبية مثالية لا تقلد فقط تعلم الحيوانات (الولادة مع غرائز مثالية مدمجة وإعادة التدريب أثناء الحياة) ، ولكنها تتجنب أيضًا محاكاة الحياة الحيوانية بأكملها مع التعلم الكامل للشبكة بالكامل في خوارزميات تطورية كلاسيكية شبكات بسيطة وسريعة في وقت واحد. وهو ما يكفي فقط لتدريب قليلا للحصول على شبكة عصبية مثالية تماما.


مراجع


  1. جوجل مدونة دخول المدونة
  2. مقالة تفاعلية يمكنك من خلالها تغيير الوزن الكلي ومراقبة النتيجة
  3. مقال طبيعة عن أهمية الغرائز المدمجة عند الولادة

Source: https://habr.com/ru/post/ar465369/


All Articles