إن القدرات الهائلة للشبكات العصبية تكون في بعض الأحيان قابلة للمقارنة مع عدم القدرة على التنبؤ بها. يبدأ علماء الرياضيات الآن في فهم كيفية تأثير شكل الشبكة العصبية على عملها.

عندما نصمم ناطحة سحاب ، نتوقع أن يفي في النهاية بجميع المواصفات: أن يكون البرج قادرًا على تحمل مثل هذا الوزن ، وكذلك زلزال بقوة معينة.
ومع ذلك ، واحدة من أهم التقنيات في العالم الحديث ، ونحن في الواقع ، تصميم عمياء. نحن نلعب مع مخططات مختلفة ، وإعدادات مختلفة ، ولكن حتى نبدأ التشغيل التجريبي للنظام ، ليس لدينا أي فكرة عما يمكن أن يفعله ، أو أين سيرفض العمل.
إنه يتعلق بتكنولوجيا الشبكات العصبية التي تقوم عليها أنظمة الذكاء الاصطناعي الأكثر تقدما. تنتقل الشبكات العصبية تدريجياً إلى أبسط مجالات المجتمع: فهي تحدد ما نتعلمه عن العالم من خلال الأخبار على الشبكات الاجتماعية ، فهي
تساعد الأطباء على إجراء التشخيص ، بل
وتؤثر على ما إذا كان المجرم يُرسل إلى السجن.
وقال
بوريس غانين ، عالم الرياضيات من جامعة تكساس ، "إن أفضل وصف لما نعرفه هو أن نقول أننا لا نعرف شيئًا عمليًا حول كيفية عمل الشبكات العصبية فعليًا ، وما يجب أن تكون عليه النظرية التي تصفها". ومتخصص ضيف في Facebook AI Research يدرس الشبكات العصبية.
إنه يقارن الوضع بتطور تقنية ثورية أخرى: محرك بخاري. في البداية ، يمكن لمحركات البخار ضخ الماء فقط. ثم عملوا كمحركات للقاطرات البخارية ، وربما وصلت الشبكات العصبية اليوم إلى نفس المستوى تقريبًا. طور العلماء وعلماء الرياضيات نظرية الديناميكا الحرارية التي سمحت لهم بفهم ما يحدث بالضبط داخل أي محرك. وفي النهاية ، نقلتنا هذه المعرفة إلى الفضاء.
"في البداية كانت هناك إنجازات هندسية رائعة ، ثم قطارات عظيمة ، ثم تطلب الأمر فهمًا نظريًا للانتقال من هذا إلى الصواريخ" ، قال جانين.
في المجتمع المتنامي لمطوري الشبكات العصبية ، هناك مجموعة صغيرة من الباحثين الذين لديهم انحياز رياضي يحاولون إنشاء نظرية للشبكات العصبية التي يمكنها شرح كيفية عملها والتأكد من أنه بعد إنشاء شبكة عصبية بتكوين معين ، يمكنها أداء مهام معينة.
بينما كان العمل في مرحلة مبكرة ، ولكن خلال العام الماضي ، نشر الباحثون بالفعل العديد من الأبحاث العلمية التي تصف بالتفصيل العلاقة بين شكل الشبكات العصبية وأدائها. يصف العمل الشبكات العصبية بالكامل ، حتى أسسها. لقد أوضحت أنه قبل وقت طويل من تأكيد قدرة الشبكات العصبية على قيادة السيارات ، من الضروري إثبات قدرتها على ضرب الأرقام.
أفضل وصفة الدماغ
تسعى الشبكات العصبية إلى تقليد العقل البشري - وإحدى الطرق لوصف عمله هي القول إنه يدمج التجريدات الصغيرة في التجديدات الكبيرة. من وجهة النظر هذه ، يُقاس تعقيد الأفكار بعدد التجريدات الصغيرة التي تكمن وراءها ، وعدد مجموعات التجريدات منخفضة المستوى في التجريدات عالية المستوى - في مهام مثل دراسة الفروق بين الكلاب والطيور.
وقال
مايترا راغو ، طالب دراسات عليا في علوم الكمبيوتر بجامعة كورنيل ، وهو عضو في فريق
غوغل براين ، "إذا تعلم شخص ما التعرف على كلب ، فعندئذ يتعلم التعرف على شيء أشعث على أربعة أرجل". "من الناحية المثالية ، نود أن تقوم شبكاتنا العصبية بعمل مماثل."
مايترا راغوينشأ التجريد في الدماغ البشري بطريقة طبيعية. الشبكات العصبية يجب أن تعمل من أجل هذا. تتكون الشبكات العصبية ، مثل الدماغ ، من كتل بناء تسمى "الخلايا العصبية" ، متصلة بطرق مختلفة مع بعضها البعض. في الوقت نفسه ، لا تحاول الخلايا العصبية في الشبكة العصبية ، على الرغم من أنها مصنوعة في صورة الخلايا العصبية في الدماغ ، تقليدها تمامًا. يمكن لكل خلية عصبية أن تمثل سمة أو مجموعة من السمات التي تراها الشبكة العصبية عند كل مستوى من التجريد.
المهندسين لديهم خيار من بين العديد من الخيارات للجمع بين هذه الخلايا العصبية. إنهم بحاجة إلى تحديد عدد طبقات الخلايا العصبية التي ينبغي أن يكون للشبكة العصبية (أي تحديد "عمقها"). النظر ، على سبيل المثال ، شبكة العصبية التي تتعرف على الصور. يتم تضمين الصورة في الطبقة الأولى من النظام. في الطبقة التالية ، قد يكون لدى الشبكة عصبونات تتعرف ببساطة على حواف الصورة. تجمع الطبقة التالية الخطوط وتعرف المنحنيات. يجمع الشكل التالي بين المنحنيات في الأشكال والقوام ، والآخر يعالج الأشكال والقوام لاتخاذ قرار بشأن ما يبحث عنه: الماموث الفروي!
"الفكرة هي أن كل طبقة تجمع بين عدة جوانب من الطبقة السابقة. يقول
ديفيد رولنيك ، عالم الرياضيات في جامعة بنسلفانيا: الدائرة عبارة عن منحنى في العديد من الأماكن ، أما المنحنى فهو خط في العديد من الأماكن.
يتعين على المهندسين أيضًا اختيار "عرض" كل طبقة ، بما يتوافق مع عدد الميزات المختلفة التي تراها الشبكة في كل مستوى من مستويات التجريد. في حالة التعرف على الصور ، سيتوافق عرض الطبقات مع عدد أنواع الخطوط أو المنحنيات أو الأشكال التي ستراعيها الشبكة العصبية عند كل مستوى.
بالإضافة إلى عمق الشبكة العصبية وعرضها ، هناك اختيار لطريقة توصيل الخلايا العصبية في الطبقات وفيما بينها ، واختيار الأوزان لكل من الوصلات.
إذا كنت تخطط لاستكمال مهمة محددة ، كيف تعرف بنية الشبكة العصبية التي يمكنها القيام بها بأفضل طريقة؟ هناك قواعد عينة عامة إلى حد ما. بالنسبة لمشكلات التعرف على الصور ، يستخدم المبرمجون عادة الشبكات العصبية "التلافيفية" ، وهي نظام الروابط بين الطبقات التي تتكرر من طبقة إلى أخرى. لمعالجة لغة طبيعية - التعرف على الكلام أو توليد اللغة - وجد المبرمجون أن الشبكات العصبية المتكررة هي الأنسب. يمكن أن تكون مرتبطة الخلايا العصبية فيها مع الخلايا العصبية ليس فقط من الطبقات المجاورة.
ومع ذلك ، خارج هذه المبادئ العامة ، يتعين على المبرمجين في الغالب الاعتماد على الأدلة التجريبية: فهم ببساطة يديرون 1000 شبكة عصبية مختلفة ويرون أي منها يؤدي المهمة على نحو أفضل.
وقال غانين: "في الممارسة العملية ، غالبًا ما يتم إجراء هذه الاختيارات عن طريق التجربة والخطأ". "هذه طريقة معقدة إلى حد ما ، نظرًا لوجود العديد من الانتخابات بلا حدود ، ولا أحد يعرف أيها سيكون الأفضل".
الخيار الأفضل هو الاعتماد بشكل أقل على طريقة التجربة والخطأ ، والمزيد على الفهم الموجود مسبقًا لما يمكن أن توفره لك بنية الشبكة العصبية. تقدمت العديد من الأبحاث العلمية المنشورة مؤخرًا في هذا المجال.
يهدف هذا العمل إلى إنشاء شيء يشبه كتاب وصفة لتصميم شبكة عصبية مناسبة. إذا كنت تعرف ما تريد تحقيقه به ، فيمكنك اختيار الوصفة المناسبة "، قال رولنيك.
لاسو خروف أحمر
واحدة من أقدم الضمانات النظرية لهندسة الشبكات العصبية ظهرت منذ ثلاثة عقود. في عام 1989 ، أثبت عالم الكمبيوتر أنه إذا كان للشبكة العصبية طبقة حسابية واحدة فقط ، حيث يمكن أن يكون هناك عدد غير محدود من الخلايا العصبية وعدد غير محدود من الوصلات بينها ، فإن الشبكة العصبية ستكون قادرة على أداء أي مهمة.
كان هذا بيانًا عامًا إلى حد ما ، والذي تبين أنه حدسي وغير مفيد بشكل خاص. هذا هو نفس القول بأنك إذا تمكنت من تحديد عدد غير محدود من الخطوط في صورة ما ، فيمكنك تمييز كل الكائنات بطبقة واحدة فقط. من حيث المبدأ ، قد يتحقق هذا ، لكن حاول وضعه موضع التنفيذ.
واليوم ، يطلق الباحثون على هذه الشبكات الواسعة والمسطحة "معبرة" ، لأنه من الناحية النظرية يمكنهم تغطية مجموعة أغنى من العلاقات بين بيانات الإدخال المحتملة (مثل صورة) والإخراج (مثل وصف الصورة). في الوقت نفسه ، من الصعب للغاية تدريب هذه الشبكات ، أي أنه من المستحيل عملياً جعلها تعطي هذه البيانات فعليًا. كما تتطلب طاقة حوسبة أكثر من أي جهاز كمبيوتر.
بوريس غانينلقد حاول الباحثون مؤخرًا فهم مدى إمكانية الحصول على شبكات عصبية من خلال السير في الاتجاه المعاكس - مما يجعلها أضيق (عدد الخلايا العصبية أقل لكل طبقة) وأعمق (طبقات أكثر). قد تتمكن من التعرف على 100 سطر مختلف فقط ، ولكن مع الاتصالات اللازمة لتحويل 100 من هذه الخطوط إلى 50 منحنى يمكن دمجها في 10 أشكال مختلفة ، يمكنك الحصول على جميع كتل البناء الضرورية للتعرف على معظم الكائنات.
في
العمل الذي
أنجزوه العام الماضي ، أثبت كل من Rolnik و
Max Tegmark من MIT أنه من خلال زيادة العمق وخفض العرض ، من الممكن القيام بنفس المهام مع عدد أصغر من الخلايا العصبية. لقد أظهروا أنه إذا كان للموقف الذي تقوم بمحاكاةه 100 متغير إدخال ، فيمكنك الحصول على نفس الموثوقية إما باستخدام
2100 خلية عصبية في طبقة واحدة ، أو 2،10 خلية عصبية في طبقتين. وجدوا أن هناك مزايا في أخذ أجزاء صغيرة والجمع بينها في مستويات أعلى من التجريد ، بدلاً من محاولة تغطية جميع مستويات التجريد دفعة واحدة.
وقال رولنيك: "يرتبط مفهوم عمق الشبكة العصبية بإمكانية التعبير عن شيء معقد من خلال القيام بالعديد من الخطوات البسيطة". "يبدو وكأنه خط التجميع."
أثبت Rolnik و Tegmark فائدة العمق من خلال إجبار الشبكات العصبية على أداء مهمة بسيطة: مضاعفة الحدود متعددة الحدود. (هذه معادلات ذات متغيرات مرفوعة إلى درجات طبيعية ، على سبيل المثال ، y = x
3 + 1). لقد دربوا الشبكات ، وأظهروا لهم أمثلة على المعادلات ونتائج ضربهم. ثم طلبوا من الشبكات العصبية حساب نتيجة تكاثر المعادلات التي لم يروها من قبل. لقد تعلمت الشبكات العصبية الأعمق كيفية القيام بذلك بخلايا عصبية أقل بكثير من الخلايا العصبية الصغيرة.
وبينما من غير المرجح أن يؤدي الضرب إلى قلب عالمنا رأسًا على عقب ، يقول رولنيك إنه تم وصف فكرة مهمة في العمل: "إذا لم تتكاثر الشبكة العصبية الضحلة ، فيجب ألا تثق بها بشيء آخر".
ديفيد رولنيكيبحث باحثون آخرون في مسألة الحد الأدنى للعرض الكافي. في نهاية سبتمبر ،
أثبت جيسي جونسون ، وهو عالم رياضيات سابق من جامعة أوكلاهوما ، وهو الآن باحث يعمل لدى شركة الأدوية سانوفي ، أنه في مرحلة ما لا يمكن أن يعوض أي عمق عن قلة العرض.
لفهم هذا الأمر ، تخيل الحملان في الحقل ، لكن دعهما يكونان حملان صخرة فاسق: سيتم رسم كل منهما بلون واحد من عدة ألوان. يجب أن ترسم الشبكة العصبية حدًا حول جميع الأغنام من نفس اللون. في جوهرها ، تشبه هذه المهمة تصنيف الصور: تحتوي الشبكة العصبية على مجموعة من الصور (التي تمثلها نقاط في مساحة متعددة الأبعاد) ، وتحتاج إلى تجميع الصور المتشابهة.
أثبت جونسون أن الشبكة العصبية لن تتعامل مع هذه المهمة إذا كان عرض الطبقات أصغر أو مساوٍ لكمية البيانات المدخلة. يمكن وصف كل من أغنامنا ببيانات إدخال اثنين: إحداثيات موقعها في الحقل ، x و y. ثم تقوم الشبكة العصبية بتمييز كل خروف بالألوان وترسم حدًا حول الخروف من نفس اللون. في هذه الحالة ، لحل المشكلة ، تحتاج إلى ثلاثة عصبونات على الأقل لكل طبقة.
بشكل أكثر تحديدًا ، أوضح جونسون أنه إذا لم تكن نسبة العرض إلى عدد المتغيرات كافية ، فلن تتمكن الشبكة العصبية من رسم حلقات مغلقة - وستضطر الشبكة العصبية إلى رسم مثل هذه الحلقة إذا ، على سبيل المثال ، تراكمت جميع الأغنام الحمراء في منتصف المراعي. وقال جونسون: "إذا لم يكن أي من الطبقات أكثر سمكًا من عدد قياسات الإدخال ، فلن تتمكن الوظيفة من إنشاء بعض النماذج ، بغض النظر عن عدد الطبقات".
يبدأ هذا العمل في بناء نواة نظرية الشبكات العصبية. حتى الآن ، يتمكن الباحثون من تقديم أبسط العبارات فيما يتعلق بالعلاقة بين الهندسة المعمارية والوظيفة - وهذه العبارات قليلة جدًا مقارنة بعدد المهام التي تحلها الشبكات العصبية.
لذلك ، على الرغم من أن نظرية الشبكات العصبية لن تكون قادرة على تغيير عملية تصميمها في المستقبل القريب ، يتم إنشاء مخططات لنظرية جديدة حول كيفية تدريب أجهزة الكمبيوتر - وستكون عواقبها أقوى من ذهاب شخص إلى الفضاء.