الشبكات العصبية والتعلم العميق: برنامج تعليمي عبر الإنترنت ، الفصل 6 ، الجزء 2: التقدم الأخير في التعرف على الصور


في عام 1998 ، عندما ظهرت قاعدة بيانات MNIST ، استغرق الأمر أسابيع لتدريب أجهزة الكمبيوتر الأكثر تقدماً ، والتي حققت نتائج أسوأ بكثير من أجهزة الكمبيوتر الحالية ، والتي تستغرق أقل من ساعة للحصول على GPU. لذلك ، لم يعد MNIST مهمة دفع حدود التكنولوجيا ؛ تشير سرعة التدريب إلى أن هذه المهمة مناسبة تمامًا لدراسة هذه التكنولوجيا. في غضون ذلك ، يمضي البحث إلى أبعد من ذلك ، ويدرس العمل الحديث مشاكل أكثر تعقيدًا. في هذا القسم ، سوف أصف بإيجاز بعض الأمثلة على العمل الجاري المتعلق بالتعرف على الصور باستخدام الشبكات العصبية.

هذا القسم مختلف عن بقية الكتاب. في هذا الكتاب ، ركزت على الأفكار التي يُفترض أنها عاشت طويلًا - التراجع ، التنظيم ، الشبكات التلافيفية. حاولت تجنب النتائج التي اعتبرت عصرية في وقت كتابة هذا التقرير ، الذي بدا أن قيمته طويلة الأجل مشكوك فيها. في العلوم ، غالبًا ما يتبين أن هذه النتائج سريعة الزوال وتختفي بسرعة ولا يكون لها تأثير طويل المدى. بالنظر إلى هذا ، قد يقول المشككون: "بالطبع ، يمكن اعتبار التقدم الأخير في التعرف على الصور مثالاً على رحلة ليوم واحد؟ في غضون سنتين أو ثلاث سنوات ، سيتغير كل شيء. لذلك ، هل من المحتمل أن تكون هذه النتائج ذات أهمية لعدد قليل من المهنيين الذين يتنافسون في المقدمة؟ لماذا ناقشهم على الإطلاق؟ "

سيكون هذا الشكوك محقًا في أن التفاصيل الصغيرة للأعمال الحديثة تفقد أهميتها تدريجياً. ومع ذلك ، خلال السنوات القليلة الماضية ، كانت هناك تحسينات لا تصدق في حل المشكلات المعقدة بشكل خاص للتعرف على الصور باستخدام الشبكات العصبية العميقة (GNS). تخيل مؤرخًا لمواد الكتابة العلمية حول رؤية الكمبيوتر عام 2100. سيعرفون 2011-2015 (وربما بعد عدة سنوات من ذلك) بأنها فترة من الإنجازات الكبيرة التي تحركها شبكات الالتفاف العميقة (GSS). هذا لا يعني أنه سيتم استخدام نظام GOS في عام 2100 ، ناهيك عن تفاصيل مثل الاستثناء و ReLU والمزيد. لكن هذا كله يعني أن هناك انتقالًا مهمًا في تاريخ الأفكار في الوقت الحالي. هذا مشابه لملاحظة اكتشاف الذرة ، اختراع المضادات الحيوية: اختراع واكتشاف أبعاد تاريخية. لذلك ، دون الخوض في التفاصيل ، يجدر الحصول على فكرة عن الاكتشافات المثيرة للاهتمام التي يتم إجراؤها اليوم.

العمل 2012 LRMD


اسمحوا لي أن أبدأ بعمل عام 2012 ، من تأليف مجموعة من الباحثين من ستانفورد وجوجل. سأدعو لها LRMD ، من خلال الحروف الأولى من أسماء المؤلفين الأربعة الأولى. استخدم LRMD NS لتصنيف الصور من قاعدة بيانات ImageNet ، وهي مهمة صعبة للغاية في التعرف على الأنماط. تضمنت البيانات التي استخدموها منذ عام 2011 ImageNet 16 مليون صورة كاملة الألوان ، مقسمة إلى 20.000 فئة. تم تنزيل الصور من الإنترنت وتصنيفها بواسطة Amazon's Turk Turk. هؤلاء بعض منهم:









وهي تنتمي إلى الفئات ، على التوالي: النكاف ، فطر الجذر البني ، الحليب المبستر ، الديدان المستديرة. إذا كنت ترغب في التمرين ، أوصيك بزيارة قائمة الأدوات اليدوية من ImagNet ، حيث يتم إجراء اختلافات بين التلال والمخططين النهائيين والمخططين للشطب وعشرات الأنواع الأخرى من المخططين ، ناهيك عن الفئات الأخرى. لا أعرف عنك ، لكن لا يمكنني التمييز بكل تأكيد بكل هذه الأدوات. من الواضح أن هذا أكثر تحديا من MNIST! حصلت شبكة LRMD على نتيجة جيدة في دقة التعرف على الصور بنسبة 15.8 ٪ من ImageNet. قد لا يبدو هذا نتيجة مثيرة للإعجاب ، لكنه كان بمثابة تحسن كبير مقارنة بالنتيجة السابقة البالغة 9.3 ٪. تشير هذه القفزة إلى أن NSs يمكن أن تقدم طريقة فعالة لمهام التعرف على الصور المعقدة للغاية ، مثل ImageNet.

العمل 2012 KSH


أعقب عمل LRMD في عام 2012 عمل Krizhevsky و Sutskever و Hinton (KSH). قامت KSH بتدريب واختبار GSS باستخدام مجموعة فرعية محدودة من بيانات ImagNet. يتم تعريف هذه المجموعة الفرعية من خلال مسابقة التعلم الآلي الشائعة - تحدي التعرف على الصورة على نطاق واسع لـ ImageNet (ILSVRC). أعطاهم استخدام هذه المجموعة الفرعية طريقة ملائمة لمقارنة نهجهم مع التقنيات الرائدة الأخرى. تحتوي مجموعة ILSVRC 2012 على حوالي 1.2 مليون صورة من 1000 فئة. تحتوي مجموعات التحقق والتأكيد على 150،000 و 50000 صورة ، على التوالي ، من نفس الفئات 1000.

أحد التحديات التي تواجه مسابقة ILSVRC هي أن العديد من الصور من ImageNet تحتوي على كائنات متعددة. على سبيل المثال ، في الصورة ، يتم تشغيل Labrador Retriever بعد كرة قدم. ما يسمى قد يتوافق التصنيف "الصحيح" من ILSVRC مع ملصق Labrador Retriever. هل من الضروري تحديد نقاط من الخوارزمية إذا كانت الصورة مثل كرة القدم؟ بسبب هذا الغموض ، تم اعتبار الخوارزمية صحيحة إذا كان تصنيف ImageNet من بين أكثر 5 تخمينات محتملة للخوارزمية فيما يتعلق بمحتوى الصورة. وفقًا لهذا المعيار ، من بين أفضل 5 شركات ، حقق GSS في KSH دقة 84.7٪ ، أفضل بكثير من الخصم السابق ، الذي حقق دقة 73.8٪. باستخدام مقياس أكثر صرامة ، عندما يجب أن تتطابق التسمية تمامًا مع الوصف المحدد ، وصلت دقة KSH إلى 63.3٪.

يجدر وصف شبكة KSH بإيجاز ، لأنها ألهمت الكثير من الأعمال التي تلت ذلك. كما أنه ، كما سنرى ، مرتبط بشكل وثيق بالشبكات التي قمنا بتدريبها في هذا الفصل ، على الرغم من أنها أكثر تعقيدًا. KSH تستخدم GSS المدربين على اثنين GPUs. استخدموا جرافيك لأن بطاقتهما الخاصة (NVIDIA GeForce GTX 580) لم يكن بها ذاكرة كافية لتخزين الشبكة بالكامل. لذلك ، يقومون بتقسيم الشبكة إلى قسمين.

تحتوي شبكة KSH على 7 طبقات من الخلايا العصبية المخفية. أول خمس طبقات مخفية تلافيفي (بعضها يستخدم الحد الأقصى للتجميع) ، والاثنتان التاليتان متصلتان تمامًا. تتكون طبقة softmax الإخراج من 1000 خلية عصبية تتوافق مع 1000 صورة. إليك خريطة مبدئية للشبكة مأخوذة من أعمال KSH. التفاصيل موضحة أدناه. لاحظ أن العديد من الطبقات مقسمة إلى جزأين يقابلان وحدات معالجة الرسومات.



في طبقة الإدخال ، هناك خلية عصبية 3x224x224 تشير إلى قيم RGB لصورة بحجم 224x224. أذكر أن ImageNet يحتوي على صور من قرارات مختلفة. هذا يمثل مشكلة ، لأن طبقة شبكة الإدخال تكون عادةً ذات حجم ثابت. تعاملت KSH مع هذا عن طريق تحجيم كل صورة بحيث يبلغ طول جانبها القصير 256 بكسل. ثم قاموا بقص مساحة 256 × 256 بكسل من منتصف الصورة التي تم تغيير حجمها. أخيرًا ، يقوم KSH باسترداد قطع الصورة العشوائية 224x224 (وانعكاساتها الأفقية) من 256 × 256 صورة. هذا القص العشوائي هو وسيلة لتوسيع بيانات التدريب لتقليل إعادة التدريب. هذا يساعد بشكل خاص على تدريب شبكة كبيرة مثل KSH. وأخيرًا ، يتم استخدام هذه الصور التي يبلغ عددها 224 × 224 كمدخلات في الشبكة. في معظم الحالات ، تحتوي الصورة التي تم اقتصاصها على الكائن الرئيسي من الصورة الأصلية.

نمر إلى الطبقات الخفية لشبكة KSH. أول طبقة مخفية تلافيفي ، مع خطوة سحب أقصى. يستخدم حقول تقبلا محلية بحجم 11 × 11 ، وخطوة 4 بكسل. في المجموع ، يتم الحصول على 96 بطاقة ميزة. تنقسم بطاقات الأحرف إلى مجموعتين من 48 قطعة ، أول 48 بطاقة موجودة على وحدة معالجة الرسومات واحدة ، والثانية على الأخرى. يتم تنفيذ التجميع الأقصى في هذه الطبقات والطبقات اللاحقة بواسطة أقسام 3 × 3 ، لكن أقسام التجميع يمكن أن تتداخل ، وتقع على مسافة 2 بكسل فقط من بعضها البعض.

الطبقة المخفية الثانية تلافيفي أيضًا ، مع تجمع أقصى. يستخدم الحقول المحلية التقريبية 5 × 5 ، ويحتوي على 256 بطاقة ميزات ، مقسمة إلى 128 قطعة لكل وحدة معالجة الرسومات. تستخدم خرائط الميزات 48 قناة واردة فقط ، وليس كل 96 خروجًا من الطبقة السابقة ، كالمعتاد. وذلك لأن أي بطاقة ميزة تستقبل المدخلات من وحدة معالجة الرسومات التي يتم تخزينها عليها. بهذا المعنى ، تتحرك الشبكة بعيدًا عن البنية التلافيفية التي وصفناها سابقًا في هذا الفصل ، على الرغم من أن الفكرة الأساسية تظل كما هي.

الطبقات الثالثة والرابعة والخامسة تلافيفية ، ولكن دون تجمع أقصى. معالمها: (3) 384 ميزة خرائط ، حقول تقبلا محلية 3 × 3 ، 256 قناة واردة ؛ (4) 384 خريطة للميزات ، الحقول الاستقبالية المحلية 3 × 3 ، 192 قناة واردة ؛ (5) 256 بطاقة ميزة ، الحقول الاستقبالية المحلية 3 × 3 ، 192 قناة واردة. في الطبقة الثالثة ، يتم تبادل البيانات بين وحدات معالجة الرسومات (كما هو موضح في الصورة) بحيث يمكن لخرائط الميزات استخدام جميع القنوات الواردة البالغ عددها 256 قناة.

ترتبط الطبقات السادسة والسابعة المخفية تمامًا ، 4096 خلية لكل منهما.

طبقة الإخراج هي softmax ، تتكون من 1000 وحدة.

تستفيد شبكة KSH من العديد من التقنيات. بدلا من استخدام السيني أو الظل الزائدي كدالة تنشيط ، فإنه يستخدم ReLUs ، والتي تسرع عملية التعلم إلى حد كبير. تحتوي شبكة KSH على حوالي 60 مليون معلمة تدريب ، وبالتالي ، حتى مع وجود مجموعة كبيرة من بيانات التدريب ، فإنها تخضع لإعادة التدريب. للتغلب على هذا ، قام المؤلفون بتوسيع نطاق التدريب الذي تم تعيينه عن طريق الصور التي تم اقتصاصها بشكل عشوائي ، كما هو موضح أعلاه. ثم استخدموا البديل L2- التنظيم والاستثناء. تم تدريب الشبكة باستخدام النسب التدرج العشوائي على أساس الزخم ومع الحزم الصغيرة.

هذه نظرة عامة مختصرة على العديد من الأفكار الرئيسية لشركة KSH. لقد حذفت بعض التفاصيل ؛ ابحث عنها في المقال بنفسك. يمكنك أيضًا إلقاء نظرة على مشروع Alex Krizhevsky cuda-convnet (وأتباعه) ، الذي يحتوي على كود ينفذ العديد من الأفكار الموصوفة. كما تم تطوير نسخة من هذه الشبكة تعتمد على Theano . يمكنك التعرف على الأفكار في التعليمات البرمجية التي تشبه تلك التي قمنا بتطويرها في هذا الفصل ، على الرغم من أن استخدام وحدات معالجة الرسومات المتعددة يعقد الأمور. يحتوي إطار عمل Caffe على نسخته الخاصة من شبكة KSH ، راجع " نماذج حديقة الحيوان " الخاصة بهم للحصول على التفاصيل.

مسابقة ILSVRC 2014


منذ عام 2012 ، كان التقدم سريعًا. شارك في مسابقة ILSVRC 2014. كما في عام 2012 ، كان على المشاركين تدريب شبكات لـ 1.2 مليون صورة من 1000 فئة ، وكانت واحدة من 5 توقعات محتملة في الفئة الصحيحة هي معيار الجودة. استخدم الفريق الفائز ، الذي يتكون بشكل أساسي من موظفي Google ، GSS مع 22 طبقة من الخلايا العصبية. أطلقوا اسم GoogLeNet على شبكتهم ، بعد LeNet-5. وفقًا لمعيار ضرب الخيارات الخمسة الأولى ، وصلت GoogLeNet إلى مؤشر 93.33٪ من الدقة ، مما أدى إلى تحسن كبير في نتائج الفائز لعام 2013 (Clarifai ، من 88.3٪) والفائز لعام 2012 (KSH ، من 84.7٪).

ما مدى جودة دقة GoogLeNet 93.33٪؟ في عام 2014 ، كتب فريق بحثي مراجعة لمسابقة ILSVRC. كانت إحدى المشكلات التي تمت معالجتها هي مدى قدرة الناس على التعامل مع المهمة. بالنسبة للتجربة ، قاموا بإنشاء نظام يسمح للأشخاص بتصنيف الصور باستخدام ILSVRC. كما أوضح أحد مؤلفي العمل ، Andrei Karpaty ، في مقال غني بالمعلومات في مدونته ، كان من الصعب للغاية جلب فعالية الأشخاص إلى مؤشرات GoogLeNet:
أصبحت مهمة ترميز الصور بخمس فئات من أصل 1000 ممكنة صعبة للغاية ، حتى بالنسبة لأصدقائي في المختبر الذين كانوا يعملون مع ILSVRC وفئاته لبعض الوقت. أولاً ، أردنا تقديم المهمة إلى Amazon Mechanical Turk. ثم قررنا محاولة توظيف الطلاب مقابل المال. لذلك ، قمت بتنظيم حفل بمناسبة بين الخبراء في مختبري. بعد ذلك ، قمت بتطوير واجهة معدلة تستخدم تنبؤات GoogLeNet لتقليل عدد الفئات من 1000 إلى 100. ومع ذلك ، كانت المهمة صعبة - تخطى الأشخاص الفئات ، مما تسبب في أخطاء تتراوح بين 13 و 15٪. في النهاية ، أدركت أنه من أجل أن أقترب أكثر من نتيجة GoogLeNet ، فإن الطريقة الأكثر فاعلية تتمثل في الجلوس والاستمرار في عملية تعليمية طويلة الأجل وعملية ترميز شاملة لاحقة. في البداية ، كانت العلامات بسرعة 1 قطعة في الدقيقة ، ولكن تسارع مع مرور الوقت. كان من السهل التعرف على بعض الصور ، بينما تتطلب صور أخرى (على سبيل المثال ، بعض سلالات الكلاب أو أنواع الطيور أو القرود) عدة دقائق من التركيز. حصلت جيد جدا في التمييز بين سلالات الكلاب. استنادًا إلى عينة من الصور الخاصة بي ، تم الحصول على النتائج التالية: تم خطأ Google في 6.8٪ من الحالات ؛ وكان معدل الخطأ الخاص بي 5.1 ٪ ، والذي كان حوالي 1.7 ٪ أفضل.


وبعبارة أخرى ، فإن الخبير الذي عمل بعناية فائقة ، فقط من خلال بذل جهود جادة ، كان قادرًا على التقدم قليلاً إلى STS. تشير Karpaty إلى أن الخبير الثاني ، الذي تم تدريبه على عدد أقل من الصور ، تمكن من تقليل الخطأ بنسبة 12٪ فقط عند اختيار ما يصل إلى 5 ملصقات لكل صورة ، وهو أقل بكثير من GoogLeNet.

نتائج رهيبة. ومنذ ظهور هذا العمل ، أبلغت عدة فرق عن تطوير أنظمة كان معدل الخطأ فيها عند اختيار أفضل 5 علامات أقل من 5.1٪. في بعض الأحيان يتم تغطية هذه الإنجازات في وسائل الإعلام باعتبارها ظهور أنظمة قادرة على التعرف على الصور بشكل أفضل من الناس. على الرغم من أن النتائج مذهلة بشكل عام ، إلا أن هناك العديد من الفروق الدقيقة التي لا يمكن اعتبارها أن رؤية الكمبيوتر تعمل بشكل أفضل على هذه الأنظمة مقارنة بالبشر. من نواح كثيرة ، تعد مسابقة ILSVRC مهمة محدودة للغاية - نتائج البحث عن الصور على شبكة مفتوحة لن تتوافق بالضرورة مع ما سيواجهه البرنامج في مهمة عملية. وبطبيعة الحال ، فإن المعيار "واحدة من أفضل خمس علامات" هو مصطنع تماما. لا يزال أمامنا طريق طويل لحل مشكلة التعرف على الصور ، ناهيك عن المهمة الأكثر عمومية المتمثلة في رؤية الكمبيوتر. ولكن لا يزال من الرائع رؤية مقدار التقدم الذي تم إحرازه في حل هذه المهمة الصعبة في غضون بضع سنوات فقط.

مهام أخرى


لقد ركزت على ImageNet ، ومع ذلك هناك عدد قليل من المشاريع الأخرى التي تستخدم NS للتعرف على الصور. اسمحوا لي أن أصف بإيجاز بعض النتائج المثيرة التي تم الحصول عليها مؤخرًا ، فقط للحصول على فكرة عن العمل الحديث.

تم الحصول على مجموعة من النتائج العملية الملهمة من قِبل فريق من Google ، والذي قام بتطبيق GSS على مهمة التعرف على لوحة العناوين في Google Street View. في عملهم ، قاموا بالإبلاغ عن كيفية اكتشافهم ومعرفتهم ما يقرب من 100 مليون لوحة عنوان بدقة مماثلة للعمل البشري. ونظامهم سريع: لقد كان قادرًا على فك تشفير البيانات من جميع صور Google Street View في فرنسا في أقل من ساعة! يكتبون: "إن الحصول على مجموعة البيانات الجديدة هذه قد زاد بشكل كبير من جودة الترميز الجغرافي لخرائط Google في العديد من البلدان ، خاصةً في حالة عدم وجود مصادر أخرى للتكويد الجغرافي." ثم يقدمون بيانًا أكثر عمومية: "نعتقد أنه بفضل هذا النموذج ، قمنا بحل مشكلة التعرف البصري على التسلسلات القصيرة بطريقة قابلة للتطبيق في العديد من التطبيقات العملية."

ربما خلقت انطباعًا بمجموعة من النتائج المنتصرة والملهمة. بالطبع ، تتعلق التقارير الأكثر إثارة للاهتمام بالأشياء الأساسية التي لم تتضح لنا بعد. على سبيل المثال ، في أعمال عام 2013 تبين أن الجمعية الوطنية ، في الواقع ، لديها نقاط عمياء. ألقِ نظرة على الصور أدناه. على اليسار توجد صورة من ImageNet ، والتي صنفتها شبكة الباحثين بشكل صحيح. على اليمين توجد صورة معدلة قليلاً (في الوسط تظهر الفروق) ، والتي لم تعد الشبكة قادرة على التعرف عليها بشكل صحيح. ووجد المؤلفون أن مثل هذه التغييرات "العدائية" يمكن اختيارها لأي صورة من قاعدة البيانات ، وليس فقط للنخبة.



نتيجة غير سارة. استخدمنا شبكة تستند إلى نفس رمز شبكة KSH - أي أنها تستخدم لشبكة أكثر وأكثر. وعلى الرغم من أن NSs تحسب ، من حيث المبدأ ، الوظائف المستمرة ، تشير النتائج المماثلة إلى أنها ربما تحسب وظائف منفصلة تقريبًا. الأسوأ من ذلك ، أنها تتحول إلى منفصلة بطريقة تنتهك مفهومنا بديهية من السلوك الذكي. هذه مشكلة بالإضافة إلى ذلك ، ليس من الواضح جدًا ما الذي يؤدي بالضبط إلى السرية ، ما هي المشكلة: في وظيفة الخسارة؟ وظائف التنشيط التي يجب استخدامها؟ في بنية الشبكة؟ في شيء آخر؟ نحن لا نعرف.

لكن هذه النتائج ليست سيئة كما تبدو. على الرغم من أن هذه التغييرات العدائية شائعة جدًا ، إلا أنه من غير المحتمل أن توجد في الممارسة العملية. كما هو مبين في العمل:
وجود سلبيات معادية يتناقض مع قدرة الشبكة على تحقيق التعميم العالي. في الواقع ، إذا تمكنت الشبكة من التعميم بشكل جيد ، فكيف يمكن خداعها من خلال هذه السلبيات العدوانية التي لا يمكن تمييزها عن الأمثلة العادية؟ التفسير هو أن مجموعة من السلبيات التنافسية لديها احتمالية منخفضة للغاية ، وبالتالي لا يتم ملاحظتها (أو لا يتم ملاحظتها تقريبًا) في مجموعة بيانات التدريب ، ومع ذلك ، فهي ذات كثافة عالية (تقريبًا مثل الأرقام المنطقية) ، وبالتالي يمكن العثور عليها في أي حالة تقريبًا .


ومع ذلك ، من غير الجيد أن نفهم عمل الجمعية الوطنية بشكل سيء لدرجة أن هذه النتيجة اكتشفت مؤخرًا. بطبيعة الحال ، فإن الميزة الرئيسية لهذه النتائج هي أنها حفزت ظهور العمل اللاحق بشأن هذا الموضوع. أظهر عمل حديث في عام 2014 أنه من الممكن لشبكة مدربة إنشاء صور تشبه الضوضاء البيضاء لشخص ما ، وستقوم الشبكة بتصنيفها إلى فئات معروفة بدرجة عالية من الثقة.هذا عرض آخر لا يزال أمامنا الكثير لفهمه في عمل NS وفي استخدامها للتعرف على الصور.

ولكن على الرغم من وجود نتائج مماثلة ، فإن الصورة العامة ملهمة. إننا نشهد تقدمًا سريعًا في إجراء اختبارات معقدة للغاية مثل ImageNet. نشهد أيضًا تقدمًا سريعًا في حل المشكلات من العالم الحقيقي ، مثل التعرف على لوحات العناوين في التجوّل الافتراضي. ولكن على الرغم من الإلهام ، لا يكفي مجرد ملاحظة التحسينات في أداء اختبارات السرعة أو حتى المهام الواقعية. هناك ظواهر أساسية ، لا يزال جوهرها لا يفهم جيدًا ، على سبيل المثال ، وجود صور تنافسية. وبينما لا تزال هذه المشكلات الأساسية مفتوحة (ناهيك عن حلها) ، سيكون من السابق لأوانه الحديث عن حل مشكلة التعرف على الصور. لكن في الوقت نفسه ، تعد هذه المشكلات حوافز ممتازة لمزيد من العمل.

طرق أخرى للشبكات العصبية العميقة


في هذا الكتاب ، ركزنا على مهمة واحدة: تصنيف الأرقام MNIST. مهمة ممتازة جعلتنا نفهم الكثير من الأفكار الفعالة: نزول الانحدار العشوائي ، التعرق الخلفي ، الشبكات التلافيفية ، التنظيم ، إلخ. ومع ذلك ، هذه هي أيضا مهمة ضيقة إلى حد ما. بعد قراءة الأدبيات على الشبكات العصبية ، سوف تصادف العديد من الأفكار التي لم نناقشها: تكرار NSs ، آلات Boltzmann ، النماذج التوليفية ، نقل التدريب ، التعلم المعزز ، وما إلى ذلك! الشبكات العصبية هي مساحة واسعة. ومع ذلك ، فإن العديد من الأفكار المهمة هي أشكال مختلفة لتلك الأفكار التي ناقشناها بالفعل ، ومن السهل جدًا فهمها. في هذا القسم ، سأفتح الستار قليلاً على هذه المساحات الشاسعة. لن تكون مناقشتهم مفصلة وشاملة - هذا من شأنه أن يضخم الكتاب بشدة. سيكون انطباعي ،محاولة لإظهار الثراء المفاهيمي لهذا المجال ، وربط بعض المفاهيم مع تلك التي رأيناها بالفعل. في النص ، سأقدم عدة إشارات إلى مصادر أخرى ، فيما يتعلق بالمواد اللازمة لمزيد من التدريب. بالطبع ، سيتم استبدال الكثير منهم قريبًا من الآخرين ، وقد ترغب في البحث عن المزيد من الأدبيات الحديثة. ومع ذلك ، أعتقد أن العديد من الأفكار الأساسية ستبقى مثيرة للاهتمام لفترة طويلة قادمة.

الشبكات العصبية المتكررة (RNS)


في شبكات الانتشار المباشر التي استخدمناها ، هناك مدخل واحد يحدد تمامًا تنشيط جميع الخلايا العصبية في الطبقات التالية. هذه صورة ثابتة للغاية: كل شيء في الشبكة ثابت ، وله طابع متجمد وبلوري. لكن لنفترض أننا نسمح بتغيير عناصر الشبكة ديناميكيًا. على سبيل المثال ، يمكن تحديد سلوك الخلايا العصبية المخفية ليس فقط عن طريق التنشيط في الطبقات السابقة ، ولكن أيضًا عن طريق التنشيطات التي حدثت في وقت مبكر. يمكن تحديد تنشيط الخلايا العصبية جزئيًا بواسطة تنشيطها السابق. في الشبكات ذات التوزيع المباشر ، من الواضح أن هذا لا يحدث. أو ، ربما يتم تحديد تنشيط الخلايا العصبية المخفية والمخرجة ليس فقط من خلال المدخلات الحالية للشبكة ، ولكن أيضًا بواسطة الخلايا السابقة.

تُعرف الشبكات العصبية ذات هذا النوع من السلوك المتغير بمرور الوقت بالشبكات العصبية المتكررة أو RNS. هناك العديد من الطرق لإضفاء طابع رسمي على الوصف غير الرسمي للفقرة السابقة. يمكنك الحصول على فكرة عن طريق قراءة مقالة ويكيبيديا . في وقت كتابة هذا التقرير ، في النسخة الإنجليزية من المقالة ، تم وصف ما لا يقل عن 13 نموذجًا مختلفًا [في وقت الترجمة في عام 2019 ، بالفعل 18 / تقريبًا. العابرة.].لكن إذا وضعنا التفاصيل الرياضية جانباً ، فإن الفكرة العامة لـ RNS هي وجود تغييرات ديناميكية في الشبكة تحدث بمرور الوقت. ولا غرابة في أنها مفيدة بشكل خاص في تحليل البيانات أو العمليات التي تتغير بمرور الوقت. تظهر هذه البيانات والعمليات بشكل طبيعي في مهام مثل تحليل الكلام أو اللغة الطبيعية.

تتمثل إحدى الطرق الحالية لاستخدام RNS في دمج الشبكات العصبية بشكل أفضل مع الطرق التقليدية لتمثيل الخوارزميات ، مع مفاهيم مثل آلة تورينج ولغات البرمجة الشائعة. في العمل من عام 2014تم تطوير RNS ، قادرة على قبول وصف حرفي لبرنامج بيثون بسيط للغاية ، والتنبؤ بنتيجة عمله. بشكل غير رسمي ، تتعلم الشبكة "فهم" بعض برامج الثعبان. استخدم العمل الثاني من عام 2014 RNS كنقطة انطلاق لتطوير الجهاز العصبي تورينج (BDC). هذا جهاز كمبيوتر عالمي ، يمكن تدريب هيكله بالكامل باستخدام النسب المتدرج. لقد قاموا بتدريب BDC لإنشاء خوارزميات للعديد من المهام البسيطة ، مثل الفرز أو النسخ.

هذه ، بالطبع ، نماذج لعبة بسيطة للغاية. تعلم كيفية تشغيل برنامج بيثون مثل الطباعة (398345 + 42598) لا يجعل الشبكة العصبية مترجم كامل للغة! ليس من الواضح مدى قوة هذه الأفكار. ومع ذلك ، فإن النتائج مثيرة للاهتمام للغاية. تاريخيا ، قامت الشبكات العصبية بعمل جيد في التعرف على الأنماط التي تعثرت في الأساليب الخوارزمية التقليدية. وبالعكس ، فإن النهج الحسابية التقليدية تؤدي وظيفة جيدة في حل المشكلات المعقدة بالنسبة للخدمة الوطنية. اليوم ، لا أحد يحاول تنفيذ خادم ويب أو قاعدة بيانات على أساس NS! سيكون من الرائع تطوير نماذج متكاملة تدمج نقاط القوة لكل من NS والنهج الحسابي التقليدي. RNS ، والأفكار المستوحاة منها ، يمكن أن تساعدنا في القيام بذلك.

في السنوات الأخيرة ، تم استخدام RNS لحل العديد من المشاكل الأخرى. كانت مفيدة بشكل خاص في التعرف على الكلام. النهج المستندة إلى RNS تعيين سجلات لجودة التعرف على الصوت. كما تم استخدامها لتطوير نماذج محسنة للغة المستخدمة من قبل الناس. تساعد النماذج اللغوية المحسّنة في التعرف على أوجه الغموض في الكلام التي تبدو متشابهة. يمكن أن يخبرنا نموذج اللغة الجيد أن عبارة "forward to infinity" أكثر ترجيحًا من عبارة "forward بدون أطراف" ، على الرغم من أنها تبدو متشابهة. تم استخدام RNS للحصول على إنجازات قياسية في اختبارات لغة معينة.

هذا العمل جزء من الاستخدام الواسع لـ NS بجميع أنواعه ، وليس فقط RNS ، لحل مشكلة التعرف على الكلام. على سبيل المثال ، أظهر النهج القائم على GNS نتائج ممتازة في التعرف على الكلام المستمر باستخدام مفردات كبيرة. يتم تطبيق نظام آخر قائم على GNS في نظام التشغيل Android من Google.

تحدثت قليلاً عن قدرة RNCs ، لكن لم أشرح كيف تعمل. قد لا تتفاجأ عندما تعلم أن العديد من الأفكار من عالم شبكات التوزيع المباشرة يمكن استخدامها أيضًا في RNS. على وجه الخصوص ، يمكننا تدريب RNS عن طريق تعديل نزول التدرج وانتشار الظهر في الجبهة. العديد من الأفكار الأخرى المستخدمة في شبكات التوزيع المباشر ، بدءًا من تقنيات التنظيم وحتى الإلتفاف والتفعيل ووظائف التكلفة ، ستكون مفيدة أيضًا. أيضًا ، يمكن تكييف العديد من الأفكار التي طورناها كجزء من الكتاب لاستخدامها في RNS.

وحدات الذاكرة طويلة المدى (DCT) طويلة المدى


واحدة من مشاكل RNS هي أن النماذج الأولى كانت صعبة للغاية للتدريب ، وأكثر تعقيدًا من حتى GNS. كان السبب هو مشاكل التدرج غير المستقر ، والتي ناقشناها في الفصل 5. تذكر أن المظهر المعتاد لهذه المشكلة هو أن التدرج يتناقص طوال الوقت عند الانتشار خلال الطبقات في الاتجاه المعاكس. هذا يبطئ للغاية تعلم الطبقات المبكرة. في RNS ، تصبح هذه المشكلة أسوأ ، حيث أن التدرجات تنتشر ليس فقط في الاتجاه المعاكس على طول الطبقات ، ولكن أيضًا في الاتجاه المعاكس في الوقت المناسب. إذا كانت الشبكة تعمل لفترة طويلة إلى حد ما ، فقد يصبح التدرج غير مستقر للغاية وسيكون من الصعب للغاية تعلمه. لحسن الحظ ، يمكن تضمين فكرة تُعرف بوحدات الذاكرة طويلة المدى (DCT) في RNS . لأول مرة ، قدمت وحداتHochreiter و Schmidguber في عام 1997 ، على وجه التحديد للمساعدة في حل مشكلة التدرج غير المستقر. تسهل DCTs الحصول على نتائج جيدة في تعلم RNS ، وتستخدم العديد من الأعمال الحديثة (بما في ذلك تلك التي أشرت إليها بالفعل) DCT أو أفكار مشابهة.

شبكات الثقة العميقة والنماذج التوليفية وآلات بولتزمان


في هذه الأيام ، اكتسب الاهتمام بالتعلم العميق ريحًا ثانية في عام 2006 ، بعد نشر الأعمال ( 1 ، 2 ) التي تشرح كيفية تدريس نوع خاص من NS تسمى شبكة الثقة العميقة (GDS). أثرت GDS لعدة سنوات في مجال البحث ، ولكن بعد ذلك بدأت شعبيتها في الانخفاض ، وأصبحت شبكات التوزيع المباشرة و NSs المتكررة من المألوف. على الرغم من ذلك ، فإن بعض خصائص GDS تجعلها مثيرة للاهتمام للغاية.

أولاً ، GDSs هي مثال على النموذج التوليفي. في شبكة التوزيع المباشر ، نحدد تنشيط المدخلات ، ويحددون تنشيط الخلايا العصبية المميزة في الشبكة. يمكن استخدام النموذج التوليدي بطريقة مماثلة ، ولكن يمكنك تعيين قيم الخلايا العصبية فيه ، ثم تشغيل الشبكة "في الاتجاه المعاكس" ، مما يولد قيم تنشيط الإدخال. وبشكل أكثر تحديدًا ، يمكن لنظام GDS المدرّب على الصور المكتوبة بخط اليد أن ينشئ بذاته صورًا مماثلة للأرقام المكتوبة بخط اليد (يحتمل وبعد إجراءات معينة). بمعنى آخر ، GDM بمعنى ما يمكن أن تتعلم الكتابة. وبهذا المعنى ، تشبه النماذج التوليدية العقل البشري: فهي لا تستطيع قراءة الأرقام فحسب ، بل تكتبها أيضًا. قول جيفري هينتون الشهيرينص على أنه بالنسبة للتعرف على الأنماط ، فأنت بحاجة أولاً إلى معرفة كيفية إنشاء الصور.

ثانياً ، إنهم قادرون على التعلم بدون معلم وبدون معلم تقريبًا. على سبيل المثال ، عند التدريب على الصور ، يمكن لـ GDS أن تتعلم علامات مفيدة لفهم الصور الأخرى ، حتى لو لم تكن هناك علامات على الصور التدريبية. تعد القدرة على التعلم بدون معلم مثيرة للاهتمام للغاية من وجهة نظر علمية أساسية ومن وجهة نظر عملية - إذا أمكن جعلها تعمل بشكل جيد بما فيه الكفاية.

بالنظر إلى كل هذه النقاط الجذابة في GDS كنماذج للتعلم العميق ، لماذا انخفضت شعبيتها؟ ويرجع ذلك جزئيًا إلى حقيقة أن النماذج الأخرى ، مثل التوزيع المباشر والشبكات المتكررة ، حققت نتائج مذهلة ، لا سيما اختراقات في مجالات التعرف على الصور والكلام. ليس من المستغرب أن هذه النماذج قد تلقت هذا الاهتمام ، وتستحق جدا. ومع ذلك ، استنتاج غير سارة يلي من هذا. غالبًا ما يعمل سوق الأفكار وفقًا لمخطط "الفائز يحصل على كل شيء" ، ويوجه كل الاهتمام تقريبًا إلى ما هو أكثر من المألوف في هذا المجال الآن. قد يكون من الصعب للغاية على الأشخاص العمل على الأفكار التي لا تحظى بشعبية في الوقت الحالي ، حتى لو كان من الواضح أنها قد تكون ذات فائدة طويلة الأجل. رأيي الشخصي هو أن GDS والنماذج التوليدية الأخرى تستحق المزيد من الاهتمام أكثر مما يحصلون عليه.لن أفاجأ إذا تجاوز GDM أو طراز مشابه النماذج الشائعة اليوم. قرأهذه المقالة مقدمة لمجال GDM. هذه المادة قد تكون مفيدة ايضا . لا يتعلق الأمر بالكامل بـ GDM ، لكن لديه الكثير من الأشياء المفيدة حول آلات Boltzmann المحدودة ، وهي مكون رئيسي في GDM.

أفكار أخرى


ماذا يحدث في مجال الجمعية الوطنية والدفاع المدني؟ كمية كبيرة من العمل المثير للاهتمام. من بين مجالات البحث النشطة استخدام NS لمعالجة اللغة الطبيعية والترجمة الآلية والتطبيقات غير المتوقعة ، على سبيل المثال ، المعلوماتية الموسيقية . هناك العديد من المجالات الأخرى. في كثير من الحالات ، بعد قراءة هذا الكتاب ، ستتمكن من فهم الأعمال الحديثة ، على الرغم من أنك قد تحتاج بالطبع إلى ملء بعض الفجوات المعرفية.

سوف أنهي هذا القسم مع ذكر عمل مثير للاهتمام بشكل خاص. إنها تجمع بين الشبكات التلافيفية العميقة مع تقنية تسمى التعلم المعزز لتعلم كيفية لعب ألعاب الفيديو ( ومقال آخر حول هذا الموضوع). تتمثل الفكرة في استخدام شبكة تلافيفية لتبسيط بيانات البكسل من شاشة اللعبة ، وتحويلها إلى مجموعة أبسط من السمات التي يمكن بعد ذلك استخدامها لاتخاذ قرارات بشأن إجراءات أخرى: "اذهب لليسار" ، و "اذهب لليمين" ، و "تبادل لاطلاق النار" ، و إلخ من المثير للاهتمام بشكل خاص أن هناك شبكة واحدة تعلمت جيدًا أن تلعب سبع ألعاب فيديو كلاسيكية مختلفة ، قبل الخبراء في ثلاث منها. هذا ، بالطبع ، يبدو وكأنه خدعة ، وقد تم الإعلان بنشاط عن العمل تحت عنوان "لعب Atari Games with Reinforcement Learning". ومع ذلك ، وراء اللمعان السطحي ، يجدر النظر في حقيقة أن النظام يأخذ بيانات بكسل خام - لا يعرف حتى قواعد اللعبة - ويتم تدريبهم على أساسهم لاتخاذ قرارات جيدة النوعية في العديد من المواقف المختلفة والمنافسة للغاية ، ولكل منها مجموعة معقدة من القواعد. جيد جدا

مستقبل الشبكات العصبية


واجهات المستخدم النية


في نكتة قديمة ، يقول أستاذ صبور لطالب مشوش: "لا تستمع إلى كلماتي ، استمع إلى ما أقصده". تاريخيا ، أجهزة الكمبيوتر في كثير من الأحيان لم يفهم ، مثل طالب مشوش ، ما يعنيه المستخدم. ومع ذلك ، فإن الوضع يتغير. ما زلت أتذكر المرة الأولى التي فوجئت فيها عندما كتبت عن طريق الخطأ طلبًا إلى Google ، وقال لي محرك البحث "هل تقصد [الطلب الصحيح]؟" وصف Google Director Larry Page محرك البحث المثالي بأنه نظام يفهم بالضبط ما تعنيه استفساراتك ويمنحك ما تريده بالضبط.

هذه هي فكرة واجهة تستند إلى نية المستخدم. في ذلك ، بدلاً من الاستجابة لطلبات المستخدم الحرفية ، سيستخدم محرك البحث MO للحصول على طلب مستخدم غامض ، وفهم ما يعنيه بالضبط ، والتصرف على هذا الأساس.

يمكن تطبيق فكرة واجهة تعتمد على نية المستخدم على نطاق أوسع من مجرد البحث. على مدار العقود القليلة القادمة ، ستقوم الآلاف من الشركات بإنشاء منتجات تستخدم فيها MO لواجهات المستخدم ، مشيرة بهدوء إلى تصرفات المستخدم غير الدقيقة ، وتخمين نواياها الحقيقية. نرى بالفعل أمثلة مبكرة لهذه الواجهات المستندة إلى النوايا: Apple Siri؛ ولفرام ألفا ؛ آي بي إم واتسون الأنظمة التي تقوم تلقائيًا بتمييز الصور ومقاطع الفيديو والمزيد.

معظمهم سوف تفشل. يعد تطوير الواجهة أمرًا معقدًا ، وأظن أنه بدلاً من الواجهات الملهمة ، ستقوم العديد من الشركات بإنشاء واجهات هامدة على أساس MO. إن أفضل MO في العالم لن يساعدك إذا تمتص واجهتك. ومع ذلك ، سوف تنجح بعض المنتجات. بمرور الوقت ، سيؤدي هذا إلى تغيير خطير في علاقتنا بأجهزة الكمبيوتر. منذ وقت ليس ببعيد ، على سبيل المثال ، في عام 2005 ، اعتبر المستخدمون أن التفاعل مع أجهزة الكمبيوتر يتطلب دقة عالية. عملت الطبيعة الحرفية للكمبيوتر على نشر فكرة أن الحواسيب حرفية للغاية ؛ الفاصلة المنقوطة الوحيدة يمكنها أن تغير تمامًا طبيعة التفاعل مع الكمبيوتر. لكنني أعتقد أنه في العقود القليلة المقبلة سنقوم بتطوير العديد من الواجهات الناجحة استنادًا إلى نية المستخدم ، وهذا سيغير توقعاتنا بشكل جذري عند العمل مع أجهزة الكمبيوتر.

التعلم الآلي ، وعلوم البيانات ، ودائرة الإبداع الخالدة


بالطبع ، لا يستخدم MO فقط لإنشاء واجهات بناءً على نية المستخدم. تطبيق آخر مثير للاهتمام من MO هو علم البيانات ، حيث يتم استخدامه للبحث عن "مجهولين معروفين" مخفيين في البيانات التي تم الحصول عليها. هذا هو بالفعل موضوع عصري ، كتب عنه العديد من المقالات ، لذلك لن أتوسع فيه لفترة طويلة. أريد أن أذكر إحدى النتائج المترتبة على هذا الأسلوب ، والذي لا يتم ملاحظته في كثير من الأحيان: على المدى الطويل ، من المحتمل ألا يكون الاختراق الأكبر في منطقة موسكو مجرد تقدم مفاهيمي واحد. سيكون الانجاز الأكبر هو أن الأبحاث في مجال MO ستصبح مربحة من خلال استخدام البيانات في العلوم وغيرها من المجالات. إذا تمكنت الشركة من استثمار دولار في أبحاث MO والحصول على دولار وعشرة سنتات من الإيرادات بسرعة ، فسوف يتم ضخ الكثير من الأموال في منطقة MO. بمعنى آخر ، فإن MO هو المحرك الذي يدفعنا إلى ظهور العديد من الأسواق الكبيرة ومجالات نمو التكنولوجيا. نتيجة لذلك ، ستظهر فرق كبيرة من الخبراء في هذا المجال والذين سيكون لديهم وصول إلى موارد لا تصدق. سيؤدي هذا إلى تحريك وزارة التجارة إلى أبعد من ذلك ، وخلق المزيد من الأسواق والفرص ، والتي ستكون دائرة الابتكار الطاهرة.

دور الشبكات العصبية والتعلم العميق


لقد وصفت MO بعبارات عامة كوسيلة لخلق فرص جديدة لتطوير التكنولوجيا. ماذا سيكون الدور المحدد للجمعية الوطنية والمجتمع المدني في كل هذا؟

للإجابة على السؤال ، من المفيد اللجوء إلى التاريخ. في الثمانينيات ، كان هناك انتعاش فرح نشط وتفاؤل مرتبط بالشبكات العصبية ، خاصة بعد نشر انتشار الظهر. لكن الانتعاش تراجع ، وفي التسعينيات ، تم نقل عصا MO إلى تقنيات أخرى ، على سبيل المثال ، طريقة متجه الدعم. اليوم ، أصبحت الجمعية الوطنية على الحصان مرة أخرى ، حيث سجلت جميع أنواع السجلات ، وتغلبت على العديد من المنافسين في مختلف المشاكل. لكن من يضمن أنه لن يتم تطوير نهج جديد غدًا يطغى على زمالة المدمنين المجهولين؟ أو ربما سيبدأ التقدم في مجال الجمعية الوطنية بالتوقف ، ولا شيء سيحل محلهم؟

لذلك ، من الأسهل بكثير التفكير في مستقبل وزارة الدفاع ككل من الجمعية الوطنية على وجه التحديد. جزء من المشكلة هو أننا نفهم بشكل جيد للغاية الجمعية الوطنية. لماذا NS جيدة جدا في تجميع المعلومات؟ كيف يتجنبون إعادة التدريب بشكل جيد ، بالنظر إلى العدد الهائل من الخيارات؟ لماذا يعمل الانحدار العشوائي الانحداري بشكل جيد؟ ما مدى نجاح NS عند توسيع نطاق مجموعات البيانات؟ على سبيل المثال ، إذا قمنا بتوسيع قاعدة ImageNet 10 مرات ، فهل سيحسن أداء NS أكثر أو أقل من فعالية تقنيات MO الأخرى؟ كل هذه أسئلة بسيطة وأساسية. وحتى الآن لدينا فهم سيء للغاية للإجابات على هذه الأسئلة. في هذا الصدد ، من الصعب تحديد الدور الذي ستلعبه الجمعية الوطنية في مستقبل منطقة موسكو.

سأقدم توقعًا واحدًا: أعتقد أن GO لن تذهب إلى أي مكان. القدرة على دراسة التسلسل الهرمي للمفاهيم ، لبناء طبقات مختلفة من التجريد ، على ما يبدو ، أمر أساسي لمعرفة العالم. هذا لا يعني أن شبكات GO في الغد لن تختلف جذريًا عن شبكات اليوم. قد نواجه تغييرات كبيرة في الأجزاء المكونة لها ، أو بنياتها ، أو خوارزميات التعلم. قد تكون هذه التغييرات دراماتيكية بما يكفي بالنسبة لنا للتوقف عن النظر في النظم الناتجة كشبكات عصبية. ومع ذلك ، سوف يواصلون الدفاع المدني.

هل ستؤدي NS و GO قريباً إلى ظهور الذكاء الاصطناعي؟


في هذا الكتاب ، ركزنا على استخدام NS في حل مشكلات محددة ، على سبيل المثال ، تصنيف الصور. دعنا نوسع استفساراتنا: ماذا عن أجهزة الكمبيوتر ذات التفكير العام؟ هل يمكن أن تساعدنا الجمعية الوطنية والمجتمع المدني في حل مشكلة إنشاء منظمة العفو الدولية للأغراض العامة؟ وإذا كان الأمر كذلك ، بالنظر إلى السرعة العالية للتقدم في مجال الدفاع المدني ، هل سنرى ظهور الذكاء الاصطناعي في المستقبل القريب؟

تتطلب إجابة مفصلة عن هذا السؤال كتابًا منفصلاً. بدلاً من ذلك ، اسمحوا لي أن أقدم لكم ملاحظة واحدة بناءً على قانون كونواي :
تقتصر أنظمة تصميم المؤسسات على التصميم الذي ينسخ بنية الاتصالات لهذه المؤسسة.


هذا ، على سبيل المثال ، ينص قانون كونواي على أن تخطيط طائرة بوينج 747 سيعكس الهيكل الموسع لبوينج ومقاوليها في الوقت الذي تم فيه تطوير طراز 747. أو مثال بسيط وبسيط وملموس: فكر في شركة تقوم بتطوير برامج معقدة. إذا كان يجب توصيل لوحة تحكم البرنامج بخوارزمية MO ، فينبغي على مصمم اللوحة التواصل مع خبير MO الخاص بالشركة. قانون كونواي يضفي الطابع الرسمي على هذه الملاحظة.

لأول مرة عندما سمعوا قانون كونواي ، يقول كثير من الناس إما "أليس هذا دليلًا شائعًا؟" أو "هل هو كذلك؟" سأبدأ بملاحظة حول خيانته. دعونا نفكر: كيف تنعكس محاسبة شركة بوينغ في نموذج 747؟ ماذا عن قسم التنظيف؟ والموظفين التغذية؟ الجواب هو أن هذه الأجزاء من المنظمة على الأرجح لا تظهر في أي مكان آخر في المخطط 747 بشكل صريح. لذلك ، عليك أن تفهم أن قانون كونواي لا ينطبق إلا على أجزاء المنظمة التي تشارك مباشرة في التصميم والهندسة.

ماذا عن التصريح حول التفاهة والأدلة؟ ربما كان الأمر كذلك ، لكنني لا أعتقد ذلك ، لأن المنظمات تعمل غالبًا على رفض قانون كونواي. غالبًا ما يتم تضخيم الفرق التي تطور منتجات جديدة نظرًا للعدد المفرط من الموظفين ، أو على العكس من ذلك ، فإنها تفتقر إلى شخص لديه معرفة نقدية. فكر في جميع المنتجات مع ميزات عديمة الفائدة ومعقدة. أو فكر في المنتجات ذات العيوب الواضحة - على سبيل المثال ، مع واجهة المستخدم الرهيبة. في كلا فئتي البرامج ، تنشأ المشكلات غالبًا بسبب عدم التوافق بين الفريق اللازم لإصدار منتج جيد والفريق الذي تم تجميعه فعليًا. قد يكون قانون كونواي واضحًا ، لكن هذا لا يعني أنه لا يمكن للناس أن يتجاهلوه بانتظام.

يسري قانون كونواي على تصميم وإنشاء أنظمة في الحالات التي نتخيل فيها منذ البداية الأجزاء المكونة للمنتج وكيفية صنعها. لا يمكن تطبيقها مباشرة على تطوير الذكاء الاصطناعى ، لأن الذكاء الاصطناعى ليس بهذه المهمة (بعد): لا نعرف الأجزاء التي يتكون منها. لسنا متأكدين من الأسئلة الأساسية التي يمكنك طرحها. بمعنى آخر ، في الوقت الحالي ، تمثل الذكاء الاصطناعي مشكلة علمية أكثر من المهندسين. تخيل أنك بحاجة إلى البدء في تطوير طائرة 747 دون معرفة أي شيء عن المحركات النفاثة أو مبادئ الديناميكا الهوائية. لن تعرف الخبراء الذين سيتم توظيفهم في مؤسستك. كما كتب فيرنر فون براون ، "إن البحث الأساسي هو ما أقوم به عندما لا أعرف ما أفعله." هل هناك نسخة من قانون كونواي التي تنطبق على المهام المتعلقة بالعلوم أكثر من المهندسين؟

للعثور على إجابة لهذا السؤال ، دعونا نتذكر تاريخ الدواء. في الأيام الأولى ، كان الطب مجالًا للممارسين ، مثل جالين أو أبقراط ، الذين درسوا جسم الإنسان بأكمله. ولكن مع نمو حجم معرفتنا ، كان علي التخصص. لقد اكتشفنا العديد من الأفكار العميقة - تذكر النظرية الميكروبية للأمراض ، أو فهم مبدأ عمل الأجسام المضادة ، أو حقيقة أن القلب والرئتين والأوردة والشرايين تشكل نظام القلب والأوعية الدموية. مثل هذه الأفكار العميقة شكلت الأساس لتخصصات أضيق ، مثل علم الأوبئة ، علم المناعة ، وتراكم المناطق المتداخلة المتعلقة بنظام القلب والأوعية الدموية. هكذا شكل هيكل معرفتنا الهيكل الاجتماعي للطب. هذا ملحوظ بشكل خاص في حالة علم المناعة: كانت فكرة وجود نظام مناعي يستحق دراسة منفصلة غير تافهة للغاية. لذلك لدينا مجال كامل من الطب - مع المتخصصين والمؤتمرات والجوائز ، وما إلى ذلك - نظّمنا حول شيء غير مرئي فحسب ، بل ربما ليس منفصلاً.

غالبًا ما تكرر هذا التطور في الأحداث في العديد من التخصصات العلمية الراسخة: ليس فقط في الطب ، ولكن أيضًا في الفيزياء والرياضيات والكيمياء وغيرها. ولدت المناطق متجانسة ، مع وجود عدد قليل من الأفكار العميقة في الأوراق المالية. أول خبراء قادرون على تغطية كل منهم. لكن بمرور الوقت ، تتغير الصلابة. نكتشف العديد من الأفكار العميقة الجديدة ، وهناك الكثير منها لكي يتمكن شخص ما من إتقانها جميعًا. نتيجة لذلك ، يتم إعادة تنظيم الهيكل الاجتماعي للمنطقة وتنقسم ، مع التركيز على هذه الأفكار. بدلاً من المتراصة ، لدينا حقول مقسومة على حقول مقسومة على الحقول - بنية اجتماعية معقدة ومتكررة تشير إلى نفسها ، والتي تعكس مؤسستها الروابط بين الأفكار الأكثر عمقًا. هذه هي الطريقة التي يشكل بها هيكل معرفتنا التنظيم الاجتماعي للعلوم. ومع ذلك ، فإن هذا النموذج الاجتماعي في حدود بدوره ويساعد على تحديد ما يمكننا اكتشافه. هذا هو التماثل العلمي لقانون كونواي.

ولكن ما علاقة كل هذا بالتعلم العميق أو الذكاء الاصطناعى؟

حسنًا ، منذ الأيام الأولى لتطوير الذكاء الاصطناعى ، كان هناك جدل حول أن كل شيء سوف يذهب إما "ليس معقدًا للغاية ، وذلك بفضل سلاحنا الخارق" ، أو أن "السلاح الخارق لن يكون كافيًا". التعلم العميق هو أحدث مثال على سلاح فائق تم استخدامه في النزاعات التي رأيتها. في الإصدارات المبكرة من هذه النزاعات ، تم استخدام المنطق ، أو Prolog ، أو أنظمة الخبراء ، أو بعض التقنيات الأخرى ، والتي كانت آنذاك الأقوى. المشكلة في مثل هذه النزاعات هي أنها لا تمنحك الفرصة ليقول بالضبط مدى قوة أي من المرشحين للأسلحة الخارقة. بالطبع ، لقد أمضينا للتو فصلاً كاملاً في مراجعة الأدلة على أن الدفاع المدني يمكنه حل المشاكل المعقدة للغاية. بالتأكيد يبدو مثيرا للاهتمام وواعدة. ولكن كان هذا هو الحال مع أنظمة مثل Prolog أو Eurisko أو مع أنظمة متخصصة. لذلك ، فقط حقيقة أن مجموعة الأفكار تبدو واعدة لا تعني شيئًا مميزًا. كيف نعرف أن GO تختلف بالفعل عن هذه الأفكار المبكرة؟ هل هناك طريقة لقياس مدى قوة واعدة مجموعة من الأفكار؟ ويستنتج من قانون كونواي أنه يمكننا استخدام تعقيد البنية الاجتماعية المرتبطة بهذه الأفكار كمقياس إرشادي خام.

لذلك ، لدينا سؤالان. أولاً ، ما مدى قوة مجموعة الأفكار المتعلقة بالمجتمع المدني وفقًا لهذا المقياس من التعقيد الاجتماعي؟ ثانياً ، ما مدى قوة النظرية التي نحتاجها لإنشاء منظمة العفو الدولية للأغراض العامة؟

بالنسبة للسؤال الأول: عندما ننظر إلى الدفاع المدني اليوم ، فإن هذا المجال يبدو مثيراً للاهتمام ويتطور بسرعة ، لكنه متجانسة نسبيًا. لديها العديد من الأفكار العميقة وعقدت العديد من المؤتمرات الكبرى ، بعضها يتداخل كثيرًا. يستخدم العمل في العمل نفس مجموعة الأفكار: نزول التدرج العشوائي (أو ما يعادله قريبًا) لتحسين وظيفة التكلفة. من الرائع أن تكون هذه الأفكار ناجحة للغاية. ما لا نلاحظه حتى الآن هو وجود عدد كبير من المناطق الأصغر تطوراً ، والتي يستكشف كل منها مجموعته الخاصة من الأفكار العميقة ، والتي من شأنها أن تحرك المجتمع المدني في العديد من الاتجاهات. لذلك ، وفقًا لمقياس التعقيد الاجتماعي ، التعلم العميق ، آسف للتورية ، في حين أنه لا يزال مجالًا بحثيًا ضحلًا. لا يزال هناك شخص واحد قادر على إتقان معظم الأفكار العميقة من هذا المجال.

فيما يتعلق بالسؤال الثاني: ما مدى الحاجة إلى مجموعة معقدة وقوية من الأفكار لإنشاء الذكاء الاصطناعى؟ بطبيعة الحال ، سيكون الجواب: لا أحد يعرف بالتأكيد. لكن في الكلمة الأخيرة للكتاب ، درست بعض الأدلة الموجودة حول هذا الموضوع. خلصت إلى أنه حتى وفقًا للتقديرات المتفائلة ، فإن إنشاء الذكاء الاصطناعي سيتطلب الكثير من الأفكار العميقة. وفقًا لقانون كونواي ، من أجل الوصول إلى هذه النقطة ، يجب أن نرى ظهور العديد من التخصصات المترابطة ، مع بنية معقدة وغير متوقعة تعكس هيكل أعمق أفكارنا. نحن لا نلاحظ بعد مثل هذا الهيكل الاجتماعي المعقد عند استخدام NS والدفاع المدني. لذلك ، أعتقد أننا ، على الأقل ، على بعد عدة عقود من استخدام GO لتطوير AI للأغراض العامة.

قضيت الكثير من الجهد في خلق حجة مضاربة ، والتي ربما تبدو واضحة تمامًا ولا تؤدي إلى استنتاج معين. هذا سوف يخيب بالتأكيد الناس المحبين لليقين. التقيت بالكثير من الأشخاص عبر الإنترنت الذين أعلنوا علنًا عن آرائهم الواثقة والثقة بشأن الذكاء الاصطناعى ، والتي تستند غالبًا إلى حجج هشة وأدلة غير موجودة. أستطيع أن أقول بصراحة: أعتقد أنه من السابق لأوانه الحكم. كما هو الحال في النكتة القديمة: إذا سألت عالمًا ما مقدار ما نحتاجه لانتظار أي اكتشاف ، ويقول "10 سنوات" (أو أكثر) ، فهذا يعني في الواقع "ليس لدي أي فكرة". قبل ظهور الذكاء الاصطناعي ، كما في حالة الانصهار النووي المتحكم فيه وبعض التقنيات الأخرى ، بقيت "عشر سنوات" لأكثر من 60 عامًا. من ناحية أخرى ، فإن ما لدينا بالتأكيد في مجال الدفاع المدني هو تقنية فعالة ، لم نكتشف حدودها بعد ، والعديد من المهام الأساسية المفتوحة. ويفتح الفرص الإبداعية المدهشة.

Source: https://habr.com/ru/post/ar464039/


All Articles