التعلم بدون معلم: طالب فضولي

على مدى العقد الماضي ، تقدم التعلم الآلي بشكل غير مسبوق في مجالات متنوعة مثل التعرف على الأنماط ، والروبوتات ، والألعاب المعقدة مثل go. تحققت هذه النجاحات بشكل أساسي من خلال تدريب الشبكات العصبية العميقة مع أحد النموذجين - التعلم مع المعلم والتعلم مع التعزيز . يتطلب كلا النموذجين تطوير إشارات تدريب بشرية ، والتي يتم إرسالها بعد ذلك إلى الكمبيوتر. في حالة التدريب مع المعلم ، هذه "أهداف" (على سبيل المثال ، التوقيع الصحيح أسفل الصورة) ؛ في حالة التعزيزات ، هذه "مكافآت" للسلوك الناجح (درجة عالية في اللعبة من أتاري). لذلك ، يتم تحديد حدود التعلم من قبل الناس.

وإذا اعتقد بعض العلماء أن وجود برنامج تدريبي مكثف بما فيه الكفاية - على سبيل المثال ، القدرة على إكمال مجموعة واسعة من المهام بنجاح - يجب أن يكون كافياً لتوليد ذكاء للأغراض العامة ، يعتقد آخرون أن الذكاء الحقيقي سيتطلب استراتيجيات تعلم أكثر استقلالية. النظر ، على سبيل المثال ، في عملية تعليم الطفل. يمكن أن تجلس جدته معه وتُظهر له بصبر أمثلة من البط (تعمل كإشارة تعليمية عند التعلم مع معلم) أو تكافئه بالتصفيق لحل لغز مع مكعبات (كما في التعلم المعزز). ومع ذلك ، في معظم الوقت يستكشف الطفل بسذاجة العالم ، ويفهم البيئة من خلال الفضول واللعب والمراقبة. التعلم بدون معلم هو نموذج مصمم لخلق ذكاء مستقل عن طريق مكافأة الوكلاء (برامج الكمبيوتر) لدراسة البيانات التي يلاحظونها ، بغض النظر عن أي مهام محددة. بمعنى آخر ، يتم تدريب الوكيل على التعلم.

الدافع الرئيسي للتعلم بدون المعلم هو أنه إذا كانت البيانات المنقولة إلى خوارزميات التعلم تحتوي على بنية داخلية ثرية للغاية (الصور ومقاطع الفيديو والنص) ، فعادة ما تكون الأهداف والمكافآت في التدريب جافة جدًا (علامة "الكلب" لهذا النوع ، أو وحدة / صفر ، تشير إلى النجاح أو الفشل في اللعبة). هذا يشير إلى أن معظم ما تدرسه الخوارزمية يجب أن يتكون من فهم للبيانات نفسها ، وليس من تطبيق هذا الفهم على حل بعض المشاكل.

فك تشفير عناصر الرؤية


كان عام 2012 عامًا هامًا للتعلم العميق عندما تجرأت AlexNet (التي سميت باسم المهندس المعماري الرئيسي Alex Krizhevsky) على منافسين في مسابقة تصنيف ImageNet . لم يكن لدى قدرتها على التعرف على الصور نظائرها ، لكن الأمر الأكثر إثارة للدهشة هو ما كان يحدث تحت الغطاء. بعد تحليل تصرفات AlexNet ، وجد العلماء أنه يفسر الصور من خلال بناء تمثيلات داخلية معقدة بشكل متزايد لبيانات الإدخال. يتم تمثيل الميزات ذات المستوى المنخفض ، على سبيل المثال ، القوام والوجوه ، بطبقات أقل ، ثم من بينها على طبقات أعلى ، يتم دمج مفاهيم المستوى الأعلى ، مثل العجلات أو الكلاب.

يشبه هذا بشكل مفاجئ كيف يعالج دماغنا المعلومات - يتم تجميع الوجوه البسيطة والقوام في المناطق الرئيسية المتعلقة بالحواس في كائنات معقدة مثل الوجوه في المناطق العليا من الدماغ. وهكذا ، يمكن تجميع مشهد معقد من بدائل بصرية ، بنفس الطريقة التي ينشأ بها المعنى من الكلمات الفردية التي تشكل جملة. بدون التثبيت المباشر ، كشفت طبقات AlexNet عن "قاموس" مرئي أساسي مناسب لحل المشكلة. بطريقة ما ، تعلمت الشبكة أن تلعب ما أسماه لودفيج فيتجنشتاين " لعبة اللغة " ، والتي تنتقل خطوة بخطوة من البكسل إلى تسميات الصور.


القاموس المرئي للشبكة العصبية التلافيفية. لكل طبقة ، يتم إنشاء الصور التي تزيد من تنشيط بعض الخلايا العصبية. ثم يمكن تفسير رد فعل هذه الخلايا العصبية على الصور الأخرى على أنه وجود أو عدم وجود "كلمات" بصرية: القوام ، أرفف الكتب ، وجوه الكلاب ، الطيور.

نقل التدريب


من وجهة نظر الذكاء العام ، فإن الشيء الأكثر إثارة للاهتمام في قاموس AlexNet هو أنه يمكن إعادة استخدامها ، أو نقلها إلى مهام بصرية أخرى ، على سبيل المثال ، ليس فقط للتعرف على الكائنات الفردية ، ولكن أيضا المشاهد بأكملها. النقل في عالم دائم التغير ضروري للغاية ، والناس يفعلون ذلك بشكل جيد للغاية: نحن قادرون على التكيف بسرعة بين المهارات والفهم المكتسب من التجربة (النموذج العالمي) مع أي موقف حالي. على سبيل المثال ، سوف يتعلم عازف البيانو الحاصل على تعليم كلاسيكي بسهولة العزف على الجاز. يجب أن يكون لدى العوامل الاصطناعية التي تشكل الصورة الداخلية الصحيحة للعالم نفس القدرات.

ومع ذلك ، فإن العروض التي حصل عليها المصنفون مثل AlexNet لها حدودها. على وجه الخصوص ، نظرًا لأن الشبكة مدربة على تصنيف فئة واحدة (كلب ، قطة ، سيارة ، بركان) بقية المعلومات - بغض النظر عن مدى فائدتها لمهام أخرى - فسوف يتم تجاهلها. على سبيل المثال ، قد لا تلتقط التماثيل خلفية الصور إذا كانت الملصقات تشير فقط إلى الكائنات الموجودة في المقدمة. أحد الحلول الممكنة هو إعطاء إشارات تدريب أكثر شمولًا ، على سبيل المثال ، وصف مفصل للصور : ليس مجرد "كلب" ، ولكن "Corgi يمسك بالفريسبي في حديقة مشمسة". ومع ذلك ، يصعب تثبيت هذه التسميات ، خاصة على نطاق واسع ، وقد لا تزال غير كافية لتصور جميع المعلومات اللازمة لإكمال المهمة. الفرضية الأساسية للتعلم بدون معلم هي أن أفضل طريقة لتعلم التصورات المحمولة بسهولة هي محاولة تعلم كل ما هو ممكن حول البيانات.

إذا كان مفهوم الانتقال من خلال التدريب على التمثيلات يبدو مجردة للغاية بالنسبة لك ، تخيل أن الطفل قد تعلم أن يوجه الناس بأسلوب "العصا ، والعصا ، والخيار". وجد تمثيلًا لمظهر الشخص ، وهو مضغوط للغاية ومتكيف جيدًا. مع استكمال كل شخصية بميزات معينة ، يمكنه إنشاء صور لجميع زملاء الدراسة: نظارات لأفضل صديق له ، قميص أحمر مفضل لزميله في المدرسة. وقد طور هذه المهارة ليس من أجل الوفاء بمهمة محددة أو الحصول على مكافأة ، ولكن استجابة لحاجة أساسية لتعكس العالم من حوله.

التعلم من خلال الإبداع: النماذج التوليفية


ربما يكون الهدف الأبسط للتعلم بدون معلم هو تدريب الخوارزمية لإنشاء أمثلة بيانات خاصة بها. ما يسمى لا ينبغي أن تؤدي النماذج التوليدية فقط إلى إعادة إنتاج البيانات التي تم تدريبهم عليها (هذا مجرد "تذكر" غير مهم) ، ولكن إنشاء نموذج للفئة التي تم أخذ البيانات منها. ليست صورة محددة للحصان أو قوس قزح ، ولكن مجموعة من الصور للخيول وقوس قزح ؛ ليس بيان معين من متحدث معين ، ولكن التوزيع العام للبيانات اللفظية. المبدأ الأساسي للنماذج التوليدية هو أن إمكانية إنشاء مثال مقنع للبيانات هي أقوى دليل على فهمها: كما قال ريتشارد فاينمان ، "هذا ما لا يمكنني إنشاؤه ، لا أفهمه".

حتى الآن ، لا يزال النموذج التوليفي الأكثر نجاحًا للصور هو شبكة الخصومة التوليدية (GSS) ، التي تدخل فيها شبكتان - المولِّد والمُميِّز - في مسابقة الاعتراف ، على غرار مسابقة أخصائي مزيف ومباحث. ينتج المولد صورًا ، في محاولة لجعل المميّز يؤمن بواقعها ؛ يكافأ التمييز على الكشف عن المنتجات المزيفة. تكون الصور التي تم إنشاؤها أولية عشوائية وقذرة ، ثم يتم تحسينها عبر العديد من الطرق ، ويؤدي التفاعل الديناميكي للشبكات إلى ظهور صور واقعية بشكل متزايد ، والتي لا يمكن تمييزها في كثير من الحالات عن الصور الحقيقية. يمكن أن يوفر GSS أيضًا مناظر طبيعية مفصلة بناءً على الرسومات التقريبية للمستخدمين.

ستكون النظرة الوحيدة على الصور أدناه كافية للتأكد من أن الشبكة قد تعلمت تصوير العديد من الملامح الرئيسية للصور الفوتوغرافية التي تم تدريبها عليها - بنية الأجسام الحيوانية ، وملمس العشب وتفاصيل لعب الضوء والظل (حتى في انعكاس فقاعة الصابون). كشفت دراسة متأنية عن حالات شاذة صغيرة ، مثل ساق إضافية في كلب أبيض وزاوية يمين غريبة في نوافير أحد النوافير. وعلى الرغم من أن منشئي النماذج التوليدية يحاولون التخلص من هذه العيوب ، فإن حقيقة أن نراهم يتحدثون عن إحدى ميزات إعادة بناء مثل هذه البيانات المألوفة مثل الصور: من خلال دراسة العينات ، يمكن للباحثين فهم ما تعلمه النموذج وما الذي لم يتعلمه بعد.



الخلق من خلال التنبؤ


هناك مجموعة أخرى جديرة بالملاحظة من الشبكات في الفصل بلا معلم وهي نماذج الانتهاك الذاتي ، حيث يتم تقسيم البيانات إلى أجزاء صغيرة ، ويتوقع كل نموذج بدوره. يمكن استخدام هذه النماذج لإنشاء البيانات على النحو التالي: أولاً ، تخمن الشبكة ما يجري ، وتغذي هذا التخمين لمدخلاتها ، وتخمن مرة أخرى. المثال الأكثر شهرة هو نموذج اللغة ، حيث يتم التنبؤ بكل كلمة تالية بناءً على تلك السابقة: يعمل هذا النموذج مع تنبؤات النص التي تظهر في مختلف التطبيقات وعند إرسال بريد إلكتروني. تتيح لك التطورات الحديثة في نمذجة اللغة إنشاء مقاطع معقولة بشكل مدهش - على سبيل المثال ، مأخوذة من OpenAI GPT-2 :
تلميح إلى النظام (كتبها رجل)

اكتشف العلماء اكتشافًا مروعًا من خلال اكتشاف قطيع من حيدات تعيش في وادي الأنديز البعيد وغير المستكشف سابقًا. الأمر الأكثر إثارة للدهشة بالنسبة للباحثين هو أن حيدات القرن تتحدث الإنجليزية بطلاقة.

النص المكتمل للطراز (بعد 10 محاولات)

وقد أطلق العلماء على السكان اسم "حيدات Ovid" بسبب قرونهم المميزة. كانت هذه حيدات القرن الأبيض الفضي ذات الأربعة قرون غير معروفة في السابق للعلم. وأخيراً ، بعد قرنين من الزمان ، تم حل لغز ما أدى إلى هذه الظاهرة الغريبة.

الدكتور جورج بيريز ، عالم الأحياء التطوري في جامعة لاباز والعديد من زملائه درسوا جبال الأنديز عندما اكتشفوا وادي صغير حيث لم يكن هناك حيوانات وأشخاص آخرين. لاحظ بيريز شيئًا في الوادي يشبه النافورة الطبيعية ، وتحيط به قمتان صخريتان وثلوج فضية.

ثم ذهب بيريز والباقي إلى هذا الوادي. قال بيريز: "عندما وصلنا إلى إحدى القمم ، بدت المياه زرقاء ، وكان هناك القليل من البلورات على سطحه".

اندهش بيريز وأصدقاؤه لرؤية قطيع من حيدات. يمكن رؤية هذه المخلوقات من الجو ، وليس الاقتراب منها لرؤيتها - كانت قريبة جدًا لدرجة أنها قد تلمس قرونها.
أحد التباينات المثيرة للاهتمام هو وصف وحيد القرن بأنه "ذو أربعة قرون": من الممتع دراسة قيود فهم الشبكة.

من خلال التحكم في تسلسل الإدخال المستخدم لضبط التوقعات ، يمكنك استخدام نماذج الانحدار التلقائي لترجمة تسلسل إلى آخر. يستخدم هذا العرض التوضيحي نموذجًا للاعتراض الشرطي لترجمة النص إلى شكل مكتوب بخط اليد واقعي. يحول WaveNet النص إلى كلام طبيعي ، ويستخدم الآن لإنشاء صوت لمساعد Google . يمكن استخدام تقدم مماثل في التوليف والإعداد التلقائي للترجمات من لغة إلى أخرى.

نماذج الانحدار التلقائي دراسة البيانات ، في محاولة للتنبؤ كل جزء في ترتيب معين. يمكنك إنشاء فئة أكثر عمومية من الشبكات مع التعلم بدون معلم ، مما يجعل التنبؤات حول أي جزء من البيانات على أساس أي جزء آخر. على سبيل المثال ، قد يعني هذا أننا نزيل كلمة واحدة من الجملة ونحاول التنبؤ بها استنادًا إلى بقية النص . من خلال تدريس نظام من خلال استعلام منه حول العديد من التنبؤات المحلية ، فإننا نجبره على دراسة جميع البيانات ككل.

واحدة من مشاكل النماذج التوليدية هي إمكانية استخدامها الضار. لقد كان التلاعب بالأدلة في صورة صور وفيديوهات وتسجيلات صوتية ممكنًا لفترة طويلة ، لكن النماذج التوليفية يمكن أن تسهل بشكل كبير تحرير هذه المواد بقصد خبيث. لقد رأينا بالفعل مظاهرة لما يسمى deepfake - على سبيل المثال ، فيديو مزيف مع أوباما . إنه لمن دواعي السرور أن نرى أن هناك محاولات جادة للإجابة على هذه التحديات - على سبيل المثال ، استخدام التقنيات الإحصائية للكشف عن المواد الاصطناعية وتأكيد المواد الأصيلة ، وتعريف الجمهور بما يجري ، والمناقشات حول الحد من توافر النماذج البديلة المدربة. بالإضافة إلى ذلك ، يمكن استخدام النماذج التوليدية نفسها للكشف عن المواد المصنعة والبيانات غير الطبيعية - على سبيل المثال ، اكتشاف الكلام المزيف أو اكتشاف المدفوعات غير الطبيعية لحماية المستخدمين من المحتالين. يحتاج الباحثون إلى العمل على نماذج توليفية لفهمها بشكل أفضل وتقليل المخاطر في المستقبل.

إعادة اختراع الذكاء


تعد النماذج التوليدية مثيرة للاهتمام للغاية ، ولكن في DeepMind نتعامل معها كمرحلة في الطريق إلى الذكاء للأغراض العامة. إن إعطاء العامل القدرة على توليد البيانات يدور حول كيفية إعطائه الخيال ، وبالتالي القدرة على التخطيط للمستقبل والعقل . تظهر دراساتنا أن التدريب على التنبؤ بمختلف جوانب البيئة ، حتى بدون مهمة خاصة لتوليد البيانات ، يثري النموذج العالمي للوكيل ، وبالتالي يحسن قدرته على حل المشكلات.

تتداخل هذه النتائج مع فهمنا البديهي للعقل البشري. قدرتنا على دراسة العالم دون إشراف خاص هي واحدة من الخصائص الأساسية للذكاء. في رحلة تدريبية ، يمكننا النظر من النافذة إلى غير مبال ، ولمس المخمل في المقاعد ، والنظر في المسافرين المسافرين معنا. ليس لدينا هدف في هذه الدراسات: لا يمكننا الهروب من عقولنا من جمع المعلومات ، وعقلنا يعمل بلا كلل على فهم العالم من حولنا ومكاننا فيه.

Source: https://habr.com/ru/post/ar451626/


All Articles