نظرة عامة على حلول AI و ML في 2018 والتوقعات لعام 2019: الجزء 2 - الأدوات والمكتبات ، AutoML ، RL ، الأخلاقيات في AI

مرحبا بالجميع! أقدم إليكم ترجمة لمقالة Analytics Vidhya مع نظرة عامة على أحداث AI / ML في 2018 و 2019. المواد كبيرة جدًا ، بحيث يتم تقسيمها إلى قسمين. آمل أن لا تهم المقالة المتخصصين المتخصصين فقط ، ولكن أيضًا المهتمين بموضوع الذكاء الاصطناعى. هل لديك قراءة لطيفة!


اقرأ أولاً: الجزء 1 - البرمجة اللغوية العصبية ، رؤية الكمبيوتر


أدوات ومكتبات


هذا القسم سوف يروق لجميع المتخصصين في علم البيانات. أدوات ومكتبات - الخبز والزبدة للعلماء. شاركت في العديد من المناقشات حول الأداة الأفضل ، والإطار الذي يحل محل الأداة الأخرى ، وأي مكتبة تجسد الحوسبة "الاقتصادية" ، وكل ذلك. أنا متأكد من أن العديد منكم يتأثر أيضًا.

ولكن هناك شيء واحد لا يمكننا أن نتعارض معه وهو أنه يجب علينا مواكبة أحدث الأدوات في هذا المجال أو المخاطرة بالتخلف عن الركب. إن السرعة التي تفوقت بها بيثون على المنافسين ورسخت نفسها كرائدة في هذا المجال هي مثال جيد على ذلك. بالطبع ، يأتي الكثير من الخيارات للاختيار الشخصي (الأداة التي تستخدمها مؤسستك ، والتوافق مع البنية التحتية الحالية ، وما إلى ذلك) ، ولكن إذا كنت لا تبقي محدثًا ، فقد حان الوقت للبدء الآن.

إذن ما الذي احتل العناوين الرئيسية هذا العام [في عام 2018 - تقريبًا. لكل.]؟ دعنا نذهب فرز ذلك!

PyTorch 1.0


ما هي الضجة حول PyTorch التي ذكرتها عدة مرات في هذه المقالة؟

نظرًا لمدى بطء TensorFlow ، فقد مهد الطريق أمام PyTorch لدخول سوق التعلم العميق. معظم التعليمات البرمجية مفتوحة المصدر التي أراها على GitHub هي تطبيق على PyTorch. هذه ليست مصادفة - PyTorch مرنة للغاية ، ويدعم الإصدار الأخير (الإصدار 1.0) بالفعل العديد من منتجات Facebook وتوسيع النطاق ، بما في ذلك معالجة 6 مليارات ترجمة نصية في اليوم.

تكتسب PyTorch الزخم وسيستمر نموها في عام 2019 ، لذا فقد حان الوقت للانضمام إلى المجتمع.

AutoML - التعلم الآلي الآلي


اكتسب التعلم الآلي (أو AutoML) شعبية على مدار العامين الماضيين. لقد أصدرت شركات مثل RapidMiner و KNIME و DataRobot و H2O.ai بالفعل منتجات رائعة توضح الإمكانيات الهائلة لهذه الخدمة.

يمكنك أن تتخيل العمل في مشروع ML حيث تحتاج فقط إلى العمل مع واجهة السحب والإفلات دون الترميز؟ هذا سيناريو قد يصبح حقيقيًا في المستقبل القريب. بالإضافة إلى ذلك ، حدث كبير بالفعل في ML / DL - إصدار Auto Keras !

Auto Keras هي مكتبة مفتوحة المصدر لأداء مهام AutoML. تتمثل الفكرة في جعل التعلم العميق متاحًا لخبراء المجال الذين قد لا يكون لديهم خبرة في ML. يمكنك التعرف على المنتج هنا . في السنوات المقبلة ، سوف يحقق طفرة هائلة.

TensorFlow.js - التعلم العميق في المتصفح


منذ أن بدأنا هذا العمل ، قمنا ببناء وتصميم نماذج للتعلم الآلي والتعلم العميق في أجهزة IDE وأجهزة الكمبيوتر المحمولة المفضلة لدينا. ماذا عن اتخاذ خطوة ومحاولة شيء آخر؟ نعم ، أنا أتحدث عن التعلم العميق مباشرة في متصفح الويب الخاص بك!

الآن أصبح حقيقة واقعة بفضل ظهور TensorFlow.js. هناك العديد من الأمثلة على موقع الويب الخاص بالمشروع والتي توضح مدى روعة مفهوم المصدر المفتوح هذا. بادئ ذي بدء ، لدى TensorFlow.js ثلاث مزايا / ميزات:

  • يمكنك تطوير ونشر نماذج ML باستخدام JavaScript ؛
  • قم بتشغيل نماذج TensorFlow الحالية في متصفحك ؛
  • إعادة تدريب النماذج الجاهزة.

اتجاهات AutoML لعام 2019


أردت التركيز على AutoML في هذه المقالة. لماذا؟ أشعر أنه في السنوات القليلة المقبلة سيتغير الوضع في مجال علم البيانات ، ولكن لا تأخذ كلامي على ذلك! سيتحدث ماريو ميهايلديس من H2O.ai ، Grandmaster of Kaggle ، عما يمكن توقعه من AutoML في عام 2019:
يستمر التعلم الآلي في طريقه ليصبح أحد أهم اتجاهات المستقبل - حيث يتجه العالم. زاد هذا التوسع من الطلب على التطبيقات في هذا المجال. بالنظر إلى هذا النمو ، من الضروري أن تكون الأتمتة هي المفتاح لتعظيم استخدام الموارد في مجال علم البيانات. في الواقع ، مجالات التطبيق لا حصر لها: الإقراض ، التأمين ، مكافحة الغش ، رؤية الكمبيوتر ، الصوتيات ، أجهزة الاستشعار ، التوصيات ، التنبؤ ، البرمجة اللغوية العصبية. إنه لشرف عظيم لي أن أعمل في هذا المجال. قائمة الاتجاهات التي ستبقى ذات صلة هي كما يلي:

  1. توفير تصورات ورؤى للمساعدة في وصف وفهم البيانات ؛
  2. بحث / بناء / استخراج أفضل الوظائف لمجموعة بيانات معينة ؛
  3. بناء نماذج تنبؤية أكثر قوة / أكثر ذكاءً ؛
  4. سد الفجوة بين نمذجة الصندوق الأسود واستخدام مثل هذا النموذج ؛
  5. تسهيل إنتاج هذه النماذج

تعزيز التعلم


تعلم التعزيز هو أحد أساليب التعلم الآلي ، حيث يتعلم نظام الاختبار (العامل) من خلال التفاعل مع بيئة معينة. من وجهة نظر علم التحكم الآلي ، إنه نوع من التجارب الإلكترونية. إن استجابة البيئة (وليس نظام إدارة التعزيز الخاص ، كما يحدث في التدريب مع المعلم) للقرارات المتخذة هي إشارات التعزيز ، وبالتالي ، فإن هذا التدريب هو حالة خاصة بالتدريب مع المعلم ، ولكن المعلم هو البيئة أو نموذجها. يجب أيضًا أن تضع في اعتبارك أن بعض قواعد التعزيز تستند إلى معلمين ضمنيين ، على سبيل المثال ، في حالة البيئة العصبية الاصطناعية ، على النشاط المتزامن للخلايا العصبية الرسمية ، والتي يمكن أن تُنسب إلى التعلم بدون معلم.

- مصدر ويكيبيديا

إذا سُئل في أي مجال أود أن أرى تطوراً أسرع ، فإن الإجابة ستكون التعلم المعزز. على الرغم من العناوين الرئيسية التي تظهر أحيانًا ، لم تحدث اختراقات في هذا المجال حتى الآن ، والأهم من ذلك ، يبدو أن مهام التعلم المعززة للمجتمع معقدة للغاية من الناحية الرياضية ولا توجد مناطق للتطبيق الحقيقي لمثل هذه التطبيقات.

هذا صحيح إلى حد ما ، في العام المقبل أود أن أرى المزيد من الأمثلة العملية لاستخدام RL. كل شهر على GitHub و Reddit ، أحاول الاحتفاظ بمستودع أو مناقشة واحدة على الأقل للمساعدة في مناقشة هذا الموضوع. من الممكن أن يكون هذا هو الشيء المهم التالي الذي سيأتي من كل هذه الدراسات.

نشرت OpenAI مجموعة أدوات مفيدة بالفعل لأولئك الذين يتعرفون على RL. يمكنك قراءة مقدمة RL هنا (اتضح أنها مفيدة للغاية بالنسبة لي).

إذا فاتني شيء ، سأكون سعيدًا بالإضافات الخاصة بك.

OpenAI التنمية في التعلم العميق التعزيز


في حين أن تطوير RL بطيء ، فإن كمية المواد التدريبية حول هذا الموضوع تبقى ضئيلة (بعبارة ملطفة). على الرغم من ذلك ، شارك OpenAI بعض المواد الممتازة حول هذا الموضوع. أطلقوا على مشروعهم "Spinning Up in Deep RL" ، وهو متاح هنا .

ببساطة ، هذه قائمة شاملة بالموارد على RL. حاول المؤلفون جعل الشفرة والتفسيرات بسيطة قدر الإمكان. هناك ما يكفي من المواد التي تشمل مصطلحات RL ، ونصائح التطوير الخاصة ببحوث RL ، وقوائم المواد الهامة ، والكود والمستودعات الموثقة جيدًا ، بالإضافة إلى أمثلة على المهام للبدء.

لم تعد مضطرًا إلى تأجيله إلى وقت لاحق ، إذا كنت تخطط لبدء العمل مع RL ، فقد حان وقتك!

جوجل الدوبامين


لإعطاء زخم لتطوير وإشراك المجتمع في موضوع التعلم التعزيز ، قدم فريق Google AI إطار Densamine TensorFlow لكل من يريد جعل المشاريع أكثر مرونة وقابلية للتكرار.

في مستودع جيثب هذا ، يمكنك العثور على المعلومات اللازمة للتدريب جنبًا إلى جنب مع رمز TensorFlow. ربما هذا هو المنصة المثالية لبدء تجارب بسيطة في بيئة مرنة ومرنة. يبدو وكأنه حلم اليقظة لأي متخصص.


اتجاهات التعلم المعزز لعام 2019


Xander Steenbrugge ، رئيس DataHack Summit 2018 ومؤسس قناة ArxivInsights ، هو خبير في التعلم التعزيز. فيما يلي أفكاره بشأن الحالة الحالية للـ RL وما ينبغي أن نتوقعه في عام 2019:
في الوقت الحالي ، أرى ثلاث مشاكل رئيسية في مجال RL:

  1. تعقيد النموذج (يجب على الوكيل رؤية / جمع قدر كبير من الخبرة من أجل التعلم)
  2. تعميم ونقل التدريب (التدريب على المهمة أ ، اختبار المهمة ذات الصلة ب)
  3. التسلسل الهرمي RL (التحلل التلقائي للأهداف الفرعية)

أنا متأكد من أنه يمكن حل المشكلتين الأوليين باستخدام مجموعة مماثلة من الطرق المتعلقة بتعلم التمثيل غير الخاضع للإشراف.

الآن في RL نقوم بتدريب الشبكات العصبية العميقة التي تستخلص الإجراءات الشاملة (على سبيل المثال ، مع الانتشار الخلفي) من مساحة الإدخال الخام (على سبيل المثال ، بالبكسل) باستخدام إشارات مكافأة نادرة (على سبيل المثال ، حساب في بعض الألعاب أتاري أو نجاح التقاط الروبوتية). المشكلة هنا هي:

أول واحد . يستغرق "نمو" أجهزة الكشف عن الوظائف المفيدة الكثير من الوقت ، لأن نسبة الإشارة إلى الضوضاء منخفضة جدًا. يبدأ RL بشكل أساسي بالإجراءات العشوائية ، إلى أن تكون محظوظًا بما يكفي لتعثر على المكافأة ، فلا يزال يتعين عليك معرفة بالضبط ما هي المكافأة المحددة التي حدثت بالفعل. يتم إجراء مزيد من الأبحاث إما على القرص الصلب (البحث الجشع في إبسيلون) أو يتم تشجيعه بطرق مثل الاستكشاف القائم على الفضول . هذا غير فعال ، وهذا يعيدنا إلى المشكلة 1.


ثانيًا ، تُعرف هذه البنية العميقة للشبكات العصبية بميلها إلى "الحفظ" ، وعادةً ما نقوم باختبار الوكلاء في مجموعات البيانات في التدريب ، وبالتالي ، يتم تشجيع "التحفيظ" في هذا النموذج.

يتمثل أحد مسارات التطوير المحتملة التي أنظر إليها بحماس في استخدام تمثيل غير خاضع للإشراف يتعلم تحويل مساحة إدخال متعددة الأبعاد قذرة (على سبيل المثال ، وحدات البكسل) إلى مساحة "مفاهيمية" ذات بعد أقل لها خصائص معينة مطلوبة ، مثل الخطي ، والانحلال ، والاستقرار إلى الضوضاء وأكثر من ذلك.

بمجرد أن تتمكن من توصيل البيكسلات بنوع من "المساحة الكامنة" ، يصبح التعلم فجأة أبسط وأسرع (المشكلة 1) وتأمل في أن يكون للقواعد المستخرجة من هذه المساحة تعميم أقوى بسبب الخصائص المذكورة أعلاه ( مشكلة 2).

لست خبيراً في مشكلة التسلسل الهرمي ، ولكن كل ما سبق ينطبق هنا أيضًا: من الأسهل حل مشكلة هرمية معقدة في "مساحة مخفية" مقارنة بمساحة الإدخال غير المعالجة.

زوج من المفسدين من مترجم


ما هو تعلم التمثيل؟
في التعلم الآلي ، يعد تعلم الميزات أو تعلم التمثيل عبارة عن مجموعة من التقنيات التي تتيح للنظام فحص العوامل اللازمة لتحديد الوظائف أو التصنيفات استنادًا إلى البيانات الأولية تلقائيًا. يحل هذا محل هندسة الميزات اليدوية ويسمح للجهاز بتعلم الوظائف واستخدامها لأداء مهام محددة.

يمكن أن يكون تعلم الميزة "تحت المراقبة" و "بدون مراقبة":

  • في ميزة التعلم تحت تعلم الميزة الخاضعة للإشراف ، يتم تعلم الوظائف باستخدام الإدخال ذي التسمية.
  • في ميزة التعلم دون ملاحظة (تعلم الميزة غير الخاضعة للرقابة) ، يتم تعلم الوظائف بناءً على بيانات غير مخصصة.

- مصدر ويكيبيديا

ما هو الفضاء الكامن؟
كلمة "كامنة" هنا تعني "مخفية". في هذا السياق ، يتم استخدامه غالبًا في التعلم الآلي - أنت تلاحظ بعض البيانات الموجودة في مساحة يمكنك ملاحظتها ، وتريد تحويلها إلى مساحة مخفية حيث تكون نقاط البيانات المماثلة أقرب إلى بعضها البعض.

على سبيل المثال ، ضع في اعتبارك 4 صور:



في مساحة البكسل الملاحظة ، لا يوجد تشابه مباشر بين أي صورتين. ولكن ، إذا كنت ترغب في عرضها في مساحة مخفية ، فأنت ترغب في أن تكون الصور الموجودة على اليسار أقرب إلى بعضها البعض في المساحة المخفية أكثر من أي صورة على اليمين. وبالتالي ، فإن المساحة المخفية الخاصة بك تنقل جوهر بنية بياناتك المتعلقة بالمهمة. في LDA ، تقوم بنمذجة المهمة بحيث تكون المستندات المرتبطة بموضوعات مشابهة أقرب في المساحة المخفية للموضوعات. عند تضمين الكلمات ، تريد عرض الكلمات في مساحة متجه مخفية بحيث تكون الكلمات ذات المعنى المماثل أقرب في تلك المساحة.

المكافأة: شاهد فيديو لـ Xander عن التغلب على المكافآت النادرة في Deep RL (المهمة الأولى التي تم إبرازها أعلاه).


سيستمر تحسين تعقيد النموذج مع إضافة المزيد والمزيد من مهام التدريب الإضافية التي تزيد من التباين وإشارات المكافآت غير النمطية (أشياء مثل البحث والتدريب التمهيدي القائم على الفضول بأسلوب التشفير التلقائي والعوامل السببية غير المتشابكة في البيئة ، والمزيد). هذا يعمل بشكل جيد خاصة مع شروط مكافأة نادرة جدا.

لهذا السبب ، ستصبح أنظمة التدريب مباشرة في العالم المادي أكثر جدوى (بدلاً من التطبيقات الحديثة التي يتم تدريبها بشكل أساسي في البيئات المحاكاة ثم تستخدم التوزيع العشوائي للمجال لنقلها إلى العالم الحقيقي). أفترض أن عام 2019 سيجلب أول عروض توضيحية مثيرة للإعجاب في مجال الروبوتات ، والتي لا يمكن تحقيقها إلا عند استخدام أساليب التعلم العميق ولا يمكن ترميزها / تصميمها من قِبل البشر (على عكس معظم الأمثلة التي رأيناها حتى الآن).

أعتقد أنه بعد نجاح Deep RL في تاريخ AlphaGo (لا سيما بالنظر إلى النتائج الأخيرة لـ AlphaFold) ، ستبدأ RL تدريجياً في استخدامها في تطبيقات الأعمال الحقيقية التي ستجلب قيمة عملية تتجاوز المجال الأكاديمي ، ولكن أولاً سوف يقتصر النطاق على التطبيقات التي توجد فيها محاكاة دقيقة للتدريب الظاهري على نطاق واسع من هذه العوامل (على سبيل المثال ، اكتشاف المخدرات ، وتحسين بنية الرقائق الإلكترونية ، وتوجيه المركبات والحزم ، وغيرها).

التحول العام في تطوير RL هو عملية بدأت بالفعل عند اختبار وكيل بيانات التدريب لم يعد يعتبر "مصرحًا به". سيكون تلخيص المقاييس هو المفتاح ، كما هو الحال مع أساليب التدريس الخاضعة للإشراف

منظمة العفو الدولية للأولاد الصالحين - الانتقال إلى الأخلاقية


تخيل عالما مدفوعا بخوارزميات تحدد كل عمل بشري. ليس سيناريو لطيفا؟ الأخلاقيات في الذكاء الاصطناعى هو موضوع ناقشناه دائمًا في Analytics Vidhya ، لكنه ضاع على خلفية جميع المناقشات الفنية ، في حين ينبغي النظر إليه على قدم المساواة مع الموضوعات الأخرى.

هذا العام ، وجد عدد قليل من المنظمات نفسها في وضع غبي بعد فضيحة كامبريدج التحليلية (Facebook) والجدل الداخلي لشركة Google حول تطوير أسلحة تتصدر قائمة الفضائح.

لا توجد وصفة بسيطة ومناسبة لجميع الحالات لحل الجوانب الأخلاقية لمنظمة العفو الدولية. يتطلب السؤال نهجًا تفصيليًا مقترنًا بخطة منظمة ، يجب أن يطبقها شخص ما. دعونا نرى اثنين من الأحداث الكبرى التي هزت المنطقة في وقت سابق من هذا العام.

حملات Google و Microsoft


كان من دواعي السرور أن نرى الشركات الكبرى تؤكد الجانب الأخلاقي لمنظمة العفو الدولية (على الرغم من أن المسار الذي قادهم إلى هذه النقطة لم يكن أنيقًا للغاية). انتبه إلى الإرشادات والمبادئ التي نشرتها بعض الشركات:


في جوهرها ، تتحدث هذه الوثائق عن العدالة في الذكاء الاصطناعى ، وكذلك عن زمان ومكان الخط الفاصل. يعد الرجوع إليهم عند بدء مشروع جديد قائم على الذكاء الاصطناعي فكرة جيدة دائمًا.

كيف غيرت إجمالي الناتج المحلي قواعد اللعبة


لقد أثر الناتج المحلي الإجمالي (لائحة حماية البيانات العامة) بالتأكيد على طريقة جمع البيانات لبناء تطبيقات الذكاء الاصطناعى. ظهر إجمالي الناتج المحلي في هذه اللعبة لتوفير مزيد من التحكم للمستخدمين على بياناتهم (ما هي المعلومات التي يتم جمعها ونشرها عنهم).

فكيف سيؤثر هذا على الذكاء الاصطناعى؟ من الجيد ألا يتلقى الباحثون في مجال البيانات البيانات أو إذا لم تكن كافية ، فلن يبدأ إنشاء أي نموذج. هذا ، بطبيعة الحال ، وضع الأساس لكيفية عمل المنصات الاجتماعية والمواقع الأخرى. أوجد الناتج المحلي الإجمالي مثالاً رائعًا ، "التنقيط على كل ما أنا" ، لكنه حد من فائدة الذكاء الاصطناعي في العديد من المنصات.

الاتجاهات الأخلاقية في الذكاء الاصطناعى لعام 2019


هناك الكثير من البقع الرمادية في هذا المجال. يجب أن نتحد كمجتمع لدمج الأخلاقيات في مشاريع الذكاء الاصطناعى. كيف يمكننا أن نفعل هذا؟ أكد مؤسس Vidhya Analytics والرئيس التنفيذي لشركة Kunal Jane في خطابه في DataHack Summit 2018 أننا سنحتاج إلى تطوير مفهوم يمكن للآخرين اتباعه.

أتوقع رؤية أدوار جديدة في المنظمات التي تأخذ أخلاقيات الذكاء الاصطناعى. سوف تحتاج إلى إعادة هيكلة أفضل ممارسات الشركات ، كما يجب مراجعة نُهج الإدارة حيث تصبح الذكاء الاصطناعي عنصرًا رئيسيًا في رؤية الشركة. وأتوقع أيضًا أن تلعب الحكومة دورًا أكثر نشاطًا في هذا الصدد من خلال مسار سياسي جديد أو متغير بشكل أساسي. في الواقع ، 2019 سيكون مثيرا للاهتمام.

الخاتمة


التأثير هو الكلمة الوحيدة التي تصف بإيجاز الأحداث المذهلة في عام 2018. أصبحت مستخدم ULMFiT نشطًا هذا العام ، وأتطلع إلى استكشاف BERT في أسرع وقت ممكن. حقا وقت رائع.

سأكون سعيدا لمعرفة رأيك! ما هي التطورات التي وجدتها أكثر فائدة؟ هل تعمل في مشروع باستخدام الأدوات والمناهج التي تناولناها في هذه المقالة؟ ما هي توقعاتك للعام القادم؟ أنا أتطلع إلى إجاباتك في التعليقات أدناه.

Source: https://habr.com/ru/post/ar439724/


All Articles