مرحبا يا هبر! أقدم إليكم ترجمة مقالة
"حدود التعلم الآلي" للمخرج ماثيو ستيوارت.
ربما يكون معظم الأشخاص الذين يقرؤون هذه المقالة على دراية بالتعلم الآلي والخوارزميات المقابلة المستخدمة لتصنيف النتائج أو التنبؤ بها استنادًا إلى البيانات. ومع ذلك ، من المهم أن نفهم أن التعلم الآلي ليس هو الحل لجميع المشاكل. بالنظر إلى فائدة التعلم الآلي ، قد يكون من الصعب قبول أنه في بعض الأحيان لا يكون هذا هو أفضل حل للمشكلة.
التعلم الآلي هو فرع من الذكاء الاصطناعي الذي أحدث ثورة في العالم كما نعرفه على مدى العقد الماضي. أدى انفجار المعلومات إلى جمع كميات هائلة من البيانات ، خاصة من قبل الشركات الكبيرة مثل Facebook و Google. هذه الكمية من البيانات ، جنبًا إلى جنب مع التطور السريع في قوة المعالج وموازنة الكمبيوتر ، تجعل من السهل نسبياً تلقي ودراسة كميات هائلة من البيانات.
في أيامنا هذه ، غلو التعلم الآلي والذكاء الاصطناعي في كل مكان. ربما هذا صحيح ، بالنظر إلى أن إمكانات هذه المنطقة هائلة. على مدار السنوات القليلة الماضية ، زاد عدد الوكالات الاستشارية لمنظمة العفو الدولية ، ووفقًا للواقع ، ارتفع عدد الوظائف ذات الصلة بمجال الذكاء الاصطناعي بنسبة 100٪ بين عامي 2015 و 2018.
اعتبارًا من ديسمبر 2018 ، وجدت شركة Forbes أن 47٪ من الشركات لديها قدرة واحدة على الأقل على استخدام الذكاء الاصطناعي في عملية أعمالهم ، ويقول تقرير Deloitte إن معدل تغلغل برامج المؤسسات مع خدمات تطوير الذكاء الاصطناعي المتكاملة AI وخدمات تطوير AI المستندة إلى مجموعة النظراء سيصل إلى ما يقرب من 87 و 83 في المئة على التوالي. هذه الأرقام مثيرة للإعجاب - إذا كنت تخطط لتغيير حياتك المهنية في المستقبل القريب ، فيبدو أن الذكاء الاصطناعي مجال جيد.
كل شيء يبدو رائع ، أليس كذلك؟ الشركات سعيدة ، والمستهلكون على ما يبدو سعداء أيضًا ، وإلا لن تستخدم الشركات الذكاء الاصطناعي.
إنه أمر رائع ، وأنا أيضًا معجب كبير بالتعلم الآلي والذكاء الاصطناعي. ومع ذلك ، هناك أوقات يكون فيها استخدام التعلم الآلي غير ضروري ببساطة ، ولا معنى له ، وأحيانًا قد يؤدي التنفيذ إلى صعوبات.
الحد 1 - الأخلاق
من السهل أن نفهم لماذا كان للتعلم الآلي تأثير كبير على العالم ، لكن الشيء الأقل وضوحًا هو ماهية قدراته ، والأهم من ذلك ، ما هي حدوده. يوفال نوح هراري ، كما تعلمون ، صاغ مصطلح "datism" ، والذي يشير إلى المرحلة الجديدة المقترحة للحضارة ، والتي ندخلها عندما نثق في الخوارزميات والبيانات أكثر من حكمنا ومنطقنا.
على الرغم من أن هذه الفكرة قد تبدو سخيفة ، إلا أنك تذكر آخر مرة ذهبت فيها في إجازة واتبعت تعليمات GPS وليس الأحكام الخاصة بك حول الخريطة - هل تشكك في تقييم GPS؟ قاد الناس حرفيًا إلى البحيرات لأنهم اتبعوا عمياء تعليمات GPS الخاصة بهم.
فكرة الثقة في البيانات والخوارزميات أكثر مما نعتقد لها إيجابيات وسلبيات. من الواضح أننا نستفيد من هذه الخوارزميات ، وإلا فإننا لن نستخدمها في المقام الأول. تسمح لنا هذه الخوارزميات بأتمتة العمليات من خلال إصدار أحكام مستنيرة باستخدام البيانات المتاحة. ومع ذلك ، في بعض الأحيان ، هذا يعني استبدال عمل شخص آخر بخوارزمية لها عواقب أخلاقية. أيضا ، من الذي نلومه إذا حدث خطأ ما؟
أكثر الحالات التي نوقشت اليوم هي السيارات ذاتية القيادة: كيف نقرر كيف ينبغي أن تتفاعل السيارة في حالة حدوث تصادم مميت؟ هل ستتاح لنا الفرصة في المستقبل لاختيار الإطار الأخلاقي للشراء الذي ستتبعه سيارتنا ذاتية القيادة؟
على من يقع اللوم إذا قتلت سيارتي ذاتية القيادة شخصًا ما على الطريق؟على الرغم من أن هذه كلها أسئلة رائعة ، إلا أنها ليست الغرض الرئيسي من هذه المقالة. ومع ذلك ، فمن الواضح أن التعلم الآلي لا يمكن أن يخبرنا بأي شيء عن القيم المعيارية التي يجب أن نتبناها ، أي كيف يجب أن نتصرف في هذا الموقف.
الحد 2 - مشاكل حتمية
هذا هو القيد الذي تعين علي شخصيًا التعامل معه. مجال خبرتي هو العلوم البيئية ، التي تعتمد بشكل كبير على نمذجة الكمبيوتر واستخدام مجسات / أجهزة إنترنت الأشياء.
التعلم الآلي فعال بشكل لا يصدق بالنسبة لأجهزة الاستشعار ويمكن استخدامه لمعايرة وضبط أجهزة الاستشعار عند الاتصال بأجهزة استشعار أخرى تقيس المتغيرات البيئية مثل درجة الحرارة والضغط والرطوبة. يمكن استخدام الارتباطات بين الإشارات من هذه المجسات لتطوير إجراءات المعايرة الذاتية ، وهذا موضوع ساخن في بحثي في كيمياء الغلاف الجوي.
ومع ذلك ، تصبح الأمور أكثر إثارة للاهتمام عندما يتعلق الأمر بنمذجة الكمبيوتر.
تشغيل نماذج الكمبيوتر التي تحاكي الطقس العالمي والانبعاثات من هذا الكوكب ونقل هذه الانبعاثات مكلفة للغاية من الناحية الحسابية. في الواقع ، من الصعب جدًا على الحساب أن تستغرق عملية وضع النماذج على مستوى البحث عدة أسابيع حتى عند العمل على كمبيوتر عملاق.
ومن الأمثلة الجيدة على ذلك MM5 و WRF ، وهما نماذج تنبؤات جوية رقمية تستخدم في الأبحاث المناخية ولتزويدك بتوقعات الطقس في الأخبار الصباحية. أتساءل ما الذي يفعله متنبئو الطقس طوال اليوم؟ تشغيل وتعلم هذه النماذج.
يعد العمل مع نماذج الطقس جيدًا ، ولكن الآن بعد أن أصبح لدينا تعلم آلي ، هل يمكننا استخدامه بدلاً من ذلك للحصول على توقعات الطقس لدينا؟ هل يمكننا استخدام بيانات من الأقمار الصناعية ومحطات الطقس واستخدام خوارزمية تنبؤ أولية لتحديد ما إذا كانت السماء ستمطر غدا؟
الجواب ، من المستغرب ، نعم. إذا كانت لدينا معلومات حول ضغط الهواء حول منطقة معينة ومستويات الرطوبة في الهواء وسرعة الرياح ومعلومات حول النقاط المجاورة والمتغيرات الخاصة بها ، يصبح من الممكن التدريب ، على سبيل المثال ، شبكة عصبية. لكن بأي ثمن؟
يتيح لك استخدام شبكة عصبية مع الآلاف من المدخلات تحديد ما إذا كانت السماء ستهطل غدًا في بوسطن. ومع ذلك ، فإن استخدام الشبكة العصبية يتخطى الفيزياء الكاملة لنظام الطقس.
التعلم الآلي هو عشوائي ، وليس حتمية.
لا تفهم الشبكة العصبية قانون نيوتن الثاني ، أو أن هذه الكثافة لا يمكن أن تكون سلبية - لا توجد قيود مادية.ومع ذلك ، لا يمكن أن يكون هذا قيدًا لفترة طويلة. يوجد بالفعل عدد من الباحثين الذين يفكرون في إضافة قيود مادية إلى الشبكات العصبية وغيرها من الخوارزميات بحيث يمكن استخدامها لأغراض مثل هذا.
القيد 3 - البيانات
هذا هو الحد الأكثر وضوحا. إذا قمت بإطعام النموذج بشكل سيئ ، فلن يؤدي إلا إلى نتائج سيئة. هناك سببان لذلك: نقص البيانات وعدم وجود بيانات موثوقة. إذا لم تكن لديك مثل هذه المشكلات ، فيمكنك دراسة معالجة كميات كبيرة من البيانات بأمان على قناة
Big Data Books Telegram ، حيث يتم نشر العديد من الكتب والموارد على البيانات الكبيرة.
نقص البيانات
تتطلب العديد من خوارزميات التعلم الآلي كميات كبيرة من البيانات قبل أن تبدأ في الحصول على نتائج مفيدة. ومن الأمثلة الجيدة على ذلك شبكة عصبية. الشبكات العصبية هي آلات تستهلك البيانات وتتطلب الكثير من بيانات التدريب. كلما كانت البنية أكبر ، زادت البيانات المطلوبة لتحقيق نتائج قابلة للتطبيق. إعادة استخدام البيانات فكرة سيئة ، من الأفضل دائمًا الحصول على مزيد من البيانات.
إذا كان يمكنك الحصول على البيانات ، فاستخدمها.
عدم وجود بيانات جيدة
على الرغم من المظهر ، هذا ليس هو نفسه كما هو مكتوب أعلاه. تخيل أنك تعتقد أنه بإمكانك الغش من خلال توليد عشرة آلاف نقطة بيانات مزيفة ليتم وضعها على شبكة عصبية. ماذا يحدث عند إدراج هذا؟
سوف يتعلم من تلقاء نفسه ، وعندما تأتي لاختباره على مجموعة بيانات جديدة ، لن يعمل جيدًا. كان لديك البيانات ، لكن الجودة أفضل.
تمامًا كما يمكن أن يؤدي الافتقار إلى ميزات جيدة إلى ضعف أداء الخوارزمية ، يمكن أن يؤدي الافتقار إلى بيانات صادقة جيدة إلى الحد من إمكانيات النموذج الخاص بك. لن تقدم أي شركة نموذجًا للتعلم الآلي يعمل بشكل أسوأ من الخطأ البشري.
وبالمثل ، فإن تطبيق نموذج تم تدريبه على مجموعة بيانات في موقف واحد قد لا ينطبق بالضرورة بشكل جيد على الموقف الثاني. أفضل مثال على ذلك الذي وجدته حتى الآن هو التنبؤ بسرطان الثدي.
تحتوي قواعد بيانات التصوير الشعاعي للثدي على العديد من الصور ، لكن لديها مشكلة خطيرة واحدة تسببت في مشاكل كبيرة في السنوات الأخيرة - تم تصوير جميع الأشعة السينية تقريبًا من النساء البيض. قد لا يبدو هذا أمرًا كبيرًا ، لكن في الحقيقة لقد تبين أن النساء السوداوات هن أكثر عرضة بنسبة 42 في المائة للوفاة من سرطان الثدي بسبب مجموعة واسعة من العوامل ، والتي قد تشمل الاختلافات في الكشف والحصول على الرعاية. وبالتالي ، فإن تعلم الخوارزمية بشكل أساسي للنساء البيض في هذه الحالة يؤثر سلبًا على النساء السود.
في هذه الحالة بالذات ، هناك حاجة إلى المزيد من صور الأشعة السينية للمرضى السود في قاعدة بيانات التدريب ، وترتبط المزيد من العلامات بزيادة 42 ٪ في الاحتمال ، والخوارزمية أكثر عدلا بسبب التقسيم الطبقي للبيانات على طول المحاور المقابلة.
الحد 4 - سوء الاستخدام
فيما يتعلق بالقيود الثاني الذي تمت مناقشته سابقًا ، يُفترض أن هذه "أزمة تعلم آلي في البحث الأكاديمي" عندما يستخدم الأشخاص بصورة عمياء التعلم الآلي لمحاولة تحليل الأنظمة التي إما حتمية أو عشوائية في الطبيعة.
للأسباب التي تمت مناقشتها في القيد الثاني ، سيكون تطبيق التعلم الآلي في الأنظمة الحتمية ناجحًا ، لكن خوارزمية لا تدرس العلاقة بين متغيرين ولن تعرف متى تنتهك القوانين الفيزيائية. لقد قدمنا بعض المدخلات والمخرجات للنظام وأخبرناها أن تدرس العلاقة - تمامًا كما يقوم شخص ما بترجمة كلمة لكلمة من القاموس ، فإن الخوارزمية تبدو مجرد فهم سطحي للفيزياء الأساسية.
بالنسبة للأنظمة العشوائية (العشوائية) ، يكون كل شيء أقل وضوحًا. تتجلى أزمة التعلم الآلي للأنظمة العشوائية بطريقتين:
القرصنة ع
عندما يكون لدى شخص ما حق الوصول إلى البيانات الضخمة ، والتي يمكن أن تحتوي على مئات أو آلاف أو حتى ملايين المتغيرات ، فمن السهل العثور على نتيجة ذات دلالة إحصائية (بالنظر إلى أن مستوى الأهمية الإحصائية المطلوبة لمعظم الدراسات العلمية هو p <0.05). يؤدي هذا غالبًا إلى اكتشاف الارتباطات الخاطئة التي يتم الحصول عليها عادة باستخدام القرصنة p (البحث في جبال البيانات حتى يتم العثور على الارتباط الذي يظهر نتائج ذات دلالة إحصائية). هذه ليست ارتباطات حقيقية ، ولكن ببساطة استجابة للضوضاء في القياسات.
وقد أدى ذلك إلى حقيقة أن الباحثين الأفراد "اكتشفوا" الارتباطات الإحصائية المهمة من خلال مجموعات البيانات الضخمة وخفوها على أنها ارتباطات حقيقية. في بعض الأحيان يكون هذا خطأً بريئًا (في هذه الحالة ، يجب أن يكون العالم أكثر استعدادًا) ، لكن في حالات أخرى يتم ذلك لزيادة عدد المقالات التي ينشرها الباحث - حتى في عالم المجتمع العلمي ، المنافسة عالية ، والناس سوف يفعلون أي شيء لتحسين مقاييسهم.
نطاق التحليل
توجد فروق ذات دلالة إحصائية في مجال تحليل التعلم الآلي مقارنة بالنمذجة الإحصائية - فالنمذجة الإحصائية تؤكد بطبيعتها ، والتعلم الآلي هو في الأساس بحث.
يمكننا اعتبار التحليلات والنماذج المؤكدة كما يفعل شخص ما عند الحصول على الدكتوراه. أو في البحث. تخيل أنك تعمل مع مستشار وتحاول تطوير أساس نظري لدراسة أي نظام حقيقي. يحتوي هذا النظام على مجموعة من السمات المحددة مسبقًا التي يؤثر عليها ، وبعد تصميم التجارب بعناية ووضع الفرضيات ، يمكنك إجراء اختبارات لتحديد صحة فرضياتك.
تحليل البحث ، من ناحية أخرى ، يفتقر إلى عدد من الصفات المرتبطة بالتحليل التأكيدي. في الواقع ، في حالة وجود كميات هائلة من البيانات والمعلومات ، يتم تدمير النهج الداعمة بالكامل بسبب الكم الهائل من البيانات. بمعنى آخر ، من المستحيل ببساطة تحديد المجموعة النهائية من الفرضيات القابلة للاختبار بحضور ملايين العلامات.
لذلك ، ومرة أخرى ، بشكل عام ، تعد خوارزميات التعليم الآلي ونُهُجها مناسبة بشكل أفضل للنمذجة التنبؤية للتصنيف وتصنيفها مع وجود كميات هائلة من البيانات والوظائف المعقدة حسابيًا. يجادل البعض بأنه يمكن استخدامها للبيانات "الصغيرة" ، ولكن لماذا تفعل ذلك عندما تكون الأساليب الإحصائية الكلاسيكية متعددة الأبعاد أكثر إفادة؟
التعلم الآلي هو مجال يحل إلى حد كبير المشاكل المرتبطة بتكنولوجيا المعلومات ، وعلوم الكمبيوتر ، وما إلى ذلك ، ويمكن أن يكون كل من المشاكل النظرية والتطبيقية. على هذا النحو ، فإنه يرتبط بمجالات مثل الفيزياء والرياضيات والاحتمال والإحصاء ، لكن التعلم الآلي يمثل حقًا حقلًا في حد ذاته ، وهو حقل غير مثقل بالمشاكل التي تثار في تخصصات أخرى. العديد من الحلول التي يتوصل إليها خبراء وممارسو التعليم الآلي خاطئة بشكل مؤلم ، لكنهم يقومون بعملهم.
الحد 5 - التفسير
التفسير هو واحد من المشاكل الرئيسية للتعلم الآلي. يمكن إيقاف شركة استشارية تابعة لمنظمة العفو الدولية تحاول الوصول إلى شركة تستخدم الأساليب الإحصائية التقليدية فقط إذا لم يروا النموذج كما تم تفسيره. إذا لم تتمكن من إقناع عميلك بأنك تفهم كيف توصلت الخوارزمية إلى القرار الذي اتخذه ، ما مدى احتمال ثقتك فيك وتجربتك؟
من المرجح أن يقبل مدير الأعمال توصيات التعلم الآلي إذا تم شرح النتائج من منظور العمل.
هذه النماذج على هذا النحو يمكن أن تصبح عاجزة إذا لم يكن من الممكن تفسيرها ، وتتبع عملية التفسير البشري قواعد تتجاوز بكثير الاتقان التقني. لهذا السبب ، فإن التفسير هو جودة قصوى يجب أن تحققها أساليب التعلم الآلي إذا طبقت في الممارسة.
على وجه الخصوص ، أصبحت العلوم النامية في مجال الفيزياء (الجينوم ، البروتينات ، الأيض ، إلخ) الهدف الرئيسي للباحثين بالتعلم الآلي على وجه التحديد بسبب اعتمادهم على قواعد البيانات الكبيرة وغير التافهة. ومع ذلك ، فإنهم يعانون من نقص في تفسير أساليبهم ، على الرغم من نجاحهم الواضح.
استنتاج
كما آمل ، أوضحت بوضوح في هذه المقالة أن هناك قيودًا ، على الأقل في الوقت الحالي ، تعرقل حل جميع مشاكل الإنسانية. لا يمكن لشبكة عصبية أن تخبرنا أبدًا كيف نكون شخصًا جيدًا ، وعلى الأقل لم نفهم بعد قوانين حركة نيوتن أو نظرية النسبية لآينشتاين.
هناك أيضًا قيود أساسية تستند إلى النظرية الأساسية للتعلم الآلي ، وتسمى نظرية التعلم الحسابي ، وهي قيود إحصائية بشكل أساسي. ناقشنا أيضًا القضايا المتعلقة بنطاق التحليل ومخاطر القرصنة ، والتي يمكن أن تؤدي إلى استنتاجات خاطئة.
هناك أيضًا مشاكل في قابلية تفسير النتائج ، والتي يمكن أن تؤثر سلبًا على الشركات التي لا يمكنها إقناع العملاء والمستثمرين بأن أساليبهم دقيقة وموثوقة.
سيستمر التعلم الآلي والذكاء الاصطناعي في إحداث ثورة في الصناعة وسيصبحان أكثر شيوعًا في السنوات القادمة. على الرغم من أنني أوصي بأن تستفيد بالكامل من التعلم الآلي و AI ، إلا أنني أوصيك بأن تضع في الاعتبار القيود التي تفرضها الأدوات التي تستخدمها - بعد كل شيء ، لا يوجد شيء مثالي.