ما هو تعلم الآلة الآلي (AutoML) و
هل ستأخذ علماء البيانات بعيداً؟
منذ بداية ظهور أدوات التعلم الآلي الآلي (AutoML) ، مثل Google AutoML ، ناقش الخبراء ما إذا كانت جاهزة للتكامل والتطبيق المؤسسي الكامل. ينص وصف أداة AutoML على أنه يمكن لأي شخص القيام بدور "عالم البيانات" ، القادر على إنشاء نماذج للتعلم الآلي جاهزة للاستخدام الصناعي دون الخلفية التقنية الضرورية تقليديًا.
على الرغم من أنه من المؤكد أن عمليات التعلم الآلي الآلي تعمل على تغيير الطرق التي يمكن للشركات من خلالها أداء مهام تحليل البيانات ، إلا أن التكنولوجيا ليست جاهزة بعد لترك أخصائيي البيانات عاطلين عن العمل. أحد الادعاءات الرئيسية للتكنولوجيا هي أن النماذج التي يتم إنشاؤها تلقائيًا لها نفس النوعية ويتم إنتاجها في أسرع وقت ممكن مقارنةً بالنموذج المكافئ الذي أنشأته مجموعة من الباحثين في البيانات.
على الرغم من أن نماذج AutoML أسرع في الإنشاء ، إلا أنها فعالة فقط إذا كانت المشكلة التي يبحثون عنها ثابتة ومتكررة. تعمل معظم طرز AutoML جيدًا وتحقق جودة متسقة في ظل هذه الظروف ؛ ولكن كلما كانت مشكلة البيانات أكثر تعقيدًا ، يلزم تدخل أكثر تخصصًا لفهم ما أطلقه نظام AutoML وتحويله إلى شيء مفيد. لفهم بعض هذه القيود ، دعونا نلقي نظرة على عملية AutoML بمزيد من التفاصيل.
تعمل أدوات AutoML على تبسيط معالجة البيانات عن طريق القيام بكل ما هو ممكن باستخدام المعلومات الموجودة. تتكون العملية من ثلاث مراحل رئيسية:
تتضمن المرحلة الأولى "استخراج" المعلومات ، مما يساعد على زيادة إنتاجية النماذج المولدة ، وخلق معلومات إضافية للدراسة. يستغرق ذلك الكثير من الوقت ، لأن أخصائي تحليل البيانات يحتاج إلى تحديد العلاقات بين عناصر البيانات يدويًا وتطوير طرق لتقديم المعلومات كحقول بيانات إضافية يمكن للجهاز استخدامها للتدريب ، وكذلك تحديد اكتمال البيانات لإنشاء نموذج .
هذه خطوة مهمة ، لأن هذه البيانات الإضافية غالباً ما تعني الفرق بين النموذج غير المناسب والنموذج الممتاز. تتم برمجة AutoML لاستخدام مجموعة محدودة من طرق اكتشاف البيانات ، عادةً بطريقة تفي بمشكلة البيانات "المتوسطة" ، مما يحد من الأداء النهائي للنموذج ، لأنه لا يمكنه استخدام معرفة الشركات الصغيرة والمتوسطة المحددة (الأعمال الصغيرة والمتوسطة) ، والتي يمكن أن تكون مهمة للنجاح و أن أخصائي البيانات يمكن استخدامها في عمله.
تبدأ العديد من مشكلات البيانات بجهد عقلي كبير لتحديد البيانات المراد تمثيلها في الخوارزمية. يمكن أن يؤدي نقل جميع البيانات الموجودة لديك في النظام إلى نموذج لا يتوافق مع المعلمات ، لأن البيانات تحتوي عادةً على العديد من الإشارات المختلفة والمتضاربة في كثير من الأحيان والتي يجب أن تكون مستهدفة ونمذجة بشكل فردي.
هذا صحيح بشكل خاص فيما يتعلق بالاحتيال ، عندما يكون لدى المناطق الجغرافية المختلفة وقنوات الدفع وما إلى ذلك أنواع مختلفة جدًا من الاحتيال. لا تزال محاولات اكتشاف هذه الأنماط يدويًا وتصميم مجموعات البيانات المناسبة لضمان الاكتشاف الدقيق غير آلية إلى حد كبير. من المستحيل حاليًا استخدام نهج آلي متعدد الأغراض لهذه المشكلة بسبب التعقيد الهائل لهذا الحدث.
المرحلة التالية هي جيل النماذج. يتم إنشاء وتدريب النماذج ذات التكوينات المختلفة باستخدام بيانات من المرحلة السابقة. هذا مهم للغاية لأنه يكاد يكون من المستحيل استخدام التكوين الافتراضي لكل مشكلة والحصول على أفضل النتائج.
في هذه المرحلة ، تتمتع أنظمة AutoML بميزة على خبراء البيانات لأنها يمكن أن تنشئ عددًا كبيرًا من نماذج الاختبار في فترة زمنية قصيرة جدًا. تسعى معظم أنظمة AutoML إلى أن تكون عالمية وتنتج فقط شبكات عصبية عميقة ، والتي يمكن أن تكون زائدة عن الحاجة للعديد من المهام ، عندما يكون النموذج البسيط ، مثل الانحدار اللوجستي أو أشجار القرار ، أكثر ملاءمة ويستفيد من تحسين المعلمة المفرط.
المرحلة النهائية هي اختبار الأداء الشامل واختيار أفضل أداء. في هذه المرحلة ، يتطلب الأمر بعض العمل اليدوي ، لأسباب ليس أقلها أهمية بالغة أن يختار المستخدم النموذج المناسب للمهمة. من غير المجدي أن يكون لديك نموذج لمخاطر الاحتيال يحدد 100٪ من حالات الاحتيال ، ولكنه يدعو إلى التشكيك في كل ترخيص.
في العملية اليدوية الحالية ، يعمل متخصصو البيانات مع الشركات الصغيرة والمتوسطة لفهم البيانات وتطوير وظائف وصفية فعالة. هذا الرابط المهم بين الشركات الصغيرة والمتوسطة ومتخصص البيانات مفقود من AutoML العام. كما هو موضح سابقًا ، تحاول العملية إنشاء هذه النماذج تلقائيًا مما يمكن للأداة اكتشافه في البيانات ، والتي قد تكون غير لائقة ، مما ينتج عنه نماذج غير فعالة. يجب تصميم أنظمة AutoML المستقبلية مع وضع قيود أخرى في الاعتبار لإنشاء نماذج عالية الجودة وفقًا للمعايير التي وضعها الخبراء.
مستقبل AutoML
يستمر AutoML في التطور ، وقد حقق بائعو AutoML الحاليون (Google و Microsoft) تحسينات كبيرة. ركزت هذه التطورات بشكل أساسي على زيادة سرعة إنشاء نماذج جاهزة ، وليس على كيفية تحسين التكنولوجيا لحل المشكلات الأكثر تعقيدًا (على سبيل المثال ، اكتشاف الاحتيال وتسلل الشبكات) ، حيث يمكن لـ AutoML أن تذهب أبعد من متخصص البيانات.
مع استمرار حلول AutoML في التطور والتوسع ، يمكن أتمتة العمليات اليدوية الأكثر تعقيدًا. تعمل أنظمة AutoML الحديثة بشكل رائع مع الصور والكلام لأن AutoML لديه معرفة تجارية مضمنة للقيام بهذه المهام بشكل جيد. ستتاح لأنظمة AutoML المستقبلية لمستخدمي الأعمال إمكانية إدخال معرفتهم لمساعدة الجهاز تلقائيًا في إنشاء نماذج دقيقة للغاية.
علاوة على ذلك ، سوف تصبح خطوط أنابيب البيانات المعقدة مرتبة أكثر فأكثر ، وإضافة عدد كبير من الخوارزميات المختلفة للتحسين سوف تزيد من المشاكل المحتملة التي يمكن للعلماء الذين يعملون مع بيانات المواطن حلها.
على الرغم من أن العديد من مهام معالجة البيانات ستصبح تلقائية ، فإنها ستسمح للعلماء بأداء مهام مخصصة للعمل ؛ زيادة تحفيز الابتكار وتمكين الشركات من التركيز على المجالات الأكثر أهمية لتوليد الإيرادات ونمو الأعمال.