مشروع Open Data Hub - نظام تعليمي مفتوح على أساس Red Hat OpenShift

لقد حان المستقبل ، وقد تم بالفعل استخدام تقنيات الذكاء الاصطناعي والتعلم الآلي بنجاح من قبل المتاجر المفضلة لديك وشركات النقل وحتى المزارع التي تنمو الديوك الرومية.



وإذا كان هناك شيء موجود ، فعندئذٍ على شبكة الإنترنت ، يوجد بالفعل ... مشروع مفتوح! انظر كيف تساعد Open Data Hub على توسيع نطاق التكنولوجيات الجديدة وتجنب صعوبات تنفيذها.

مع كل مزايا الذكاء الاصطناعي (الذكاء الاصطناعي ، الذكاء الاصطناعي) والتعلم الآلي (التعلم الآلي ، ML) ، غالبًا ما تواجه المنظمات صعوبة في توسيع نطاق هذه التقنيات. المشاكل الرئيسية مع هذا ، كقاعدة عامة ، هي كما يلي:

  • تبادل المعلومات والتعاون - يكاد يكون من المستحيل تبادل المعلومات دون بذل جهود غير ضرورية والتعاون في وضع التكرار السريع.
  • الوصول إلى البيانات - لكل مهمة تحتاج إلى أن يتم بناؤها من جديد ويدويا ، والتي تستغرق وقتا طويلا.
  • الوصول عند الطلب - لا توجد وسيلة للحصول على وصول عند الطلب إلى أدوات ومنصة التعلم الآلي ، وكذلك البنية التحتية للحوسبة.
  • الإنتاج - تبقى النماذج في مرحلة النموذج الأولي ولا يتم استغلالها في الاستغلال الصناعي.
  • تتبع وشرح نتائج الذكاء الاصطناعى - من الصعب استنساخ وتتبع وشرح نتائج الذكاء الاصطناعى / ML.

إذا تركت هذه المشكلات بدون حل ، فإنها تؤثر سلبًا على سرعة وكفاءة وإنتاجية المتخصصين في معالجة البيانات وتحليلها. وهذا يؤدي إلى إحباطهم وخيبة أملهم في العمل ، ونتيجة لذلك ، فإن توقعات الأعمال المتعلقة بالذكاء الاصطناعى / الوباء لا تثمر.

تقع مسؤولية حل هذه المشكلات على عاتق متخصصي تكنولوجيا المعلومات الذين يحتاجون إلى توفير محللي البيانات - صحيح ، شيء يشبه السحابة. إذا كان أكثر تطوراً ، فإننا نحتاج إلى منصة توفر حرية الاختيار ولديها وصول سهل ومريح. في الوقت نفسه ، إنه سريع وسهل إعادة التشكيل وقابل للتطوير عند الطلب ومقاوم للإخفاقات. يساعد بناء مثل هذه المنصة على أساس تقنيات المصادر المفتوحة على عدم الاعتماد على البائع والحفاظ على ميزة استراتيجية طويلة الأجل من حيث التحكم في التكاليف.

قبل بضع سنوات ، حدث شيء مشابه في تطوير التطبيقات وأدى إلى ظهور خدمات ميكروية وبيئات سحابية مختلطة وأتمتة تكنولوجيا المعلومات وعمليات رشيقة. للتعامل مع كل هذا ، بدأ متخصصو تكنولوجيا المعلومات في استخدام الحاويات و Kubernetes وفتح السحب المختلطة.

الآن يتم تطبيق هذه التجربة للإجابة على تحديات آل. لذلك ، يقوم محترفي تكنولوجيا المعلومات بإنشاء منصات تعتمد على الحاويات ، وتتيح لك إنشاء خدمات AI / ML كجزء من العمليات الرشيقة ، وتسريع الابتكار ، وهي مبنية مع التركيز على سحابة مختلطة.



سنبدأ في بناء مثل هذه المنصة باستخدام Red Hat OpenShift ، منصة Kubernetes الخاصة بالحاويات الخاصة بنا للحصول على سحابة هجينة تشتمل على نظام إيكولوجي سريع النمو من حلول ML للأجهزة والبرامج (NVIDIA ، H2O.ai ، Starburst ، PerceptiLabs ، وما إلى ذلك). قام بعض عملاء Red Hat ، مثل مجموعة BMW ، و ExxonMobil ، وغيرهم ، بنشر سلاسل أدوات ML المعزولة وعمليات DevOps استنادًا إلى هذا النظام الأساسي ونظامه الإيكولوجي لجلب هياكل ML الخاصة بهم إلى التشغيل التجاري وتسريع عمل محللي البيانات.

هناك سبب آخر لإطلاق مشروع Open Data Hub وهو إظهار مثال على بنية تستند إلى عدة مشاريع مفتوحة المصدر وإظهار كيفية تنفيذ دورة حياة كاملة من حل ML استنادًا إلى نظام OpenShift.

افتح Data Hub Project


هذا مشروع مفتوح المصدر يتم تطويره في إطار مجتمع التطوير المطابق وينفذ دورة كاملة من العمليات - بدءًا من تحميل البيانات الأولية وتحويلها إلى تكوين النموذج وصيانته - عند حل مهام AI / ML باستخدام الحاويات و Kubernetes على منصة OpenShift. يمكن اعتبار هذا المشروع بمثابة تنفيذ مرجعي ، ومثال على كيفية إنشاء AI / ML مفتوح كحل خدمة يستند إلى OpenShift وأدوات مفتوحة المصدر ذات الصلة مثل Tensorflow و JupyterHub و Spark وغيرها. من المهم ملاحظة أن Red Hat نفسها تستخدم هذا المشروع لتوفير خدمات AI / ML الخاصة بها. بالإضافة إلى ذلك ، يتكامل OpenShift مع حلول ML والبرمجيات والأجهزة الرئيسية من NVIDIA و Seldon و Starbust وغيرهم من البائعين ، مما يسهل بناء وإطلاق أنظمة تعلم الآلة الخاصة بهم.



يركز مشروع Open Data Hub على الفئات التالية من المستخدمين وحالات الاستخدام:

  • محلل بيانات يحتاج إلى حل لتنفيذ مشاريع ML ، مرتبة حسب نوع السحابة مع وظائف الخدمة الذاتية.
  • محلل بيانات يحتاج إلى الاختيار الأقصى من مجموعة واسعة من أحدث أدوات ومنصات AI / ML مفتوحة المصدر.
  • محلل البيانات الذي يحتاج إلى الوصول إلى مصادر البيانات عند نماذج التدريب.
  • محلل البيانات الذي يحتاج إلى الوصول إلى موارد الحوسبة (وحدة المعالجة المركزية ، GPU ، الذاكرة).
  • Date هو محلل يحتاج إلى فرصة للتعاون ومشاركة نتائج العمل مع الزملاء وتلقي الملاحظات وإدخال تحسينات باستخدام طريقة التكرار السريع.
  • محلل بيانات يريد التفاعل مع المطورين (وفرق العمل) بحيث تدخل نماذج ML ونتائج عمله في الإنتاج.
  • مهندس البيانات الذي يحتاج إلى توفير تحليلات البيانات مع الوصول إلى مجموعة متنوعة من مصادر البيانات في الامتثال لمعايير ومتطلبات السلامة.
  • مسؤول / مشغل لأنظمة تقنية المعلومات يحتاج إلى القدرة على التحكم بسهولة في دورة الحياة (التثبيت ، التكوين ، التحديث) للمكونات والتقنيات مفتوحة المصدر. نحتاج أيضًا إلى أدوات مناسبة للإدارة والحصص.

يجمع مشروع Open Data Hub بين عدد من أدوات المصادر المفتوحة لتنفيذ عملية AI / ML كاملة. يستخدم Jupyter Notebook هنا كأداة العمل الرئيسية لتحليل البيانات. أصبحت مجموعة الأدوات هذه الآن شائعة لدى محترفي معالجة البيانات والتحليل ، ويتيح لهم Open Data Hub إنشاء وإدارة مساحات عمل Jupyter Notebook بسهولة باستخدام JupyterHub المدمج. بالإضافة إلى إنشاء واستيراد دفاتر الملاحظات Jupyter ، يحتوي مشروع Open Data Hub أيضًا على عدد من دفاتر الملاحظات الجاهزة في شكل مكتبة AI.

هذه المكتبة عبارة عن مجموعة من مكونات التعلّم الآلي مفتوحة المصدر وعينات من حلول البرمجة النصية التي تعمل على تبسيط النماذج الأولية السريعة. تم دمج JupyterHub مع طراز الوصول إلى OpenShift RBAC ، والذي يسمح لك باستخدام حسابات OpenShift الحالية وتطبيق تسجيل الدخول الأحادي. بالإضافة إلى ذلك ، يوفر JupyterHub واجهة مستخدم مريحة تسمى spawner ، والتي يمكن للمستخدم من خلالها بسهولة تكوين مقدار موارد الحوسبة (نوى المعالج ، الذاكرة ، وحدة معالجة الرسومات) لجهاز Jupyter Notebook المحدد.

بعد قيام محلل البيانات بإنشاء الكمبيوتر المحمول وإعداده ، يقوم برنامج جدولة Kubernetes ، وهو جزء من OpenShift ، بالعناية بالباقي. يمكن للمستخدمين إجراء تجاربهم فقط ، وحفظ ومشاركة نتائج أعمالهم. بالإضافة إلى ذلك ، يمكن للمستخدمين المتقدمين الوصول مباشرة إلى OpenShift CLI shell مباشرة من دفاتر Jupyter لتمكين Kubernetes البدائية ، مثل Job ، أو OpenShift ، مثل Tekton أو Knative. أو يمكنك استخدام واجهة المستخدم الرسومية OpenShift المعروفة باسم "OpenShift Web Console" لهذا الغرض.





الانتقال إلى الخطوة التالية ، يوفر Open Data Hub القدرة على إدارة خطوط أنابيب البيانات. لهذا الغرض ، يتم استخدام كائن Ceph ، والذي يتم توفيره كمستودع بيانات كائن متوافق مع S3. يقوم Apache Spark بتدفق البيانات من مصادر خارجية أو وحدة التخزين المدمجة Ceph S3 ، كما يتيح لك إجراء تحويلات أولية للبيانات. يوفر Apache Kafka إدارة متقدمة لخطوط أنابيب البيانات (حيث يمكنك إجراء عمليات تنزيل متعددة ، بالإضافة إلى عمليات تحويل البيانات وتحليلها وتخزينها).

لذلك ، حصل محلل البيانات على الوصول إلى البيانات وصمم نموذجًا. الآن لديه رغبة في مشاركة النتائج مع الزملاء أو مطوري التطبيقات ، وتزويدهم بنموذج مبادئ الخدمة. للقيام بذلك ، تحتاج إلى خادم إخراج وله Open Data Hub مثل هذا الخادم ، ويسمى Seldon ويسمح لك بنشر النموذج كخدمة RESTful.

في مرحلة ما ، هناك العديد من هذه النماذج على خادم Seldon ، وهناك حاجة لمراقبة كيفية استخدامها. للقيام بذلك ، يقدم Open Data Hub مجموعة من المقاييس ذات الصلة ومحرك تقارير يستند إلى أدوات مراقبة المصدر المفتوح المستخدمة على نطاق واسع ، بروميثيوس وغرافانا. نتيجة لذلك ، حصلنا على تعليقات لرصد استخدام نماذج الذكاء الاصطناعي ، وخاصة في بيئة الإنتاج.



وبالتالي ، توفر Open Data Hub مقاربة تشبه السحابة طوال دورة تشغيل AI / ML بأكملها ، من الوصول وإعداد البيانات إلى التدريب والتشغيل الصناعي للنموذج.

وضع كل ذلك معا


والسؤال الآن هو كيفية تنظيم هذا لمسؤول OpenShift. وهنا يأتي المشغل الخاص Kubernetes لمشاريع Open Data Hub.



يدير هذا المشغل التثبيت والتكوين ودورة حياة مشروع Open Data Hub ، بما في ذلك نشر أدوات مثل JupyterHub و Ceph و Spark و Kafka و Seldon و Prometheus و Grafana. يمكن العثور على مشروع Open Data Hub في وحدة تحكم الويب OpenShift ، في قسم مشغلي المجتمع. وبالتالي ، يمكن لمسؤول OpenShift تحديد أن مشاريع OpenShift المقابلة تصنف على أنها "مشروع Open Data Hub Project". ويتم ذلك مرة واحدة. بعد ذلك ، يدخل محلل البيانات من خلال وحدة تحكم الويب OpenShift إلى مساحة مشروعه ويرى أن مشغل Kubernetes المقابل مثبت ومتوفر لمشاريعه. ثم يقوم بإنشاء مثيل لمشروع Open Data Hub بنقرة واحدة والوصول الفوري إلى الأدوات الموضحة أعلاه. وكل هذا يمكن تهيئته في حالة توفر عالية والتسامح مع الخطأ.



إذا كنت ترغب في تجربة مشروع Open Data Hub بيديك ، فابدأ بتعليمات التثبيت وبرنامج تعليمي تمهيدي . يمكن الاطلاع هنا على التفاصيل الفنية لهيكل Open Data Hub ؛ وخطط تطوير المشروع هنا . في المستقبل ، من المخطط تنفيذ تكامل إضافي مع Kubeflow ، وحل عدد من المشكلات المتعلقة بتنظيم البيانات وأمانها ، وتنظيم التكامل مع الأنظمة القائمة على قواعد Drools و Optaplanner. يمكنك التعبير عن رأيك وتصبح عضوًا في مشروع Open Data Hub على صفحة المجتمع .

نلخص: المشاكل الخطيرة في التوسع تمنع المنظمات من إدراك إمكانات الذكاء الاصطناعي والتعلم الآلي. منذ فترة طويلة استخدمت Red Hat OpenShift بنجاح لحل مشاكل مماثلة في صناعة البرمجيات. يقدم مشروع Open Data Hub ، الذي تم تنفيذه داخل مجتمع تطوير المصادر المفتوحة ، بنية مرجعية لتنظيم دورة تشغيل AI / ML كاملة تعتمد على السحابة المختلطة OpenShift. لدينا خطة تطوير واضحة ومدروسة لهذا المشروع ، ونحن جادون في إنشاء مجتمع نشط ومثمر لتطوير حلول AI مفتوحة على منصة OpenShift من حوله.

Source: https://habr.com/ru/post/ar472836/


All Articles