مرحبا يا هبر! أقدم لكم ترجمة
المقال "Pentaho Data Integration (PDI) ، Python and Deep Learning" .
التعلم العميق (DL) - لماذا يوجد الكثير من الضوضاء من حوله؟
وفقًا لشركة Zion Market Research ، فإن سوق التعليم العميق (DL) سيرتفع من 2.3 مليار دولار في عام 2017 إلى أكثر من 23.6 مليار دولار بحلول عام 2024. مع معدل نمو سنوي متوسط حوالي 40 ٪ سنويا ، أصبح DL واحدة من أكثر المناطق سخونة
لخبراء التحليل لإنشاء نماذج. . قبل الانتقال إلى مسألة كيف يمكن لـ Pentaho المساعدة في تنفيذ طرز DL الخاصة بمؤسستك في بيئة المنتج ، دعنا نرجع إلى الوراء ونرى لماذا تمثل DL هذه التكنولوجيا المتقدمة. فيما يلي بعض المعلومات العامة حول هذا:


- يستخدم الشبكات العصبية الاصطناعية التي تحتوي على عدة طبقات مخفية يمكن أن تؤدي إلى التعرف على الصور بدقة ، ورؤية الكمبيوتر / اكتشاف الكائنات ، ومعالجة دفق الفيديو ، ومعالجة اللغة الطبيعية ، وغير ذلك الكثير. التحسينات في إمكانيات DL المقترحة وفي قوة الحوسبة ، مثل وحدات معالجة الرسومات (GPU) ، التخزين السحابي ، قد عجلت بشكل كبير بالنمو الفعلي بالفعل لـ DL خلال السنوات القليلة الماضية ؛
- في محاولة لمحاكاة نشاط الدماغ البشري من خلال طبقات من الخلايا العصبية ، يتعلم DL التعرف على الأنماط في التمثيلات الرقمية للأصوات وتدفقات الفيديو والصور وغيرها من البيانات ؛
- يقلل من الحاجة إلى تصميم كائنات قبل تشغيل النموذج باستخدام عدة طبقات مخفية ، مما يؤدي إلى استخراج الكائنات أثناء الطيران ؛
- زيادة الإنتاجية والدقة مقارنة بخوارزميات التعلم الآلي التقليدية بفضل الأطر المحدثة ، ووجود صفيفات بيانات ضخمة للغاية (مثل البيانات الضخمة) والقفزة الكبيرة في نمو قوة الحوسبة ، مثل معالجات الرسومات وما إلى ذلك ؛
- يوفر بيئات التطوير والبيئات والمكتبات ، مثل Tensorflow و Keras و Caffe و PyTorch وغيرها التي تجعل DL في متناول خبراء التحليلات.
لماذا استخدام PDI لتطوير وتنفيذ نماذج التعلم العميق باستخدام بيثون؟
اليوم ، يتعاون علماء البيانات ومهندسو البيانات في مئات من مشاريع علوم البيانات التي تم إنشاؤها في PDI. بفضل Pentaho ، تمكنوا من نقل نماذج متطورة لعلوم البيانات إلى بيئة الإنتاج بتكلفة أقل من أدوات إعداد البيانات التقليدية. يسرنا أن نعلن أنه يمكن لـ Pentaho الآن الاستفادة من سهولة الاستخدام هذه في أطر عمل DL ، مما يعزز هدف شركة Hitachi Vantara المتمثلة في تمكين المؤسسات من الابتكار بكل بياناتها. من خلال PDI وخطوة Executor Python الجديدة ، يمكن لـ Pentaho القيام بما يلي:
- التكامل مع أطر DL الشعبية خلال مرحلة التحول ، وتوسيع قدرات علم البيانات الحالية Pentaho ؛
- التنفيذ البسيط لملفات البرامج النصية DL Python التي تم تلقيها من متخصصي البيانات كجزء من الخطوة الجديدة لـ PDI Python Executor؛
- إطلاق نموذج DL على أي جهاز من وحدات المعالجة المركزية / وحدة معالجة الرسومات ، مما يسمح للمؤسسات باستخدام تسريع وحدة معالجة الرسومات لتحسين أداء نماذج DL الخاصة بها ؛
- تضمين بيانات من خطوات PDI السابقة من خلال دفق بيانات في شكل إطار بيانات Python Pandas من صفيف Numpy في Python Executor Step للمعالجة DL ؛
- التكامل مع Hitachi Content Platform (HDFS ، Local ، S3 ، Google Storage ، إلخ) ، والذي يسمح لك بنقل ملفات البيانات غير المهيكلة ووضعها في منطقة محلية (على سبيل المثال ، "بحيرة بيانات" وما شابه ذلك) ، مما يقلل من تكاليف التخزين والمعالجة DL.
الفوائد:
- تدعم PDI منصات DL الأكثر استخدامًا ، وهي Tensorflow و Keras و PyTorch وغيرها من التطبيقات التي لديها واجهة برمجة تطبيقات Python ، والتي تسمح لمتخصصي البيانات بالعمل في مكتباتهم المفضلة ؛
- تسمح PDI لمهندسي البيانات ومحترفي البيانات بالتعاون في تنفيذ DL ؛
- تتيح لك PDI التوزيع الفعال لمهارات وموارد متخصصي البيانات (مثل إنشاء وتقييم وتشغيل نماذج DL) ومهندسي البيانات (إنشاء خطوط أنابيب البيانات في PDI لمعالجة DL).
كيف تنفذ PDI التعلم العميق؟
المكونات المستخدمة:
- Pentaho 8.2 ، PDI Python Executor Step ، Hitachi Content Platform (HCP) VFS
- Python.org 2.7.x أو Python 3.5.x
- تينسرفلو 1.10
- كراس 2.2.0.
راجع خطوة Pentaho 8.2
Python Executor في تعليمات Pentaho عبر الإنترنت للحصول على قائمة بالتبعيات.
بيثون Executor - Pentaho الوثائق .
العملية الرئيسية:
1. حدد ملف
HCP VFS في خطوة PDI. نسخ وإعداد ملفات البيانات غير المهيكلة للاستخدام مع إطار عمل DL باستخدام PDI
Python Executor Step .

معلومات اضافية:
https://help.pentaho.com/Documentation/8.2/Products/Data_Integration/Data_Integration_Perspective/Virtual_File_System
2. استخدم تحويلًا جديدًا سينفذ مهام سير العمل لمعالجة إطار عمل DL ومجموعات البيانات ذات الصلة والمزيد. أدخل المعلمات التشعبية (القيم المستخدمة لتكوين وتنفيذ النماذج) لتقييم النموذج الأكثر كفاءة. فيما يلي مثال يقوم بتنفيذ أربعة مهام سير عمل DL ، ثلاثة باستخدام Tensorflow وواحد باستخدام Keras ، مع Python Executor Step.


3. مع التركيز على
سير عمل Tensorflow DNN Classifier (الذي ينفذ تطبيق
المعلمات التشعبية ) ، استخدم
خطوة شبكة بيانات PDI ، أي باسم
Hyperparameters المحقونة ، مع القيم المطابقة لخطوات
Python Script Executor .

4. في خطوة
Python Script Executor ، استخدم Pandas DF وتطبيق المعلمات والقيم التشعبية المدخلة كمتغيرات في علامة التبويب "
الإدخال" .

5. قم بتشغيل البرنامج النصي
Python المرتبط بـ DL (إما باستخدام "Embed" أو باستخدام "Link from file") واستخدام الرابط إلى Framework DL وإدخال المعلمات التشعبية. بالإضافة إلى ذلك ، يمكنك تعيين مسار بيئة Python الافتراضية لتكون مختلفة عن المسار الافتراضي.

6. تحقق من تثبيت TensorFlow ، وتهيئته ، واستيراده بشكل صحيح في قشرة Python.

7. بالرجوع إلى
خطوة تنفيذ
Python ، انقر فوق علامة التبويب
الإخراج ، ثم انقر فوق الزر "الحصول على الحقول". تقوم PDI بالتحقق المسبق من ملف البرنامج النصي للتحقق من الأخطاء والإخراج والمعلمات الأخرى.

8. هذا يكمل الإعدادات لبدء التحويل.
تقدم شركة Hitachi Vantara حل GPU الخاص لتسريع عملية التعلم العميق
يمكن أن تستفيد أطر عمل DL بشكل كبير في الأداء عند استخدام وحدة معالجة الرسومات (GPU) بدلاً من المعالج المركزي ؛ لذلك ، تدعم معظم أطر عمل DL بعض أنواع وحدات معالجة الرسومات (GPU). في عام 2018 ، قامت شركة Hitachi Vantara بتطوير وتسليم خادم DS225 متقدم مع وحدات معالجة الرسومات NVIDIA Tesla V100. هذا هو أول خادم رسومات Hitachi Vantara مصمم خصيصًا لتنفيذ DL.

يمكن العثور على مزيد من المعلومات حول هذا العرض على موقع
Hitachi Vantara الإلكتروني .
لماذا يجب على المنظمات استخدام PDI و Python للتعلم العميق؟
- أدوات السحب والإفلات سهلة الاستخدام: تعمل PDI على تبسيط تنفيذ أطر عمل DL وتنفيذها باستخدام بيئة تطوير رسومية لخطوط الأنابيب وتدفقات العمل المرتبطة بـ DL ؛
- تعاون مثمر: يمكن لمهندسي معالجة البيانات ومتخصصي البيانات العمل على سير عمل مشترك واستخدام مهاراتهم ووقتهم بفعالية ؛
- التخصيص الفعال للموارد القيمة: يمكن لمهندس البيانات استخدام PDI لإنشاء مهام سير عمل ، ونقل وإنشاء ملفات بيانات غير منظمة من / إلى HCP ، وتكوين معلمات تشعبية تم إدخالها استعدادًا لبرنامج نصي Python تم استلامه من خبير بيانات تحليلي ؛
- أفضل معالجة في وحدة معالجة الرسومات: تقدم Hitachi Vantara خادم DS225 Advanced مع وحدات معالجة الرسومات NVIDIA Tesla V100 التي تتيح لأطر DL الاستفادة من أداء GPU.