Bonjour, Habr! Je vous présente la traduction de l'
article «Pentaho Data Integration (PDI), Python et Deep Learning» .
Deep Learning (DL) - pourquoi y a-t-il tant de bruit autour de lui?
Selon Zion Market Research, le marché de l'apprentissage en profondeur (DL) passera de 2,3 milliards de dollars en 2017 à plus de 23,6 milliards de dollars d'ici 2024. Avec un taux de croissance annuel moyen de près de 40% par an, DL est devenu l'un des domaines les plus en vogue
pour les experts en analyse pour créer des modèles. . Avant de passer à la question de savoir comment Pentaho peut aider à implémenter les modèles DL de votre organisation dans un environnement de produit, prenons un peu de recul et voyons pourquoi DL est une technologie révolutionnaire. Voici quelques informations générales à ce sujet:


- Utilise des réseaux de neurones artificiels qui ont plusieurs couches cachées qui peuvent effectuer une reconnaissance d'image précise, une vision par ordinateur / détection d'objet, un traitement de flux vidéo, un traitement du langage naturel et bien plus encore. Les améliorations des capacités DL proposées et de la puissance de calcul, telles que les GPU, le stockage dans le cloud, ont considérablement accéléré la croissance déjà active de DL au cours des dernières années;
- En essayant de simuler l'activité du cerveau humain à travers des couches de neurones, DL apprend à reconnaître les motifs dans les représentations numériques des sons, des flux vidéo, des images et d'autres données;
- Réduit la nécessité de concevoir des objets avant de lancer le modèle en utilisant plusieurs couches cachées, en effectuant l'extraction d'objets à la volée pendant que le modèle est en cours d'exécution;
- Augmente la productivité et la précision par rapport aux algorithmes d'apprentissage automatique traditionnels grâce à des cadres mis à jour, la présence de tableaux de données très volumineux (c'est-à-dire les Big Data) et un bond significatif dans la croissance de la puissance de calcul, comme les processeurs graphiques, etc.
- Fournit des environnements de développement, des environnements et des bibliothèques, tels que Tensorflow, Keras, Caffe, PyTorch et autres qui rendent DL plus accessible aux experts en analyse.
Pourquoi utiliser PDI pour développer et implémenter des modèles d'apprentissage profond en utilisant Python?
Aujourd'hui, les scientifiques et ingénieurs de données collaborent sur des centaines de projets de science des données créés au PDI. Grâce à Pentaho, ils ont pu transférer des modèles sophistiqués de science des données vers l'environnement de production à un coût inférieur aux outils de préparation de données traditionnels. Nous sommes heureux d'annoncer que Pentaho peut désormais apporter cette facilité d'utilisation aux frameworks DL, renforçant l'objectif d'Hitachi Vantara de permettre aux organisations d'innover avec toutes leurs données. Avec le PDI et la nouvelle étape Python Executor, Pentaho peut effectuer les opérations suivantes:
- Intégration avec les infrastructures DL populaires pendant la phase de transformation, élargissant les capacités existantes de Pentaho en science des données;
- Implémentation simple des fichiers de script DL Python reçus de spécialistes des données dans le cadre de la nouvelle étape PDI Python Executor;
- Lancement du modèle DL sur n'importe quel équipement CPU / GPU, permettant aux organisations d'utiliser l'accélération GPU pour améliorer les performances de leurs modèles DL;
- Inclusion de données des étapes PDI précédentes à travers un flux de données sous la forme d'une trame de données Python Pandas à partir d'un tableau Numpy dans l'étape Python Executor pour le traitement DL;
- Intégration avec Hitachi Content Platform (HDFS, Local, S3, Google Storage, etc.), qui vous permet de déplacer et de placer des fichiers de données non structurés vers une zone locale (par exemple, un «lac de données» et autres), réduisant ainsi les coûts de stockage et de traitement DL.
Bénéfices:
- PDI prend en charge les plates-formes DL les plus utilisées, à savoir Tensorflow, Keras, PyTorch et d'autres qui ont une API Python, ce qui permet aux spécialistes des données de travailler dans leurs bibliothèques préférées;
- PDI permet aux ingénieurs de données et aux professionnels des données de collaborer à la mise en œuvre de DL;
- PDI vous permet de distribuer efficacement les compétences et les ressources des spécialistes des données (c'est-à-dire créer, évaluer et exécuter des modèles DL) et des ingénieurs de données (créer des pipelines de données dans PDI pour le traitement DL).
Comment PDI met-il en œuvre le deep learning?
Composants utilisés:
- Pentaho 8.2, PDI Python Executor Step, Hitachi Content Platform (HCP) VFS
- Python.org 2.7.x ou Python 3.5.x
- Tensorflow 1.10
- Keras 2.2.0.
Voir l'
étape Pentaho 8.2
Python Executor dans l'aide en ligne de Pentaho pour une liste des dépendances.
Exécuteur Python - Documentation Pentaho .
Le processus principal:
1. Sélectionnez le fichier
HCP VFS dans l'étape PDI. Copiez et préparez des fichiers de données non structurés à utiliser avec l'infrastructure DL à l'aide de l'
étape PDI
Python Executor .

Information complémentaire:
https://help.pentaho.com/Documentation/8.2/Products/Data_Integration/Data_Integration_Perspective/Virtual_File_System
2. Utilisez une nouvelle transformation qui implémentera des workflows pour le traitement de l'infrastructure DL et des jeux de données associés et plus encore. Entrez des hyperparamètres (valeurs utilisées pour configurer et exécuter des modèles) pour évaluer le modèle le plus efficace. Vous trouverez ci-dessous un exemple qui implémente quatre workflows de framework DL, trois utilisant Tensorflow et un utilisant Keras, avec l'étape Python Executor.


3. En vous concentrant sur le
flux de travail Tensorflow DNN Classifier (qui implémente l'implémentation d'hyperparamètres), utilisez l'
étape PDI
Data Grid , c'est-à-dire avec le nom
Injected Hyperparameters , avec des valeurs correspondant aux étapes
Python Script Executor .

4. À l'étape
Python Script Executor , utilisez Pandas DF et implémentez les hyperparamètres et les valeurs entrés en tant que variables dans l'onglet
Entrée .

5. Exécutez le script
Python associé à la DL (en utilisant «Embed» ou en utilisant «Link from file») et en utilisant le lien vers la structure DL et les hyperparamètres entrés. De plus, vous pouvez définir un chemin d'accès pour l'environnement virtuel Python différent de celui par défaut.

6. Vérifiez que TensorFlow est installé, configuré et correctement importé dans le shell Python.

7. Revenant à l'
étape Python Executor , cliquez sur l'onglet
Sortie , puis sur le bouton Obtenir les champs. PDI va pré-vérifier le fichier de script pour vérifier les erreurs, la sortie et d'autres paramètres.

8. Ceci termine les paramètres de démarrage de la conversion.
Hitachi Vantara propose une solution GPU propriétaire pour accélérer l'apprentissage en profondeur
Les frameworks DL peuvent considérablement bénéficier de performances lors de l'utilisation d'un GPU plutôt que d'un processeur central; par conséquent, la plupart des frameworks DL prennent en charge certains types de GPU. En 2018, Hitachi Vantara a développé et livré un serveur DS225 avancé avec des GPU NVIDIA Tesla V100. Il s'agit du premier serveur graphique Hitachi Vantara conçu spécifiquement pour l'implémentation DL.

Vous trouverez plus d'informations sur cette offre sur le
site Internet d'Hitachi Vantara .
Pourquoi les organisations devraient-elles utiliser PDI et Python pour l'apprentissage en profondeur?
- Outils de glisser-déposer intuitifs: PDI simplifie la mise en œuvre et l'exécution des infrastructures DL à l'aide d'un environnement de développement graphique pour les pipelines et les flux de travail liés à DL;
- Collaboration productive: les ingénieurs de traitement des données et les spécialistes des données peuvent travailler sur un flux de travail commun et utiliser efficacement leurs compétences et leur temps;
- Allocation efficace de ressources précieuses: un ingénieur de données peut utiliser PDI pour créer des flux de travail, déplacer et créer des fichiers de données non structurés depuis / vers HCP, et pour configurer les hyperparamètres entrés en préparation d'un script Python reçu d'un expert en données analytiques;
- Meilleur traitement GPU de sa catégorie: Hitachi Vantara propose le serveur DS225 Advanced avec des GPU NVIDIA Tesla V100 qui permettent aux infrastructures DL de tirer parti des performances du GPU.