Pentaho Data Integration (PDI), Python und Deep Learning

Hallo Habr! Ich präsentiere Ihnen die Übersetzung des Artikels „Pentaho Data Integration (PDI), Python und Deep Learning“ .

Deep Learning (DL) - warum gibt es so viel Lärm um ihn herum?


Laut Zion Market Research wird der Deep Learning Market (DL) von 2,3 Mrd. USD im Jahr 2017 auf über 23,6 Mrd. USD im Jahr 2024 steigen. Mit einer durchschnittlichen jährlichen Wachstumsrate von fast 40% pro Jahr ist DL zu einem der heißesten Bereiche für Analytik-Experten geworden, um Modelle zu erstellen. . Bevor wir uns der Frage zuwenden, wie Pentaho die Implementierung der DL-Modelle Ihres Unternehmens in einer Produktumgebung unterstützen kann, gehen wir einen Schritt zurück und sehen, warum DL eine so bahnbrechende Technologie ist. Nachfolgend finden Sie einige allgemeine Informationen dazu:

Bild

Bild

  • Verwendet künstliche neuronale Netze mit mehreren verborgenen Schichten, die eine genaue Bilderkennung, Computer Vision / Objekterkennung, Videostream-Verarbeitung, Verarbeitung natürlicher Sprache und vieles mehr durchführen können. Verbesserungen der vorgeschlagenen DL-Funktionen und der Rechenleistung wie GPUs und Cloud-Speicher haben das bereits aktive Wachstum von DL in den letzten Jahren erheblich beschleunigt.
  • Beim Versuch, die Aktivität des menschlichen Gehirns durch Schichten von Neuronen zu simulieren, lernt DL, Muster in digitalen Darstellungen von Tönen, Videoströmen, Bildern und anderen Daten zu erkennen.
  • Reduziert die Notwendigkeit, Objekte vor dem Starten des Modells zu entwerfen, indem mehrere ausgeblendete Ebenen verwendet werden und Objekte im laufenden Betrieb extrahiert werden, während das Modell ausgeführt wird.
  • Steigert die Produktivität und Genauigkeit im Vergleich zu herkömmlichen Algorithmen für maschinelles Lernen dank aktualisierter Frameworks, des Vorhandenseins sehr umfangreicher Datenfelder (d. H. Big Data) und eines signifikanten Anstiegs der Rechenleistung wie Grafikprozessoren usw.
  • Bietet Entwicklungsumgebungen, Umgebungen und Bibliotheken wie Tensorflow, Keras, Caffe, PyTorch und andere, die DL für Analyseexperten zugänglicher machen.

Warum PDI verwenden, um Deep-Learning-Modelle mit Python zu entwickeln und zu implementieren?


Heute arbeiten Datenwissenschaftler und Dateningenieure an Hunderten von datenwissenschaftlichen Projekten zusammen, die am PDI erstellt wurden. Dank Pentaho konnten sie anspruchsvolle datenwissenschaftliche Modelle zu geringeren Kosten als herkömmliche Datenaufbereitungstools in die Produktionsumgebung übertragen. Wir freuen uns, Ihnen mitteilen zu können, dass Pentaho diese Benutzerfreundlichkeit jetzt in DL-Frameworks integrieren kann, was das Ziel von Hitachi Vantara unterstützt, Unternehmen die Möglichkeit zu geben, mit all ihren Daten Innovationen durchzuführen. Mit dem PDI und dem neuen Python Executor Step kann Pentaho Folgendes tun:

  • Integration in gängige DL-Frameworks während der Transformationsphase, Erweiterung der vorhandenen datenwissenschaftlichen Funktionen von Pentaho;
  • Einfache Implementierung von DL Python-Skriptdateien, die von Datenspezialisten im Rahmen des neuen PDI Python Executor-Schritts empfangen wurden.
  • Starten des DL-Modells auf allen CPU- / GPU-Geräten, sodass Unternehmen die GPU-Beschleunigung verwenden können, um die Leistung ihrer DL-Modelle zu verbessern.
  • Einbeziehen von Daten aus früheren PDI-Schritten durch einen Datenstrom als Python Pandas-Datenrahmen aus einem Numpy-Array in den Python Executor-Schritt für die DL-Verarbeitung;
  • Integration in die Hitachi Content Platform (HDFS, Local, S3, Google Storage usw.), mit der Sie unstrukturierte Datendateien in einen lokalen Bereich (z. B. einen „Data Lake“ und dergleichen) verschieben und dort ablegen können, wodurch die Speicher- und Verarbeitungskosten gesenkt werden DL.

Vorteile:

  • PDI unterstützt die am häufigsten verwendeten DL-Plattformen, dh Tensorflow, Keras, PyTorch und andere, die über eine Python-API verfügen, mit der Datenspezialisten in ihren bevorzugten Bibliotheken arbeiten können.
  • Mit PDI können Dateningenieure und Datenprofis bei der DL-Implementierung zusammenarbeiten.
  • Mit PDI können Sie die Fähigkeiten und Ressourcen von Datenfachleuten (d. H. Erstellen, Bewerten und Ausführen von DL-Modellen) und Dateningenieuren (Erstellen von Datenpipelines in PDI für die DL-Verarbeitung) effektiv verteilen.

Wie implementiert PDI Deep Learning?


Verwendete Komponenten:

  • Pentaho 8.2, PDI Python Executor-Schritt, Hitachi Content Platform (HCP) VFS
  • Python.org 2.7.x oder Python 3.5.x.
  • Tensorflow 1.10
  • Keras 2.2.0.

Eine Liste der Abhängigkeiten finden Sie im Pentaho 8.2 Python Executor-Schritt in der Pentaho-Onlinehilfe. Python Executor - Pentaho-Dokumentation .

Der Hauptprozess:

1. Wählen Sie im PDI-Schritt die HCP-VFS- Datei aus. Kopieren Sie unstrukturierte Datendateien und bereiten Sie sie für die Verwendung mit dem DL-Framework mit PDI Python Executor Step vor .

Bild

Weitere Informationen:
https://help.pentaho.com/Documentation/8.2/Products/Data_Integration/Data_Integration_Perspective/Virtual_File_System


2. Verwenden Sie eine neue Transformation, die Workflows für die Verarbeitung des DL-Frameworks und zugehöriger Datasets und mehr implementiert. Geben Sie Hyperparameter (Werte zum Konfigurieren und Ausführen von Modellen) ein, um das effizienteste Modell zu bewerten. Im Folgenden finden Sie ein Beispiel, das vier DL-Framework-Workflows mit dem Python Executor-Schritt implementiert, drei mit Tensorflow und einer mit Keras.

Bild

Bild

3. Wenn Sie sich auf den Tensorflow DNN Classifier-Workflow konzentrieren (der die Implementierung von Hyperparametern implementiert), verwenden Sie den PDI- Datenrasterschritt, dh den Namen Injected Hyperparameters , mit Werten, die den Python Script Executor- Schritten entsprechen.

Bild

4. Verwenden Sie im Schritt Python Script Executor Pandas DF und implementieren Sie die eingegebenen Hyperparameter und Werte als Variablen auf der Registerkarte Eingabe .

Bild

5. Führen Sie das dem DL zugeordnete Python- Skript aus (entweder mit „Einbetten“ oder mit „Link aus Datei“) und verwenden Sie den Link zum DL-Framework und die eingegebenen Hyperparameter. Darüber hinaus können Sie festlegen, dass sich der Pfad für die virtuelle Python-Umgebung vom Standardpfad unterscheidet.

Bild

6. Stellen Sie sicher, dass TensorFlow installiert, konfiguriert und korrekt in die Python-Shell importiert wurde.

Bild

7. Kehren Sie zum Python Executor-Schritt zurück , klicken Sie auf die Registerkarte Ausgabe und dann auf die Schaltfläche Felder abrufen. PDI überprüft die Skriptdatei vorab auf Fehler, Ausgabe und andere Parameter.

Bild

8. Damit sind die Einstellungen zum Starten der Konvertierung abgeschlossen.

Hitachi Vantara bietet eine proprietäre GPU-Lösung zur Beschleunigung des Deep Learning


DL-Frameworks können die Leistung erheblich verbessern, wenn eine GPU anstelle eines Zentralprozessors verwendet wird. Daher unterstützen die meisten DL-Frameworks einige Arten von GPUs. Im Jahr 2018 entwickelte und lieferte Hitachi Vantara einen fortschrittlichen DS225-Server mit NVIDIA Tesla V100-GPUs. Dies ist der erste Hitachi Vantara-Grafikserver, der speziell für die DL-Implementierung entwickelt wurde.

Bild

Weitere Informationen zu diesem Angebot finden Sie auf der Hitachi Vantara-Website .

Warum sollten Unternehmen PDI und Python für tiefes Lernen verwenden?


  • Intuitive Drag & Drop-Tools: PDI vereinfacht die Implementierung und Ausführung von DL-Frameworks mithilfe einer grafischen Entwicklungsumgebung für Pipelines und DL-bezogene Workflows.
  • Produktive Zusammenarbeit: Datenverarbeitungsingenieure und Datenspezialisten können an einem gemeinsamen Workflow arbeiten und ihre Fähigkeiten und ihre Zeit effektiv nutzen.
  • Effiziente Zuweisung wertvoller Ressourcen: Ein Dateningenieur kann mithilfe von PDI Workflows erstellen, unstrukturierte Datendateien von / nach HCP verschieben und erstellen sowie eingegebene Hyperparameter konfigurieren, um ein Python-Skript vorzubereiten, das von einem Experten für analytische Daten empfangen wurde.
  • Best-in-Class-GPU-Verarbeitung: Hitachi Vantara bietet den DS225 Advanced-Server mit NVIDIA Tesla V100-GPUs an, mit denen DL-Frameworks die GPU-Leistung nutzen können.

Source: https://habr.com/ru/post/de439418/


All Articles