Integrasi Data Pentaho (PDI), Python dan Deep Learning

Halo, Habr! Saya sajikan kepada Anda terjemahan artikel “Integrasi Data Pentaho (PDI), Python, dan Pembelajaran Dalam” .

Deep Learning (DL) - mengapa ada begitu banyak kebisingan di sekitarnya?


Menurut Zion Market Research, pasar pembelajaran dalam (DL) akan meningkat dari $ 2,3 miliar pada 2017 menjadi lebih dari $ 23,6 miliar pada tahun 2024. Dengan tingkat pertumbuhan tahunan rata-rata hampir 40% setiap tahun, DL telah menjadi salah satu bidang terpanas bagi para ahli analisis untuk membuat model. . Sebelum beralih ke pertanyaan tentang bagaimana Pentaho dapat membantu menerapkan model DL organisasi Anda dalam lingkungan produk, mari kita mundur selangkah dan melihat mengapa DL adalah teknologi terobosan. Di bawah ini adalah beberapa informasi umum tentang ini:

gambar

gambar

  • Menggunakan jaringan saraf tiruan yang memiliki beberapa lapisan tersembunyi yang dapat melakukan pengenalan gambar yang akurat, visi komputer / deteksi objek, pemrosesan aliran video, pemrosesan bahasa alami, dan banyak lagi. Peningkatan dalam kemampuan DL yang diusulkan dan daya komputasi, seperti GPU, penyimpanan cloud, telah secara signifikan mempercepat pertumbuhan DL yang sudah aktif selama beberapa tahun terakhir;
  • Mencoba mensimulasikan aktivitas otak manusia melalui lapisan neuron, DL belajar mengenali pola dalam representasi digital suara, aliran video, gambar, dan data lainnya;
  • Mengurangi kebutuhan untuk mendesain objek sebelum meluncurkan model dengan menggunakan beberapa lapisan tersembunyi, melakukan ekstraksi objek dengan cepat saat model berjalan;
  • Meningkatkan produktivitas dan akurasi dibandingkan dengan algoritma pembelajaran mesin tradisional berkat kerangka kerja yang diperbarui, keberadaan array data yang sangat banyak (mis. Data besar) dan lompatan signifikan dalam pertumbuhan daya komputasi, seperti prosesor grafis dan sebagainya;
  • Menyediakan lingkungan pengembangan, lingkungan, dan perpustakaan, seperti Tensorflow, Keras, Caffe, PyTorch, dan lainnya yang membuat DL lebih mudah diakses oleh para ahli analisis.

Mengapa menggunakan PDI untuk mengembangkan dan mengimplementasikan model pembelajaran dalam menggunakan Python?


Saat ini, para ilmuwan data dan insinyur data berkolaborasi pada ratusan proyek ilmu data yang dibuat di PDI. Berkat Pentaho, mereka dapat mentransfer model ilmu data yang canggih ke lingkungan produksi dengan biaya lebih rendah daripada alat persiapan data tradisional. Kami senang mengumumkan bahwa Pentaho sekarang dapat membawa kemudahan penggunaan ini ke kerangka kerja DL, melanjutkan tujuan Hitachi Vantara yang memungkinkan organisasi untuk berinovasi dengan semua data mereka. Dengan PDI dan Langkah Pelaksana Python baru, Pentaho dapat melakukan hal berikut:

  • Integrasi dengan kerangka kerja DL populer selama fase transformasi, memperluas kemampuan ilmu data Pentaho yang ada;
  • Implementasi sederhana file skrip DL Python diterima dari spesialis data sebagai bagian dari Langkah Eksekusi PDI Python baru;
  • Meluncurkan model DL pada setiap peralatan CPU / GPU, memungkinkan organisasi untuk menggunakan akselerasi GPU untuk meningkatkan kinerja model DL mereka;
  • Penyertaan data dari langkah-langkah PDI sebelumnya melalui aliran data dalam bentuk bingkai data Python Pandas dari array Numpy di Langkah Eksekusi Python untuk pemrosesan DL;
  • Integrasi dengan Platform Konten Hitachi (HDFS, Lokal, S3, Google Storage, dll.), Memungkinkan Anda untuk memindahkan dan menempatkan file data yang tidak terstruktur di area lokal (misalnya, "danau data" dan sejenisnya), sehingga mengurangi biaya penyimpanan dan pemrosesan DL.

Manfaat:

  • PDI mendukung platform DL yang paling banyak digunakan, yaitu, Tensorflow, Keras, PyTorch dan lainnya yang memiliki API Python, yang memungkinkan spesialis data untuk bekerja di perpustakaan favorit mereka;
  • PDI memungkinkan para insinyur data dan profesional data untuk berkolaborasi dalam implementasi DL;
  • PDI memungkinkan Anda untuk mendistribusikan keterampilan dan sumber daya spesialis data secara efektif (mis., Membuat, mengevaluasi, dan menjalankan model DL) dan insinyur data (membuat saluran pipa data di PDI untuk pemrosesan DL).

Bagaimana PDI menerapkan pembelajaran yang mendalam?


Komponen yang Digunakan:

  • Pentaho 8.2, Langkah Eksekusi PDI Python, Platform Konten Hitachi (HCP) VFS
  • Python.org 2.7.x atau Python 3.5.x
  • Tensorflow 1.10
  • Keras 2.2.0.

Lihat Langkah Pentaho 8.2 Python Executor di bantuan online Pentaho untuk daftar dependensi. Pelaksana Python - Dokumentasi Pentaho .

Proses utama:

1. Pilih file HCP VFS di Langkah PDI. Menyalin dan menyiapkan file data yang tidak terstruktur untuk digunakan dengan kerangka kerja DL menggunakan Langkah Eksekusi PDI Python .

gambar

Informasi tambahan:
https://help.pentaho.com/Documentation/8.2/Products/Data_Integration/Data_Integration_Perspective/Virtual_File_System


2. Gunakan transformasi baru yang akan menerapkan alur kerja untuk memproses kerangka kerja DL dan dataset terkait dan banyak lagi. Masukkan hyperparameters (nilai yang digunakan untuk mengkonfigurasi dan menjalankan model) untuk mengevaluasi model yang paling efisien. Di bawah ini adalah contoh yang mengimplementasikan empat alur kerja kerangka kerja DL, tiga menggunakan Tensorflow dan satu menggunakan Keras, dengan Langkah Python Executor.

gambar

gambar

3. Berfokus pada alur kerja Tensorflow DNN Classifier (yang mengimplementasikan implementasi hyperparameters), gunakan Langkah Grid Data PDI, yaitu, dengan nama Hyperparameters Suntikan , dengan nilai yang sesuai dengan langkah-langkah Eksekusior Python Script Script .

gambar

4. Pada langkah Python Script Executor , gunakan Pandas DF dan terapkan hiperparameter dan nilai yang dimasukkan sebagai variabel pada tab Input .

gambar

5. Jalankan skrip Python yang terkait dengan DL (baik menggunakan "Sematkan" atau menggunakan "Tautan dari file") dan gunakan tautan ke kerangka DL dan masukkan hyperparameters. Selain itu, Anda dapat mengatur jalur untuk lingkungan virtual Python agar berbeda dari yang default.

gambar

6. Pastikan TensorFlow diinstal, dikonfigurasikan, dan diimpor dengan benar ke shell Python.

gambar

7. Kembali ke Langkah Python Executor , klik tab Output , lalu klik tombol Get Fields. PDI akan melakukan pra-periksa file skrip untuk memeriksa kesalahan, output, dan parameter lainnya.

gambar

8. Ini melengkapi pengaturan untuk memulai konversi.

Hitachi Vantara menawarkan solusi GPU eksklusif untuk mempercepat pembelajaran yang mendalam


Kerangka kerja DL dapat secara signifikan mendapat manfaat dalam kinerja saat menggunakan GPU daripada prosesor sentral, oleh karena itu, sebagian besar kerangka kerja DL mendukung beberapa jenis GPU. Pada tahun 2018, Hitachi Vantara mengembangkan dan mengirimkan server DS225 canggih dengan GPU NVIDIA Tesla V100. Ini adalah server grafis Hitachi Vantara pertama yang dirancang khusus untuk implementasi DL.

gambar

Informasi lebih lanjut tentang penawaran ini dapat ditemukan di situs web Hitachi Vantara .

Mengapa organisasi harus menggunakan PDI dan Python untuk pembelajaran yang mendalam?


  • Alat drag and drop yang intuitif: PDI menyederhanakan implementasi dan pelaksanaan kerangka kerja DL menggunakan lingkungan pengembangan grafis untuk jalur pipa dan alur kerja terkait-DL;
  • Kolaborasi yang produktif: insinyur pemrosesan data dan spesialis data dapat bekerja pada alur kerja bersama dan secara efektif menggunakan keterampilan dan waktu mereka;
  • Alokasi sumber daya berharga yang efisien: seorang insinyur data dapat menggunakan PDI untuk membuat alur kerja, memindahkan dan membuat file data yang tidak terstruktur dari / ke HCP, dan untuk mengkonfigurasi hyperparameter yang dimasukkan dalam persiapan untuk skrip Python yang diterima dari pakar data analitik;
  • Pemrosesan GPU terbaik di kelasnya: Hitachi Vantara menawarkan server DS225 Advanced dengan GPU NVIDIA Tesla V100 yang memungkinkan kerangka kerja DL untuk memanfaatkan kinerja GPU.

Source: https://habr.com/ru/post/id439418/


All Articles