Olá Habr! Apresento a você a tradução do
artigo “Pentaho Data Integration (PDI), Python e Deep Learning” .
Deep Learning (DL) - por que há tanto barulho ao seu redor?
De acordo com a Zion Market Research, o mercado de aprendizado profundo (DL) aumentará de US $ 2,3 bilhões em 2017 para mais de US $ 23,6 bilhões até 2024. Com uma taxa média de crescimento anual de quase 40% ao ano, a DL se tornou uma das áreas mais quentes
para os especialistas em análise criarem modelos. . Antes de abordar a questão de como o Pentaho pode ajudar a implementar os modelos de DL da sua organização em um ambiente de produto, vamos dar um passo atrás e ver por que o DL é uma tecnologia tão inovadora. Abaixo estão algumas informações gerais sobre isso:


- Utiliza redes neurais artificiais que possuem várias camadas ocultas que podem executar reconhecimento preciso de imagens, detecção de objetos / visão computacional, processamento de fluxo de vídeo, processamento de linguagem natural e muito mais. Melhorias nos recursos de DL propostos e no poder da computação, como GPUs, armazenamento em nuvem, aceleraram significativamente o crescimento já ativo da DL nos últimos anos;
- Tentando simular a atividade do cérebro humano através de camadas de neurônios, o DL aprende a reconhecer padrões nas representações digitais de sons, fluxos de vídeo, imagens e outros dados;
- Reduz a necessidade de projetar objetos antes de iniciar o modelo usando várias camadas ocultas, realizando a extração de objetos em tempo real enquanto o modelo está em execução;
- Aumenta a produtividade e a precisão em comparação com os algoritmos tradicionais de aprendizado de máquina, graças a estruturas atualizadas, a presença de matrizes de dados muito volumosas (ou seja, big data) e um salto significativo no crescimento do poder da computação, como processadores gráficos e assim por diante;
- Fornece ambientes de desenvolvimento, ambientes e bibliotecas, como Tensorflow, Keras, Caffe, PyTorch e outros que tornam a DL mais acessível aos especialistas em análise.
Por que usar o PDI para desenvolver e implementar modelos de aprendizado profundo usando Python?
Hoje, cientistas e engenheiros de dados colaboram em centenas de projetos de ciência de dados criados na PDI. Graças à Pentaho, eles conseguiram transferir modelos sofisticados de ciência de dados para o ambiente de produção a um custo menor do que as ferramentas tradicionais de preparação de dados. Temos o prazer de anunciar que o Pentaho agora pode levar essa facilidade de uso às estruturas de DL, promovendo o objetivo da Hitachi Vantara de permitir que as organizações inovem com todos os seus dados. Com o PDI e o novo Python Executor Step, o Pentaho pode fazer o seguinte:
- Integração com estruturas populares de DL durante a fase de transformação, expandindo os recursos existentes de ciência de dados da Pentaho;
- Implementação simples de arquivos de script DL Python recebidos de especialistas em dados como parte da nova etapa do PDI Python Executor;
- Lançamento do modelo de DL em qualquer equipamento de CPU / GPU, permitindo que as organizações usem a aceleração de GPU para melhorar o desempenho de seus modelos de DL;
- Inclusão de dados das etapas anteriores da PDI por meio de um fluxo de dados na forma de um quadro de dados do Python Pandas a partir de uma matriz Numpy na Etapa do Executor do Python para processamento de DL;
- Integração com a Hitachi Content Platform (HDFS, Local, S3, Google Storage etc.), que permite mover e colocar arquivos de dados não estruturados em uma área local (por exemplo, um “data lake” e similares), reduzindo assim os custos de armazenamento e processamento DL.
Benefícios:
- O PDI suporta as plataformas DL mais usadas, ou seja, Tensorflow, Keras, PyTorch e outras que possuem uma API Python, que permite que especialistas em dados trabalhem em suas bibliotecas favoritas;
- O PDI permite que engenheiros de dados e profissionais de dados colaborem na implementação de DL;
- O PDI permite distribuir efetivamente as habilidades e recursos de especialistas em dados (por exemplo, criar, avaliar e executar modelos de DL) e engenheiros de dados (criar pipelines de dados no PDI para processamento de DL).
Como o PDI implementa a aprendizagem profunda?
Componentes Utilizados:
- Pentaho 8.2, Etapa do executor PDI Python, VFS da Hitachi Content Platform (HCP)
- Python.org 2.7.x ou Python 3.5.x
- Tensorflow 1.10
- Keras 2.2.0.
Veja a
etapa do Pentaho 8.2
Python Executor na ajuda on-line do Pentaho para obter uma lista de dependências.
Executor Python - Documentação Pentaho .
O processo principal:
1. Selecione o arquivo
HCP VFS na etapa PDI. Copie e prepare arquivos de dados não estruturados para uso com a estrutura DL usando o PDI
Python Executor Step .

Informações adicionais:
https://help.pentaho.com/Documentation/8.2/Products/Data_Integration/Data_Integration_Perspective/Virtual_File_System
2. Use uma nova transformação que implementará fluxos de trabalho para processar a estrutura de DL e conjuntos de dados relacionados e muito mais. Digite hiperparâmetros (valores usados para configurar e executar modelos) para avaliar o modelo mais eficiente. Abaixo está um exemplo que implementa quatro fluxos de trabalho da estrutura DL, três usando o Tensorflow e um usando Keras, com a Etapa do Executor do Python.


3. Focalizando o
fluxo de trabalho do
Tensorflow DNN Classifier (que implementa a implementação de hiperparâmetros), use a PDI
Data Grid Step , ou seja, com o nome
Injected Hyperparameters , com valores correspondentes às etapas do
Python Script Executor .

4. Na etapa
Executor de scripts Python , use o Pandas DF e implemente os hiperparâmetros e valores inseridos como variáveis na guia
Entrada .

5. Execute o script
Python associado ao DL (usando "Incorporar" ou "Vincular do arquivo") e usando o link para a estrutura do DL e os hiperparâmetros inseridos. Além disso, você pode definir o caminho para o ambiente virtual Python ser diferente do ambiente padrão.

6. Verifique se o TensorFlow está instalado, configurado e importado corretamente para o shell do Python.

7. Voltando à
Etapa do Executor Python , clique na guia
Saída e, em seguida, clique no botão Obter campos. O PDI verificará previamente o arquivo de script para verificar se há erros, saída e outros parâmetros.

8. Isso completa as configurações para iniciar a conversão.
Hitachi Vantara oferece solução proprietária de GPU para acelerar o aprendizado profundo
As estruturas de DL podem se beneficiar significativamente de desempenho quando executadas usando uma GPU em vez de um processador central; portanto, a maioria das estruturas de DL suporta algumas variedades de GPUs. Em 2018, a Hitachi Vantara desenvolveu e entregou um servidor DS225 avançado com GPUs NVIDIA Tesla V100. Este é o primeiro servidor gráfico Hitachi Vantara projetado especificamente para implementação de DL.

Mais informações sobre esta oferta podem ser encontradas no
site da
Hitachi Vantara .
Por que as organizações devem usar o PDI e o Python para aprendizado profundo?
- Ferramentas intuitivas de arrastar e soltar: o PDI simplifica a implementação e execução de estruturas de DL usando um ambiente de desenvolvimento gráfico para pipelines e fluxos de trabalho relacionados a DL;
- Colaboração produtiva: engenheiros de processamento de dados e especialistas em dados podem trabalhar em um fluxo de trabalho comum e usar efetivamente suas habilidades e tempo;
- Alocação eficiente de recursos valiosos: um engenheiro de dados pode usar o PDI para criar fluxos de trabalho, mover e criar arquivos de dados não estruturados de / para o HCP e configurar os hiperparâmetros inseridos em preparação para um script Python recebido de um especialista em dados analíticos;
- O melhor processamento de GPU da categoria: A Hitachi Vantara oferece o servidor DS225 Advanced com GPUs NVIDIA Tesla V100 que permitem que as estruturas de DL aproveitem o desempenho da GPU.