Pentaho Data Integration (PDI), Python e Deep Learning

Olá Habr! Apresento a você a tradução do artigo “Pentaho Data Integration (PDI), Python e Deep Learning” .

Deep Learning (DL) - por que há tanto barulho ao seu redor?


De acordo com a Zion Market Research, o mercado de aprendizado profundo (DL) aumentará de US $ 2,3 bilhões em 2017 para mais de US $ 23,6 bilhões até 2024. Com uma taxa média de crescimento anual de quase 40% ao ano, a DL se tornou uma das áreas mais quentes para os especialistas em análise criarem modelos. . Antes de abordar a questão de como o Pentaho pode ajudar a implementar os modelos de DL da sua organização em um ambiente de produto, vamos dar um passo atrás e ver por que o DL é uma tecnologia tão inovadora. Abaixo estão algumas informações gerais sobre isso:

imagem

imagem

  • Utiliza redes neurais artificiais que possuem várias camadas ocultas que podem executar reconhecimento preciso de imagens, detecção de objetos / visão computacional, processamento de fluxo de vídeo, processamento de linguagem natural e muito mais. Melhorias nos recursos de DL propostos e no poder da computação, como GPUs, armazenamento em nuvem, aceleraram significativamente o crescimento já ativo da DL nos últimos anos;
  • Tentando simular a atividade do cérebro humano através de camadas de neurônios, o DL aprende a reconhecer padrões nas representações digitais de sons, fluxos de vídeo, imagens e outros dados;
  • Reduz a necessidade de projetar objetos antes de iniciar o modelo usando várias camadas ocultas, realizando a extração de objetos em tempo real enquanto o modelo está em execução;
  • Aumenta a produtividade e a precisão em comparação com os algoritmos tradicionais de aprendizado de máquina, graças a estruturas atualizadas, a presença de matrizes de dados muito volumosas (ou seja, big data) e um salto significativo no crescimento do poder da computação, como processadores gráficos e assim por diante;
  • Fornece ambientes de desenvolvimento, ambientes e bibliotecas, como Tensorflow, Keras, Caffe, PyTorch e outros que tornam a DL mais acessível aos especialistas em análise.

Por que usar o PDI para desenvolver e implementar modelos de aprendizado profundo usando Python?


Hoje, cientistas e engenheiros de dados colaboram em centenas de projetos de ciência de dados criados na PDI. Graças à Pentaho, eles conseguiram transferir modelos sofisticados de ciência de dados para o ambiente de produção a um custo menor do que as ferramentas tradicionais de preparação de dados. Temos o prazer de anunciar que o Pentaho agora pode levar essa facilidade de uso às estruturas de DL, promovendo o objetivo da Hitachi Vantara de permitir que as organizações inovem com todos os seus dados. Com o PDI e o novo Python Executor Step, o Pentaho pode fazer o seguinte:

  • Integração com estruturas populares de DL durante a fase de transformação, expandindo os recursos existentes de ciência de dados da Pentaho;
  • Implementação simples de arquivos de script DL Python recebidos de especialistas em dados como parte da nova etapa do PDI Python Executor;
  • Lançamento do modelo de DL em qualquer equipamento de CPU / GPU, permitindo que as organizações usem a aceleração de GPU para melhorar o desempenho de seus modelos de DL;
  • Inclusão de dados das etapas anteriores da PDI por meio de um fluxo de dados na forma de um quadro de dados do Python Pandas a partir de uma matriz Numpy na Etapa do Executor do Python para processamento de DL;
  • Integração com a Hitachi Content Platform (HDFS, Local, S3, Google Storage etc.), que permite mover e colocar arquivos de dados não estruturados em uma área local (por exemplo, um “data lake” e similares), reduzindo assim os custos de armazenamento e processamento DL.

Benefícios:

  • O PDI suporta as plataformas DL mais usadas, ou seja, Tensorflow, Keras, PyTorch e outras que possuem uma API Python, que permite que especialistas em dados trabalhem em suas bibliotecas favoritas;
  • O PDI permite que engenheiros de dados e profissionais de dados colaborem na implementação de DL;
  • O PDI permite distribuir efetivamente as habilidades e recursos de especialistas em dados (por exemplo, criar, avaliar e executar modelos de DL) e engenheiros de dados (criar pipelines de dados no PDI para processamento de DL).

Como o PDI implementa a aprendizagem profunda?


Componentes Utilizados:

  • Pentaho 8.2, Etapa do executor PDI Python, VFS da Hitachi Content Platform (HCP)
  • Python.org 2.7.x ou Python 3.5.x
  • Tensorflow 1.10
  • Keras 2.2.0.

Veja a etapa do Pentaho 8.2 Python Executor na ajuda on-line do Pentaho para obter uma lista de dependências. Executor Python - Documentação Pentaho .

O processo principal:

1. Selecione o arquivo HCP VFS na etapa PDI. Copie e prepare arquivos de dados não estruturados para uso com a estrutura DL usando o PDI Python Executor Step .

imagem

Informações adicionais:
https://help.pentaho.com/Documentation/8.2/Products/Data_Integration/Data_Integration_Perspective/Virtual_File_System


2. Use uma nova transformação que implementará fluxos de trabalho para processar a estrutura de DL e conjuntos de dados relacionados e muito mais. Digite hiperparâmetros (valores usados ​​para configurar e executar modelos) para avaliar o modelo mais eficiente. Abaixo está um exemplo que implementa quatro fluxos de trabalho da estrutura DL, três usando o Tensorflow e um usando Keras, com a Etapa do Executor do Python.

imagem

imagem

3. Focalizando o fluxo de trabalho do Tensorflow DNN Classifier (que implementa a implementação de hiperparâmetros), use a PDI Data Grid Step , ou seja, com o nome Injected Hyperparameters , com valores correspondentes às etapas do Python Script Executor .

imagem

4. Na etapa Executor de scripts Python , use o Pandas DF e implemente os hiperparâmetros e valores inseridos como variáveis ​​na guia Entrada .

imagem

5. Execute o script Python associado ao DL (usando "Incorporar" ou "Vincular do arquivo") e usando o link para a estrutura do DL e os hiperparâmetros inseridos. Além disso, você pode definir o caminho para o ambiente virtual Python ser diferente do ambiente padrão.

imagem

6. Verifique se o TensorFlow está instalado, configurado e importado corretamente para o shell do Python.

imagem

7. Voltando à Etapa do Executor Python , clique na guia Saída e, em seguida, clique no botão Obter campos. O PDI verificará previamente o arquivo de script para verificar se há erros, saída e outros parâmetros.

imagem

8. Isso completa as configurações para iniciar a conversão.

Hitachi Vantara oferece solução proprietária de GPU para acelerar o aprendizado profundo


As estruturas de DL podem se beneficiar significativamente de desempenho quando executadas usando uma GPU em vez de um processador central; portanto, a maioria das estruturas de DL suporta algumas variedades de GPUs. Em 2018, a Hitachi Vantara desenvolveu e entregou um servidor DS225 avançado com GPUs NVIDIA Tesla V100. Este é o primeiro servidor gráfico Hitachi Vantara projetado especificamente para implementação de DL.

imagem

Mais informações sobre esta oferta podem ser encontradas no site da Hitachi Vantara .

Por que as organizações devem usar o PDI e o Python para aprendizado profundo?


  • Ferramentas intuitivas de arrastar e soltar: o PDI simplifica a implementação e execução de estruturas de DL usando um ambiente de desenvolvimento gráfico para pipelines e fluxos de trabalho relacionados a DL;
  • Colaboração produtiva: engenheiros de processamento de dados e especialistas em dados podem trabalhar em um fluxo de trabalho comum e usar efetivamente suas habilidades e tempo;
  • Alocação eficiente de recursos valiosos: um engenheiro de dados pode usar o PDI para criar fluxos de trabalho, mover e criar arquivos de dados não estruturados de / para o HCP e configurar os hiperparâmetros inseridos em preparação para um script Python recebido de um especialista em dados analíticos;
  • O melhor processamento de GPU da categoria: A Hitachi Vantara oferece o servidor DS225 Advanced com GPUs NVIDIA Tesla V100 que permitem que as estruturas de DL aproveitem o desempenho da GPU.

Source: https://habr.com/ru/post/pt439418/


All Articles