Hola Habr! Les presento la traducción del
artículo "Pentaho Data Integration (PDI), Python y Deep Learning" .
Deep Learning (DL): ¿por qué hay tanto ruido a su alrededor?
Según Zion Market Research, el mercado de aprendizaje profundo (DL) aumentará de $ 2.3 mil millones en 2017 a más de $ 23.6 mil millones para 2024. Con una tasa de crecimiento anual promedio de casi el 40% anual, DL se ha convertido en una de las áreas más populares
para que los expertos en análisis creen modelos. . Antes de pasar a la pregunta de cómo Pentaho puede ayudar a implementar los modelos DL de su organización en un entorno de producto, demos un paso atrás y veamos por qué DL es una tecnología tan innovadora. A continuación hay información general sobre esto:


- Utiliza redes neuronales artificiales que tienen varias capas ocultas que pueden realizar un reconocimiento preciso de imágenes, detección de objetos / visión por computadora, procesamiento de flujo de video, procesamiento de lenguaje natural y mucho más. Las mejoras en las capacidades de DL propuestas y en la potencia informática, como GPU, almacenamiento en la nube, han acelerado significativamente el crecimiento ya activo de DL en los últimos años;
- Al tratar de simular la actividad del cerebro humano a través de capas de neuronas, DL aprende a reconocer patrones en representaciones digitales de sonidos, transmisiones de video, imágenes y otros datos;
- Reduce la necesidad de diseñar objetos antes de lanzar el modelo mediante el uso de varias capas ocultas, realizando la extracción de objetos sobre la marcha mientras el modelo se está ejecutando;
- Aumenta la productividad y la precisión en comparación con los algoritmos tradicionales de aprendizaje automático gracias a los marcos actualizados, la presencia de conjuntos de datos muy voluminosos (es decir, grandes datos) y un salto significativo en el crecimiento de la potencia informática, como los procesadores gráficos, etc.
- Proporciona entornos de desarrollo, entornos y bibliotecas, como Tensorflow, Keras, Caffe, PyTorch y otros que hacen que DL sea más accesible para los expertos en análisis.
¿Por qué usar PDI para desarrollar e implementar modelos de aprendizaje profundo usando Python?
Hoy, los científicos de datos y los ingenieros de datos colaboran en cientos de proyectos de ciencia de datos creados en PDI. Gracias a Pentaho, pudieron transferir modelos sofisticados de ciencia de datos al entorno de producción a un costo menor que las herramientas tradicionales de preparación de datos. Nos complace anunciar que Pentaho ahora puede llevar esta facilidad de uso a los marcos DL, lo que promueve el objetivo de Hitachi Vantara de permitir a las organizaciones innovar con todos sus datos. Con el PDI y el nuevo Python Executor Step, Pentaho puede hacer lo siguiente:
- Integración con marcos populares de DL durante la fase de transformación, ampliando las capacidades de ciencia de datos existentes de Pentaho;
- Implementación simple de archivos de secuencia de comandos DL Python recibidos de especialistas en datos como parte del nuevo Paso Ejecutor PDI Python;
- Lanzar el modelo DL en cualquier equipo de CPU / GPU, lo que permite a las organizaciones utilizar la aceleración GPU para mejorar el rendimiento de sus modelos DL;
- Inclusión de datos de pasos PDI anteriores a través de un flujo de datos en forma de un marco de datos de Python Pandas de una matriz Numpy en el Paso de Python Executor para el procesamiento de DL;
- Integración con Hitachi Content Platform (HDFS, Local, S3, Google Storage, etc.), que le permite mover y colocar archivos de datos no estructurados en un área local (por ejemplo, un "lago de datos" y similares), reduciendo así los costos de almacenamiento y procesamiento DL.
Beneficios:
- PDI admite las plataformas DL más utilizadas, es decir, Tensorflow, Keras, PyTorch y otras que tienen una API Python, que permite a los especialistas en datos trabajar en sus bibliotecas favoritas;
- PDI permite a los ingenieros de datos y profesionales de datos colaborar en la implementación de DL;
- PDI le permite distribuir eficazmente las habilidades y recursos de especialistas en datos (es decir, crear, evaluar y ejecutar modelos DL) e ingenieros de datos (crear tuberías de datos en PDI para el procesamiento DL).
¿Cómo implementa PDI el aprendizaje profundo?
Componentes utilizados:
- Pentaho 8.2, PDI Python Executor Step, Plataforma de contenido Hitachi (HCP) VFS
- Python.org 2.7.xo Python 3.5.x
- Tensorflow 1.10
- Keras 2.2.0.
Consulte el
Paso del ejecutor de Python Pentaho 8.2 en la ayuda en línea de Pentaho para obtener una lista de dependencias.
Python Executor - Documentación de Pentaho .
El proceso principal:
1. Seleccione el archivo
HCP VFS en el Paso PDI. Copie y prepare archivos de datos no estructurados para usar con el marco DL utilizando PDI
Python Executor Step .

Informacion adicional:
https://help.pentaho.com/Documentation/8.2/Products/Data_Integration/Data_Integration_Perspective/Virtual_File_System
2. Utilice una nueva transformación que implementará flujos de trabajo para procesar el marco DL y los conjuntos de datos relacionados y más. Ingrese hiperparámetros (valores utilizados para configurar y ejecutar modelos) para evaluar el modelo más eficiente. A continuación se muestra un ejemplo que implementa cuatro flujos de trabajo de marco DL, tres con Tensorflow y uno con Keras, con el paso de Python Executor.


3. Centrándose en el
flujo de trabajo del clasificador DNN Tensorflow (que implementa la implementación de hiperparámetros), utilice el
paso de cuadrícula de datos PDI, es decir, con el nombre
Hiperparámetros inyectados , con valores correspondientes a los pasos de
Python Script Executor .

4. En el paso
Python Script Executor , use Pandas DF e implemente los hiperparámetros y valores ingresados como variables en la pestaña
Entrada .

5. Ejecute el script
Python asociado con el DL (ya sea usando "Incrustar" o usando "Enlace desde archivo") y usando el enlace al marco DL y los hiperparámetros ingresados. Además, puede establecer que la ruta para el entorno virtual de Python sea diferente de la predeterminada.

6. Verifique que TensorFlow esté instalado, configurado e importado correctamente en el shell de Python.

7. Volviendo al
paso de Python Executor , haga clic en la pestaña
Salida y luego haga clic en el botón Obtener campos. PDI verificará previamente el archivo de secuencia de comandos para verificar errores, resultados y otros parámetros.

8. Esto completa la configuración para comenzar la conversión.
Hitachi Vantara ofrece una solución de GPU patentada para acelerar el aprendizaje profundo
Los marcos DL pueden beneficiarse significativamente en el rendimiento cuando se usa una GPU en lugar de un procesador central; por lo tanto, la mayoría de los marcos DL admiten algunos tipos de GPU. En 2018, Hitachi Vantara desarrolló y entregó un servidor DS225 avanzado con GPU NVIDIA Tesla V100. Este es el primer servidor de gráficos Hitachi Vantara diseñado específicamente para la implementación de DL.

Puede encontrar más información sobre esta oferta en el
sitio web de Hitachi Vantara .
¿Por qué las organizaciones deberían usar PDI y Python para el aprendizaje profundo?
- Herramientas intuitivas de arrastrar y soltar: PDI simplifica la implementación y ejecución de marcos DL utilizando un entorno de desarrollo gráfico para tuberías y flujos de trabajo relacionados con DL;
- Colaboración productiva: los ingenieros de procesamiento de datos y los especialistas en datos pueden trabajar en un flujo de trabajo común y utilizar eficazmente sus habilidades y tiempo;
- Asignación eficiente de recursos valiosos: un ingeniero de datos puede usar PDI para crear flujos de trabajo, mover y crear archivos de datos no estructurados desde / a HCP, y para configurar hiperparámetros ingresados en preparación para un script Python recibido de un experto en datos analíticos;
- El mejor procesamiento de GPU en su clase: Hitachi Vantara ofrece el servidor DS225 Advanced con GPU NVIDIA Tesla V100 que permiten que los marcos DL aprovechen el rendimiento de la GPU.