驴C贸mo mover, cargar e integrar datos muy grandes de forma econ贸mica y r谩pida? 驴Qu茅 es la optimizaci贸n pushdown?

Cualquier operaci贸n con big data requiere mucha potencia inform谩tica. Un movimiento t铆pico de datos de una base de datos a Hadoop puede llevar semanas o costar tanto como un ala de avi贸n. 驴No quieres esperar y derrochar? Equilibre la carga en diferentes plataformas. Una forma es la optimizaci贸n pushdown.


Le ped铆 a Alexei Ananyev, un entrenador ruso l铆der para el desarrollo y administraci贸n de productos de Informatica, que hablara sobre la funci贸n de optimizaci贸n de pushdown en Informatica Big Data Management (BDM). 驴Alguna vez aprendi贸 a trabajar con productos de Informatica? Lo m谩s probable es que fue Alex quien le cont贸 los conceptos b谩sicos de PowerCenter y le explic贸 c贸mo crear asignaciones.


Alexey Ananiev, jefe de formaci贸n en DIS Group


驴Qu茅 es el pushdown?


Muchos de ustedes ya est谩n familiarizados con Informatica Big Data Management (BDM). El producto puede integrar big data de diferentes fuentes, moverlo entre diferentes sistemas, proporciona un acceso f谩cil a ellos, le permite perfilarlos y mucho m谩s.
En manos h谩biles, BDM puede hacer maravillas: las tareas se completar谩n r谩pidamente y con recursos inform谩ticos m铆nimos.


驴T煤 tambi茅n lo quieres? Aprenda a usar la funci贸n pushdown en BDM para distribuir la carga inform谩tica en las plataformas. La tecnolog铆a Pushdown le permite convertir la asignaci贸n en un script y elegir el entorno en el que se ejecutar谩 este script. La posibilidad de tal elecci贸n le permite combinar las fortalezas de diferentes plataformas y lograr su m谩ximo rendimiento.


Para configurar el tiempo de ejecuci贸n del script, seleccione el tipo pushdown. El script puede ejecutarse completamente en Hadoop o distribuirse parcialmente entre la fuente y el receptor. Hay 4 tipos posibles de pushdown. La asignaci贸n no se puede convertir en un script (nativo). La asignaci贸n se puede realizar tanto como sea posible en la fuente (fuente) o completamente en la fuente (completa). La asignaci贸n tambi茅n se puede convertir en un script Hadoop (ninguno).


Optimizaci贸n de pushdown


Los 4 tipos enumerados se pueden combinar de diferentes maneras: optimice el pushdown para las necesidades espec铆ficas del sistema. Por ejemplo, a menudo es m谩s recomendable extraer datos de una base de datos utilizando sus propias capacidades. Y para transformar los datos, por Hadoop, para que la base de datos en s铆 no se sobrecargue.


Veamos el caso cuando tanto el origen como el receptor est谩n en la base de datos, y se puede seleccionar la plataforma de ejecuci贸n de transformaci贸n: dependiendo de la configuraci贸n, ser谩 Informatica, un servidor de base de datos o Hadoop. Tal ejemplo permitir谩 comprender con mayor precisi贸n el lado t茅cnico de este mecanismo. Naturalmente, en la vida real, esta situaci贸n no surge, pero es m谩s adecuada para demostrar la funcionalidad.


Tome la asignaci贸n para leer dos tablas en una sola base de datos Oracle. Y deje que los resultados de lectura se escriban en una tabla en la misma base de datos. El esquema de mapeo ser谩 el siguiente:


imagen


En forma de mapeo en Informatica BDM 10.2.1, se ve as铆:


imagen


Tipo pushdown - nativo


Si seleccionamos el tipo nativo pushdown, la asignaci贸n se realizar谩 en el servidor de Informatica. Los datos se leer谩n desde el servidor Oracle, se transferir谩n al servidor de Informatica, se transformar谩n all铆 y se transferir谩n a Hadoop. En otras palabras, obtenemos un proceso regular de ETL.


Tipo pushdown - fuente


Al elegir el tipo de fuente, tenemos la oportunidad de distribuir nuestro proceso entre el servidor de base de datos (DB) y Hadoop. Al ejecutar un proceso con esta configuraci贸n, las solicitudes para seleccionar datos de las tablas volar谩n a la base de datos. Y el resto se har谩 en forma de pasos en Hadoop.
El esquema de ejecuci贸n se ver谩 as铆:


imagen


A continuaci贸n se muestra un ejemplo de configuraci贸n del tiempo de ejecuci贸n.


imagen


En este caso, el mapeo se realizar谩 en dos pasos. En su configuraci贸n, veremos que se convirti贸 en un script que se enviar谩 a la fuente. Adem谩s, la combinaci贸n de tablas y conversi贸n de datos se realizar谩 en forma de una consulta anulada en la fuente.
En la imagen a continuaci贸n, vemos un mapeo optimizado en BDM y en la fuente, una solicitud anulada.


imagen


El papel de Hadoop en esta configuraci贸n se reduce a administrar el flujo de datos, llevarlo a cabo. El resultado de la solicitud se enviar谩 a Hadoop. Despu茅s de leer, el archivo de Hadoop se escribir谩 en el receptor.


Tipo pushdown - completo


Al elegir el tipo completo, la asignaci贸n se convertir谩 completamente en una solicitud de base de datos. Y el resultado de la consulta se dirigir谩 a Hadoop. A continuaci贸n se presenta un diagrama de dicho proceso.


imagen


Un ejemplo de configuraci贸n se muestra a continuaci贸n.


imagen


Como resultado, obtenemos un mapeo optimizado similar al anterior. La 煤nica diferencia es que toda la l贸gica se transfiere al receptor en forma de anulaci贸n de su inserci贸n. A continuaci贸n se presenta un ejemplo de mapeo optimizado.


imagen


Aqu铆, como en el caso anterior, Hadoop act煤a como conductor. Pero aqu铆 la fuente se lee en su totalidad, y luego, a nivel del receptor, se ejecuta la l贸gica de procesamiento de datos.


Tipo pushdown - nulo


Bueno, la 煤ltima opci贸n es el tipo pushdown, dentro del cual nuestra asignaci贸n se convertir谩 en un script de Hadoop.


El mapeo optimizado ahora se ver谩 as铆:


imagen


Aqu铆, los datos de los archivos de origen se leer谩n primero en Hadoop. Luego, por sus propios medios, estos dos archivos se combinar谩n. Despu茅s de eso, los datos se convertir谩n y cargar谩n en la base de datos.


Al comprender los principios de la optimizaci贸n pushdown, puede organizar de manera muy efectiva muchos procesos para trabajar con big data. Entonces, recientemente, una gran empresa en solo unas pocas semanas carg贸 grandes datos desde el almacenamiento a Hadoop, que hab铆a estado recopilando durante varios a帽os antes.

Source: https://habr.com/ru/post/445240/


All Articles