👩🏻‍💻 🐥 🏊 La vuelta al mundo en 4 segundos en Columnstore (Parte 1) 👩🏽‍🔧 🤰🏾 👨🏻‍⚖️

En este artículo, voy a considerar aumentar la velocidad de los informes. Por informe, me refiero a cualquier consulta a una base de datos que utiliza funciones agregadas. Además, voy a tocar temas relacionados con los recursos gastados en la producción y el soporte de informes, tanto humanos como mecánicos.

En los ejemplos, usaré un conjunto de datos que contiene 52,608,000 registros.

Utilizando el ejemplo de reservas analíticas no difíciles, demostraré que incluso una computadora débil puede convertirse en una buena herramienta para analizar una cantidad de datos “decente” sin mucho esfuerzo.

Después de configurar experimentos no complicados, veremos que una tabla regular no es una fuente adecuada para consultas analíticas.

Si el lector puede descifrar fácilmente las abreviaturas OLTP y OLAP, puede tener sentido ir directamente a la sección Columnstore

Dos enfoques para trabajar con datos

Aquí voy a ser breve, porque Hay más que suficiente información sobre este tema en Internet.

Entonces, en el nivel más alto, solo hay dos enfoques para trabajar con datos: OLTP y OLAP.

OLTP: se puede traducir como procesamiento de transacciones instantáneas. De hecho, estamos hablando del procesamiento en línea de transacciones cortas que funcionan con una pequeña cantidad de datos. Por ejemplo, grabar, actualizar o eliminar un pedido. En la gran mayoría de los casos, un pedido es una cantidad extremadamente pequeña de datos, durante el procesamiento del cual no puede temer los largos bloqueos impuestos por el RDBMS moderno.

OLAP: se puede traducir como procesamiento analítico de una gran cantidad de transacciones a la vez. Cualquier informe utiliza este enfoque particular, porque en la gran mayoría de los casos, el informe produce cifras resumidas y agregadas para ciertas secciones.

Cada enfoque tiene su propia tecnología. Por ejemplo, para OLTP es PostgreSQL, y para OLAP es Microsoft SQL Server Analysis Services. Si bien PostgresSQL utiliza un formato conocido para almacenar datos en tablas, se inventaron varios formatos diferentes para OLAP. Estas son tablas multidimensionales, cubos llenos de pares clave-valor y mi almacén de columnas favorito. Sobre este último con más detalle a continuación.

¿Por qué se necesitan dos enfoques?

Se observó que cualquier almacén de datos tarde o temprano enfrenta dos tipos de carga: lectura frecuente (escritura y actualización, por supuesto, también) de cantidades extremadamente pequeñas de datos y lectura rara, pero cantidades muy grandes de datos. De hecho, esta es una actividad, por ejemplo, de la taquilla y el jefe. La caja, que funciona todo el día, llena el almacenamiento con pequeños fragmentos de datos, mientras que al final del día el volumen acumulado, si el negocio va bien, alcanza un tamaño impresionante. A su vez, el gerente al final del día quiere saber cuánto dinero gana la taquilla por día.

Entonces, en OLTP tenemos tablas e índices. Estas dos herramientas son excelentes para registrar la actividad de taquilla con todos los detalles. Los índices proporcionan una búsqueda rápida de un pedido previamente registrado, por lo que cambiar un pedido es fácil. Pero para satisfacer las necesidades del líder, debemos considerar la cantidad total de datos acumulados por día. Además, como regla general, el gerente no necesita todos los detalles de todos los pedidos. Lo que realmente necesita saber es cuánto dinero ganó la taquilla en general. No importa dónde estaba la taquilla, cuándo había un descanso para almorzar, quién trabajaba para ello, etc. OLAP existe entonces, de modo que en un corto período de tiempo el sistema puede responder la pregunta: cuánto ha ganado la compañía en su conjunto sin una lectura secuencial de cada pedido y todos sus detalles. ¿Puede OLAP usar las mismas tablas e índices que OLTP? La respuesta es no, al menos no debería. En primer lugar, porque OLAP simplemente no necesita todos los detalles registrados en las tablas. Este problema se resuelve almacenando datos en otros formatos que no sean tablas bidimensionales. En segundo lugar, la información analizada a menudo se encuentra dispersa en diferentes tablas, lo que implica sus múltiples asociaciones, incluidas las asociaciones del tipo autounión. Para resolver este problema, como regla general, desarrollan un esquema de base de datos especial. Este esquema está optimizado para la carga OLAP, así como el esquema normalizado normal para la carga OLTP.

¿Qué sucede cuando OLAP usa un esquema OLTP?

De hecho, presenté esta sección para que este artículo cumpla claramente mis propios requisitos para el formato de dicho material, es decir. problema, solución, conclusión.

Enumeramos una serie de desventajas del uso de esquemas OLTP para el análisis de datos.

Demasiados índices

A menudo, debe crear índices especiales para admitir informes. Estos índices implementan un esquema de almacenamiento de datos OLAP. No son utilizados por la parte OLTP de la aplicación, mientras ejercen una carga sobre ella, lo que requiere soporte constante y ocupa espacio en disco.
La cantidad de datos leídos excede la requerida.
Falta de un esquema de datos claro.

El hecho es que a menudo la información presentada por los informes en un solo formulario se distribuye en diferentes tablas. Dicha información requiere una transformación constante sobre la marcha. El ejemplo más simple es la cantidad de ingresos, que consiste en dinero en efectivo y no en efectivo. Otro ejemplo sorprendente son las jerarquías de datos. Porque El desarrollo de aplicaciones es progresivo y no siempre se sabe lo que se necesitará en el futuro, la misma jerarquía de significado se puede almacenar en diferentes tablas. Y aunque la adquisición sobre la marcha se usa activamente en OLAP, estas son cosas ligeramente diferentes.
Excesiva complejidad de consultas.

Porque Un esquema OLTP difiere de un OLAP. Se necesita una capa de software fuertemente relacionada que lleve el esquema de datos OLTP a la forma correcta.
Complejidad de soporte, depuración y desarrollo.

En general, podemos decir que cuanto más complejo es el código base, más difícil es mantenerlo en buen estado. Este es un axioma.
La complejidad de la cobertura de prueba.

Muchas copias se rompen debido a discusiones sobre cómo obtener una base de datos llena de todos los scripts de prueba, pero es mejor decir que tener un esquema de datos más simple la tarea de cubrir con pruebas se simplifica muchas veces.
Depuración de rendimiento sin fin.

Existe una alta probabilidad de que el usuario solicite un informe que sea "pesado" para el servidor de la base de datos. Esta probabilidad aumenta con el tiempo. Cabe señalar que OLAP también es propenso a este problema, pero a diferencia de OLTP, el recurso OLAP en este asunto es mucho mayor.

Almacén de columnas

Este artículo se centrará en el formato de almacenamiento del almacén de columnas, pero sin detalles de bajo nivel. Otros formatos mencionados anteriormente también merecen atención, pero este es un tema para otro artículo.

En realidad, el formato del almacén de columnas se conoce desde hace 30 años, pero no se implementó en el RDBMS hasta hace poco. La esencia del almacén de columnas es que los datos se almacenan no en filas, sino en columnas. Es decir en una página (todos conocidos de 8 Kb) el servidor registra datos de un solo campo. Y así con cada campo en la tabla a su vez. Esto es necesario para que no tenga que leer información adicional. Imaginemos una tabla con 10 campos y una consulta que solo tiene un campo especificado en la instrucción SELECT. Si se tratara de una tabla normal guardada en un formato basado en filas, el servidor se vería obligado a leer los 10 campos, pero al mismo tiempo devolvería solo uno. Resultó que el servidor leyó 9 veces más información de la necesaria. Columnstore resuelve completamente este problema, porque El formato de almacenamiento le permite leer solo un campo ordenado. Todo esto sucede porque la unidad de almacenamiento en un RDBMS es una página. Es decir el servidor siempre escribe y lee al menos una página. La única pregunta es cuántos campos están presentes en él.

Cómo Columnstore realmente puede ayudar

Para responder a esto uno debe tener números exactos. Vamos por ellos. Pero, ¿qué números pueden dar una imagen precisa?

La cantidad de espacio en disco.
Consulta de rendimiento.
Tolerancia a fallas.
Facilidad de implementación.
¿Qué nuevas habilidades debe tener un desarrollador para trabajar con nuevas estructuras?

Espacio en disco

Creemos una tabla simple, complétela con datos y verifiquemos cuánto espacio ocupa.

create foreign table cstore_table ( trd date, org int, op int, it int, wh int, m1 numeric(32, 2), m2 numeric(32, 2), m3 numeric(32, 2), m4 numeric(32, 2), m5 numeric(32, 2) ) server cstore_server options(compression 'pglz');

Como notaron, creé una tabla externa. El hecho es que PostgreSQL no tiene soporte de almacén de columnas incorporado. Pero PostgreSQL tiene un poderoso sistema para extensiones. Uno de ellos hace posible crear tablas de almacén de columnas. Enlaces al final del artículo.

pglz: le dice a la extensión que los datos deben comprimirse utilizando el algoritmo incorporado en PostgreSQL;
trd - tiempo de transacción;
op, it, wh - secciones analíticas o medidas;
m1, m2, m3, m4, m5 - indicadores numéricos o medidas;

Insertemos una cantidad "decente" de datos y veamos cuánto espacio ocupa en el disco. Al mismo tiempo, verificamos el rendimiento del inserto. Porque Puse mis experimentos en una computadora portátil hogareña, soy un poco orgánico en la cantidad de datos. Además, lo cual es incluso bueno, usaré el HDD con el sistema operativo invitado Fedora 30. Host del sistema operativo - Windows 10 Home Edition. Procesador Intel Core 7. El sistema operativo invitado recibió 4 GB de RAM. Versión PostgreSQL: PostgreSQL 10.10 en x86_64-pc-linux-gnu, compilado por gcc (GCC) 9.1.1 20190503 (Red Hat 9.1.1-1), 64 bits. Experimentaré con un conjunto de datos con el número de registros 52 608 000.

 explain (analyze) insert into cstore_table select '2010-01-01'::date + make_interval(days => d) as trd , op , org , wh , it , 100 as m1 , 100 as m2 , 100 as m3 , 100 as m4 , 100 as m5 from generate_series(0, 1) as op cross join generate_series(1, 2) as org cross join generate_series(1, 3) as wh cross join generate_series(1, 4000) as it cross join generate_series(0, 1095) as d;