✖️ 👨🏿‍🤝‍👨🏾 🔠 Em todo o mundo em 4 segundos no Columnstore (parte 1) 🧙🏼 🍔 ✋🏻

Neste artigo, vou considerar aumentar a velocidade dos relatórios. Por um relatório, quero dizer qualquer consulta a um banco de dados que use funções agregadas. Além disso, abordarei questões relacionadas aos recursos gastos na produção e suporte de relatórios, humanos e máquinas.

Nos exemplos, usarei um conjunto de dados contendo 52.608.000 registros.

Usando o exemplo de reservas analíticas não difíceis, demonstrarei que mesmo um computador fraco pode ser transformado em uma boa ferramenta para analisar uma quantidade "decente" de dados sem muito esforço.

Depois de configurar experimentos não complicados, veremos que uma tabela regular não é uma fonte adequada para consultas analíticas.

Se o leitor puder decifrar facilmente as abreviações OLTP e OLAP, pode fazer sentido ir diretamente para a seção Columnstore

Duas abordagens para trabalhar com dados

Aqui vou ser breve, porque Há informações mais do que suficientes sobre esse tópico na Internet.

Portanto, no nível mais alto, existem apenas duas abordagens para trabalhar com dados: OLTP e OLAP.

OLTP - pode ser traduzido como processamento instantâneo de transação. De fato, estamos falando sobre o processamento on-line de transações curtas que funcionam com uma pequena quantidade de dados. Por exemplo, gravando, atualizando ou excluindo um pedido. Na grande maioria dos casos, um pedido é uma quantidade extremamente pequena de dados, durante o processamento dos quais você não pode ter medo dos longos bloqueios impostos pelo RDBMS moderno.

OLAP - pode ser traduzido como processamento analítico de um grande número de transações por vez. Qualquer relatório usa essa abordagem específica, porque, na grande maioria dos casos, produz relatórios resumidos e agregados para determinadas seções.

Cada abordagem tem sua própria tecnologia. Por exemplo, para OLTP, é PostgreSQL e, para OLAP, é Microsoft SQL Server Analysis Services. Enquanto o PostgresSQL usa um formato conhecido para armazenar dados em tabelas, vários formatos diferentes foram inventados para o OLAP. Estas são tabelas multidimensionais, balde cheio de pares de valores-chave e meu columnstore favorito. Sobre o último em mais detalhes abaixo.

Por que são necessárias duas abordagens?

Observou-se que qualquer data warehouse, mais cedo ou mais tarde, enfrenta dois tipos de carga: leitura frequente (gravação e atualização, é claro, também) de quantidades extremamente pequenas de dados e leitura rara, mas quantidades muito grandes. De fato, essa é uma atividade, por exemplo, da bilheteria e da cabeça. O balcão de caixa, trabalhando o dia todo, preenche o armazenamento com pequenos pedaços de dados, enquanto no final do dia o volume acumulado, se o negócio está indo bem, atinge tamanho impressionante. Por sua vez, o gerente no final do dia quer saber quanto dinheiro a bilheteria ganha por dia.

Portanto, no OLTP, temos tabelas e índices. Essas duas ferramentas são ótimas para registrar as atividades de bilheteria com todos os detalhes. Os índices fornecem uma pesquisa rápida para um pedido gravado anteriormente, portanto, é fácil alterar um pedido. Mas, para satisfazer as necessidades do líder, precisamos considerar toda a quantidade de dados acumulados por dia. Além disso, como regra, o gerente não precisa de todos os detalhes de todos os pedidos. O que ele realmente precisa saber é quanto dinheiro a bilheteria ganhou em geral. Não importa onde fica a bilheteria, quando houve uma pausa para o almoço, quem trabalhou para ela etc. O OLAP existe então, para que, em um curto período de tempo, o sistema possa responder à pergunta - quanto a empresa ganhou como um todo sem leitura sequencial de cada pedido e todos os seus detalhes. O OLAP pode usar as mesmas tabelas e índices que o OLTP? A resposta é não, pelo menos não deveria. Em primeiro lugar, porque o OLAP simplesmente não precisa de todos os detalhes registrados nas tabelas. Esse problema é resolvido armazenando dados em outros formatos que não sejam tabelas bidimensionais. Em segundo lugar, as informações analisadas geralmente estão espalhadas por diferentes tabelas, o que implica várias associações, incluindo associações do tipo de auto-junção. Para resolver esse problema, eles geralmente desenvolvem um esquema especial de banco de dados. Esse esquema é otimizado para carga OLAP, bem como o esquema normalizado normal para carga OLTP.

O que acontece quando o OLAP usa um esquema OLTP

De fato, apresentei esta seção para que este artigo atenda claramente aos meus próprios requisitos para o formato desse material, ou seja, problema, solução, conclusão.

Listamos várias desvantagens do uso de esquemas OLTP para análise de dados.

Muitos índices.

Muitas vezes, você precisa criar índices especiais para dar suporte a relatórios. Esses índices implementam um esquema de armazenamento de dados OLAP. Eles não são usados pela parte OLTP do aplicativo, enquanto exercem uma carga nele, exigindo suporte constante e ocupando espaço em disco.
A quantidade de dados lidos excede o necessário.
Falta de um esquema de dados claro.

O fato é que muitas vezes as informações enviadas pelos relatórios em um único formulário estão espalhadas em tabelas diferentes. Essa informação requer constante transformação em tempo real. O exemplo mais simples é o valor da receita, que consiste em dinheiro e não dinheiro. Outro exemplo impressionante são as hierarquias de dados. Porque Como o desenvolvimento de aplicativos é progressivo e nem sempre se sabe o que será necessário no futuro, a mesma hierarquia de significado pode ser armazenada em tabelas diferentes. E enquanto a aquisição on-the-fly é usada ativamente no OLAP, essas são coisas ligeiramente diferentes.
Complexidade excessiva de consultas.

Porque Um esquema OLTP difere de um OLAP É necessária uma camada de software fortemente relacionada que traga o esquema de dados OLTP para a forma correta.
Complexidade de suporte, depuração e desenvolvimento.

Em geral, podemos dizer que quanto mais complexa a base de código, mais difícil é mantê-la em um estado íntegro. Este é um axioma.
A complexidade da cobertura do teste.

Muitas cópias foram quebradas devido a discussões sobre como obter um banco de dados cheio de todos os scripts de teste, mas é melhor dizer que, com um esquema de dados mais simples, a tarefa de cobrir os testes é simplificada muitas vezes.
Depuração de desempenho sem fim.

Há uma alta probabilidade de o usuário solicitar um relatório "pesado" para o servidor de banco de dados. Essa probabilidade aumenta com o tempo. Deve-se observar que o OLAP também é propenso a esse problema, mas, diferentemente do OLTP, o recurso OLAP nesse assunto é muito maior.

Columnstore

Este artigo focará no formato de armazenamento columnstore, mas sem detalhes de baixo nível. Outros formatos mencionados acima também merecem atenção, mas este é um tópico para outro artigo.

Na verdade, o formato columnstore é conhecido há 30 anos, mas não foi implementado no RDBMS até recentemente. A essência do columnstore é que os dados são armazenados não em linhas, mas em colunas. I.e. em uma página (todos conhecidos 8 Kb), o servidor registra dados de apenas um campo. E assim, com cada campo da tabela, por sua vez. Isso é necessário para que você não precise ler informações extras. Vamos imaginar uma tabela com 10 campos e uma consulta que tenha apenas um campo especificado na instrução SELECT. Se fosse uma tabela regular salva em um formato baseado em linhas, o servidor seria forçado a ler todos os 10 campos, mas ao mesmo tempo retornaria apenas um. Acontece que o servidor leu 9 vezes mais informações do que o necessário. O columnstore resolve completamente esse problema, porque O formato de armazenamento permite que você leia apenas um campo solicitado. Tudo isso acontece porque a unidade de armazenamento em um RDBMS é uma página. I.e. o servidor sempre grava e lê pelo menos uma página. A única questão é quantos campos estão presentes nele.

Como o Columnstore pode realmente ajudar

Para responder, é preciso ter números exatos. Vamos pegá-los. Mas que números podem dar uma imagem precisa?

A quantidade de espaço em disco.
Desempenho da consulta.
Tolerância a falhas.
Facilidade de implementação.
Quais novas habilidades um desenvolvedor deve ter para trabalhar com novas estruturas.

Espaço em disco

Vamos criar uma tabela simples, preenchê-la com dados e verificar quanto espaço é necessário.

create foreign table cstore_table ( trd date, org int, op int, it int, wh int, m1 numeric(32, 2), m2 numeric(32, 2), m3 numeric(32, 2), m4 numeric(32, 2), m5 numeric(32, 2) ) server cstore_server options(compression 'pglz');

Como você notou, eu criei uma tabela externa. O fato é que o PostgreSQL não possui suporte a columnstore embutido. Mas o PostgreSQL possui um sistema poderoso para extensões. Um deles torna possível criar tabelas columnstore. Links no final do artigo.

pglz - informa a extensão que os dados devem ser compactados usando o algoritmo embutido no PostgreSQL;
trd - tempo de transação;
op, it, wh - seções ou medições analíticas;
m1, m2, m3, m4, m5 - indicadores ou medidas numéricos;

Vamos inserir uma quantidade "decente" de dados e ver quanto espaço é necessário no disco. Ao mesmo tempo, verificamos o desempenho da inserção. Porque Coloquei minhas experiências em um laptop doméstico, sou um pouco orgânico na quantidade de dados. Além disso, o que é ainda bom, usarei o HDD executando o sistema operacional convidado Fedora 30. Host do sistema operacional - Windows 10 Home Edition. Processador Intel Core 7. O SO convidado recebeu 4 GB de RAM. Versão do PostgreSQL - PostgreSQL 10.10 no x86_64-pc-linux-gnu, compilado pelo gcc (GCC) 9.1.1 20190503 (Red Hat 9.1.1-1), 64 bits. Vou experimentar um conjunto de dados com o número de registros 52 608 000.

 explain (analyze) insert into cstore_table select '2010-01-01'::date + make_interval(days => d) as trd , op , org , wh , it , 100 as m1 , 100 as m2 , 100 as m3 , 100 as m4 , 100 as m5 from generate_series(0, 1) as op cross join generate_series(1, 2) as org cross join generate_series(1, 3) as wh cross join generate_series(1, 4000) as it cross join generate_series(0, 1095) as d;