🤶🏿 👨‍👩‍👦 🧛🏿 Le tour du monde en 4 secondes au Columnstore (partie 1) ✋🏿 🕚 👈

Dans cet article, je vais envisager d'augmenter la vitesse des rapports. Par rapport, j'entends toute requête vers une base de données qui utilise des fonctions d'agrégation. Je vais également aborder les questions liées aux ressources consacrées à la production et au support des rapports, humains et machines.

Dans les exemples, j'utiliserai un ensemble de données contenant 52 608 000 enregistrements.

En utilisant l'exemple de réserves analytiques pas difficiles, je démontrerai que même un ordinateur faible peut être transformé en un bon outil pour analyser une quantité «décente» de données sans trop d'effort.

Après avoir mis en place des expériences pas compliquées, nous verrons qu'un tableau régulier n'est pas une source appropriée pour les requêtes analytiques.

Si le lecteur peut facilement déchiffrer les abréviations OLTP et OLAP, il peut être judicieux d'aller directement à la section Columnstore

Deux approches pour travailler avec des données

Ici, je serai bref, car Il y a plus qu'assez d'informations sur ce sujet sur Internet.

Ainsi, au plus haut niveau, il n'y a que deux approches pour travailler avec des données: OLTP et OLAP.

OLTP - peut être traduit par un traitement de transaction instantané. En fait, nous parlons de traitement en ligne de transactions courtes qui fonctionnent avec une petite quantité de données. Par exemple, enregistrer, mettre à jour ou supprimer une commande. Dans la grande majorité des cas, une commande est une quantité de données extrêmement faible, pendant le traitement de laquelle vous ne pouvez pas avoir peur des longs verrous imposés par les SGBDR modernes.

OLAP - peut être traduit par le traitement analytique d'un grand nombre de transactions à la fois. Tout rapport utilise cette approche particulière, car dans la grande majorité des cas, le rapport produit des chiffres résumés et agrégés pour certaines sections.

Chaque approche possède sa propre technologie. Par exemple, pour OLTP, il s'agit de PostgreSQL et pour OLAP, il s'agit de Microsoft SQL Server Analysis Services. Alors que PostgresSQL utilise un format bien connu pour stocker des données dans des tableaux, plusieurs formats différents ont été inventés pour OLAP. Ce sont des tables multidimensionnelles, un compartiment rempli de paires clé-valeur et mon magasin de colonnes préféré. À propos de ce dernier plus en détail ci-dessous.

Pourquoi deux approches sont-elles nécessaires?

Il a été noté que tout entrepôt de données devait tôt ou tard faire face à deux types de charges: la lecture fréquente (écriture et mise à jour, bien sûr aussi) de très petites quantités de données et une lecture rare, mais de très grandes quantités de données. En fait, c'est une activité, par exemple, du box-office et du chef. La caisse, qui fonctionne toute la journée, remplit le stockage de petits morceaux de données, tandis qu'à la fin de la journée, le volume accumulé, si l'entreprise se porte bien, atteint une taille impressionnante. À son tour, le gestionnaire à la fin de la journée veut savoir combien d'argent le box-office a gagné par jour.

Donc, dans OLTP, nous avons des tables et des index. Ces deux outils sont parfaits pour enregistrer l'activité au box-office avec tous les détails. Les index permettent une recherche rapide d'une commande précédemment enregistrée, il est donc facile de modifier une commande. Mais afin de satisfaire les besoins du leader, nous devons prendre en compte la quantité totale de données accumulées par jour. De plus, en règle générale, le gestionnaire n'a pas besoin de tous les détails de toutes les commandes. Ce qu'il a vraiment besoin de savoir, c'est combien d'argent le box-office rapportait en général. Peu importe où se trouvait la billetterie, quand il y avait une pause déjeuner, qui y travaillait, etc. OLAP existe alors, de sorte que dans un court laps de temps, le système peut répondre à la question - combien l'entreprise a gagné dans son ensemble sans lecture séquentielle de chaque commande et de tous ses détails. OLAP peut-il utiliser les mêmes tables et index que OLTP? La réponse est non, du moins elle ne devrait pas. Tout d'abord, car OLAP n'a tout simplement pas besoin de tous les détails enregistrés dans les tableaux. Ce problème est résolu en stockant des données dans d'autres formats autres que des tableaux bidimensionnels. Deuxièmement, les informations analysées sont souvent dispersées sur différentes tables, ce qui implique leurs multiples associations, y compris les associations de type auto-jointure. Pour résoudre ce problème, ils développent en règle générale un schéma de base de données spécial. Ce schéma est optimisé pour la charge OLAP, ainsi que le schéma normalisé normal pour la charge OLTP.

Que se passe-t-il lorsque OLAP utilise un schéma OLTP

En fait, j'ai introduit cette section afin que cet article réponde clairement à mes propres exigences pour le format de ce matériel, c'est-à-dire problème, solution, conclusion.

Nous énumérons un certain nombre d'inconvénients de l'utilisation de schémas OLTP pour l'analyse des données.

Trop d'index.

Souvent, vous devez créer des index spéciaux pour prendre en charge les rapports. Ces index implémentent un schéma de stockage de données OLAP. Ils ne sont pas utilisés par la partie OLTP de l'application, tout en exerçant une charge sur celle-ci, nécessitant un support constant et occupant de l'espace disque.
La quantité de données lues dépasse la quantité requise.
Absence d'un schéma de données clair.

Le fait est que souvent les informations soumises par les rapports sous une forme unique sont réparties dans différents tableaux. Ces informations nécessitent une transformation constante à la volée. L'exemple le plus simple est le montant des revenus, qui consiste en espèces et en espèces. Un autre exemple frappant est la hiérarchie des données. Parce que le développement d'applications est progressif et on ne sait pas toujours ce qui sera nécessaire à l'avenir, la même hiérarchie de sens peut être stockée dans différentes tables. Et tandis que l'acquisition à la volée est activement utilisée dans OLAP, ce sont des choses légèrement différentes.
Complexité excessive des requêtes.

Parce que Un schéma OLTP diffère d'un schéma OLAP. Une couche logicielle fortement liée est nécessaire pour amener le schéma de données OLTP à la bonne forme.
Complexité du support, du débogage et du développement.

En général, nous pouvons dire que plus la base de code est complexe, plus il est difficile de la maintenir dans un état sain. Ceci est un axiome.
La complexité de la couverture du test.

De nombreuses copies sont cassées en raison des discussions sur la façon d'obtenir une base de données pleine de tous les scripts de test, mais il vaut mieux dire que le fait d'avoir un schéma de données plus simple que la tâche de couvrir avec des tests est simplifié plusieurs fois.
Débogage des performances sans fin.

Il y a une forte probabilité que l'utilisateur commande un rapport «lourd» pour le serveur de base de données. Cette probabilité augmente avec le temps. Il convient de noter que OLAP est également sujet à ce problème, mais contrairement à OLTP, la ressource OLAP dans ce domaine est beaucoup plus élevée.

Columnstore

Cet article se concentrera sur le format de stockage columnstore, mais sans détails de bas niveau. Les autres formats mentionnés ci-dessus méritent également l'attention, mais c'est un sujet pour un autre article.

En fait, le format columnstore est connu depuis 30 ans, mais il n'a été implémenté dans le SGBDR que récemment. L'essence de columnstore est que les données ne sont pas stockées dans des lignes, mais dans des colonnes. C'est-à-dire sur une page (tous connus 8 Ko), le serveur enregistre les données d'un seul champ. Et donc avec chaque champ de la table à son tour. Ceci est nécessaire pour que vous n'ayez pas à lire d'informations supplémentaires. Imaginons une table avec 10 champs et une requête qui n'a qu'un seul champ spécifié dans l'instruction SELECT. S'il s'agissait d'une table régulière enregistrée dans un format basé sur des lignes, le serveur serait obligé de lire les 10 champs, mais n'en retournerait qu'un. Il s'est avéré que le serveur lisait 9 fois plus d'informations que nécessaire. Columnstore résout complètement ce problème, car le format de stockage vous permet de lire un seul champ ordonné. Tout cela se produit parce que l'unité de stockage dans un SGBDR est une page. C'est-à-dire le serveur écrit et lit toujours au moins une page. La seule question est de savoir combien de champs y sont présents.

Comment Columnstore peut vraiment aider

Pour répondre à cela, il faut avoir des chiffres exacts. Attrapons-les. Mais quels chiffres peuvent donner une image précise?

La quantité d'espace disque.
Performances des requêtes.
Tolérance aux pannes.
Facilité de mise en œuvre.
Quelles nouvelles compétences un développeur doit-il avoir pour travailler avec de nouvelles structures.

Espace disque

Créons un tableau simple, remplissons-le de données et vérifions combien d'espace cela prend.

create foreign table cstore_table ( trd date, org int, op int, it int, wh int, m1 numeric(32, 2), m2 numeric(32, 2), m3 numeric(32, 2), m4 numeric(32, 2), m5 numeric(32, 2) ) server cstore_server options(compression 'pglz');

Comme vous l'avez remarqué, j'ai créé une table externe. Le fait est que PostgreSQL n'a pas de support de colonne intégré. Mais PostgreSQL dispose d'un puissant système d'extensions. L'un d'eux permet de créer des tables columnstore. Liens à la fin de l'article.

pglz - indique à l'extension que les données doivent être compressées à l'aide de l'algorithme intégré dans PostgreSQL;
trd - temps de transaction;
op, it, wh - coupes ou mesures analytiques;
m1, m2, m3, m4, m5 - indicateurs ou mesures numériques;

Insérons une quantité «décente» de données et voyons combien d'espace il faut sur le disque. Dans le même temps, nous vérifions les performances de l'insert. Parce que Je mets mes expériences sur un ordinateur portable, je suis un peu organique dans la quantité de données. De plus, ce qui est encore bon, j'utiliserai le disque dur exécutant le système d'exploitation invité Fedora 30. Hôte OS - Windows 10 Home Edition. Processeur Intel Core 7. Le SE invité a reçu 4 Go de RAM. Version PostgreSQL - PostgreSQL 10.10 sur x86_64-pc-linux-gnu, compilé par gcc (GCC) 9.1.1 20190503 (Red Hat 9.1.1-1), 64 bits. J'expérimenterai un ensemble de données avec le nombre d'enregistrements 52 608 000.

 explain (analyze) insert into cstore_table select '2010-01-01'::date + make_interval(days => d) as trd , op , org , wh , it , 100 as m1 , 100 as m2 , 100 as m3 , 100 as m4 , 100 as m5 from generate_series(0, 1) as op cross join generate_series(1, 2) as org cross join generate_series(1, 3) as wh cross join generate_series(1, 4000) as it cross join generate_series(0, 1095) as d;