Comment la technologie en mémoire a changé la Business Intelligence

Environ 5 millisecondes passent de la demande à la réponse si les données sont stockées sur le disque dur. Le SSD répond 30 fois plus rapidement - en 150 microsecondes. La RAM nécessite 300 000 fois moins de temps - seulement 15 nanosecondes. *



Vous pouvez parler longuement de la manière dont la Business Intelligence aide la finance ou la logistique. Il existe de nombreuses façons d'appliquer les informations, de nouvelles apparaissent tout le temps. Mais le principe de fonctionnement de différentes solutions analytiques est le même et consiste à combiner des données provenant de différentes sources et à les regarder ensemble - c'est-à-dire dans son intégralité.

Pour utiliser des informations provenant de plusieurs sources, vous devez vous y connecter et extraire des données. Mais les données ont été créées de différentes manières, avec des fréquences différentes et stockées dans différents formats. Par conséquent, avant de visualiser les données ou de les transférer vers d'autres systèmes pour un traitement ultérieur, elles devront être combinées à l'aide de certaines opérations mathématiques - transformer.

La technologie en mémoire consiste dans le fait que toutes les données provenant de différentes sources sont chargées à la fois dans la RAM. Après cela, la transformation peut être effectuée "à la volée", sans interroger le disque. Par exemple, cliquez pour sélectionner une dimension et obtenez immédiatement un graphique qui affichera les valeurs des indicateurs dans la section souhaitée. En raison du fait que toutes les données sont déjà dans la RAM, l'application analytique n'a pas besoin de faire de requêtes au disque dur pour obtenir de nouvelles informations.

Cette introduction devrait m'aider à expliquer comment et pourquoi les technologies qui sous-tendent les solutions analytiques modernes ont changé.

C'était cher au début


«La mémoire est le nouveau lecteur», a déclaré le chercheur de Microsoft Jim Gray au début des années 2000. En 2003, il a publié un article intitulé «The Economics of Distributed Computing» **, où il a comparé le coût des différentes étapes du traitement informatique des données. Jim Gray a montré que les calculs devraient être au même endroit que les données - afin de ne pas les déplacer à nouveau. Il a conseillé de rapprocher le plus possible les calculs des sources de données. Autrement dit, filtrez les données le plus tôt possible et enregistrez-les en conséquence.

Au cours des prochaines années, des SGBD en mémoire sont apparus sur le marché de plusieurs leaders de l'industrie, notamment Oracle, IBM et SAP, ainsi que de plusieurs projets open source - par exemple, Redis et MemcacheDB.

La première tâche que le SGBD en mémoire a résolu n'était pas l'analyse commerciale ni même les applications commerciales, mais les opportunités de commerce électronique qui s'ouvrent en relation avec l'extraction instantanée d'informations. Par exemple, un SGBD en mémoire pourrait permettre à une boutique en ligne en temps réel d'offrir aux clients des produits en fonction de leurs préférences ou d'afficher des publicités.

Le marché des solutions d'analyse de données d'entreprise a évolué sur une voie différente. La plupart des entreprises sont inextricablement liées à des systèmes utilisant des SGBD transactionnels, qui sont basés sur des principes développés dans les années 80 du siècle dernier. Leur tâche consiste à enregistrer en permanence de petites portions de données allant sur le flux sur le disque et à confirmer immédiatement leur intégrité (scénario de travail OLTP). Parmi les systèmes utilisant de tels SGBD figurent les solutions ERP, les systèmes bancaires automatisés, la facturation, les terminaux de point de vente.

Mais les tâches analytiques nécessitent une base de données complètement différente. Ici, vous devez récupérer rapidement les informations précédemment enregistrées. De plus, en gros morceaux - pour chaque rapport analytique, absolument toutes les données qui devraient y figurer seront nécessaires. Même si le rapport lui-même se compose d'un chiffre.

De plus, il serait bon de télécharger des données aussi rarement que possible, car leur volume peut être important, et le chargement d'un grand ensemble de données à l'aide de requêtes analytiques se heurtera à plusieurs obstacles.

Premièrement, le disque dur qui stocke les informations est un lecteur lent. Deuxièmement, la structure du stockage des données dans un SGBD traditionnel ne lui permettra pas d'effectuer rapidement une requête analytique. Les données ont été stockées ligne par ligne - au fur et à mesure de leur réception, les valeurs qui appartiennent à une ligne sont donc physiquement proches. Et en réponse à une requête analytique, la base de données doit renvoyer les valeurs d'une colonne, mais à partir de lignes différentes. Par conséquent, de telles demandes sont lentes et créent une charge importante sur le système de stockage. Autrement dit, l'emplacement des informations sur le disque est organisé de manière inappropriée.

Ainsi, les SGBD traditionnels, dans lesquels toutes les informations initiales pour l'analyse étaient initialement stockées, étaient mal adaptés pour jouer le rôle d'une source de données à laquelle le système analytique est directement connecté. Par conséquent, au cours du siècle dernier, pour les tâches analytiques, la pratique courante consistait à utiliser un modèle de données intermédiaire dans lequel toutes les valeurs étaient déjà calculées à un moment donné. Ce modèle de données était appelé «cube analytique» ou cube OLAP. Pour créer un cube OLAP, les processus dits ETL (extraire, transformer, charger) ont été développés - les requêtes de base de données dans les systèmes source et les règles selon lesquelles les transformations de données doivent être effectuées. Évidemment, s'il n'y a aucune information dans le cube OLAP, elle ne peut pas apparaître dans le rapport.

Le problème avec cette approche était le coût élevé de la solution. Tout d'abord, un entrepôt de données était nécessaire, où les indicateurs précalculés seraient placés. Deuxièmement, si nous avions besoin d'un certain indicateur dans un contexte différent, alors pour l'obtenir, tous les processus de transformation des données sur le chemin du système source vers le cube OLAP devaient être recréés en réécrivant les requêtes analytiques. Recalculez ensuite l'intégralité du cube OLAP, ce qui a pris plusieurs heures.

Supposons qu'un cube OLAP contienne des informations sur les ventes pour différents pays. Mais le directeur financier a soudainement voulu voir les ventes par ville, puis les regrouper par facture moyenne. Pour recevoir un tel rapport, il a dû contacter le service informatique pour reconstruire le cube OLAP. Ou il pourrait forcer les choses et attirer un connaisseur de MS Excel, qui créerait un tel rapport manuellement. Pour ce faire, il a dû décharger les données des systèmes source dans des tableaux à l'aide de requêtes analytiques et effectuer un certain nombre de manipulations laborieuses et non déclarées avec eux.

Dans le premier cas, le CFO a dû attendre. Dans le second, il a reçu des chiffres difficiles à faire confiance.

De plus, la solution s'est révélée très coûteuse. Il fallait dépenser de l'argent pour créer un référentiel, qui devait être administré. Il était nécessaire d'embaucher des spécialistes SGBD pour effectuer ETL - reconstruire des cubes OLAP pour chaque tâche. En parallèle, des analystes spéciaux apparaissaient généralement dans l'entreprise, qui créaient des rapports à la demande (les soi-disant rapports ad hoc). En fait, ils ont inventé différentes façons d'obtenir le rapport souhaité à l'aide de MS Excel et ont surmonté les difficultés liées au fait que ce programme est conçu pour d'autres tâches.

En conséquence, le cheminement des rapports était coûteux, même pour les grandes entreprises. Les gestionnaires des petites et moyennes entreprises devaient se contenter des opportunités disponibles dans MS Excel.

La solution a été trouvée ailleurs.


En 1994, la société alors suédoise QlikTech de la petite ville de Lund a lancé le programme QuikView, qui a ensuite été renommé QlikView. L'application a été conçue pour optimiser la production. Il a permis de connaître l'utilisation de quelles pièces et matériaux sont interconnectés et lesquels ne le sont pas. Autrement dit, le programme était nécessaire pour visualiser les relations logiques entre les pièces, les matériaux, les assemblages et les produits. Pour ce faire, elle a chargé dans les ensembles de données de la mémoire RAM de différentes sources, les a comparées et a instantanément montré la connexion.

Par exemple, il y a plusieurs tableaux avec des acteurs, leurs rôles dans les films, les réalisateurs, les genres, les dates de sortie, les frais - avec n'importe quoi. Tous sont chargés dans la RAM. Vous pouvez maintenant cliquer sur n'importe quel paramètre pour le sélectionner et voir immédiatement tous les autres qui lui sont associés. Nous cliquons sur Brad Pitt - nous obtenons le box-office de tous les films dans lesquels il a joué. Choisissez des comédies - obtenez le nombre de comédies au box-office avec Brad Pitt. Tout cela se produit instantanément, en temps réel.

Bien qu'au cours de ces années sur le marché des systèmes d'information d'entreprise, les tâches analytiques aient été résolues à l'aide de modèles de données intermédiaires - cubes OLAP, l'approche QlikTech s'est avérée beaucoup plus pratique. Il a permis d'abandonner l'étape intermédiaire sous forme de calcul d'un cube OLAP et donc d'économiser beaucoup.

L'application analytique a été directement connectée aux sources et chargée périodiquement toutes les données nécessaires au rapport dans la RAM. La nécessité de modifier les processus ETL à chaque fois afin d'obtenir les valeurs des indicateurs dans de nouvelles sections a disparu - maintenant, ils sont calculés en temps réel au moment de la demande. Il n'est plus nécessaire de créer et d'administrer un entrepôt de données. Le coût de possession de la solution analytique a chuté.

Avec la prolifération des serveurs 64 bits qui permettaient de travailler avec de grandes quantités de RAM, la technologie en mémoire a rapidement commencé à changer l'intelligence d'affaires. Ceci est bien illustré par les rapports de la société de recherche Magic Quadrant Gartner. En 2016, six développeurs de plateformes de BI ont quitté le quadrant des leaders à la fois, y compris des vétérans de l'industrie tels qu'IBM, Oracle et SAP. Il ne reste que trois joueurs qui se sont appuyés sur la technologie en mémoire et sur les cubes OLAP abandonnés. Ce sont Microsoft, Qlik et Tableau.


Position des joueurs dans le Magic Quadrant de Gartner pour les plateformes d'analyse et de veille stratégique ***

Nous pouvons dire que Qlik est devenu un pionnier et un leader dans la transformation du marché. En 2016, la plateforme d'analyse de données QlikView était utilisée par des clients du monde entier et les ventes annuelles dépassaient 600 millions de dollars.

Des rapports à la gestion axée sur les données


Avec la diffusion de solutions analytiques basées sur la technologie in-memory, un grand nombre d'entreprises ont ouvert des voies auparavant inaccessibles pour utiliser les données d'entreprise. Il était possible de ne pas se limiter aux rapports de gestion, qui sont standard pour chacune des industries. Divers processus ont commencé à «mesurer» - à introduire des mesures et à les utiliser pour décrire les processus. Il est devenu beaucoup plus facile d'utiliser des informations objectives pour prendre des décisions plus éclairées. Le nombre d'utilisateurs professionnels travaillant avec des données a fortement augmenté.

Une influence énorme sur l'intérêt pour l'utilisation des données a été apportée par les changements de comportement des consommateurs et du marketing, qui sont devenus numériques, c'est-à-dire basés sur des mesures. Beaucoup de nouvelles personnes ont été attirées par la science des données par les attentes de la façon dont le monde va changer les Big Data.

À la suite de tous ces processus, la «démocratisation» des données d'entreprise s'est rapidement produite. Auparavant, les données appartenaient aux services informatiques. Le marketing, les ventes, l'intelligence d'affaires et les dirigeants ont contacté le service informatique pour des rapports. Désormais, les employés travaillaient seuls avec les données. Il s'est avéré que l'accès direct des employés aux données peut augmenter la productivité et donner un avantage concurrentiel.

Cependant, la première génération de solutions analytiques basées sur la technologie en mémoire a donné aux utilisateurs professionnels des possibilités très limitées d'utiliser les données. Ils ne pouvaient travailler qu'avec des panneaux et des tableaux de bord prêts à l'emploi. La technologie en mémoire leur a permis de «plonger» profondément dans n'importe quel indicateur et de voir de quoi il est fait. Mais il s'agissait toujours de ces indicateurs qui sont déterminés à l'avance. L'étude s'est limitée aux visualisations déjà présentes sur le tableau de bord. Cette méthode d'utilisation des données était appelée «analyse directionnelle» et il ne supposait pas que l'utilisateur professionnel connecterait indépendamment de nouvelles sources et créerait lui-même des indicateurs et des visualisations.

La prochaine étape de la démocratisation des données a été le libre-service. L'idée du libre-service était que les utilisateurs professionnels explorent les données, créent des visualisations et introduisent de nouveaux indicateurs par eux-mêmes.

Il convient de noter qu'au moment où la technologie en mémoire a commencé à changer l'analyse commerciale, il n'y avait pas de sérieux obstacles technologiques avant de donner aux utilisateurs l'accès à toutes les données. Peut-être que les clients les plus conservateurs avaient une question sur la pertinence d'une telle fonction. Mais le monde s'est déjà tourné vers le désir de «tout compter». Désormais, les gestionnaires qui n'ont pas de formation en mathématiques ni en programmation avaient également besoin d'un outil leur permettant de parler le langage des données.

L'accès direct aux données pour les analystes commerciaux a ouvert de nombreuses nouvelles opportunités. Ils pourraient avancer et tester des hypothèses, appliquer des méthodes de Data Science, identifier de telles dépendances, dont l'existence est difficile à prévoir à l'avance. Vous pouvez désormais combiner des données internes à l'entreprise avec des données externes obtenues à partir de sources tierces.

En septembre 2014, Qlik a lancé la deuxième génération de sa plateforme, appelée Qlik Sense. Qlik Sense a utilisé la même architecture et la même technologie. La différence résidait dans la nouvelle approche de création de visualisations. Désormais, des visualisations standard peuvent être créées à la volée en faisant simplement glisser et déposer des champs avec les dimensions souhaitées sur la feuille de calcul. Cela a simplifié l'exploration de données en raison d'une très forte réduction du cycle de recherche. Un test d'hypothèse a commencé à prendre seulement quelques secondes.

La croissance rapide des ventes de plates-formes analytiques en libre-service est peut-être due en grande partie à la facilité de démonstration. Si auparavant le client devait prendre une décision d'achat, compte tenu des diapositives de présentation, il pouvait désormais installer le programme sur son ordinateur, se connecter aux sources et en quelques heures aller de la création d'un tableau de bord à son ouverture dans ses données.

Il y a des données. Et maintenant


La technologie en mémoire a eu un impact important sur la façon dont les entreprises utilisent les informations aujourd'hui. La combinaison et l'exploration des données sont devenues plus faciles, et ce fut une forte poussée commerciale vers la transformation numérique. Cependant, il est insensé de dire que la transformation numérique est devenue monnaie courante et que toute entreprise peut désormais la mettre en œuvre facilement.

D'un point de vue technologique, tout est simple tant que la quantité de données étudiées est limitée à plusieurs tableaux Excel. S'il s'agit de combiner des milliards d'enregistrements, alors la tâche continuera probablement d'être difficile d'un point de vue technique, et sa solution nécessitera une expertise dans le domaine de la BI et des résultats d'ingénierie. Surtout si vous devez toujours gérer la qualité des données, ce qui est une tâche courante pour la plupart des moyennes et grandes entreprises.

D'un point de vue commercial, tout est simple tant que vous avez besoin de rapports ou de tableaux de bord avec des indicateurs standard de l'industrie. Si nous parlons d'un système analytique, auquel de nouvelles sources sont constamment ajoutées, de nouvelles métriques sont introduites, et des experts de divers domaines sont impliqués dans tout cela, alors il n'y a pas non plus de simplicité.

Cependant, ce ne sont pas les difficultés que les clients ont surmontées il y a plusieurs années. Le niveau de maturité des plateformes analytiques est aujourd'hui tel que même s'il y a beaucoup de données initiales, vous n'avez plus besoin d'attendre le calcul des indicateurs, et vous pouvez faire confiance aux chiffres obtenus. Au cœur de la transformation se trouve le calcul en mémoire.

La prochaine technologie qui changera le marché des solutions analytiques sera probablement les plates-formes cloud. Déjà, l'infrastructure des fournisseurs de services cloud (CSP), ainsi qu'un ensemble de services, se transforme en une plate-forme de gestion des données.



Sources:

* IDC, Market Guide for In-Memory Computing Technologies, www.academia.edu/20067779/Market_Guide_for_In-Memory_Computing_Technologies

** Jim Gray "Distributed Computing Economics", www.microsoft.com/en-us/research/wp-content/uploads/2016/02/tr-2003-24.doc

*** Vous pouvez voir comment la situation des développeurs de la plateforme de BI dans les rapports Gartner Magic Quadrant a changé de 2010 à 2019 sur la visualisation interactive: qap.bitmetric.nl/extensions/magicquadrant/index.html

Source: https://habr.com/ru/post/fr470113/


All Articles