Pourquoi E dans l'abréviation EHD concerne les processus métier

Entrepôt de données sans E


Aujourd'hui, dans toute entreprise liée aux grandes et moyennes entreprises, la disponibilité d'un entrepôt de données est de facto une norme d'entreprise. Peu importe dans quel secteur la société opère, sans analyser les données disponibles sur les clients, les fournisseurs, les finances, il est impossible de maintenir un avantage concurrentiel. Avec le développement de l'automatisation et de l'optimisation à chaque niveau de production d'un produit ou d'un service, l'organisation utilise de plus en plus de systèmes informatiques qui créent des données - production, comptabilité, planification, gestion du personnel, etc.

Comment construire le processus de création d'un entrepôt de données le plus efficacement du point de vue de l'optimisation globale des ressources de l'entreprise, des besoins commerciaux nouveaux et actuels, et pourquoi la maintenance des métadonnées est importante.

Les tâches d'utilisation des données accumulées sont le plus souvent utilisées pour les classes de tâches suivantes:

  • rapports réglementaires
  • comptabilité financière
  • planification et contrôle
  • budgétisation
  • analyse de la clientèle
  • gestion des risques

Souvent, pour les besoins les plus urgents, il suffit d'utiliser une seule source - par exemple, si nous parlons de fournir au régulateur certains détails d'un certain système, ou d'envoyer au client l'historique complet de ses commandes à l'aide de CRM. Même lors d'un changement de système d'information, il n'est généralement pas difficile d'obtenir des rapports.

Méthodes et types de stockage des données


Cependant, lorsque la taille de l'organisation devient suffisamment grande ou si vous souhaitez augmenter votre avantage concurrentiel, il ne suffit plus de créer un produit et de le mettre sur le marché. Tendances actuelles - dans une étude approfondie du consommateur pour augmenter sa fidélité. Vous devez analyser l'entreprise sous différents angles et apprendre à évaluer plus précisément les coûts. Les tâches typiques de la catégorie must have sont les suivantes:

  • comment répartir les dépenses pour les unités d'exploitation minière
  • Comment prévoir la demande en fonction de facteurs internes ou externes
  • Comment gérer les risques dans les organisations financières et d'assurance
  • Comment augmenter le chèque moyen du client (ciblage)

Chacun des exemples ci-dessus nécessite l'utilisation de plusieurs sources de données. En outre, il est important que les méthodes de comparaison des données entre les sources soient cohérentes. Sinon, une situation se produira inévitablement lorsque l'organisation, par exemple, le directeur de la stratégie et le directeur des ventes apporteront la même information au directeur général, mais avec des numéros différents. Et puis un mois plus tard, ils découvrent qui était «à droite», en utilisant près de la moitié du personnel à leur disposition.

Le moyen le plus primitif d'organiser un entrepôt de données est le soi-disant «lac de données» (ou lac de données), lorsque nous prenons et empilons simplement des données provenant de différentes sources. Dans ce cas, nous avons une plate-forme technique unique pour travailler avec les données et isoler les requêtes analytiques complexes des tâches principales des systèmes d'information. Un tel entrepôt de données peut être assez peu relationnel. Cependant, dans ce cas, vous pouvez oublier l'analyse complexe et n'opérer qu'avec des requêtes simples. En outre, les personnes travaillant avec des données doivent connaître non seulement le domaine d'activité, mais également les modèles de données des systèmes source.

De plus, selon le niveau d'organisation de l'entrepôt de données, le stockage suit, selon ce que l'on appelle Classification de Kimball (Kimpball). Les mesures de différents systèmes sont unifiées, et de cette façon, nous obtenons quelque chose comme un réseau avec deux types de tableaux - faits et mesures. Il s'agit de l'enrichissement principal des répertoires, lorsque nous, en utilisant une clé naturelle commune dans les mêmes tables de sources différentes, par exemple, TIN dans le répertoire des organisations, obtenons une référence unique.

Le prochain en termes de complexité et de fiabilité est un entrepôt de données avec un modèle de données unique qui reflète les objets les plus importants qui décrivent les activités de l'organisation. La fiabilité réside dans le fait que les données, présentées sous une forme proche du troisième normal, avec un modèle correctement formulé, sont un moyen universel de décrire la vie de l'ensemble de l'entreprise, et ainsi, le modèle de données peut être facilement adapté non seulement pour les rapports analytiques et réglementaires, mais et pour le fonctionnement de certains systèmes d'entreprise.

E - Un


En parlant de la thèse de cet article, je vais énumérer les principaux problèmes rencontrés par les responsables de la construction des entrepôts de données:

" Cheval dans le vide ." Le référentiel est construit, mais personne ne l'utilise.

La boîte noire . Le stockage est construit, mais ce qu'il contient et comment il fonctionne est incompréhensible. Pour cette raison, des erreurs constantes se produisent, et si une partie de l'équipe de développement a également quitté, alors en conséquence, nous passons au point a.

" Calculatrice ". Le stockage est construit, mais il ne satisfait que les requêtes primitives, l'entreprise évolue beaucoup plus rapidement que la mise en œuvre des exigences, les nouvelles requêtes métier n'y sont pas prises en compte. De plus, certaines données peuvent être obsolètes ou rarement mises à jour.

" Vase en cristal ". Un grand nombre de contrôles manuels, de vérifications et d'actions de contrôle manuel sont nécessaires pour le stockage, si l'un des participants au support n'est pas au travail, il y a un gros risque de recevoir des données invalides ou de ne pas les recevoir du tout.

Nous analyserons les quatre cas plus en détail.

"Un cheval dans le vide." Si vous obtenez ce résultat, cela s'est produit pour l'une des deux raisons suivantes:

  1. Moins probable. Vous n'avez pas collecté les exigences des unités commerciales (ou, ce qui est pareil, elles étaient mal conçues). Une telle situation apparemment absurde se produit si l'idée de créer un référentiel ne vient pas d'une entreprise, mais d'un service informatique, qui dispose simplement d'un budget "supplémentaire", et le référentiel a été conçu parce que tout le monde l'a. Nous trouverons en quelque sorte des clients plus tard (encore mieux l'option "ils viendront courir avec les mains tendues") - si nous mettons tout là-bas. Les personnes responsables de l’allocation du budget considèrent que c’est quelque chose de nécessaire, elles lisent et entendent dans les livres, c’est un peu comme la modernisation, et elles hochent la tête en accord.
  2. Plus probable. Les clients de l'entrepôt de données ont été identifiés, par exemple, c'est le service des ventes, et voici l'idée brillante: «faisons un peu plus d'efforts sur le delta, mobilisons les finances, le personnel et un peu plus et toute l'entreprise utilisera le stockage». L'entrepôt a été construit, mais il n'est utilisé que par le service commercial, bien que tout y soit beau et je ne veux pas prendre les rives du lait, mais non, mes collègues n'ont pas de temps pour les banques Kissel, ils doivent creuser une donnée dans la mine du matin au soir. Après tout, c'est un morceau obtenu par la sueur et le sang (lire: temps passé).

Dans les deux cas, il n'y a pas d'élément de prise de responsabilité du top manager et de descente dans la hiérarchie. C'est comme avec la culture d'entreprise. Si le gène. Si le directeur de l'entreprise est composé de 2 députés, seul le gène lui-même peut utiliser le stockage au niveau de l'entreprise. un cerf, ou le stockage est en cours de construction pour une partie de l'entreprise - celle qui est supervisée par le chef du poste le plus élevé, qui est conscient de la nécessité d'introduire l'EDM.

Pour éliminer de telles situations, les éléments suivants sont nécessaires:

  1. Déterminer officiellement le sponsor du projet d'entrepôt de données - qui sera responsable du résultat à la fois financièrement et spirituellement
  2. Approuver la portée du projet, éventuellement en phase, indiquer des dates approximatives
  3. Coordonner avec tous les départements - de préférence, avec la construction des processus d'affaires tels quels et à être

Ce n'est qu'après cela que nous pouvons commencer à mettre en œuvre le projet - collecte des exigences, conception de l'architecture, etc.

La boîte noire . Donc, vous affirmez que vous avez construit le référentiel, que toutes les exigences sont prises en compte, cependant, personne ne comprend comment l'utiliser, de plus, si l'un des principaux développeurs est parti, il devient presque impossible de comprendre ce qui a été fait et comment.

Dans ce cas, évidemment, le processus de documentation de développement n'a pas été défini. Le principe de «première documentation», puis le développement doit être élevé, sinon à l'Absolu, puis à un contrôle assez serré. Et pas seulement de l'équipe responsable du développement de l'entrepôt de données. Idéalement, il est nécessaire que des développeurs de rapports supplémentaires (analytiques, réglementaires), les propriétaires des systèmes d'information internes de l'entreprise et, bien sûr, les consommateurs eux-mêmes soient connectés au processus de documentation continue et à jour.

De plus, le processus de documentation doit respecter les principes suivants:

  • Pertinence - l'état actuel du code de programme est entièrement déterminé par la composition de la documentation
  • Versioning - la capacité d'analyser la documentation des versions antérieures et de planifier des modifications pour les versions futures
  • Séparation - plusieurs personnes peuvent travailler sur un document en même temps
  • Applicabilité Il indique que pour chaque type de documentation de stockage, il est important de choisir une structure qui sera mieux comprise par les utilisateurs cibles: par exemple, la structure du tableau est mieux décrite sous forme de tableau, les processus métier sous forme de notations, l'interaction entre les systèmes d'information sous forme de diagramme, le métier - un dictionnaire sous la forme d'un système wiki, etc.

Il existe maintenant des produits logiciels qui simplifient considérablement la vie, c'est-à-dire pour lier la conception et le développement, mais bien qu'il n'y ait pas encore de solution complète pour les entrepôts de données, ce sont:

  • Cartes ER
  • Produits BPMN
  • Solutions ETL

Sans documentation à jour, la complexité de l'élaboration de nouvelles exigences augmentera et, avec une documentation compétente, elle diminuera.

" Calculatrice ". Si nous supposons que nous n'avons pas reçu de «cheval dans le vide», alors cette situation concerne le moment où les exigences semblent être remplies, mais elles le sont formellement. Vous vouliez compter le reste de la journée - s'il vous plaît. Voulez-vous les obtenir par région de contreparties - ce n'était pas dans les exigences, vous devez télécharger pour exceller, puis prendre du système X un téléchargement vers des contreparties avec un choix de champ Y, puis VPR-ite.

La situation actuelle indique un manque d'expérience avec l'équipe, sans une vision architecturale du développement ultérieur du référentiel, sans même un modèle de données primitif. En règle générale, ces référentiels deviennent temporaires ou sont rapidement oubliés. Dans le bon sens, le magasin devrait avoir la puissance d'une boule de neige qui roule d'une montagne. Au début, lorsque la bosse est encore petite et qu'il y a de la neige meuble devant vous, vous n'aurez guère besoin de la ramasser et de la pousser. À un moment donné, la renommée de votre produit se répandra et les utilisateurs chercheront de plus en plus dans le magasin.

Donc, pour que le stockage ne se révèle pas être une calculatrice, il faut s'assurer:

  1. personnel qualifié - architectes, analystes, développeurs EtL et SQL
  2. La charte du projet, qui indiquera le but du stockage non seulement pour la prochaine période budgétaire, mais aussi pour les années suivantes
  3. Critères quantitatifs et qualitatifs pour un entrepôt de données. S'il n'y a pas assez de personnel, il est recommandé d'attirer des consultants
  4. Imaginez clairement ce qui aidera à optimiser l'entrepôt de données à l'avenir - frais de personnel, logiciels, augmentation de la vitesse de développement des rapports, etc.


" Vase en cristal ". Le stockage est construit, il semble faire face à ses tâches, mais il a besoin de beaucoup d'efforts pour le supporter: maintenir une sorte de répertoires manuels, recharger constamment certaines sources, échecs de chargement, données en double, etc.

Cette situation peut se produire pour les raisons suivantes:

  1. Il a été dit plus haut à ce sujet - le manque de personnel qualifié;
  2. Concept non architectural - lorsque différentes parties du stockage sont réalisées par différentes personnes ou équipes sans concept commun approuvé, nous avons donc plusieurs façons d'extraire, de transformer et de charger des données;
  3. Une situation très courante est «l'externalisation du développement», son propre soutien, tandis que l'acceptation du travail se fait mal
  4. À un certain stade du développement du référentiel, "le budget est terminé". Et puis le stockage est finalisé (pris en charge) non par l'équipe qui l'a créé, mais par ceux qui ont besoin de données

Pour éviter ces situations, les actions suivantes sont recommandées:

  1. Les points ci-dessus comprennent le personnel qualifié, la charte du projet, le plan et le budget à long terme et la personne intéressée du cadre supérieur.
  2. Ce n'est pas l'externalisation qui mène le processus, mais un employé interne (analyste en chef ou architecte) qui supervise l'externalisation.
  3. Toute situation défaillante doit être soumise aux réunions pour examen par l'architecte de l'entrepôt. S'il y a plusieurs architectes, alors le comité d'architecture.
  4. Il est conseillé d'introduire une métrique de qualité pour l'entrepôt de données; vous pouvez utiliser cette métrique pour vous lier à la commande KPI.

Comme on peut le voir, dans tous ces cas, bien que la création d'un entrepôt de données soit une activité de projet, les processus de création eux-mêmes doivent être réglementés pour créer un résultat de haute qualité.

Transition d'un entrepôt de données vers un seul


Comme mentionné ci-dessus, le succès du projet de création d'un entrepôt de données est déterminé par un grand nombre de données d'entrée (budget, sponsor, équipe, objectifs, clients). Cependant, nous n'avons pratiquement pas abordé les processus commerciaux qui visent à développer et à maintenir le CD lui-même. Ci-dessous, j'essaierai de formuler les principaux processus commerciaux, qui sont conçus pour rendre les processus de travail avec les données dans l'entreprise vraiment unifiés:

  1. Processus de mise à jour de la documentation technique et utilisateur
  2. Processus de mise à jour du dictionnaire professionnel (glossaire) des données
  3. Processus de contrôle de la qualité des données
  4. Processus de collecte et de gestion des exigences relatives au CD et au système de rapport
  5. Processus de gestion de l'infrastructure de stockage
  6. Processus d'optimisation du stockage et de la collecte de données

Dans le paradigme moderne, cet ensemble de processus métier forme la base du concept de gouvernance des données.

Très souvent, lorsque vous essayez de mettre en œuvre ces processus grâce aux efforts de l'équipe de création de CD et de reporting, une résistance active sera prise, ou ignorant les processus. C'est compréhensible, car au sens local, c'est une extension du développement.

Par conséquent, il sera utile de prendre les mesures suivantes:

  • Introduction d'une structure de responsabilité horizontale (chaque participant peut être responsable d'une petite zone)
  • Représentation graphique de tous les workflows possibles pour tous les employés (formalisation du processus)
  • Mise en œuvre du pourcentage et de la qualité de la responsabilité dans le système KPI

Malgré le fait que, dans le sens local, le processus de transition semble être "bureaucratique" et lourd, au sens global, il offre des avantages importants et fait gagner du temps. Depuis la principale perte de temps - en inventant à partir de zéro des solutions déjà existantes en raison de l'impossibilité ou du manque de volonté de comprendre le mécanisme existant.

Un peu sur la solution architecturale cible


Malgré le fait que l'architecture de l'EDS s'appuie sur un grand article séparé, ou même un livre, je vais également indiquer les principales exigences techniques pour un entrepôt de données mature:

  1. Le paradigme du lac de données ne remplace pas les entrepôts de données d'entreprise, mais coexiste avec lui
  2. L'EDS devrait avoir diverses interfaces de présentation des données: outils bi, la possibilité d'exécuter des requêtes sql ad hoc, la fourniture de données standard en json, xml, etc.
  3. Un modèle de rôle d'accès aux données devrait être mis en œuvre.
  4. Vitesse de réponse lors de l'accès aux données: 90% des requêtes typiques - moins de 1 seconde, 99% des requêtes - moins de 10 secondes. Il devrait y avoir un assez bon approvisionnement en ressources
  5. La présence d'une couche centrale HD unique et connectée (de préférence - méthodologie Inmon)

En conséquence, l'entrepôt de données est appelé unifié non pas par la disponibilité des sources, mais par la disponibilité des consommateurs de données. Et cela est beaucoup plus compliqué que d'écrire un ETL universel et d'ajuster les pétaoctets de mémoire.

Source: https://habr.com/ru/post/fr418361/


All Articles