Un lac de données marketing - des tableaux monstrueux aux rapports et visualisations

Salut En ayant les informations nécessaires, vous pouvez faire beaucoup de choses utiles (ou beaucoup de choses extrêmement nuisibles), cela dépend de qui a ces informations et de ce qui les motive. Pour travailler avec des informations, effectuez les téléchargements dont vous avez besoin, compilez des rapports, vous devez stocker ces informations quelque part. Nous avons donc créé un immense lac de données marketing

Je m'appelle Andrey Naumov, je travaille dans l'équipe de gestion des données d'entreprise et je fabrique un produit pour le marketing et les ventes. Notre tâche consiste à remplir ce lac de données (car quel type de lac de données est-ce donc sans données) afin que les hommes d'affaires et les utilisateurs directs parmi les employés qui ont besoin de créer des analyses détaillées puissent travailler de manière productive avec lui.


Sous la coupe - pourquoi nous avions même besoin d'un tel lac, comment nous l'avons construit, comment il aide à pénétrer de nouveaux marchés de vente à l'intérieur et à l'extérieur du pays, ainsi que nos plans pour l'avenir.

Pourquoi est-il nécessaire


Avant la création d'un seul lac de données, la situation du traitement des informations laissait beaucoup à désirer. Non, tout a fonctionné, mais ça pourrait être bien mieux. Tout d'abord, je vais vous dire comment les gars travaillent dans notre marketing.

Ils travaillent avec une énorme quantité d'informations provenant de nombreuses sources de données. Ce sont des sources à l'intérieur de SIBUR et à l'extérieur, qui sont librement disponibles et disponibles uniquement sur abonnement, gratuitement et payantes. En général, le zoo est toujours là. La plupart de ces informations sont d'énormes fichiers plats qui nécessitent un logiciel spécialisé pour fonctionner. Souvent en même temps - pour chaque type de données son propre logiciel. Il est clair que ce logiciel fonctionne souvent de manière instable, voire brutale.

Par exemple, la plupart des travaux de marketing sont liés à l'étude des flux de marchandises (y compris les importations et les exportations), avec leur aide, vous pouvez comprendre quelles marchandises quittent la Russie et qui, au contraire, arrivent. Ici, nous nous intéressons exactement aux produits que SIBUR peut vendre ou créer directement ou indirectement. Les informations traitées par ce système sont fournies par lots, pendant des mois. Construire une sorte d'analyse intelligible, disons, en un an ou une décennie, était impossible, car nous nous sommes reposés sur les limites du logiciel - dans le même Excel, il y a un certain maximum de lignes. Et nous avons récupéré des tables pour plus d'un million de lignes. Les ordinateurs de travail n'ont pas banalisé une telle intimidation.

Et ce ne sont que des flux de marchandises comme l'une des sources, et il existe de nombreuses sources de ce type - il existe également des statistiques ferroviaires, des informations provenant des systèmes internes sur les ventes des entreprises, des sources d'experts, des rapports commandés à des agences externes et bien plus encore.

Que faire


Il y avait une tâche - créer une seule version de la documentation en un seul endroit afin que chaque utilisateur puisse travailler avec des données à l'aide d'un outil de visualisation et créer des analyses. Dans l'option Do, nous avons eu la défocalisation la plus folle des spécialistes du marketing en raison du stade même de la préparation des données. Il s'est avéré de facto que nos spécialistes du marketing ont passé beaucoup de temps à travailler en tant qu'ingénieurs de données. C'est faux.

Il était très difficile de travailler et d'analyser les données dans le contexte de plus d'un an. Parce que même après avoir préparé et téléchargé certaines données de l'année, elles devaient être soigneusement nettoyées. De doublons, d'erreurs, de noms incorrects. Certaines lignes nécessitaient l'unification, par exemple, quelqu'un dans la table avait notre vaste patrie appelée "Russie", quelqu'un - la "Fédération de Russie", et quelqu'un est entré succinctement dans le "RF". Tout cela devait être réduit à un seul point de vue et, comme vous le savez, l'exemple avec le nom du pays est loin d'être le seul et pas le plus évident.

Et le fait est que nous sommes une société holding, nous avons de nombreuses organisations, et tout le monde n'a pas le mot "SIBUR" dans le nom. Par conséquent, essayer de rechercher dans la liste et vouloir filtrer les noms en quelques clics afin que seule la société holding puisse être vue, atteindre le résultat n'a pas été facile.

De plus, combien de personnes - autant d'approches pour résoudre les problèmes de travail. Chaque employé avait sa propre méthodologie pour le traitement, le filtrage, la cartographie et la combinaison des données. Le problème est que cette technique existait dans la tête d'un employé. Par conséquent, à cette époque, beaucoup de choses étaient liées à une personne en particulier. Ce n'est pas non plus l'histoire la plus amusante, car vous devez décharger quelque chose - et la personne est en vacances. Et asseyez-vous, attendez-le. Parce que sans cela, ils le feront bien plus longtemps, ou ils le feront mal.

En général, nous avons décidé de nous assurer qu'il n'y avait pas de dépendance à l'égard d'une personne en particulier, que toutes les informations étaient générales et accessibles au même niveau pour tout utilisateur qui en avait besoin.

Pour ce faire, nous nous sommes d'abord tournés vers les entreprises et leur avons demandé laquelle des sources de données serait la plus intéressante pour eux. Nous les avons sélectionnés, préparé pour eux un entrepôt de données pilote avec les technologies des lacs de données (nous avons décrit ce lac en détail et avec des diagrammes dans ce post ). Et puis, à l'aide d'un certain nombre d'outils ETL, ils y ont versé une fois toutes ces sources nécessaires: flux de marchandises, statistiques sur les produits, etc., ont soigneusement mis cela dans la base de données (Vertica). La tâche était de faire l'intégration de tout ce qui est possible, ce que nous avons fait.

Pour la visualisation des données, nous utilisons Tableau, sa version serveur a été vissée dans le référentiel et nous avons donné aux utilisateurs l'accès à toutes les données à la fois. Les utilisateurs, je dois dire, ont été encouragés - avant de vous asseoir et de regarder des tables (immenses tables), mais maintenant vous avez tout magnifiquement et commodément visualisé.


Analyse du flux de produits


Analyse de produit

Analyse des concurrents

Bien sûr, nos analystes ne voient pas un tas de lignes maculées sur l'écran, mais des nombres et des noms bien réels de contreparties, mais nous ne pouvons pas les montrer.

Plus loin des utilisateurs sont allés des commentaires utiles. On nous a fait comprendre que les données brutes (brutes) n'étaient pas très intéressantes pour eux, car chacun d'entre eux était engagé dans sa propre pré-formation. Par conséquent, nous avons commencé à travailler sur les mappages et les renommages les plus fréquents, à réécrire les contreparties et à corriger de nombreuses erreurs - il pouvait y avoir des doublons et des signes de ponctuation dans les colonnes, quelqu'un pouvait entrer ses homologues à côté du nom de la société. En général, il y avait suffisamment de déchets.

Ils ont amené les pays à une vision commune, cela a aidé à s'effondrer et à les ouvrir par région - les employés peuvent effectuer le déchargement en quelques clics dans la CEI, dans les pays d'Amérique du Sud ou du Nord, ce qui est assez important pour une analyse appropriée. L'effondrement est une chose pratique, nous avons donc décidé d'étendre cette pratique aux entités juridiques - comme pour les pays, uniquement à l'échelle des exploitations et des entités juridiques individuelles.

Pourquoi l'analyse est importante pour travailler avec le marché


Grâce au travail accompli, il est devenu possible d'afficher des rapports pour les 15-20 dernières années en termes d'importation et d'exportation, et en même temps de ne pas devenir fou et de ne pas brûler quelques PC en état de marche. Vous pouvez maintenant prendre cette période et la déployer par année ou échouer par mois.

Alors voilà. Dans les flux de matières premières, il existe une chose telle que TNVED, la nomenclature des matières premières de l'activité économique étrangère. Il s'agit d'un maximum de 10 chiffres. Plus il y a de chiffres - plus l'indication d'un produit particulier est précise.

Regardez l'exemple du café.

09 - café, thé, maté, thé paraguayen, épices. Catégorie assez générale.
0901 2 - il nous fera déjà savoir que nous parlons de café torréfié.
0901 21 - café torréfié avec de la caféine (non torréfié et décaféiné a un code différent).
0901 21 000 2 - ces mêmes 10 derniers chiffres, il s'agit déjà de robusta (Coffea canephora).

Il en va de même pour les produits qui comptent pour nous. C'est-à-dire que nous vendons et produisons. Bien sûr, le café est également important, mais jusqu'à présent, nous ne le consommons pas en quantité suffisante pour décharger les statistiques sur les importations.

Et les polymères, plastiques et matières premières nécessaires à leur fabrication sont importants pour nous.

Ici, les codes ressemblent déjà à cela.

39-40 - matières plastiques et ouvrages en ces matières; caoutchouc, caoutchouc et ouvrages en caoutchouc.
3901 - Polymères d'éthylène sous formes primaires
3901 1 - polyéthylène d'une densité inférieure à 0,94
3901 10 100 0 - polyéthylène linéaire.

Et donc pour chaque polymère ou type de matière première, on passe du général au particulier. Pourquoi prendre la peine de regarder ça du tout. En utilisant les données sur les flux, on peut comprendre en détail qu'une certaine quantité de polymères a été importée en Fédération de Russie au cours de l'année. Ou des matières premières. Autrement dit, quelqu'un achète des produits en dehors du pays que nous produisons, y compris nous ici en Fédération de Russie. De plus, il est possible de voir dans quelle mesure il est acheté, avec l'aide de gars d'analyses avancées, vous pouvez viser les bons prix et, finalement, permettre d'atteindre un tel client avec le même produit, mais nous le faisons ici et lui offrir un tel produit à prix raisonnable. Compte tenu des moyens qu'il consacre aux droits de douane et au transport.

Avec l'exportation la même chose. L'un des produits qui nous intéresse est souvent exporté à l'étranger. Il y a donc une demande, à une échelle très constante et de bonne qualité. Ainsi, vous pouvez voir ce que c'est, à qui cela va et combien ils paient pour cela. Déterminez ensuite si nous pouvons faire de même, en tenant compte des coûts de la logistique, que cela ait du sens ou non.

Et cela permet également de surveiller l'activité des concurrents dans le même domaine et, si nécessaire, d'ajuster leur nombre.

Mais ce serait trop simple si le TNVED indiquait toujours clairement quelles marchandises voyageaient, non?

Par conséquent, certains citoyens importent du polyéthylène sous un code TNVED différent, mais ici, nos analystes peuvent étudier d'autres domaines dans les données des flux de marchandises, puis, à partir de la totalité des signes, comprendre qu'il s'agit exactement de polyéthylène, et non de ce qui est indiqué dans le code. Cela permet de voir des volumes supplémentaires d'exportations et d'importations qui, lors des premiers contrôles, peuvent échapper à l'attention. Sur la base de ces données, nous pouvons déjà estimer - et tout à coup, il est logique pour nous d'ouvrir une production supplémentaire, qui sera payante, à en juger par les chiffres et les volumes.

Nous pouvons en outre enrichir ces rapports à l'aide de l'analyse et de l'expertise des employés eux-mêmes - un nouveau champ apparaît dans la base de données, par exemple, le «produit», à partir duquel il est désormais également possible de faire des sélections et de créer des rapports. Et pour chaque produit spécifique (et cela est déterminé à la fois par le TNVED et les connaissances expertes de ses collègues), regardez que nous avons quelques clients potentiels à l'intérieur du pays, et plusieurs autres à l'extérieur. Par conséquent, vous pouvez commencer à fabriquer des matières premières pour eux, ou même le produit final.

Nous devons aller plus loin


Vous pouvez aller plus loin - en choisissant de tels destinataires dans le pays, nous pouvons voir ce que ces gars-là commandent encore pour eux-mêmes à partir des marchandises auxquelles nous sommes liés. Du coup, ils s'intéressent non seulement au polyéthylène, mais aussi au polypropylène, ainsi qu'à certains types de films BOPP? Il s'avère un champ de connaissances assez étendu sur un consommateur particulier, après avoir étudié lequel, vous pouvez immédiatement lui offrir la marchandise, le bon prix et des conditions confortables.

Ce que nous avons maintenant

Nous continuons à travailler de manière itérative - nous saisissons des données, collectons les commentaires des utilisateurs et affinons nos règles analytiques. Il s’agit d’une sorte de travail d’équipe, nous apprenons quelque chose d’eux, eux de nous, car ils ont de très bonnes connaissances d’expert, et nous avons des connaissances techniques.

Après avoir téléchargé les sources les plus critiques et la préparation de base de ces données, nous passons enfin du stockage de test (tout ce temps, nous sommes toujours dans le test, oui) pour combattre. Cela supprimera beaucoup de problèmes, car combat = certifié, et il stocke beaucoup de données qui n'ont pas pu être fournies au test (secrets commerciaux et autres choses qui sont également importantes pour l'analyse). Maintenant, ce sera en fait un seul lac de données avec un grand nombre de sources. Y compris les données de cotation - nos collègues des analyses avancées sont en mesure de prédire les prix d'un produit particulier en analysant de nombreux facteurs - il peut s'agir des actions de l'entreprise, des catastrophes naturelles dans les régions de production, des rumeurs de fusions et d'acquisitions, et même d'un tweet infructueux de quelqu'un guides.

L'analyse prédictive utilise des données et fournit des prévisions, ces mêmes prévisions sont ajoutées au lac de données et le marketing peut les utiliser pour leurs rapports et analyses.

Il s'avère qu'un tel cycle de données dans un lac. Jusqu'à présent, tout le monde est satisfait - l'entreprise, les critiques sont aussi positives que possible, car ils comprennent le temps et les efforts que ce projet permet d'économiser, et les analystes eux-mêmes.

Nous travaillons donc sur. Et qui veut extraire le maximum avec nous des données - bienvenue sur la page d'emploi sur hh.ru.

Source: https://habr.com/ru/post/fr461029/


All Articles