Les chiffres comptent beaucoup pour nous. Nous investissons dans les données, les écoutons et les comprenons. Nous sommes guidés par eux lors de la prise de décisions. Malgré le fait que nous avons encore beaucoup d'avance en termes d'infrastructure pour travailler avec les données, l'approche axée sur les données a toujours été avec nous. Dans ce texte - une histoire sur la façon dont nous sommes allés, quelles leçons nous avons apprises et quel râteau nous avons collecté.

Je m'appelle Andrey Sytsko, je suis responsable de la ligne de produits de la fintech ID Finance. Comme je l'ai dit, nous avons encore un long chemin à parcourir en termes de méthodes et d'outils pour travailler avec les données. La croissance multiple que l'entreprise a connue depuis sa création établit un rythme inaccessible pour l'infrastructure analytique. Cependant, il est probable que les attentes d'une approche basée sur les données augmentent simplement à un rythme plus rapide. En fin de compte, comme nous le comprenons tous, non seulement des outils et des technologies spécifiques sont importants, mais l'approche, la culture et la vision du monde.
Qu'est-ce qu'une culture axée sur les données?
Qu'entend-on par une culture axée sur les données dans une entreprise? À mon avis, c'est à ce moment-là que nous avons convenu en interne que les données peuvent donner une bonne réponse ou des conseils dans le cadre d'un dilemme commercial particulier. Un tel arrangement a plusieurs conséquences:
- Nous sommes prêts à investir dans le travail avec les données: extraction, stockage, analyse, interprétation, visualisation et plus encore. Prêt à dépenser de l'argent et du temps
- Nous sommes prêts à écouter les données. C'est-à -dire lorsque vous devez prendre une décision commerciale, nous nous arrêtons et nous nous disons - regardons les chiffres.
- Nous pouvons comprendre les données. En effet, il est terrifiant de simplement tirer la mauvaise conclusion, avec tous les chiffres nécessaires à portée de main. Dites ce que vous aimez, il y a des exigences minimales pour la pensée analytique des décideurs afin d'extraire du sens des tableaux, des graphiques et des tableaux.
- Nous faisons confiance aux données et nous les guidons lors de la prise de décisions. Lorsqu'un gestionnaire, en regardant un rapport analytique préparé, dit qu'il fera mieux comme le lui dit l'expérience, plutôt qu'un rapport, alors il n'a pas nécessairement tort. Et si les analystes ne prenaient pas en compte la saisonnalité, les résultats des élections à venir ou autre chose? Le dialogue entre managers et analystes, la confiance mutuelle est ici importante.
Naturellement, la culture axée sur les données dans l'entreprise est plus facile à créer lorsque les fondateurs de l'entreprise sont déjà ses transporteurs. L'utilisation de données dans la prise de décision rend ce processus plus long et plus coûteux. Et sans conviction sérieuse qu'il est logique de le faire, et non autrement, vous n'irez pas loin. Nous avons eu de la chance dans ce cas - la bonne fondation pour le futur bâtiment était déjà posée.
Premières étapes de l'infrastructure
La première chose que vous rencontrerez sur le chemin de votre prise de décision idéale basée sur les données est que vous ne disposez pas de suffisamment de données. En général, ils seront toujours manqués pour des raisons objectives, mais vous devez commencer quelque part.
Pour commencer, vous construisez l'infrastructure de collecte et de stockage des métriques. Dans la grande majorité des projets pour les backends de données (et nous avons, par exemple, des informations sur les clients, leurs prêts et leurs paiements), la réplique de la base de production est simplement utilisée au début. Dans ce cas, vous devrez profiter pleinement de la structure de données interne de votre logiciel, que les développeurs ont créée sans penser à rendre les données faciles à analyser. Mais nous avons des informations de première main, pour ainsi dire. Au début, il y a généralement une base de données, et la structure des données est relativement simple, ainsi que les questions que vous souhaitez poser pour ces données, donc c'est une option complètement fonctionnelle et investir dans quelque chose de plus compliqué n'a pas de sens.
Pour les données frontales (pages vues, interaction avec les contrôles, défilement, clics, saisie), vous pouvez utiliser des outils classiques tels que Google Analytics ou Yandex.Metrica et, par exemple, HotJar pour enregistrer des sessions. Il y a suffisamment de fonctionnalités de base pour les tâches marketing, et pour les rapports de produit sur les entonnoirs et les tests A / B, nous avons assez rapidement basculé pour travailler via l'API Google Reporting. Nous en avons déjà parlé sur Habré.
Ici et
ici .

Après avoir construit l'infrastructure de base et commencé à collecter des statistiques de base, vous devez vous assurer que le produit se développera de manière synchrone avec ses métriques.
C'est-à -dire lorsque vous allez implémenter une nouvelle fonctionnalité dans un produit, vous devez répondre approximativement aux questions suivantes:
- Quelles mesures commerciales clés cela affectera-t-il?
- Quelles modifications seront apportées aux parcours clients ou aux algorithmes backend? Et comment cela affectera-t-il les mesures existantes?
- Quelles étapes / composants puis-je décomposer la nouvelle fonctionnalité afin qu'en collectant des mesures pour chacune d'entre elles, je puisse regarder à l'intérieur et analyser le travail de la fonctionnalité
Réfléchissez maintenant si la possibilité de collecter toutes les mesures ci-dessus fait partie de l'énoncé du problème. Et comment les collecterez-vous exactement lorsque la fonctionnalité sera implémentée?
Ensuite, vous devez vous assurer que le sous-système de collecte et de stockage des statistiques est suffisamment important pour votre équipe de développement et votre équipe informatique. Son importance devrait être presque égale à celle du système de production. Par exemple, au début, nous avions un problème constant avec le suivi de Google Analytics disparaissant de différentes pages, jusqu'à ce que nous discutions de l'importance de ces choses avec les développeurs. Après cela, les bibliothèques communes nécessaires, les directives d'AQ, etc. sont apparues.
Analytics pour les analystes
La disponibilité des données ne signifie pas leur utilisation efficace. Les problèmes / tâches suivants se produisent généralement:
- Où trouver telle ou telle métrique? Comment la faire sortir de là ?
- Est-ce qu'elle va bien? (tout d'un coup tout ne fonctionne pas comme prévu)
- Quel rapport dois-je tirer pour pouvoir tirer des conclusions?
- Y a-t-il une signification statistique?
- Est-il possible de déterrer plus de données afin de mieux comprendre ce qui se passe ou de vérifier les métriques collectées dans un sens / au même endroit par d'autres métriques.

Il s'avère que c'est un travail assez volumineux qui nécessite des compétences spéciales et, surtout, du temps. Il faut donc créer un département analytique.
Notre département analytique est assez important, en termes de nombre de personnes, il est presque égal à la direction moyenne. Il contient à la fois des étudiants d'hier ayant une bonne connaissance de SQL et des professionnels qui comprennent bien comment et quelles données doivent être obtenues pour prendre des décisions commerciales. Le flux de demandes qui leur est adressé dépasse traditionnellement leurs capacités.
Lacs et entrepôts de données
L'un des problèmes que vous êtes susceptible de rencontrer lorsqu'il y aura de plus en plus de données est qu'elles se trouvent à différents endroits et que certains analystes peuvent travailler avec certains référentiels, d'autres avec d'autres. Et avec certaines bases de données, probablement, personne ne sait travailler immédiatement. Il devient également difficile de comparer ces données entre elles.
La solution à ce problème peut être un système tel que l'entrepôt de données (DWH). Dans notre cas, nous y avons pensé pour la première fois, lorsque nous voulions combiner des données sur le comportement des utilisateurs sur le site et des données sur son comportement en tant qu'emprunteur. Les principes de construction de DWH sont bien au-delà de la portée de cet article, je dirai seulement quelles difficultés / caractéristiques étaient dans notre cas:
- chacun de nos projets (il y en a maintenant 9 dans 6 pays) la structure des données est légèrement différente et, en conséquence, il a fallu développer des principes pour leur unification
- Il a fallu réfléchir à la manière d'unir des données hétérogènes dans un même stockage.
Par exemple:
- comportement des utilisateurs sur le site - transitions entre les pages, interaction avec les contrĂ´les
- journal de travail de la politique de crédit - la mise en œuvre des règles et leur résultat, la transition le long des branches de la logique
- comportement de l'emprunteur - remboursements de prêts, ventes croisées
Maintenant que nous avons plus ou moins appris à intégrer les données les unes aux autres et à les fusionner dans un seul Data Lake, nous avons procédé à la création de vitrines - des ensembles de données, des rapports et des visualisations pré-préparés - pour lesquelles tout était question. À la sortie, nous nous attendons à recevoir une réduction significative des besoins en compétences et en coûts de main-d'œuvre de nos analystes.
Habituellement, à ce stade, un rôle dédié d'ingénieurs de données apparaît dans l'entreprise - c'est-à -dire les personnes en charge de l'infrastructure des données. Ils sont chargés de la maintenance et du développement du DWH.
Il vaut mieux embaucher immédiatement les bonnes personnes.
Avec la croissance de l'entreprise, il s'avère que tous les employés ne comprennent pas immédiatement l'importance des données et ne sont pas en mesure de travailler avec eux. Deux questions se posent: la promotion interne et l'embauche des bonnes personnes.
En ce qui concerne la promotion interne, alors, comme mentionné ci-dessus, si les fondateurs de l'entreprise sont porteurs d'une culture de données, cela revient à la haute direction, aux cadres intermédiaires, etc. Par exemple, je demande à mes chefs de produit de calculer l'effet potentiel en argent ou de modifier les métriques clés avant la mise en œuvre et de voir le fait du plan après la mise en œuvre de la nouvelle fonctionnalité. Ou, par exemple, pour prioriser le travail, laissez-vous guider par les mêmes évaluations de la «valeur commerciale».
Nous abordons l'implantation d'une culture basée sur les données de deux côtés. Notre service informatique peut demander aux chefs d'entreprise de définir une estimation de l'effet en argent dans l'énoncé des tâches. Et cela s'applique à tous les départements: marketing, support, comptabilité. À cela, nous avons récemment ajouté l'exigence que l'entreprise décrive explicitement les mesures par lesquelles elle suivra les résultats des changements mis en œuvre, et le service informatique doit s'assurer que ces mesures sont accessibles d'une manière compréhensible.
Il est important, bien sûr, de vérifier immédiatement lors de l'embauche de personnes si elles ont l'habitude de se concentrer sur les chiffres dans leur travail ou non, si elles savent comment le faire. Mes questions préférées lors de l'entretien, lorsque nous discutons de l'expérience du candidat: comment avez-vous calculé quel effet la fonctionnalité donnera-t-elle, comment avez-vous mesuré quel effet a-t-elle réellement produit, et pourquoi pensez-vous que cet effet devrait être attribué à cette fonctionnalité, et non à autre chose. Un bon candidat pourra toujours justifier logiquement pourquoi il l'a fait et pas autrement.
Avec la croissance des volumes d'affaires et de données, il devient significatif d'utiliser des techniques statistiques plus avancées et des bibliothèques d'applications plus avancées - une partie de ce qu'on appelle maintenant la science des données.
Si nous parlons de la science des données dans un sens plus large que les réseaux de neurones et l'apprentissage automatique, alors, par exemple, nous avons eu une expérience réussie en passant de packages classiques comme SAS pour construire une régression logistique à des outils Python auto-écrits. Cela a
permis de réduire de 5 fois
le temps nécessaire pour développer le pointage de crédit.
À un certain moment, nous avons réalisé que la régression logistique et l'analyse de cluster sur certains volumes justifient leur utilisation dans le marketing et la gestion de produits pour les tâches liées à la segmentation client et la détermination du produit optimal ou de la stratégie de remise individuellement pour chaque client.
Apprendre à prédire l'avenir
La particularité de l'activité de prêt est qu'il ne suffit pas de vendre un produit - l'argent à crédit, il faut gérer les flux de trésorerie futurs. En conséquence, le rôle des différents modèles prédictifs et leur intégration dans la prévision du futur P&L est mis en avant. Exemples de tels modèles: frais futurs basés sur les données d'arriérés anticipés, facture moyenne basée sur les données de segmentation de la clientèle, nombre de prêts basés sur les données de retour, etc.

Cela est généralement très inspirant lorsqu'il existe une boîte à outils qui vous permet d'évaluer l'impact de votre fonctionnalité sur diverses mesures clés de l'entreprise et de prévoir l'augmentation des revenus de l'entreprise.
Pour développer, maintenir et mettre en œuvre de tels outils, nous développons actuellement un département de planification et d'analyse financière (FP&A), dont la tâche sera de rendre la prise de décision commerciale encore plus appuyée par les données, l'analyse et la modélisation.
Devant nous, il y a encore beaucoup de choses intéressantes: le développement de l'infrastructure BI, la création de départements qui la supportent et les processus qui l'utilisent.
Pour résumer, nous pouvons distinguer les principes suivants pour le développement d'une approche basée sur les données, auxquels j'adhérerais:
- Le retour sur investissement escompté (par exemple, en économisant du temps pour le personnel, en augmentant la précision / la rapidité de la prise de décision, etc.) est adapté aux ressources dépensées.
- Gestion interne des produits: lors de la création et du développement de l'infrastructure, la «liste de souhaits» et les commentaires des clients internes sont étudiés. Et pris en compte.
- Le développement des infrastructures doit suivre le développement des processus et des méthodologies. Et tous ensemble - pour ne pas prendre de retard et ne pas dépasser le développement de l'entreprise en termes de besoins analytiques.