De combien de Data Scientists avez-vous besoin pour allumer une ampoule (ou quelle équipe fera fonctionner les données pour l'entreprise)



"De combien de scientifiques avez-vous besoin pour transformer une ampoule?"
- Premièrement, si la sélection historique d'ampoules torsadées avec succès est suffisante.

Bien sûr, c'est une blague, mais quand dans une entreprise, il s'agit d'apprivoiser le Big Data pour améliorer les performances de l'entreprise, tout le monde ne comprend pas qui l'apprivoisera. L'opinion classique: vous avez besoin d'un data scientist - un analyste de données capable de construire des modèles, de comprendre l'intelligence artificielle et le machine learning. Et cet homme décide de tout dans une seule tête.

En outre, il existe une tendance selon laquelle lorsqu'une division Big Data est formée dans une entreprise, les Data Scientists sont ceux qui sont principalement embauchés.

En réalité, tout est plus compliqué. Sans la date du scientifique, bien sûr, il n'y a pas de travail avec les mégadonnées, mais il n'est pas un guerrier seul sur le terrain. Qui d'autre devrait se battre au coude à coude avec lui est mieux compris par des exemples.

Médiateur


Disons qu'il existe un réseau de clubs de fitness qui souhaitaient utiliser le big data. Data Scientist résout le problème de prédire que le client, en plus de la formation de base, est enclin à en utiliser d'autres personnels. Le spécialiste prend des données sur qui a fait quoi avant et construit un modèle de dépendance.

La question se pose - quelle formation? Et comment allons-nous lui proposer d'aller chez eux? Il sera nécessaire de diviser clairement la formation en hommes et femmes. Divisé par la logique commerciale - si une personne est déjà engagée avec un entraîneur premium, nous ne devrions pas offrir le non premium.

Ou un exemple du secteur bancaire. Les banques ont des produits qui sont vendus seuls, et il y en a qui sont souvent vendus avec d'autres. Nous achetons une carte ou prenons un prêt, et en même temps nous vendons de l'assurance. Une histoire similaire dans les compagnies d'assurance. Nous pouvons acheter une assurance automobile, mais en même temps, nous pouvons vendre une assurance-vie en parallèle.

Donc, si vous ne connaissez pas l'entreprise, mais qu'il y a une tâche à prévoir pour une sorte d'achat, vous pouvez faire ce qui suit: «Regardez, beaucoup de nos clients achètent cette formation / assurance». Et commencez à construire des modèles pour stimuler les ventes. Mais les entreprises savent que cette formation / assurance ne va qu'avec quelque chose. Et même le modèle peut s'avérer bon, mais le produit ne fonctionnera pas séparément.

Lors de la construction d'un modèle, il y a toujours un ensemble de notes d'introduction liées au fonctionnement de l'entreprise. Et si nous les formulons incorrectement, alors cela n'aura aucun sens. Par conséquent, en plus des données scientifiques réelles, vous avez besoin d'un propriétaire de produit - un chef de produit qui se liera d'amitié avec les entreprises en mathématiques.

Ces deux rôles sont indispensables pour une équipe Big Data. Important: si nous avons plusieurs secteurs d'activité, nous avons besoin pour chaque direction de notre propre produit. Le Data Scientist peut être universel.

Vous pourriez même dire que le propriétaire du produit est celui qui commence tout. Qui élabore les études de cas de l'apprentissage automatique dans une entreprise donnée et dirige ensuite la mise en œuvre de ces cas.

Mais comme on dit, et ce n'est pas tout.

Programmeur Digger


Imaginez qu'une banque décide de promouvoir une carte spéciale pour les clients qui voyagent souvent à l'étranger. Quelles données historiques peut-il s'orienter pour former le soi-disant signe? Le plus évident est qu'à un moment donné, il y a eu une transaction à l'étranger sur la carte du client. Le symptôme est simple, mais il doit être clairement défini. Combien de fois par an ces transactions ont-elles eu lieu? À quels moments? Pour quelle période? Tout cela doit être formulé, puis encodé à partir de données simples afin que l'attribut soit correctement sélectionné. Pour ce faire, vous avez besoin d'une personne distincte - un ingénieur des données.

Les tâches des rôles sont vraiment différentes. Le Data Scientist doit construire un bon modèle. La tête est préoccupée par le choix des fonctionnalités, des cas, des algorithmes à utiliser, comment optimiser pour que le modèle fonctionne rapidement. Et un ingénieur de données est plus comme un programmeur ou un développeur de base de données. Il doit collecter des données à partir de 10/100/500 tables et sources différentes, calculer ceci, comparer ceci, en tenant compte de ceci, ceci et cela.

Un point important: l'ingénieur de données ne s'allume pas au premier stade. Comme nous l'avons déjà vu, le cycle de développement comprend des étapes expérimentales (MVP - produit minimalement viable) et productives. Pendant que nous expérimentons, il est très difficile de décrire clairement les données à l'ingénieur à chaque fois quelles données télécharger. Il y a de la créativité, des hypothèses sont élaborées, les données tournent de différentes manières. Ici, même le moindre inconfort entre le scientifique et l'ingénieur retarde la préparation du MVP pendant des semaines.

Plus précisément, le Data Engineer effectue la première itération de la préparation des données, car s'il n'y a pas de données, le Data Scientist n'a rien à travailler. De plus, Data Scientist construit de manière itérative des fonctionnalités pour le modèle. Une fois que le modèle a réussi et doit être converti en ingénieur de données productif selon les spécifications de Data Scientist, il écrit un code productif pour le calcul régulier du trait.

Par conséquent, la tendance actuelle: au stade MVP, le scientifique prépare les données de manière indépendante. Mais ensuite, lorsque le modèle est construit et que tout le monde l'a accepté, le Data Scientist décrit clairement comment les attributs dont il a besoin sont formés, et le transmet à une personne formée séparément. Il les programme pour qu'ils soient constamment utilisés dans le produit.

Cette histoire peut également être tordue d'un autre côté - si l'objectif commercial n'a pas encore été déterminé, mais l'entreprise dispose d'un vaste éventail de données que vous souhaitez utiliser.

Dans ce cas, nous essayons conditionnellement 100 cas, 100 MVP, à partir desquels on peut tirer. Si vous développez le processus de construction de MVP dans chaque cas individuel, 80% vont à la préparation des données, 20% - au modèle lui-même. Chaque fois, les données doivent provenir de sources disparates et multiformats. Rassemblez-les en signes logiques et compréhensibles: par exemple, "une transaction au point N" devrait se transformer en "voyage à l'étranger tant de fois par an".

Ce travail prend beaucoup de temps. Si nous avons utilisé une sorte de vecteur de données et construit un modèle, et que cela s'est avéré mauvais, nous revenons en arrière et téléchargeons à nouveau les données. Avec chaque cas sur 100. Vous pouvez optimiser ces itérations d'une seule façon - si nous avons une grande «vitrine» à l'avance avec tous les attributs possibles - des milliers, des dizaines de milliers. Créer une telle "vitrine" est la tâche d'un ingénieur de datation sous la direction d'un datiste. Les expériences sont considérablement accélérées - les paramètres d'entrée des modèles peuvent être sélectionnés et modifiés rapidement.

Chefs d'orchestre Big Data


Nous avons collecté des données, construit un modèle, fait des amis avec les entreprises. C'est tout?

Pas tous. Cette histoire de Big Data devrait avoir un leader. Il semble que ce message soit le plus simple et le plus compréhensible, mais ce n'est pas entièrement vrai. Le leader doit combiner deux propriétés qui ne sont généralement pas très combinées.

Si nous commençons le big data à partir de zéro dans une entreprise, nous avons besoin d'un stratège et d'un vendeur comme chef et moteur de la direction. Il expliquera à l'ensemble de l'entreprise pourquoi travailler avec le big data est si important. Il est clair qu'au début de quelque chose d'innovant, il est très difficile de demander une analyse de rentabilité claire, car elle repose sur un grand nombre d'hypothèses. Par conséquent, le stratège expliquera: les gars, nous allons planifier le big data sur le principe du "top down" (top down). Et fixer des objectifs de divers degrés de globalité, tels que:

- pour qu'au bout de 5 ans, le chiffre d'affaires des projets, produits liés au big data soit 10% de notre chiffre d'affaires
- réduire les risques de défaut de 20%
- réduire 30% des bureaux inefficaces

et ainsi de suite.

D'un autre côté, ce stratège doit pouvoir vendre l'idée au sein de l'organisation.

Le problème est que si une telle personne est déjà trouvée, cela lui est difficile en matière tactique. Pour incarner les idées d'un stratège au niveau physique, vous avez besoin d'une personne opérationnelle. Il construira des processus d'affaires, des analystes, des chefs de produit, fera tout agile. Il est important que tout cela fonctionne rapidement. Par conséquent, le leadership est divisé en deux parties: le stratège est responsable d'un avenir radieux, l'opérateur est subordonné au stratège et met en œuvre les plans. Aucun d'eux ne peut s'en sortir seul.

Vous pouvez toujours regarder ce problème sous un angle complètement différent. Imaginez que la mise en œuvre des technologies Big Data soit prévue dans une grande société de production classique pour laquelle ces technologies sont nouvelles. Qui mettre en charge? Une personne de l'extérieur, possédant une vaste expérience dans l'application des mégadonnées dans différentes industries et des connaissances dans ce domaine, ou une personne de l'intérieur, qui a longtemps été dans l'entreprise, a une position assez élevée, a mis en œuvre de nombreux projets que tout le monde connaît et respecte?

Je pense qu’il est clair qu’une personne de l’intérieur, qui sait comment fonctionne l’entreprise de l’intérieur, connaît les gens et les processus qui y parviendront. En conséquence, pour l'aider, vous devez mettre une personne de l'extérieur, avec une expérience dans la mise en œuvre du Big Data, afin qu'il indique les directions nécessaires et gère l'équipe Big Data.

Placer au soleil


Nous avons décidé de la composition. Reste à subordonner l'orchestre big data au bon service.

Il est logique de le définir dans le sens de l'entreprise que nous optimisons. C'est bien si l'entreprise est mature. Ensuite, vous pouvez essayer de placer le Big Data dans les ventes cibles. Nous avons besoin d'une branche commerciale pour le faire fonctionner. Par exemple, pour une banque, si nous voulons conserver des clients, nous avons besoin d'une agence qui peut communiquer avec les clients sélectionnés par le modèle et les conserver. Si vous souhaitez utiliser le Big Data pour planifier l'emplacement des bureaux de banque, vous avez besoin d'une succursale qui s'occupe de l'ouverture de ces bureaux. Nous voulons optimiser les données pour le scoring bancaire - nous avons besoin d'une agence responsable des risques. Sans la direction de l'entreprise chargée de travailler avec les résultats du modèle, rien n'en sortira.

Globalement, sans le soutien direct d'en haut, le sujet ne décollera tout simplement pas - vous avez besoin de la même stratégie descendante. Surtout lorsque vous avez besoin du soutien d'une direction qui est déjà occupée par ses processus, et loucher à toutes sortes d'innovations.

Vous souhaitez en savoir plus sur les aspects de la mise en œuvre du Big Data dans les entreprises, lire nos autres publications sur notre site ou venir étudier à la School of Data

Le poste a été préparé par la School of Data sur la base de la publication du fondateur de la School in the Business HUB de Kyivstar PJSC

Source: https://habr.com/ru/post/fr429236/


All Articles