
Il y a quelque temps, nous avons trouvé nos anciens matériaux sur lesquels nous enseignions les premiers flux dans nos cours de machine learning à
la Data School et les avons comparés avec les actuels. Nous avons été surpris de voir combien nous avons ajouté et changé en 5 ans de formation. Réalisant pourquoi nous avons fait cela et comment, en fait, l'approche pour résoudre les problèmes de la science des données a changé, nous avons décidé d'écrire cette publication.
Nous avons commencé la formation avec les méthodes et algorithmes de base de l'apprentissage automatique, expliqué comment les mettre en pratique, comment sélectionner les paramètres, comment nettoyer et préparer les données, comment mesurer la qualité. Nous pensions (et croyons toujours) que la formation d'un agent scientifique à part entière devrait inclure non seulement les méthodes classiques d'apprentissage automatique, mais également les méthodes d'analyse graphique (réseaux sociaux, SNA), l'analyse de texte, le travail avec les réseaux de neurones et les mégadonnées (Big Data).
Ainsi, à la sortie, nous avons obtenu un expert dans un vaste domaine de la science des données, capable d'appliquer un vaste arsenal de méthodes dans la pratique. Nous avons emmené les mêmes spécialistes dans notre entreprise. Tout d'abord, dans l'entreprise où nous avons travaillé et dirigé les domaines concernés, puis dans notre entreprise pour le développement de produits basés sur l'apprentissage automatique -
Data Studio .
Mais plus tard, nous avons réalisé que ce n'est pas seulement suffisant pour la mise en œuvre réussie de projets de Data Science, mais que ce n'est même pas l'essentiel.
L'approche au début de la pratique de la science des données et, pour être honnête, pour de nombreux analystes jusqu'à présent, est la suivante: donnez-moi les données, je vais les effacer, créer un vecteur de caractéristiques, les diviser en échantillons de formation et de test, exécuter plusieurs algorithmes ML, et voici le résultat.
Cette approche a-t-elle droit à la vie?
Oui, mais le domaine est déjà bien étudié et il y a déjà une bonne expérience accumulée dans l'application de l'analytique. Des exemples? Scoring bancaire, sorties d'opérateurs, cross-selling (Next Best Offer) dans le retail, les banques, les télécoms, prévision de l'efficacité des stocks dans le retail, prévision des soldes. Cette liste continue.
Imaginons maintenant d'autres domaines: prévision de l'heure d'arrivée dans le transport multimodal (bateau, train, camion): quels panneaux utiliserez-vous? Type de cargaison, poids de la cargaison, présence de certains nœuds de tri? Et si vous y pensez? Peut-être que des signes plus simples et évidents (même sans modèles d'apprentissage automatique) vous donneront une précision significative?
Ou vous devez prévoir la sensibilité des gros clients aux changements de prix pour certains produits. Comment déterminer l'élasticité? Que prévoyez-vous exactement?
Mais est-il nécessaire de construire un modèle si le processus de production est modifié par la suite?
Il s'avère que vous devez être en mesure de travailler dans de nouveaux domaines d'application de l'analyse, car dans des domaines bien étudiés, il y a déjà tellement de développements et c'est «l'océan rouge».
Que faut-il pour entrer dans de nouveaux domaines avec l'analyse?
Pour ce faire, vous devez être en mesure de comprendre en profondeur le sujet d'un processus particulier, dont les descriptions ne sont souvent pas disponibles. Comprendre quel type de données est généralement nécessaire, comprendre exactement ce que fait l'entreprise. Avez-vous besoin de comprendre l'analyse ici, avez-vous besoin d'algorithmes prédictifs, avez-vous besoin de changer le processus métier, y a-t-il des leviers opérationnels (quel est l'intérêt de prédire l'arrêt de l'équipement s'il n'y a toujours pas de moyen de l'éviter?).
Pour résumer, les éléments suivants sont requis:
- Approche analytique, capacité à formuler et tester des hypothèses
- Comprendre les principes et les caractéristiques des processus commerciaux et individuels
- Comprendre l'économie des processus
- Compréhension de la technologie
- Possibilité de lier des données avec des processus métier
Et, si vous vous arrêtez à l'apprentissage automatique, quel domaine est le mieux à même de le faire? Conseil en gestion correcte. Et où est-ce enseigné en utilisant la méthode dite du cas (de nombreux exemples de situations commerciales différentes) - à droite, dans les cours de MBA (master en administration des affaires).
Ainsi, il s'avère que le Data Scientist idéal est un diplômé du MBA avec une expérience dans le conseil, qui a suivi des cours d'apprentissage automatique.
Bien sûr, cela est exagéré, mais il est vrai que parmi les contractants, ceux qui ont le plus haut niveau de processus et de normes, au niveau de la sélection et de la formation du personnel, ont développé une culture de la pensée analytique. Nous adhérons à la même approche dans notre
Data Studio . Et, logiquement, nous avons posé la même approche dans notre formation à la
School of Data .
Vous pouvez vous opposer. Après tout, ce qui a été écrit ci-dessus est plus applicable dans le conseil, où chaque fois que vous ne savez pas à l'avance de quel domaine le projet sera issu. Et qu'en est-il des grandes entreprises où la zone est définie en principe?
Dans les entreprises, nous observons toutes les mêmes spécificités décrites ci-dessus, et la nécessité pour un analyste et toute l'équipe de comprendre l'entreprise, le besoin de responsabilité pour le résultat final.
Pour cette raison, dans les grandes entreprises, nous assistons maintenant à une tendance à la spécialisation des unités de Data Science et au passage de la fonction d'analyse d'une unité centralisée, une pour l'ensemble de l'entreprise, à une fonction commerciale, c'est-à-dire plus proche des affaires. Avec cette spécialisation, la capacité d'un analyste à comprendre rapidement une nouvelle entreprise et à proposer des solutions réalistes, plutôt que des modèles, est un avantage concurrentiel.
Qu'est-ce qui a changé exactement dans notre programme? Avant nous tous, nous avons enseigné sur la base de cas pratiques. La structure et la nature des affaires ont changé. Auparavant, nos cas étaient comme des tâches sur Kaggle: voici la tâche, voici la variable cible, voici la métrique de qualité, voici les données.
Maintenant, la tâche semble différente: voici la tâche en termes de client, voici une description du processus client. Formuler la tâche d'analyse, proposer une mesure de qualité, évaluer la pertinence de l'utilisation de l'analyse, calculer l'effet économique, suggérer des méthodes, formuler une demande pour les données dont vous avez besoin. Et puis tout se passe comme d'habitude: nettoyer les données, construire un modèle, etc. Et nous donnons de tels exemples dans des domaines complètement différents, heureusement, la présence de notre propre conseil dans ce domaine élargit considérablement la gamme des tâches disponibles que nous avons résolues sur notre propre expérience.
Mais la discipline de l'approche analytique n'est pas seulement la pratique des cas. Nous enseignons également les cadres standard (modèles d'analyse de base) utilisés en consultation. Nous avons également ajouté à la formation le processus de développement du produit analytique auquel nous adhérons en classe, de l'analyse métier à la présentation des résultats au client et à la planification du déploiement d'une solution productive comprenant les étapes, les rôles, les points de décision clés et les moments d'interaction avec le client.
Nous donnons un rôle distinct aux présentations - trop souvent, nous avons vu un écart entre les pensées des analystes et la perception de ces pensées par les employés du client.
En général, nous pensons que la tâche de former un Data Scientist n'est pas de savoir comment préparer un spécialiste pour les domaines existants (il existe déjà de nombreux cours pour cela et cela est devenu une marchandise à bien des égards), mais de préparer un chercheur expert pour travailler dans de nouveaux domaines où La numérisation arrive à peine.
Eh bien, et, comme d'habitude - le début d'un nouveau cours à notre
école de données le 16 septembre. Nous acceptons constamment les commandes de nouveaux projets chez
Data Studio , tout comme nous recrutons des employés (voir la section sur les postes vacants).
PS Nous avons un peu mis à jour notre site pour le rendre plus pratique. Par conséquent, ne soyez pas surpris du nouveau look.