
Récemment, de nombreux cours sont apparus, à la fois académiques et privés, qui visent à former l'analyse des données et à former des spécialistes capables de résoudre des problèmes commerciaux à l'aide de l'apprentissage automatique. Si vous regardez attentivement les programmes de ces cours, ils sont tous à peu près les mêmes, la différence ne concerne que les formats de formation (en ligne hors ligne) et les enseignants.
L'École de données a commencé à dispenser ces cours en 2015. De plus, ils ont commencé à faire selon le même scénario. Nous avons examiné un grand nombre de programmes de divers cours académiques en apprentissage automatique, sur la base de l'expérience, choisi uniquement ce qui est vraiment nécessaire pour résoudre des problèmes pratiques et créé un grand nombre de cahiers Jupyter dans lesquels nous avons essayé de distinguer les mathématiques et l'apprentissage automatique sur nos doigts.
Nous avons essayé d'enseigner principalement les technologies d'apprentissage automatique, les méthodes de traitement de texte, les réseaux de neurones, l'analyse des structures de réseaux, les systèmes de recommandation et d'autres domaines de l'analyse des données. Et il semble que les évaluations des étudiants étaient bonnes, mais il manquait encore quelque chose.
Considérant que notre activité principale est le développement de tâches réelles dans le cadre du
Data Studio , les étudiants, tout d'abord, nous nous sommes préparés. Nous avons rapidement réalisé qu'en pratique, la connaissance de l'analyse des données et des méthodes d'apprentissage automatique est, comme disent les mathématiciens, «une condition nécessaire mais pas suffisante». C'est pourquoi nous avons très rapidement mis à jour le programme de nos cours, en tenant compte des besoins réels.
En bref, les conclusions auxquelles nous sommes parvenus (et sur la base desquelles nous construisons maintenant notre formation):
- Les technologies d'apprentissage automatique et de réseau de neurones sont surévaluées
- Les techniques d'apprentissage automatique cannibalisent une culture de la pensée analytique
- Pour obtenir l'effet économique des projets impliquant l'analyse de données, les compétences générales sont plus importantes que la connaissance approfondie du BC
- La profession de Data Scientist est largement surfaite, il n'y aura plus de spécialistes universels
Les paragraphes suivants aborderont toutes ces questions.
La plupart des tâches dans les grandes entreprises qui tentent maintenant de résoudre en utilisant des méthodes modernes d'analyse de données et des réseaux de neurones ont été résolues depuis longtemps. Les banques sont les cas les plus réussis en matière de gestion des risques. Dans les télécoms, il s'agit du CRM / CBM, où l'ensemble du modèle économique est lié à une augmentation des abonnés LTV. Le commerce de détail fonctionne de la même manière - plusieurs tâches (prévisions RTO, gestion des stocks, promotions) constituent le cœur de métier.
Il existe des entreprises manufacturières dont les tâches principales consistent à accroître la stabilité du régime, à réduire les pertes et la maintenance prédictive d'une part, et à gérer les soldes de stocks et la commercialisation d'autre part.
Ces tâches ne sont pas nouvelles, leurs analystes les résolvent depuis longtemps. De plus, des analystes qui comprennent le sujet. En outre, dans la plupart des cas, il existe un nombre considérable de fournisseurs qui sont de facto des normes pour certaines tâches, telles que la gestion des prix (dans le cas de la vente au détail), ou les systèmes APC (dans le cas de la production). De plus, en règle générale, des algorithmes d'optimisation, y compris l'apprentissage automatique dans de tels systèmes, sont déjà en place.
Faire quelque chose de fondamentalement nouveau ici et gagner de l'argent est extrêmement difficile. Comme le dit le proverbe, "des pommes tombées d'un arbre" ont déjà été récoltées. Il ne reste plus qu'à rechercher de nouvelles analyses de rentabilisation dans lesquelles l'analyse donne un effet économique. Il y a vraiment de tels exemples - et il y en a de plus en plus.
Cependant, pour trouver de tels exemples et voir l'effet de l'analyse, il n'est pas facile. Pour ce faire, vous devez être en mesure de comprendre en profondeur le sujet d'un processus particulier (dont la description est souvent tout simplement pas). Comprendre quel type de données est généralement nécessaire, comprendre exactement ce que fait l'entreprise. Pour comprendre si l'analyse est nécessaire ici, si certains algorithmes prédictifs sont nécessaires (le plus souvent), s'il est nécessaire de changer le processus métier (le plus souvent oui), s'il existe des leviers opérationnels (à quoi sert de prédire l'arrêt de l'équipement s'il n'y a toujours aucun moyen de l'éviter) ?).
Ainsi - dans le processus de mise en œuvre d'un tel produit numérique, de nombreuses questions se posent qui nécessitent une approche analytique, une certaine culture de travail avec les données, la capacité de formuler des hypothèses, de se poser des questions et de penser en termes de propriétaire d'entreprise. Le fait est que ce n'est pas enseigné dans les écoles d'analyse de données, ce n'est pas enseigné à Coursera. Oui, les cours modernes forment probablement de bons ingénieurs et mathématiciens, mais pas d’analystes, ils ne le font pas.
De plus, la connaissance des méthodes d'apprentissage automatique et des réseaux de neurones est plus susceptible de tuer la culture de la pensée analytique. La plupart des Data Scientists modernes, comme les enfants derrière une voiture de sport, se considèrent comme uniques (ils connaissent beaucoup de mots intelligents sur xgboost, les réseaux de neurones, etc.), ils ne savent pas conduire (mais pourquoi si la voiture fait tout pour vous), et ils vont seulement vite car il y a beaucoup de chevaux (fer fort, bien qu'ici il soit plus susceptible de se recycler).
En conséquence, nous obtenons l'image suivante: certaines personnes chères et intelligentes viennent, ne posent presque pas de questions, disant que les données nous diront tout. Ils prennent des données, puis viennent - ils disent qu'ils ont construit une sorte de modèle, ils appellent la précision en pourcentage et c'est tout. Dès que vous lancez le défi - ils disent en termes étranges, écrasez l'intelligence, mais cela n'a aucun sens.
Cela explique qu'aujourd'hui, parmi les sous-traitants de la transformation numérique ou de l'analyse des données - dominent principalement les sociétés de conseil-conseil (et non l'informatique). Parce qu'ils ont une culture de l'analyse, une culture de la pensée commerciale, ils soulagent toujours les maux de tête, proposent des solutions. Ils ne se limitent pas à la construction d'un modèle d'apprentissage automatique, ils font de véritables analyses qui aident à prendre une décision.
Une autre tendance qui se produit actuellement dans le monde est que même si le Data Scientist a moins de succès, il ne peut pas être universel. Dans de nombreuses entreprises, la structure centralisée initialement créée et engagée dans l'analyse des données a été distribuée. Le bureau central n'a que le rôle de fournir l'infrastructure, et la totalité de la partie épicerie, les vrais produits numériques sont déjà fabriqués directement dans les unités commerciales. Dans cette structure, respectivement, le Data Scientist (à condition qu'il soit «correct») devient un expert dans le domaine - la fonction lui est transférée, qui jusque-là avait été soutenue par les «anciens» analystes qui travaillaient avant lui. En cas de succès, il reçoit également les leviers opérationnels.
En conséquence, il y a une tendance croissante à donner aux analystes performants un levier opérationnel entre leurs mains et leur responsabilité augmente. Mais seulement dans un domaine. Nous prédisons (comme l'ont confirmé les grandes entreprises du marché) qu'il n'y aura plus d'analystes universels - le battage médiatique est terminé, il est temps d'être responsable du résultat. Ceux qui peuvent résoudre des problèmes commerciaux avec l'aide de l'analytique iront à la partie épicerie, et ceux qui peuvent enseigner xgboost retourneront à l'académie ou donneront des conférences sur l'apprentissage automatique.
C'est pourquoi, nous avons complètement révisé nos cours (y compris parce que nous emmenons beaucoup de nos diplômés dans notre
Data Studio ) et maintenant:
0. Pour commencer, à l'entrée, nous voyons dans chaque étudiant nos futurs employés qui navigueront avec nous dans le même bateau et participeront à de grands projets. Par conséquent, nous sommes intéressés par le fait que l'étudiant au cours de ces 3,5 mois est préparé le plus efficacement possible. Vous pouvez toujours avoir le temps de suivre le prochain cours à Coursera, s'il est nécessaire de comprendre les détails d'un algorithme particulier. Cependant, il est beaucoup plus difficile d'acquérir l'expérience de cas réels. Et c'est pourquoi:
1. La formation est basée sur la méthode des cas. Nous prenons la vraie tâche, nous analysons d'abord le modèle économique, l'économie unitaire, nous comprenons quelle qualité, basée sur des chiffres réels, nous devons atteindre dans cette tâche. Nous évaluons l'effet économique potentiel. Et ce n'est qu'après cela que nous commençons à traiter la partie technique, plongeant progressivement dans les méthodes analytiques, l'apprentissage automatique et les réseaux de neurones. Et ce qui est important - nous ne le faisons que si cela est vraiment nécessaire dans cette tâche
2. Nous travaillons avec chaque étudiant individuellement. Malgré le fait que nous essayons de recruter un groupe homogène, nous comprenons que les gens sont différents - chacun a son propre plan de formation individuel et ses devoirs. À notre avis, cela n'a aucun sens lorsqu'une douzaine de personnes résolvent le même problème. Ce n'est pas efficace même en termes de bon sens. Tous les élèves reçoivent les réponses de l'enseignant dans le chat, l'étudiant ne sera jamais jeté un à un avec la tâche.
La seule chose que nous avertissons à l'avance à l'entrée est que la formation demandera beaucoup de temps, vous devrez constamment faire vos devoirs, plonger dans les détails et passer souvent le week-end à vous entraîner.
Nous comprenons que ce n'est pas une histoire de masse.
Le Data Studio fonctionne avec succès depuis plusieurs années, notamment parce qu'il est difficile d'y accéder. Nous sommes bien conscients que dans les réalités actuelles, il est plus facile de développer l'analyse que de suivre des cours avec Coursera. C'est pourquoi les étudiants les plus motivés viennent initialement à la
School of Data . Habituellement, la taille du groupe ne dépasse pas 15 à 20 personnes, ce qui vous permet de rendre la formation pratiquement individuelle.
Sans parler du fait que nous avons complètement pensé à tout l'aspect technique - cahiers Jupyter pré-préparés, système de communication efficace pour les participants distants, émissions en ligne - tout cela aide même les participants distants à communiquer directement avec les autres enfants de la classe.
Nous n'enseignons pas les Data Scientists - nous formons des personnes à part entière capables de résoudre des problèmes commerciaux à l'aide de l'analyse.
Le début du nouveau
cours est le 23 septembre. Pour des questions sur le projet, veuillez nous contacter à
Data Studio .