Mauvais conseils pour introduire le Machine Learning dans les affaires

Ne comptez pas sur l'intelligence artificielle,
sauf si vous avez une compréhension approfondie du processus.

Ray Dalio

Chez Jet Infosystems, nous introduisons l'apprentissage automatique dans une grande variété d'industries et, sur la base de notre expérience, nous distinguons les composants nécessaires à une mise en œuvre réussie:

  • énoncé du problème visant à optimiser la mesure prioritaire pour les entreprises;
  • une équipe de scientifiques des données qui ont des compétences et sont prêts à plonger profondément dans le processus;
  • des données pertinentes pour la tâche commerciale;
  • choix adéquat de la méthode.

En pratique, tous ces éléments sont extrêmement rares ensemble, selon les statistiques, seuls 7% environ des projets avec BC sont considérés comme réussis. Les projets avec tous ces composants peuvent être classés en tant que percée en toute sécurité! Pour illustrer cela, nous avons formulé plusieurs points que l'on peut appeler des astuces néfastes sur l'introduction de l'apprentissage automatique en entreprise.

Mauvais conseil n ° 1: "La tâche consiste simplement à mettre en œuvre le ML"


Souvent, le client formule la tâche comme «juste pour introduire l'apprentissage automatique pour une certaine optimisation», sans aucun lien avec les métriques commerciales et la hiérarchisation des tâches commerciales.

Dans ce cas, nous pouvons voir plusieurs scénarios négatifs. Par exemple, les cibles changeront au fur et à mesure qu'elles fonctionnent, mais cela signifie que tout le prétraitement et le choix des méthodes d'optimisation changeront, car ils sont directement liés à la signification de la cible. Ou un scientifique des données choisira une métrique de l'apprentissage automatique, par exemple, auc, et l'améliorera, apportera tous les cadres et bibliothèques de battage médiatique, en fonction de son sens de la beauté - améliorera la «cinquième décimale» dans la métrique choisie. Dans le même temps, pour les entreprises, ce travail peut être complètement sans importance et ne pas conduire à une mise en œuvre réussie. Ou un problème commercial mineur commencera à être résolu, alors qu'en fait il y a un potentiel beaucoup plus grand pour introduire l'apprentissage automatique à proximité.

En conséquence, vous pouvez rencontrer des conséquences négatives:

  • il est impossible de prévoir le calendrier et les coûts de main-d'œuvre;
  • les modèles sont améliorés indépendamment des mesures commerciales;
  • fait un investissement dans une tâche mineure.

Mauvais conseil n ° 2: «Tout data scientist fera l'affaire»


Il y a une opinion que vous pouvez prendre n'importe quel scientifique des données du marché, le mettre en isolation avec Excel et il trouvera comme par magie ce qui doit être optimisé. À notre avis, la mentalité des scientifiques des données impliqués dans l'optimisation de la production est extrêmement importante. Cela signifie qu'ils doivent être prêts à plonger profondément dans les processus technologiques (par exemple, l'électrolyse de l'aluminium, le traitement de la cellulose oxygénée alcaline, la production des hauts fourneaux, etc.). La volonté des scientifiques des données de voyager lors de voyages d'affaires à distance dans le but de parler personnellement aux technologues et aux opérateurs de l'usine est également importante, afin de comprendre comment tout fonctionne vraiment. Sans cela, très probablement, ils seront voués à un grand nombre d'itérations irréfléchies de modèles d'énumération, et vous ne pourrez jamais atteindre une implémentation utile.

Mauvais conseil n ° 3: «Le travail devrait être un patchwork»


L'idéologie de l'organisation du travail la plus fragmentée avec la division maximale du travail pour minimiser les coûts est régulièrement respectée. Par exemple, un analyste comprend le processus, communique avec les clients et les technologues. Il y a un ingénieur de datation - il traite les données, génère des fonctionnalités. Et enfin, il y a un data scientist - il importe simplement sklearn et fit / prédire. Ainsi, le travail d'un data scientist se déroule indépendamment des réalités de la vie, extrêmement laboratoire, et il y a un risque élevé de commettre un grand nombre d'erreurs et de manquer des aspects importants de la tâche d'origine.

Mauvais conseil n ° 4: «N'expliquez pas aux scientifiques des données comment les données sont collectées»


Il n'est pas toujours évident que les scientifiques des données doivent comprendre comment et où les données sont collectées. Il y a même des cas où les contrats de mise en œuvre du ML sont signés sans avoir d'abord examiné les données, et dans de telles conditions, il existe un risque de ne jamais atteindre les valeurs cibles des mesures décrites dans le contrat. Avec cette approche, des problèmes se poseront inévitablement à la fois pour évaluer la qualité des modèles et pour la possibilité de leur application réelle.

De nombreuses propriétés de données influencent le choix des méthodes: moyennage des données et erreurs de mesure, échantillonnage inégal des exemples, décalage temporel des mesures. Il est important de nettoyer correctement les données du bruit dans les facteurs et les cibles, les causes du bruit peuvent être différentes: erreurs de numérisation, valeurs aberrantes, duplication de variables, erreurs d'instruments, etc.

L'entreprise devrait être intéressée par le fait que les scientifiques des données comprennent parfaitement la nature des données, sinon le traitement des données sera long et ne conduira pas à une modélisation réussie. Sans une compréhension approfondie des spécificités du processus de collecte et de stockage des données, on peut rencontrer les problèmes suivants:

  • le prétraitement des données prendra beaucoup de temps;
  • le modèle peut ne pas être applicable dans des conditions réelles;
  • les termes du contrat peuvent être inaccessibles.

Mauvais conseil n ° 5: «Faire de la collecte de données un processus compliqué et incompréhensible pour que personne ne sache comment cela fonctionne. Après l'introduction des modèles, assurez-vous d'apporter des modifications au processus »


Souvent, parallèlement au développement et à la mise en œuvre du modèle, les processus technologiques changent et affectent la collecte de données. Imaginez qu'il est nécessaire d'optimiser le processus technologique, et après l'introduction du modèle, certaines unités sont reconfigurées et cela affecte la collecte des données: les fonctionnalités «flotteront», les distributions changeront, l'échantillon d'apprentissage cessera d'être représentatif. Bien sûr, personne ne le sait à l'avance. Résultat: le modèle ne fonctionnera plus et tout doit être refait. Par exemple, dans les cas d'arbres, un problème hors domaine peut se produire.

Il est important de coordonner à l'avance avec les spécialistes des données tous les changements dans les processus technologiques afin qu'ils puissent rapidement adapter les modèles aux nouvelles conditions.

Mauvais conseil n ° 6: "Moyenne les signes"


Certains types de moyennage entraînent des problèmes, par exemple:

  • la tâche consiste à prévoir la consommation d'énergie horaire, mais en même temps, les données de consommation d'énergie ne sont stockées que pendant des mois - dans cette situation, rien ne peut être fait avant l'accumulation de données brutes;
  • la moyenne se produit sur des caractéristiques mesurées à des moments significativement différents;
  • utiliser des moyennes mobiles qui capturent la période de prédiction (ce qui entraîne un problème de fuite de données et une distorsion du modèle);
  • le pire de tous, lorsque les données sont en quelque sorte moyennées et ce fait reste inconnu.

Dans de tels cas, la tâche peut ne pas recevoir de solution adéquate tant que les données brutes pertinentes n'apparaissent pas.

Mauvais conseil n ° 7: "Ne donnez pas de données supplémentaires"


Il existe plusieurs scénarios où les scientifiques des données demandent des données supplémentaires:

  • besoin de données brutes supplémentaires;
  • il est nécessaire d'ajouter de nouveaux signes à l'ensemble de données. Par exemple, dans les tâches du secteur bancaire et les recommandations de produits, il est utile d'utiliser autant d'attributs sociodémographiques que possible;
  • augmenter la taille de l'ensemble de données
  • la quantité de données est limitée, mais peut être augmentée en raison des données historiques, ou il est possible de créer des données supplémentaires, comme dans les tâches de traitement d'image et de vidéo.

Les scientifiques des données demandent des données supplémentaires lorsqu'ils ont l'expérience de la résolution de problèmes similaires dans lesquels l'utilisation de ces données donne un résultat positif, sinon vous pouvez obtenir la qualité des modèles bien pire que ce qui est potentiellement réalisable.

Mauvais conseil numéro 8: "La précision du marquage manuel n'est pas importante"


Qu'il soit nécessaire de prévoir la qualité des produits sur la base d'un marquage manuel, c'est-à-dire Les opérateurs de production enregistrent manuellement les valeurs cibles. Si en même temps les opérateurs reçoivent des bonus pour les bons résultats et des punitions pour les mauvais, alors:

  • la cible est susceptible de contenir un décalage;
  • à la suite de la formation, ce biais ira dans le modèle;
  • le modèle ne prédira pas la distribution réelle de la variable cible.

Des problèmes similaires peuvent survenir avec l'utilisation de solutions de crowdsourcing (par exemple, Yandex.Toloka), où les experts reçoivent des récompenses pour le balisage des données. Dans ce cas, vous devez valider soigneusement le balisage résultant. Il existe un certain nombre d'approches pour cela:

  • Chevauchement: balisage de plusieurs experts indépendants;
  • Golden Set: des exemples avec des résultats pré-connus sont ajoutés aux données pour évaluer la précision des opérateurs et leur sélection;
  • Vote majoritaire: algorithmes de sélection des verdicts basés sur le balisage de chevauchement.

Conclusion: s'il y a un balisage manuel des données - vous devez le vérifier, sinon des erreurs systématiques peuvent se produire.

Mauvais conseil numéro 9: "Utilisez le plus à la mode"


Lisez des articles populaires et exigez que la solution au problème soit basée sur une méthode à la mode.

Aujourd'hui, la science des données est un domaine de la mode, de nombreux articles sont publiés, des conférences se tiennent presque tous les jours, un nombre croissant de méthodes se créent. Cependant, cela ne signifie pas qu'une méthode populaire arbitrairement prise est optimale dans les tâches industrielles. Habituellement, il n'est pas nécessaire d'utiliser le LSTM pour optimiser la production de fonte, ni d'utiliser le RL sur de petits ensembles de données de marketing ou d'exploitation minière. Dans de telles tâches, il est sage de commencer avec des méthodes traditionnelles (par exemple, le boost de gradient), qui peuvent être assez difficiles à convaincre les clients. Les méthodes de ML à la mode ne conviennent pas toujours aux tâches de l'industrie et s'avèrent souvent coûteuses à mettre en œuvre.

Moral


L'ensemble de conseils donné n'est pas exhaustif, mais tous sont régulièrement respectés dans la pratique. Avec cette approche, il est probable que le ML ne fonctionne pas dans l'industrie et soit simplement un gaspillage d'argent.

En résumé, nous pouvons dire que les cas vraiment révolutionnaires sont les projets ML, mis en œuvre à temps et apportant de manière stable des bénéfices mesurables à l'entreprise. Pour y parvenir, les compétences en analyse de données et en apprentissage automatique sont importantes, ainsi que les conditions dans lesquelles les scientifiques des données comprennent bien l'ensemble du problème commercial.

Publié par Irina Pimenova, responsable des mines, Jet Infosystems

Source: https://habr.com/ru/post/fr475862/


All Articles