Apprentissage automatique pour les gestionnaires: le sacrement de la séparation

Présentation


Une fois de plus, en travaillant avec une entreprise rĂ©alisant un projet liĂ© Ă  l'apprentissage automatique (ML), j'ai remarquĂ© que les managers utilisent des termes du domaine ML sans comprendre leur essence. Bien que les mots soient prononcĂ©s grammaticalement correctement et aux bons endroits des phrases, leur signification n'est pas plus claire pour eux que la nomination de sĂ©pules , qui, comme vous le savez, sont utilisĂ©s en sĂ©pularie pour sĂ©parer. En mĂȘme temps, il semble aux chefs d'Ă©quipe et aux simples dĂ©veloppeurs qu'ils parlent le mĂȘme langage avec la direction, ce qui conduit Ă  des situations conflictuelles qui compliquent le travail sur le projet. Ainsi, cet article est consacrĂ© aux techniques de facilitation (du latin: simplification ou facilitation) de la communication des dĂ©veloppeurs avec la direction ou comment expliquer simplement et clairement les termes de base du ML, conduisant ainsi votre projet Ă  la rĂ©ussite. Si ce sujet est proche de vous, bienvenue chez cat.

Un esthÚte à la note: Sepuls, sepulcarius et sepulation sont les termes utilisés par l'ingénieux Stanislav Lem dans le 14e voyage d'Iyon le Pacifique.

Début du projet


Le projet ML devrait commencer par la légitimation de la métrique de validation. Cela semble effrayant, non? Commençons l'explication. La légitimation (en russe du latin c'est légalisation) vient simplement d'un accord des parties, fixé par écrit et approuvé - il est souhaitable, bien sûr, également par écrit. Les parties sont à la fois le donateur et la direction du projet, ainsi que ses exécuteurs.


Passons maintenant à la validation . Le programmeur ML a généralement de l'expérience en écriture de code de validation, et lors du traçage, il voit le vrai et le faux qui lui sont retournés. Mais comment expliquer ce concept à un manager qui ne gÚre pas le code? Utilisons cet exemple de vie simple.


Imaginez que vous passez un marchĂ© et vous voyez: les pĂȘches sont vendues. Le vendeur vous dit: «Bery! "Harosha parsik, frais, juteux tel, ne pityeesh." Cependant, vous regardez de plus prĂšs et voyez: en un seul endroit, il est gĂątĂ©. Vous dites: «Eh bien, oĂč est-il bon? c'est pourri. " Le vendeur propose Ă  moitiĂ© prix. Si vous pensez: "Vous pouvez couper celui qui est gĂątĂ©, ce n'est qu'un quart, il semble ĂȘtre rentable" - et l'acheter, alors dans le langage ML il y a validation et la pĂȘche (dans l'argot ML - Ă©chantillon) est reconnue comme valide. Si vous pensez que vous pouvez trouver dans un autre endroit le meilleur au lieu de celui gĂątĂ©, alors l'invaliditĂ© se produit et la pĂȘche est reconnue par vous comme non valide.


Il s'avĂšre qu'il n'y a rien de compliquĂ© dans la validation, et nous faisons tous la validation tous les jours, reconnaissant une chose comme bonne, convenant Ă  nous-mĂȘmes ou au handicap, reconnaissant autre chose comme mauvaise, inadaptĂ©e.


Note à Estete: Soudain, Jourdain est surpris d'apprendre que toute sa vie s'est exprimée en prose (s). MoliÚre, commerçant de la noblesse.

Enfin, il ne reste plus qu'Ă  expliquer ce qu'est une mĂ©trique de validation . Voyons pourquoi nous avons dĂ©cidĂ© d'acheter une pĂȘche de l'exemple prĂ©cĂ©dent?


  • il est assez bon marchĂ© (prix <valeur seuil)
  • il est assez mĂ»r (maturitĂ©> valeur seuil), mais pas mĂ»r (maturitĂ© en dessous de la 2Ăšme valeur seuil)
  • il est de taille normale, c'est-Ă -dire que sa taille est dans la catĂ©gorie "normal" (toutes catĂ©gories: trop petit, petit, normal, grand, Ă©norme)
  • il n'est pas suffisamment gĂątĂ© (la zone des zones pourries et gĂątĂ©es est infĂ©rieure Ă  la valeur seuil)

Tout cela, rĂ©pertoriĂ© ci-dessus, est un exemple d'une mĂ©trique de validation composĂ©e de 4 catĂ©gories dans cet exemple. Dans le cas le plus simple, lorsqu'une pĂȘche satisfait Ă  tous les critĂšres Ă  la fois, elle sera reconnue comme valide et achetĂ©e.


Maintenant, il devient évident pourquoi il est si important de s'entendre dÚs le début, comment exactement la validation aura lieu, sur le nombre de paramÚtres et les valeurs de seuil dont toutes les parties intéressées seront satisfaites. La description des actions en cas de respect partiel des conditions peut occuper une section spéciale.


Naturellement, chaque projet ML, en fonction de son domaine, aura sa propre mĂ©trique de validation. Le document fixant la mĂ©trique de validation est aussi important pour le projet ML que la constitution pour l'État.


Ce n'est qu'aprĂšs que le document est finalement apparu dans le projet qui rĂ©glemente la mĂ©trique de validation et est devenu disponible pour tous les participants au projet, qu'il est logique d'Ă©crire son code. Le code de validation est au cƓur du projet et sa qualitĂ© doit ĂȘtre irrĂ©prochable, toute erreur dans cette partie avec un haut degrĂ© de probabilitĂ© peut entraĂźner l'effondrement de l'ensemble du projet ML dans son ensemble.


Le mystÚre du calcul de la précision


L'indicateur le plus important de la situation actuelle d'un projet de gestion est l' exactitude . Comment expliquer simplement au manager de quoi il s'agit et quelles actions doivent ĂȘtre effectuĂ©es pour le calculer?


Nous devons d'abord expliquer ce qu'est un Ă©chantillon validĂ©. Dans notre exemple, c'est quand nous avons achetĂ© non pas une seule pĂȘche, mais une tonne. Nous nous asseyons ou embauchons des travailleurs et ils trient les pĂȘches dans 2 conteneurs. Les inscriptions sur les conteneurs: X (bon) et P (mauvais). Le travail effectuĂ© par le tri des pĂȘches est la crĂ©ation d'un Ă©chantillon validĂ©.


Comment expliquer pourquoi un Ă©chantillon validĂ© est nĂ©cessaire? Imaginez que vous avez une sƓur cadette et que vous souhaitez lui apprendre Ă  choisir les pĂȘches. Vous l'emportez sur le marchĂ© et dites: "Apprenez, regardez comment je fais." Quand il vous semble qu'elle a dĂ©jĂ  appris, vous voulez tester ses compĂ©tences. Comment faire Vous crĂ©ez un Ă©chantillon de contrĂŽle, c'est-Ă -dire vous prenez dans les conteneurs, par exemple, 100 pĂȘches qui ont dĂ©jĂ  Ă©tĂ© triĂ©es dans chaque conteneur et collez secrĂštement des autocollants secrets pour savoir de quel conteneur elles ont Ă©tĂ© prises, mais votre sƓur ne le sait pas et lui suggĂšre de les dĂ©poser indĂ©pendamment dans de nouveaux conteneurs vides. Le pourcentage de correspondances de l'Ă©lection de votre sƓur avec des autocollants secrets est une mesure de prĂ©cision. En d'autres termes, la prĂ©cision est la valeur objective de la confiance Ă  laquelle vous pouvez faire confiance pour votre choix de pĂȘches pour vous. 100% signifie qu'elle est votre copie versĂ©e et fait tout exactement comme vous. 0% - que son opinion est exactement l'opposĂ© de la vĂŽtre.


Une note Ă  Esthete: Oui, vous avez raison, avec le temps, les pĂȘches peuvent commencer Ă  se dĂ©tĂ©riorer et vous devez considĂ©rer que leur validitĂ© devra ĂȘtre revue de temps en temps. Et cela se produit Ă©galement dans les donnĂ©es informatiques, par exemple, avec une caractĂ©ristique telle que la «pertinence».

Voyons maintenant 4 indicateurs de performance ML qui peuvent ĂȘtre confondus. Ce sont les vrais positifs (TP), les faux positifs (FP), les vrais nĂ©gatifs (TN) et les faux nĂ©gatifs (FN). La premiĂšre moitiĂ© du mot signifie coĂŻncidence (vrai) ou dĂ©calage (faux) de l'opinion de votre sƓur avec un autocollant pĂȘche secret. La seconde moitiĂ© signifie simplement le rĂ©cipient dans lequel votre sƓur a jetĂ© la pĂȘche (X-bon - positif, P-mauvais - nĂ©gatif). Et deux mots ensemble, c'est juste le nombre de pĂȘches dans cette catĂ©gorie.


En plus de la précision, 3 indicateurs auxiliaires sont également utilisés, à savoir la précision (précision), le rappel (sensibilité) et f1_score.


La prĂ©cision montre le% de correspondance avec votre opinion des pĂȘches jetĂ©es dans le rĂ©cipient X (bon). 100% signifie que toutes les pĂȘches que vous avez reconnues en forme sont reconnues comme telles par votre sƓur. Une valeur infĂ©rieure signifie que ceux qui sont reconnus comme impropres sont Ă©galement entrĂ©s dans le conteneur X. L'indicateur est important lorsqu'il est essentiel pour une entreprise que les pĂȘches inadaptĂ©es ne tombent pas dans les pĂȘches appropriĂ©es, mais si celle qui convient est jugĂ©e Ă  tort impropre, alors il n'y a rien Ă  craindre.


Le rappel montre la relation entre de bonnes pĂȘches correctement sĂ©lectionnĂ©es (TP) et la somme de cette valeur avec de bonnes pĂȘches considĂ©rĂ©es Ă  tort comme impropres (TP + FN). 100% signifie que votre sƓur ne jette jamais de bonnes pĂȘches dans un panier avec de mauvaises et est l'opposĂ© de Precision. Cet indicateur est important lorsqu'il est nĂ©cessaire pour une entreprise d'avoir des pĂȘches adaptĂ©es tombant aussi rarement que possible dans un contenant inutilisable.


Le score F1 est un score synthĂ©tique qui combine les avantages de la prĂ©cision et du rappel. Sa grande importance tĂ©moigne de l'Ă©quilibre de l'entraĂźnement et suggĂšre que, comme les bonnes pĂȘches ne tombent pas dans le panier avec les mauvaises, les mauvaises ne se prĂ©cipitent pas vers les bonnes.

Note à l'esthÚte: Cet indicateur est la moyenne harmonique entre les précisions et le rappel et est calculé par la formule:

f1_score = 2*(recall*precision) / (recall + precision) 

La question se pose souvent: pourquoi le chef de projet ML doit-il connaĂźtre et comprendre si profondĂ©ment tous ces indicateurs. RĂ©ponse: c'est important pour les entreprises. En tant que gestionnaire de ferme laitiĂšre, vous devez savoir quel est le rendement laitier et selon quelle formule il est considĂ©rĂ©, en tant que gestionnaire de ferme, vous devez savoir ce qu'est le rendement et comment il est calculĂ©. Oui, le gestionnaire peut ne pas explorer comment les vaches sont traites, comment elles vĂȘlent et comment les traiter, mais comprendre les principaux indicateurs commerciaux du projet est la clĂ© du succĂšs de l'entreprise.


Résumé


Nous tous, participants aux projets de ML, faisons un bon travail nĂ©cessaire. Lequel d'entre nous, en tant qu'Ă©tudiant, n'a pas rĂȘvĂ©, triant les pommes de terre, les tomates et le chou dans une ferme collective afin que les robots le fassent pour lui, et non pour une ou plusieurs personnes. Nous rĂ©alisons l'histoire et laissons nos projets rĂ©ussir. Je serai heureux si cet article contribue Ă  apporter une petite contribution au dĂ©marrage rĂ©ussi des projets ML.


Si cet article vous semble utile, écrivez dans les commentaires et je ferai le 2Úme article sur la façon d'expliquer l'additivité et la généralisation à la direction, ces piliers du projet ML correct et adapté.

Source: https://habr.com/ru/post/fr447094/


All Articles