Maschinelles Lernen für Manager: Das Sakrament der Trennung

Einführung


Als ich erneut mit einem Unternehmen zusammenarbeitete, das ein Projekt im Zusammenhang mit maschinellem Lernen (ML) durchführte, bemerkte ich erneut, dass Manager Begriffe aus dem ML-Bereich verwenden, ohne deren Wesen zu verstehen. Obwohl die Wörter grammatikalisch korrekt und an den richtigen Stellen von Sätzen ausgesprochen werden, ist ihre Bedeutung für sie nicht klarer als die Ernennung von Sepulaten , die, wie Sie wissen, in Sepularien zur Trennung verwendet werden. Gleichzeitig scheint es den Teamleitern und einfachen Entwicklern, dass sie mit dem Management dieselbe Sprache sprechen, was zu Konfliktsituationen führt, die die Arbeit am Projekt erschweren. Daher widmet sich dieser Artikel den Moderationstechniken (aus dem Lateinischen: Vereinfachung oder Moderation) der Kommunikation der Entwickler mit dem Management oder der einfachen und klaren Erklärung der Grundbegriffe von ML, um Ihr Projekt zum Erfolg zu führen. Wenn Ihnen dieses Thema nahe steht, sind Sie bei cat willkommen.

Ein Ästhet zur Anmerkung: Sepuls, Sepulcarius und Sepulation sind die Begriffe, die der geniale Stanislav Lem auf der 14. Reise von Iyon dem Pazifik verwendet.

Projektstart


Das ML-Projekt sollte mit der Legitimierung der Validierungsmetrik beginnen. Klingt beängstigend, nicht wahr? Beginnen wir mit der Erklärung. Die Legitimierung (auf Russisch vom Lateinischen ist es Legalisierung) kommt einfach zu einer Vereinbarung der Parteien, die schriftlich festgelegt und gebilligt wird - es ist natürlich auch schriftlich wünschenswert. Die Parteien sind sowohl der Geber und das Projektmanagement als auch dessen Ausführende.


Fahren wir nun mit der Validierung fort . Der ML-Programmierer hat normalerweise Erfahrung mit dem Schreiben von Validierungscode, und beim Nachverfolgen sieht er, dass wahr und falsch zu ihm zurückgekehrt sind. Aber wie kann man dieses Konzept einem Manager erklären, der sich nicht mit Code befasst? Verwenden wir dieses einfache Lebensbeispiel.


Stellen Sie sich vor, Sie passieren einen Markt und sehen: Pfirsiche werden verkauft. Der Verkäufer sagt Ihnen: „Bery! "Harosha parsik, frisch, saftig wie, ne schade." Sie schauen jedoch genauer hin und sehen: An einer Stelle ist es verwöhnt. Sie sagen: „Nun, wo ist er gut? das ist faul. " Der Verkäufer bietet den halben Preis an. Wenn Sie denken: "Sie können das verwöhnte herausschneiden, es ist nur ein Viertel, es scheint rentabel zu sein" - und kaufen Sie es, dann gibt es in der ML-Sprache eine Validierung und der Pfirsich (in der Slang-ML-Probe) wird als gültig anerkannt. Wenn Sie der Meinung sind, dass Sie an einem anderen Ort das Beste anstelle des Verwöhnten finden können, tritt eine Behinderung auf, und der Pfirsich wird von Ihnen als ungültig anerkannt.


Es stellt sich heraus, dass die Validierung nichts Kompliziertes ist, und wir alle führen jeden Tag eine Validierung durch, indem wir eine Sache als gut, für uns selbst geeignet oder ungültig erkennen und etwas anderes als schlecht und ungeeignet erkennen.


Anmerkung für Estete: Plötzlich ist Jourdain überrascht zu erfahren, dass sein ganzes Leben in Prosa (en) ausgedrückt wurde. Moliere, Händler im Adel.

Schließlich bleibt nur zu erklären, was eine Validierungsmetrik ist . Lassen Sie uns darüber nachdenken, warum wir uns entschieden haben, einen Pfirsich aus dem vorherigen Beispiel zu kaufen.


  • es ist billig genug (Preis <Schwellenwert)
  • es ist ziemlich reif (Reife> Schwellenwert), aber nicht reif (Reife unter dem 2. Schwellenwert)
  • es ist von normaler Größe, das heißt, seine Größe ist in der Kategorie "normal" (alle Kategorien: zu klein, klein, normal, groß, riesig)
  • es ist nicht verwöhnt genug (der Bereich von faulen und verdorbenen Bereichen ist kleiner als der Schwellenwert)

All dies, das oben aufgeführt ist, ist ein Beispiel für eine Validierungsmetrik, die in diesem Beispiel aus 4 Kategorien besteht. Im einfachsten Fall wird ein Pfirsich, der alle Kriterien gleichzeitig erfüllt, als gültig anerkannt und gekauft.


Nun wird deutlich, warum es so wichtig ist, von Anfang an zu vereinbaren, wie genau die Validierung stattfinden wird, wie viele Parameter und mit welchen Schwellenwerten alle Interessenten zufrieden sein werden. Beschreibungen von Maßnahmen bei teilweiser Einhaltung der Bedingungen können einen besonderen Abschnitt einnehmen.


Natürlich hat jedes ML-Projekt je nach Themenbereich eine eigene Validierungsmetrik. Das Dokument zur Festlegung der Validierungsmetrik ist für das ML-Projekt ebenso wichtig wie die Verfassung für den Staat.


Erst nachdem das Dokument endgültig in dem Projekt erschienen ist, das die Validierungsmetrik regelt und allen Projektteilnehmern zur Verfügung steht, ist es sinnvoll, seinen Code zu schreiben. Der Validierungscode ist das Herzstück des Projekts und seine Qualität muss einwandfrei sein. Jeder Fehler in diesem Teil mit hoher Wahrscheinlichkeit kann zum Zusammenbruch des gesamten ML-Projekts führen.


Das Geheimnis der Genauigkeitsberechnung


Der wichtigste Indikator für den aktuellen Stand eines Managementprojekts ist die Genauigkeit . Wie kann man dem Manager einfach erklären, was es ist und welche Aktionen ausgeführt werden müssen, um es zu berechnen?


Zuerst müssen wir erklären, was eine validierte Stichprobe ist. In unserem Beispiel haben wir nicht einen einzigen Pfirsich gekauft, sondern eine Tonne. Wir setzen uns oder stellen Arbeiter ein und sie sortieren die Pfirsiche in 2 Behälter. Die Inschriften auf den Behältern: X (gut) und P (schlecht). Die Arbeit beim Sortieren von Pfirsichen besteht in der Erstellung einer validierten Probe.


Wie kann erklärt werden, warum eine validierte Probe benötigt wird? Stellen Sie sich vor, Sie haben eine jüngere Schwester und möchten ihr beibringen, wie man Pfirsiche wählt. Sie bringen es auf den Markt und sagen: "Lernen Sie, beobachten Sie, wie ich es mache." Wenn es Ihnen so vorkommt, als hätte sie bereits gelernt, möchten Sie ihre Fähigkeiten testen. Wie kann man das machen? Sie erstellen eine Kontrollprobe, d. H. Sie nehmen zum Beispiel 100 Pfirsiche aus den Behältern, die bereits aus jedem Behälter sortiert wurden, und kleben sie heimlich auf geheime Aufkleber, um zu wissen, aus welchem ​​Behälter sie entnommen wurden, aber Ihre Schwester würde dies nicht wissen, und schlägt vor, sie unabhängig voneinander in neue leere Behälter zu legen. Der Prozentsatz der Übereinstimmungen, die die Wahl Ihrer Schwester mit geheimen Aufklebern hat, ist ein Maß für die Genauigkeit. Mit anderen Worten, Genauigkeit ist der objektive Wert dafür, wie viel Schwester mit Ihrer Auswahl an Pfirsichen für Sie vertraut werden kann. 100% bedeutet, dass sie Ihre gegossene Kopie ist und alles genau so macht, wie Sie es tun. 0% - dass ihre Meinung genau das Gegenteil von Ihrer ist.


Ein Hinweis an Esthete: Ja, Sie haben Recht, im Laufe der Zeit können sich Pfirsiche allmählich verschlechtern, und Sie müssen berücksichtigen, dass ihre Gültigkeit von Zeit zu Zeit überprüft werden muss. Dies geschieht beispielsweise auch bei Computerdaten mit einem Merkmal wie „Relevanz“.

Schauen wir uns nun 4 ML-Leistungsindikatoren an, die verwirrt werden können. Dies sind wahr-positiv (TP), falsch-positiv (FP), wahr-negativ (TN) und falsch-negativ (FN). Die erste Hälfte des Wortes bedeutet Zufall (wahr) oder Nichtübereinstimmung (falsch) der Meinung Ihrer Schwester mit einem geheimen Pfirsichaufkleber. Die zweite Hälfte bedeutet einfach den Behälter, in den Ihre Schwester den Pfirsich geworfen hat (X-gut - positiv, P-schlecht - negativ). Und zwei Wörter zusammen sind nur die Anzahl der Pfirsiche in dieser Kategorie.


Neben der Genauigkeit werden auch 3 Hilfsindikatoren verwendet, nämlich Präzision (Genauigkeit), Rückruf (Empfindlichkeit) und f1_score.


Die Genauigkeit zeigt die prozentuale Übereinstimmung mit Ihrer Meinung zu Pfirsichen, die in Behälter X geworfen wurden (gut). 100% bedeutet, dass alle Pfirsiche, die Sie als fit erkannt haben, von Ihrer Schwester als solche erkannt werden. Ein niedrigerer Wert bedeutet, dass diejenigen, die als nicht tauglich erkannt werden, auch in Container X gelangt sind. Der Indikator ist wichtig, wenn es für ein Unternehmen entscheidend ist, dass ungeeignete Pfirsiche nicht in geeignete Pfirsiche fallen. Wenn sich jedoch herausstellt, dass der geeignete Pfirsich falsch ungeeignet ist, besteht kein Grund zur Sorge.


Rückruf zeigt die Beziehung zwischen korrekt ausgewählten guten Pfirsichen (TP) und der Summe dieses Wertes mit guten Pfirsichen, die fälschlicherweise als ungeeignet angesehen werden (TP + FN). 100% bedeutet, dass Ihre Schwester niemals gute Pfirsiche mit schlechten in einen Korb wirft und das Gegenteil von Präzision ist. Dieser Indikator ist wichtig, wenn ein Unternehmen so selten wie möglich geeignete Pfirsiche in einen unbrauchbaren Behälter fallen lassen muss.


Der F1-Score ist ein synthetischer Score, der die Vorteile von Präzision und Rückruf kombiniert. Seine große Bedeutung zeugt von der Ausgewogenheit des Trainings und legt nahe, dass gute Pfirsiche nicht mit schlechten in den Korb fallen, so dass schlechte Pfirsiche nicht zu guten eilen.

Hinweis für Ästhet: Dieser Indikator ist das harmonische Mittel zwischen Präzision und Rückruf und wird nach folgender Formel berechnet:

f1_score = 2*(recall*precision) / (recall + precision) 

Oft stellt sich die Frage: Warum muss der ML-Projektmanager all diese Indikatoren so genau kennen und verstehen? Antwort: Dies ist wichtig für das Geschäft. Als Milchviehhalter müssen Sie wissen, was Milchleistung ist und nach welcher Formel sie betrachtet werden. Als Betriebsleiter müssen Sie wissen, was Milchleistung ist und wie sie berechnet wird. Ja, der Manager befasst sich möglicherweise nicht mit der Art und Weise, wie die Kühe gemolken werden, wie sie kalben und wie sie behandelt werden. Das Verständnis der wichtigsten Geschäftsindikatoren des Projekts ist jedoch der Schlüssel zum Geschäftserfolg.


Zusammenfassung


Wir alle, Teilnehmer an ML-Projekten, leisten gute und notwendige Arbeit. Wer von uns als Student hat nicht geträumt, Kartoffeln, Tomaten und Kohl auf einer Kollektivfarm zu sortieren, damit Roboter es für ihn tun und nicht für eine Person (en). Wir machen die Geschichte wahr und lassen unsere Projekte erfolgreich sein. Ich würde mich freuen, wenn dieser Artikel einen kleinen Beitrag zum erfolgreichen Start von ML-Projekten leistet.


Wenn Ihnen dieser Artikel nützlich erscheint, schreiben Sie in die Kommentare, und ich werde den zweiten Artikel darüber verfassen, wie die Additivität und Verallgemeinerung des Managements, diese Säulen des richtigen, geeigneten ML-Projekts, erläutert werden.

Source: https://habr.com/ru/post/de447094/


All Articles