Verlassen Sie sich nicht auf künstliche Intelligenz,
es sei denn, Sie haben ein tiefes Verständnis des Prozesses.
Ray DalioWir bei Jet Infosystems führen maschinelles Lernen in den unterschiedlichsten Branchen ein und ermitteln auf der Grundlage unserer Erfahrung die erforderlichen Komponenten für eine erfolgreiche Implementierung:
- Darlegung des Problems zur Optimierung der Prioritätsmetrik für Unternehmen;
- ein Team von Datenwissenschaftlern, die über Kompetenzen verfügen und bereit sind, tief in den Prozess einzutauchen;
- Daten, die für die Geschäftsaufgabe relevant sind;
- angemessene Wahl der Methode.
In der Praxis sind alle diese Elemente extrem selten, laut Statistik gelten nur etwa 7% der Projekte mit ML als erfolgreich. Projekte mit all diesen Komponenten können sicher als Durchbruch eingestuft werden! Zur Veranschaulichung haben wir einige Punkte formuliert, die als schädliche Tipps zur Einführung des maschinellen Lernens in der Wirtschaft bezeichnet werden können.
Schlechter Rat Nr. 1: „Die Aufgabe besteht einfach darin, ML umzusetzen“
Oft formuliert der Kunde die Aufgabe so, dass „nur maschinelles Lernen für eine gewisse Optimierung implementiert wird“, ohne dass ein Zusammenhang mit Geschäftsmetriken und der Priorisierung von Geschäftsaufgaben besteht.
In diesem Fall sehen wir mehrere negative Szenarien. Zum Beispiel ändern sich die Ziele, wenn sie funktionieren. Dies bedeutet jedoch, dass sich die gesamte Vorverarbeitung und die Auswahl der Optimierungsmethoden ändern, da sie in direktem Zusammenhang mit der Bedeutung des Ziels stehen. Oder ein Datenwissenschaftler wählt eine Metrik aus dem maschinellen Lernen aus, zum Beispiel auc, und verbessert sie. Er bringt alle Hype-Frameworks und -Bibliotheken auf der Grundlage seines Schönheitssinns ein - perfektioniert die „fünfte Dezimalstelle“ in der ausgewählten Metrik. Gleichzeitig kann diese Arbeit für Unternehmen völlig unwichtig sein und nicht zu einer erfolgreichen Implementierung führen. Oder ein kleines Geschäftsproblem wird langsam gelöst, wenn tatsächlich in der Nähe ein viel größeres Potenzial für die Einführung von maschinellem Lernen besteht.
Infolgedessen können negative Konsequenzen auftreten:
- Es ist unmöglich, den Zeitpunkt und die Arbeitskosten vorherzusagen.
- Die Modelle werden isoliert von den Geschäftsmetriken verbessert.
- eine Investition in eine kleinere Aufgabe gemacht.
Schlechter Rat # 2: "Jeder Datenwissenschaftler wird es tun"
Es gibt die Meinung, dass Sie jeden Data Scientist vom Markt nehmen können, indem Sie ihn mit Spitzenleistungen isolieren, und er wird auf magische Weise herausfinden, was optimiert werden muss. Unserer Meinung nach ist die Mentalität von Datenwissenschaftlern, die an der Produktionsoptimierung beteiligt sind, äußerst wichtig. Das bedeutet, dass sie bereit sein müssen, tief in technologische Prozesse einzutauchen (z. B. Aluminiumelektrolyse, sauerstoffalkalische Cellulosebehandlung, Hochofenproduktion usw.). Die Bereitschaft von Datenwissenschaftlern, auf Geschäftsreisen in der Ferne zu reisen, um persönlich mit Technologen und Betreibern im Werk zu sprechen, ist ebenfalls wichtig, um zu verstehen, wie alles wirklich funktioniert. Ohne dies werden sie höchstwahrscheinlich zu einer großen Anzahl gedankenloser Iterationen von Aufzählungsmodellen verurteilt sein, und Sie können niemals zu einer nützlichen Implementierung gelangen.
Schlechter Rat Nr. 3: „Arbeit sollte Flickenteppich sein“
Die Ideologie der fragmentiertesten Arbeitsorganisation mit maximaler Arbeitsteilung zur Minimierung der Kosten wird regelmäßig eingehalten. Zum Beispiel gibt es einen Analysten, der den Prozess versteht, mit Kunden und Technologen kommuniziert. Es gibt einen Datumsingenieur - er verarbeitet die Daten, generiert Features. Und schließlich gibt es einen Datenwissenschaftler, der nur sklearn und fit / predict importiert. Daher findet die Arbeit eines Datenwissenschaftlers isoliert von den Realitäten des Lebens statt, und es besteht ein hohes Risiko, dass eine große Anzahl von Fehlern begangen wird und wichtige Aspekte der ursprünglichen Aufgabe fehlen.
Schlechter Rat # 4: "Erklären Sie Datenwissenschaftlern nicht, wie Daten gesammelt werden"
Es ist nicht immer offensichtlich, dass Datenwissenschaftler verstehen müssen, wie und wo Daten gesammelt werden. Es gibt sogar Fälle, in denen ML-Implementierungsverträge ohne vorherige Überprüfung der Daten unterzeichnet werden, und unter diesen Bedingungen besteht die Gefahr, dass die Zielwerte der im Vertrag beschriebenen Metriken nie erreicht werden. Bei diesem Ansatz ergeben sich zwangsläufig Probleme sowohl bei der Bewertung der Qualität der Modelle als auch bei der Möglichkeit ihrer tatsächlichen Anwendung.
Viele Dateneigenschaften beeinflussen die Wahl der Methoden: Mittelwertbildung von Daten und Messfehlern, ungleichmäßige Stichprobenbildung von Beispielen, zeitliche Verzögerung von Messungen. Es ist wichtig, Daten in Faktoren und Zielen korrekt von Rauschen zu säubern. Die Ursachen des Rauschens können unterschiedlich sein: Digitalisierungsfehler, Ausreißer, Duplizieren von Variablen, Gerätefehler usw.
Das Unternehmen sollte sich dafür interessieren, dass Datenwissenschaftler die Art der Daten genau verstehen, da sonst die Datenverarbeitung langwierig ist und nicht zu einer erfolgreichen Modellierung führt. Ohne ein tiefes Verständnis der Besonderheiten des Prozesses zum Sammeln und Speichern von Daten können die folgenden Probleme auftreten:
- Die Datenvorverarbeitung wird viel Zeit in Anspruch nehmen.
- Das Modell ist unter realen Bedingungen möglicherweise nicht anwendbar.
- Vertragsbedingungen möglicherweise nicht erreichbar.
Schlechter Rat 5: „Machen Sie die Datenerfassung zu einem komplizierten und unverständlichen Prozess, damit niemand weiß, wie es funktioniert. Nehmen Sie nach der Einführung der Modelle unbedingt Änderungen am Prozess vor. “
Parallel zur Entwicklung und Implementierung des Modells ändern sich häufig technologische Prozesse, die sich auf die Datenerfassung auswirken. Stellen Sie sich vor, es ist notwendig, den technologischen Prozess zu optimieren, und nach der Einführung des Modells werden einige Einheiten neu konfiguriert, was sich auf die Datenerfassung auswirkt: Features werden „schweben“, Verteilungen werden sich ändern, die Trainingsstichprobe wird nicht mehr repräsentativ sein. Natürlich weiß niemand davon im Voraus. Infolgedessen funktioniert das Modell nicht mehr und es muss alles überarbeitet werden. In Fällen mit Bäumen kann beispielsweise ein Problem mit Domänenüberschreitungen auftreten.
Es ist wichtig, alle Änderungen an technologischen Prozessen im Voraus mit Datenwissenschaftlern abzustimmen, damit sie Modelle schnell an neue Bedingungen anpassen können.
Schlechter Rat Nr. 6: "Durchschnitt der Zeichen"
Einige Arten der Mittelwertbildung führen zu Problemen, zum Beispiel:
- Die Aufgabe besteht darin, den stündlichen Energieverbrauch vorherzusagen. Gleichzeitig werden die Energieverbrauchsdaten nur für Monate gespeichert. In dieser Situation kann vor der Akkumulation der Rohdaten nichts unternommen werden.
- Die Mittelwertbildung erfolgt über Merkmale, die zu deutlich unterschiedlichen Zeitpunkten gemessen werden.
- Verwenden von gleitenden Durchschnitten, die den Vorhersagezeitraum erfassen (was zu einem Datenleckproblem und einer Modellverzerrung führt);
- Am schlimmsten ist es, wenn die Daten irgendwie gemittelt sind und diese Tatsache unbekannt bleibt.
In solchen Fällen erhält die Aufgabe möglicherweise keine angemessene Lösung, bis die relevanten Rohdaten angezeigt werden.
Schlechter Rat Nr. 7: "Keine zusätzlichen Daten preisgeben"
Es gibt verschiedene Szenarien, in denen Datenwissenschaftler zusätzliche Daten anfordern:
- zusätzliche Rohdaten erforderlich;
- Dem Datensatz müssen neue Zeichen hinzugefügt werden. Beispielsweise ist es für die Aufgaben des Bankensektors und für Produktempfehlungen nützlich, so viele soziodemografische Attribute wie möglich zu verwenden.
- Größe des Datensatzes erhöhen
- Die Datenmenge ist begrenzt, kann jedoch aufgrund historischer Daten erweitert werden, oder es können zusätzliche Daten erstellt werden, z. B. für Bild- und Videoverarbeitungsaufgaben.
Datenwissenschaftler fordern zusätzliche Daten an, wenn sie Erfahrung mit der Lösung ähnlicher Probleme haben, bei denen die Verwendung dieser Daten zu einem positiven Ergebnis führt. Andernfalls kann die Qualität der Modelle erheblich schlechter ausfallen, als dies möglicherweise möglich wäre.
Schlechter Rat Nummer 8: "Die Genauigkeit der manuellen Kennzeichnung ist nicht wichtig"
Es sei erforderlich, die Qualität von Produkten anhand der manuellen Kennzeichnung vorherzusagen, d. H. Produktionsmitarbeiter erfassen Zielwerte manuell. Wenn die Betreiber gleichzeitig Prämien für gute Ergebnisse und Strafen für schlechte erhalten, dann:
- Das Ziel enthält wahrscheinlich einen Offset.
- Als Ergebnis des Trainings wird diese Tendenz in das Modell einfließen.
- Das Modell wird die tatsächliche Verteilung der Zielvariablen nicht vorhersagen.
Ähnliche Probleme können bei der Verwendung von Crowdsourcing-Lösungen (z. B. Yandex.Toloka) auftreten, bei denen Experten für das Markieren von Daten belohnt werden. In diesem Fall müssen Sie das resultierende Markup sorgfältig validieren. Hierfür gibt es mehrere Ansätze:
- Überlappung: mehrere unabhängige Experten-Markups;
- Goldenes Set: Den Daten werden Beispiele mit bekannten Ergebnissen hinzugefügt, um die Genauigkeit der Bediener und ihre Auswahl zu bewerten.
- Mehrheitsentscheidung: Auswahlalgorithmen basierend auf Überlappungsmarkierungen.
Schlussfolgerung: Wenn es eine manuelle Auszeichnung von Daten gibt, müssen Sie diese überprüfen, da sonst systematische Fehler auftreten können.
Schlechter Rat Nummer 9: "Nutze die Modischsten"
Lesen Sie beliebte Artikel und fordern Sie, dass die Lösung des Problems auf einer modischen Methode basiert.
Heute ist Data Science ein Modefeld, es werden viele Artikel veröffentlicht, fast täglich werden Konferenzen abgehalten und immer mehr Methoden entwickelt. Dies bedeutet jedoch nicht, dass eine beliebig gewählte Methode für industrielle Aufgaben optimal ist. Normalerweise ist es nicht erforderlich, LSTM für die Optimierung der Roheisenproduktion zu verwenden, und es ist auch nicht erforderlich, RL für kleine Marketing- oder Bergbaudatensätze zu verwenden. Bei solchen Aufgaben ist es ratsam, mit herkömmlichen Methoden (z. B. Gradientenerhöhung) zu beginnen, die es schwierig machen können, Kunden zu überzeugen. Modische ML-Methoden eignen sich nicht immer für die Aufgaben der Branche und sind häufig kostenintensiv in der Implementierung.
Moral
Die angegebenen Tipps erheben keinen Anspruch auf Vollständigkeit, werden jedoch regelmäßig in der Praxis angewendet. Mit diesem Ansatz wird wahrscheinlich sichergestellt, dass ML nicht in der Branche tätig ist und einfach Geldverschwendung ist.
Zusammenfassend können wir sagen, dass es sich bei den wirklich bahnbrechenden Fällen um ML-Projekte handelt, die pünktlich umgesetzt werden und dem Unternehmen einen messbaren Gewinn bringen. Um dies zu erreichen, sind die Kompetenzen der Datenanalyse und des maschinellen Lernens wichtig und die Bedingungen, unter denen Datenwissenschaftler das Gesamtbild eines Geschäftsproblems gut verstehen.
Gepostet von Irina Pimenova, Leiterin Bergbau, Jet Infosystems