
Auf dem RAIF-Forum 2019, das im Rahmen von Open Innovations in Skolkovo stattfand, sprach ich darüber, wie die Einführung von Modellen für maschinelles Lernen umgesetzt wird. Im Zusammenhang mit den Besonderheiten des Berufs verbringe ich mehrere Tage pro Woche in der Produktion, um Modelle für maschinelles Lernen vorzustellen und den Rest der Zeit mit der Entwicklung dieser Modelle zu verbringen. Dieser Beitrag ist eine Aufzeichnung eines Berichts, in dem ich versucht habe, meine Erfahrungen zusammenzufassen.
Wir beginnen mit der Beschreibung des Prozesses in großen Zügen und gehen schrittweise auf die Details der einzelnen Phasen ein.
Egal, ob wir mit der Optimierung der Produktion auf der Grundlage der Ergebnisse einer vollständigen Umfrage (im Idealfall) rechnen oder einfach nur Ideen sammeln, „Patchwork-Optimierung“ - das Ergebnis ist in gewisser Weise die
Bildung einer Liste von Initiativen . Es ist wichtig zu verstehen, welche Produktionsbereiche wir optimieren werden. Dieser Vorgang dauert in der Regel etwa zwei Monate.
Dann fahren wir mit der Pilotphase fort, die drei bis vier Monate dauern wird. Wir müssen ein Grundmodell aufbauen und verstehen, ob maschinelles Lernen auf dieses anwendbar ist und welche Vorteile es für das Unternehmen haben kann.
In der nächsten Phase, die viel länger dauert, wird nicht viel maschinelles Lernen betrieben. Bei der
Implementierung müssen Sie integrieren, aktuelle Systeme erstellen und genau den Profit erzielen, den wir in der zweiten Phase prognostiziert haben. Die Implementierung dauert in der Regel sechs bis neun Monate.
Die
Kontrollphase schließt den Prozess ab. Es ist eine Sache, ein Modell und eine Show zu machen und eine andere, das Modell für einige Zeit zu pflegen. Die Produktion ändert sich, Werkzeugmaschinen werden ersetzt. Unter diesen Bedingungen muss das Modell ständig „hochfahren“ und nach neuen Optimierungsmöglichkeiten suchen.

Jetzt genauer in der Reihenfolge:
Auf der Suche nach einer Hypothese
Woher kommt die Hypothese? Wer wird sie nominieren?
Normalerweise werden Hypothesen in der IT-Abteilung diskutiert, aber Leute, die Systeme konfigurieren können, arbeiten dort, kennen sich mit Integration aus und wissen nichts über maschinelles Lernen. Außerdem sind sie sich der Produktion nicht so bewusst. Sie haben keine Kompetenz, um in der Praxis zu verstehen, wie maschinelles Lernen funktioniert.
Versuch Nummer zwei ist, zur Produktionshypothese zu gehen. Produktionsnahe Spezialisten kennen zwar die technischen Merkmale des Prozesses, aber ... kennen sich nicht mit maschinellem Lernen aus. Daher können sie nicht sagen, wo es anwendbar ist und wo nicht.
Woher kann in diesem Fall die Hypothese kommen? Zu diesem Zweck haben sie sich eine besondere Position einfallen lassen - den Chief Digital Transformation Officer. Dies ist eine Person, die sich mit der digitalen Transformation beschäftigt. Oder Chief Date Officer - eine Person, die die Daten kennt und weiß, wie sie angewendet werden können. Wenn diese beiden Personen nicht im Unternehmen sind, sollten die Hypothesen vom Top-Management stammen. Das heißt, Spezialisten, die das Geschäft vollständig verstehen und sich mit moderner Technologie beschäftigen.
Wenn das Unternehmen weder den Chief Digital Transformation Officer noch den Chief Date Officer hat und das Top-Management keine Hypothese aufstellen kann, werden ... Wettbewerber zur Rettung kommen. Wenn sie etwas implementiert haben, kann dies ihnen nicht genommen werden. Ein mit dem Projekt verbundenes Integrationsunternehmen kann jedoch feststellen, was und wie optimiert werden kann.

Wie wählt man eine Idee?
Vier Faktoren sind hier wichtig:
- Der Umsatz des Prozesses soll optimiert werden.
- Erhebliche Abweichungen im Prozess. Es gibt eine Six-Sigma-Methode, die vorschlägt, dass alle Prozesse um nicht mehr als sechs Standardabweichungen von ihren Ergebnissen abweichen sollten. Wenn Sie mehr von diesen Abweichungen haben, müssen Sie sie analysieren, und maschinelles Lernen wird helfen.
- Verfügbarkeit und Verfügbarkeit von Daten. Wenn Sie beispielsweise nach 12 Monaten Daten von Sensoren zum Betrieb von Geräten erhalten, wird kein maschinelles Lernen implementiert.
- Die Komplexität der Umsetzung der Digitalisierung im Prozess. Die Kosten für die Einführung Ihres Modells im Vergleich zu den Kosten der Einsparungen.
Was sind die Daten?
Die Struktur der Daten ist:
Strukturiert: einige Tabellen, Lesungen - alles ist einfach. Wenn wir Daten aus sozialen Netzwerken oder Fotos verwenden möchten, müssen wir mit unstrukturierten Daten umgehen. Es muss festgelegt werden, dass solche Daten auch strukturiert werden müssen, sodass sie sich in Zahlen verwandeln, die maschinelles Lernen wahrnehmen kann. Der dritte Datentyp ist ein Thread. Wenn wir mit Daten arbeiten, die sich jede Millisekunde ändern, müssen wir sofort über den Lastausgleich nachdenken: Kann unser System der Geschwindigkeit des Empfangs standhalten?

Nach Herkunft sind die Daten unterteilt in:
Automatisierte Sensoren erzeugen Zahlen, wir vertrauen ihnen oder nicht. Aber sie sind ungefähr gleich. Manuell eingegeben - hier müssen Sie verstehen, dass möglicherweise ein Fehler im Zusammenhang mit dem menschlichen Faktor vorliegt. Und das Modell muss dagegen resistent sein. Externe Daten - Vielleicht sind wir an Wechselkursen interessiert, wenn sich die Implementierung auf Finanztransaktionen bezieht, oder an Wettervorhersagen, wenn wir den Temperatur-Wärmeaustausch vorhersagen. Nur statische Daten können wiederverwendet werden.

Datenprobleme
- Vollständigkeit - der Moment, in dem einige Daten / Monate übersprungen werden können.
- Der Änderungsfehler - wenn Ihr Sensor beispielsweise einen Fehler von 5 Millisekunden aufweist, dann das Modell mit einer Genauigkeit von zwei Millisekunden - ist nicht möglich, da die Eingabedaten zu divergieren beginnen.
- Barrierefreiheit online - Wenn Sie „sofort“ eine Prognose erstellen möchten, müssen die Daten bereit sein.
- Speicherzeit - Wenn Sie jährliche Trends verwenden und die Nachfrage prognostizieren möchten und die Daten nur für sechs Monate gespeichert werden, erstellen Sie kein Modell.
Mit Daten arbeiten
Hören Sie Profis zu, aber glauben Sie nur den Daten. Sie müssen in die Werkstatt gehen, mit Fachleuten sprechen, in die Fabrik gehen, mit Betreibern sprechen, deren Geschäft verstehen. Aber glauben Sie nur den Daten. Es gab viele Beispiele, in denen Betreiber sagen, dass dies nicht möglich ist - wir zeigen die Daten -, dass dies tatsächlich geschieht. Ein interessantes Beispiel: Einmal zeigte das Modell, dass der Wochentag die Produktion beeinflusst. Montags - ein Koeffizient, freitags - ein anderer.
Der Effekt ist nur im Kampf nachvollziehbar - Rapid Prototyping ist sehr wichtig. Das Wichtigste ist, schnell zu sehen, wie das Modell im Alltag funktioniert. In Präsentationen und auf lokalen Laptops sieht das Projekt möglicherweise ganz anders aus als es tatsächlich ist: In der Regel stehen ganz andere Probleme an erster Stelle.
Nur ein interpretiertes Modell hat eine Verbesserungschance. Sie müssen immer klar verstehen, warum sich das Modell so entschieden hat und nicht anders.
Arbeiten Sie mit Metriken
In der Realität kann die Abhängigkeit der Genauigkeit vom Gewinn beliebig sein. Bis wir verstehen, wie sich diese Genauigkeit auf den Effekt auswirkt, ist die Frage der Genauigkeit völlig bedeutungslos. Sie müssen immer in Gewinn umwandeln. Die folgenden Grafiken zeigen, dass die Gewinne je nach Genauigkeit des Modells variieren können. Die erste Grafik zeigt, wie schwierig es ist, im Voraus genau zu bestimmen, an welchem Punkt die Genauigkeit des Modells für das Gewinnwachstum ausreicht:

Darüber hinaus führt dies in einigen Fällen mit unzureichender Genauigkeit des Modells einfach zu Verlusten:

Wichtige Punkte zur Integration:
- Integration braucht mehr Zeit als Modellentwicklung.
- Neue Ideen. Manchmal stellt sich heraus, dass das Projekt dort Vorteile bringt, wo es nicht erwartet wurde.
- Schulung. Menschen passen sich schneller an als Eisen.
Ein weiterer Punkt, den Datasainisten häufig vergessen, ist das Ziel der Einführung des Modells: Prognose oder Empfehlung. Normalerweise basieren die Empfehlungen auf dem Vorhersagemodell. In diesem Fall sollte das Vorhersagemodell jedoch speziell erstellt werden, da es ziemlich schwierig ist, die minimale Blackbox mit plötzlichen unangenehmen Auswirkungen zu finden. Wenn wir über Leistungsmetriken sprechen, dann abhängig vom Zweck der Implementierung:
- Eine Prognose ausstellen, - das Ergebnis der Anwendung von Wissen bewerten;
- Geben Sie Empfehlungen - bewerten Sie den Vergleich mit dem alten Prozess.
Wichtige Nuancen der Umsetzungsphase:
Implementierung / Schulung
- Statistische Kompetenz - Die Implementierung ist viel erfolgreicher, wenn die Mitarbeiter vor Ort beginnen, mit korrekten statistischen Begriffen zu arbeiten.
- Die Motivation verschiedener Struktureinheiten - jeder sollte verstehen, warum dies geschieht, und keine Angst vor Veränderungen haben.
- Organisatorische Änderungen - Mindestens ein Mitarbeiter prüft die Ergebnisse des Modells. Dies bedeutet, dass er seine Herangehensweise an den Prozess ändert. Es stellt sich oft heraus, dass die Menschen dafür nicht bereit sind.
Unterstützung
Vergessen Sie nicht, dass sich die Bedingungen ändern und das Modell ständig nach neuen Optimierungsmöglichkeiten suchen muss. Hier sind wichtig:
- Modellmanagementstrategien und das Reagieren auf Prognosen sind ein bisschen Eigenwerbung: Wir von Jet Infosystems haben viel darüber nachgedacht und unser eigenes JET GALATEA-System entwickelt.
- Der Faktor Mensch - die Hauptprobleme des Modells hängen oft mit seiner Verwendung oder mit Eingriffen des Menschen zusammen, die das Modell nicht vorhersehen konnte.
- Regelmäßige Analyse der Arbeit mit Fachleuten aus der Praxis - es ist unwahrscheinlich, dass alles auf eine Zahl reduziert wird, die anzeigt, was verbessert werden muss. Es ist erforderlich, jede zweifelhafte Prognose oder Empfehlung zu analysieren. Seien Sie bereit, einen anderen Beruf zu erlernen, um mit Technologen und Gerätebetreibern am Arbeitsplatz dieselbe Sprache zu sprechen.

Gepostet von Nikolay Knyazev, Leiter der Gruppe für maschinelles Lernen, Jet Infosystems