Was ist automatisiertes maschinelles Lernen (AutoML)

Was ist automatisiertes maschinelles Lernen (AutoML) und
Wird es Data Scientists wegnehmen?


Seit Beginn der Einführung automatisierter Tools für maschinelles Lernen (AutoML) wie Google AutoML haben Experten die Frage diskutiert, ob sie für eine vollständige Unternehmensintegration und -anwendung bereit sind. Die Beschreibung des AutoML-Tools besagt, dass jeder die Rolle eines „Datenwissenschaftlers“ übernehmen kann, der in der Lage ist, Modelle für maschinelles Lernen zu erstellen, die ohne den traditionell erforderlichen technischen Hintergrund für den industriellen Einsatz bereit sind.



Obwohl es sicher stimmt, dass automatisierte maschinelle Lernprozesse die Art und Weise verändern, in der Unternehmen Datenanalyseaufgaben ausführen können, ist die Technologie noch nicht bereit, Datenspezialisten arbeitslos zu machen. Einer der Hauptansprüche der Technologie ist, dass automatisch erstellte Modelle eine ähnliche Qualität haben und so schnell wie möglich hergestellt werden, verglichen mit dem entsprechenden Modell, das von einer Gruppe von Datenforschern erstellt wurde.


Obwohl AutoML-Modelle schneller zu erstellen sind, sind sie nur dann effektiv, wenn das gesuchte Problem konstant und wiederkehrend ist. Die meisten AutoML-Modelle funktionieren gut und erzielen unter diesen Bedingungen eine gleichbleibende Qualität. Je komplexer das Datenproblem ist, desto mehr spezielle Eingriffe sind erforderlich, um zu verstehen, was das AutoML-System gestartet hat, und um es in etwas Nützliches zu verwandeln. Um einige dieser Einschränkungen zu verstehen, schauen wir uns den AutoML-Prozess genauer an.



AutoML-Tools vereinfachen die Datenverarbeitung, indem sie mithilfe vorhandener Informationen alles Mögliche tun. Der Prozess besteht aus drei Hauptphasen:


Die erste Phase umfasst die „Extraktion“ von Informationen, die dazu beiträgt, die Produktivität der generierten Modelle zu steigern und zusätzliche Informationen für das Studium zu erstellen. Dies nimmt viel Zeit in Anspruch, da ein Datenanalysespezialist die Beziehungen zwischen Datenelementen manuell identifizieren und Wege entwickeln muss, um Informationen als zusätzliche Datenfelder darzustellen, die die Maschine für das Training verwenden kann, sowie über die Vollständigkeit der Daten zum Erstellen eines Modells zu entscheiden .


Dies ist ein wichtiger Schritt, da diese zusätzlichen Daten sehr oft den Unterschied zwischen einem ungeeigneten und einem hervorragenden Modell bedeuten. AutoML ist so programmiert, dass es eine begrenzte Anzahl von Datenerkennungsmethoden verwendet, normalerweise so, dass das „durchschnittliche“ Datenproblem gelöst wird, was die endgültige Leistung des Modells einschränkt, da es nicht das Wissen eines bestimmten KMU (kleines mittelständisches Unternehmen) nutzen kann, das für den Erfolg und die Entwicklung wichtig sein kann dass ein Datenspezialist in seiner Arbeit verwenden kann.


Viele Datenprobleme beginnen mit erheblichen mentalen Anstrengungen, um die Daten auszuwählen, die im Algorithmus dargestellt werden sollen. Das Übertragen aller Daten, die Sie im System haben, kann zu einem Modell führen, das nicht mit den Parametern übereinstimmt, da die Daten normalerweise viele verschiedene, häufig widersprüchliche Signale enthalten, die einzeln ausgerichtet und modelliert werden müssen.


Dies gilt insbesondere für Betrug, wenn verschiedene geografische Regionen, Zahlungskanäle usw. sehr unterschiedliche Arten von Betrug aufweisen. Versuche, diese Muster manuell zu erkennen und die entsprechenden Datensätze zu entwerfen, um eine genaue Erkennung sicherzustellen, sind noch weitgehend nicht automatisiert. Die Verwendung eines automatisierten Mehrzweckansatzes für dieses Problem ist derzeit aufgrund der enormen Komplexität eines solchen Ereignisses nicht möglich.


Die nächste Stufe ist die Generierung von Modellen. Modelle mit unterschiedlichen Konfigurationen werden unter Verwendung von Daten aus der vorherigen Phase erstellt und trainiert. Dies ist sehr wichtig, da es fast unmöglich ist, die Standardkonfiguration für jedes Problem zu verwenden und die besten Ergebnisse zu erzielen.


Zu diesem Zeitpunkt haben AutoML-Systeme einen Vorteil gegenüber Datenexperten, da sie in sehr kurzer Zeit eine große Anzahl von Testmodellen erstellen können. Die meisten AutoML-Systeme streben danach, universell zu sein und nur tiefe neuronale Netze zu erzeugen, die für viele Aufgaben redundant sein können, wenn ein einfaches Modell wie logistische Regression oder Entscheidungsbäume besser geeignet ist und von der Optimierung von Hyperparametern profitiert.


Die letzte Phase ist ein Massenleistungstest und die Auswahl des besten Leistungsträgers. In diesem Stadium ist einige manuelle Arbeit erforderlich, nicht zuletzt, weil es äußerst wichtig ist, dass der Benutzer das richtige Modell für die Aufgabe auswählt. Es ist sinnlos, ein Betrugsrisikomodell zu haben, das 100% der Betrugsfälle identifiziert, aber jede Autorisierung in Frage stellt.


Im aktuellen manuellen Prozess arbeiten Datenspezialisten mit KMU zusammen, um Daten zu verstehen und effektive beschreibende Datenfunktionen zu entwickeln. Diese wichtige Verbindung zwischen KMU und dem Datenspezialisten fehlt in der allgemeinen AutoML. Wie zuvor beschrieben, versucht der Prozess, diese Modelle automatisch aus dem zu generieren, was das Tool in den Daten erkennen kann. Dies kann unangemessen sein und zu ineffizienten Modellen führen. Zukünftige AutoML-Systeme müssen unter Berücksichtigung dieser und anderer Einschränkungen entwickelt werden, um qualitativ hochwertige Modelle gemäß den von Experten entwickelten Standards zu erstellen.


Die Zukunft von AutoML


AutoML entwickelt sich weiter und die wichtigsten aktuellen AutoML-Anbieter (Google und Microsoft) haben erhebliche Verbesserungen vorgenommen. Diese Entwicklungen konzentrierten sich hauptsächlich auf die Beschleunigung der Erstellung vorgefertigter Modelle und nicht darauf, wie die Technologie zur Lösung komplexerer Probleme (z. B. Aufdeckung von Betrug und Netzwerkeinbrüchen) verbessert werden kann, bei denen AutoML über einen Datenspezialisten hinausgehen kann.


Während sich AutoML-Lösungen weiterentwickeln und erweitern, können komplexere manuelle Prozesse automatisiert werden. Moderne AutoML-Systeme eignen sich hervorragend für Bilder und Sprache, da AutoML über integrierte Geschäftskenntnisse verfügt, um diese Aufgaben so gut zu erledigen. Zukünftige AutoML-Systeme bieten Geschäftsbenutzern die Möglichkeit, ihr Wissen einzugeben, damit die Maschine automatisch sehr genaue Modelle erstellen kann.


Darüber hinaus werden komplexe Datenpipelines immer geordneter, und die Hinzufügung einer großen Anzahl verschiedener Algorithmen zur Optimierung wird die möglichen Probleme, die Wissenschaftler, die mit Bürgerdaten arbeiten, lösen können, weiter erweitern.


Obwohl viele Datenverarbeitungsaufgaben automatisiert werden, können Wissenschaftler benutzerdefinierte Aufgaben für das Unternehmen ausführen. Weitere Förderung der Innovation und Ermöglichung der Konzentration der Unternehmen auf die wichtigeren Bereiche der Umsatzgenerierung und des Unternehmenswachstums.

Source: https://habr.com/ru/post/de449260/


All Articles