Überblick über AI & ML-Lösungen im Jahr 2018 und Prognosen für 2019: Teil 2 - Tools und Bibliotheken, AutoML, RL, Ethik in AI

Hallo allerseits! Ich präsentiere Ihnen eine Übersetzung des Analytics Vidhya- Artikels mit einem Überblick über AI / ML-Ereignisse in den Trends 2018 und 2019. Das Material ist ziemlich groß und daher in zwei Teile unterteilt. Ich hoffe, dass der Artikel nicht nur spezialisierte Spezialisten interessiert, sondern auch diejenigen, die sich für das Thema KI interessieren. Viel Spaß beim Lesen!


Lesen Sie zuerst: Teil 1 - NLP, Computer Vision


Werkzeuge und Bibliotheken


Dieser Abschnitt richtet sich an alle Data Science-Experten. Werkzeuge und Bibliotheken - Brot und Butter für Wissenschaftler. Ich habe an vielen Debatten darüber teilgenommen, welches Tool besser ist, welches Framework das andere ersetzt, welche Bibliothek die Verkörperung von „wirtschaftlichem“ Computing ist und all das. Ich bin sicher, dass auch viele von Ihnen betroffen sind.

Wir können jedoch nicht widersprechen, dass wir uns über die neuesten Tools in diesem Bereich auf dem Laufenden halten müssen, da sonst die Gefahr besteht, dass wir zurückbleiben. Das Tempo, mit dem Python die Konkurrenz übertroffen und sich als Branchenführer etabliert hat, ist ein gutes Beispiel dafür. Natürlich hängt vieles von einer subjektiven Entscheidung ab (welches Tool Ihr Unternehmen verwendet, Kompatibilität mit der vorhandenen Infrastruktur usw.), aber wenn Sie nicht auf dem neuesten Stand sind, ist es Zeit, JETZT zu beginnen.

Also, was dieses Jahr Schlagzeilen machte [im Jahr 2018 - ca. per.]? Lass es uns klären!

PyTorch 1.0


Was ist der Hype um PyTorch, den ich in diesem Artikel oft erwähnt habe?

Angesichts der Langsamkeit von TensorFlow ebnete er PyTorch den Weg in den Deep-Learning-Markt. Der größte Teil des Open Source Codes, den ich auf GitHub sehe, ist eine Implementierung auf PyTorch. Dies ist kein Zufall - PyTorch ist sehr flexibel und die neueste Version (v1.0) unterstützt bereits viele Facebook-Produkte und -Skalierungen, einschließlich der Verarbeitung von 6 Milliarden Textübersetzungen pro Tag.

PyTorch gewinnt gerade an Dynamik und sein Wachstum wird 2019 fortgesetzt. Jetzt ist es an der Zeit, sich der Community anzuschließen.

AutoML - Automatisiertes maschinelles Lernen


Automatisiertes maschinelles Lernen (oder AutoML) hat in den letzten Jahren an Popularität gewonnen. Unternehmen wie RapidMiner , KNIME , DataRobot und H2O.ai haben bereits großartige Produkte herausgebracht, die das enorme Potenzial dieses Dienstes demonstrieren.

Können Sie sich vorstellen, an einem ML-Projekt zu arbeiten, bei dem Sie nur mit der Drag & Drop-Oberfläche ohne Codierung arbeiten müssen? Dies ist ein Szenario, das in naher Zukunft real werden könnte. Darüber hinaus hat in ML / DL bereits ein bedeutendes Ereignis stattgefunden - die Veröffentlichung von Auto Keras !

Auto Keras ist eine Open Source-Bibliothek zum Ausführen von AutoML-Aufgaben. Die Idee ist, Deep Learning für Domain-Experten zugänglich zu machen, die möglicherweise keine Erfahrung mit ML haben. Hier können Sie sich mit dem Produkt vertraut machen. In den kommenden Jahren wird er einen großen Durchbruch schaffen.

TensorFlow.js - Deep Learning in einem Browser


Seit Beginn dieser Arbeit erstellen und entwerfen wir Modelle für maschinelles Lernen und tiefes Lernen in unseren bevorzugten IDEs und Laptops. Wie wäre es mit einem Schritt und etwas anderem? Ja, ich spreche von Deep Learning direkt in Ihrem Webbrowser!

Jetzt ist es dank des Aufkommens von TensorFlow.js Realität geworden . Auf der Projektwebsite finden Sie mehrere Beispiele, die zeigen, wie cool dieses Open Source-Konzept ist. Erstens hat TensorFlow.js drei Vorteile / Funktionen:

  • Sie können ML-Modelle mit JavaScript entwickeln und bereitstellen.
  • Führen Sie vorhandene TensorFlow-Modelle in Ihrem Browser aus.
  • Fertige Modelle neu trainieren.

AutoML-Trends für 2019


Ich wollte mich in diesem Artikel auf AutoML konzentrieren. Warum? Ich habe das Gefühl, dass sich die Situation auf dem Gebiet der Datenwissenschaft in den nächsten Jahren ändern wird, aber nehmen Sie nicht mein Wort dafür! Mario Mihailidis von H2O.ai, Großmeister von Kaggle, wird darüber sprechen, was 2019 von AutoML zu erwarten ist:
Das maschinelle Lernen setzt seinen Weg fort, einer der wichtigsten Trends der Zukunft zu werden - wohin die Welt geht. Diese Erweiterung hat die Nachfrage nach Anwendungen in diesem Bereich erhöht. Angesichts dieses Wachstums ist es unerlässlich, dass die Automatisierung der Schlüssel zur Maximierung des Ressourceneinsatzes im Bereich der Datenwissenschaft ist. In der Tat sind die Anwendungsbereiche endlos: Kreditvergabe, Versicherung, Betrugsbekämpfung, Computer Vision, Akustik, Sensoren, Empfehlungen, Prognosen, NLP. Es ist eine große Ehre, in diesem Bereich zu arbeiten. Die Liste der Trends, die relevant bleiben, lautet wie folgt:

  1. Bereitstellung von Visualisierungen und Einsichten zur Beschreibung und zum Verständnis der Daten;
  2. Suchen / Erstellen / Extrahieren der besten Funktionen für einen bestimmten Datensatz;
  3. Aufbau leistungsfähigerer / intelligenterer Vorhersagemodelle;
  4. Überbrückung der Lücke zwischen Black-Box-Modellierung und der Verwendung eines solchen Modells;
  5. Erleichterung der Produktion dieser Modelle

Verstärkungslernen


Reinforcement Learning ist eine der Methoden des maschinellen Lernens, bei der das Testsystem (Agent) durch Interaktion mit einer bestimmten Umgebung lernt. Aus kybernetischer Sicht handelt es sich um eine Art kybernetisches Experiment. Die Reaktion der Umgebung (und nicht des speziellen Verstärkungsmanagementsystems, wie es bei der Ausbildung mit dem Lehrer auftritt) auf die getroffenen Entscheidungen ist das Signal der Verstärkung. Daher ist eine solche Ausbildung ein Sonderfall für die Ausbildung beim Lehrer, aber der Lehrer ist die Umgebung oder ihr Modell. Sie müssen auch bedenken, dass einige Verstärkungsregeln auf impliziten Lehrern basieren, beispielsweise im Fall einer künstlichen neuronalen Umgebung, auf der gleichzeitigen Aktivität formaler Neuronen, aufgrund derer sie dem Lernen ohne Lehrer zugeschrieben werden können.

- Wikipedia-Quelle

Wenn ich gefragt würde, in welchem ​​Bereich ich eine schnellere Entwicklung sehen möchte, wäre die Antwort das verstärkte Lernen. Trotz der gelegentlich auftretenden Schlagzeilen gab es in diesem Bereich keine Durchbrüche, und vor allem scheinen die Lernaufgaben zur Verstärkung der Community zu mathematisch komplex zu sein, und es gibt keine Bereiche für eine echte Anwendung solcher Anwendungen.

Bis zu einem gewissen Grad stimmt dies, nächstes Jahr würde ich gerne mehr praktische Beispiele für die Verwendung von RL sehen. Auf GitHub und Reddit versuche ich jeden Monat, mindestens ein RL-Repository oder eine Diskussion zu verwalten, um dieses Thema zu diskutieren. Es ist möglich, dass dies die nächste wichtige Sache ist, die aus all diesen Studien hervorgehen wird.

OpenAI hat ein wirklich nützliches Toolkit für diejenigen veröffentlicht, die sich gerade erst mit RL vertraut machen. Sie können die Einführung zu RL hier lesen (es hat sich für mich als sehr nützlich erwiesen).

Wenn ich etwas verpasst habe, freue ich mich über Ihre Ergänzungen.

OpenAI-Entwicklung im Deep Reinforcement Learning


Während die Entwicklung von RL langsam ist, bleibt die Menge an Schulungsmaterial zu diesem Thema minimal (um es milde auszudrücken). Trotzdem hat OpenAI hervorragendes Material zu diesem Thema geteilt. Sie nannten ihr Projekt "Spinning Up in Deep RL", es ist hier verfügbar.

Einfach ausgedrückt ist dies eine vollständige Liste der Ressourcen in RL. Die Autoren versuchten, den Code und die Erklärungen so einfach wie möglich zu gestalten. Es gibt genügend Materialien, die RL-Terminologie, Entwicklungstipps für die RL-Forschung, Listen wichtiger Materialien, gut dokumentierten Code und Repositorys sowie Beispiele für Aufgaben enthalten, um Ihnen den Einstieg zu erleichtern.

Sie müssen es nicht länger aufschieben, wenn Sie vorhaben, mit RL zu arbeiten, ist Ihre Zeit gekommen!

Google Dopamin


Um der Entwicklung Impulse zu geben und die Community für das Thema des verstärkten Lernens zu gewinnen, hat das Google AI-Team das Densamine TensorFlow-Framework für alle eingeführt, die Projekte flexibler und reproduzierbarer machen möchten.

In diesem GitHub-Repository finden Sie die für das Training erforderlichen Informationen zusammen mit dem TensorFlow-Code. Dies ist vielleicht die perfekte Plattform, um einfache Experimente in einer kontrollierten und flexiblen Umgebung zu starten. Klingt für jeden Spezialisten nach einem Wachtraum.


Verstärkungstrends für 2019


Xander Steenbrugge, Sprecher des DataHack Summit 2018 und Gründer von ArxivInsights Channel, ist Experte für verstärktes Lernen. Hier sind seine Gedanken zum aktuellen Stand von RL und was wir 2019 erwarten sollten:
Im Moment sehe ich drei Hauptprobleme im Bereich RL:

  1. Die Komplexität des Modells (der Agent muss eine große Menge an Erfahrung sehen / sammeln, um zu lernen)
  2. Verallgemeinerung und Übertragung von Schulungen (Schulung zu Aufgabe A, Test zu verwandter Aufgabe B)
  3. Hierarchisches RL (automatische Zerlegung von Unterzielen)

Ich bin sicher, dass die ersten beiden Probleme mit ähnlichen Methoden im Zusammenhang mit unbeaufsichtigtem Repräsentationslernen gelöst werden können.

Jetzt trainieren wir in RL tiefe neuronale Netze, die End-to-End-Aktionen (zum Beispiel mit Rückausbreitung) aus dem rohen Eingaberaum (zum Beispiel in Pixel) unter Verwendung seltener Belohnungssignale (zum Beispiel eines Kontos in einem Spiel) extrahieren Erfolg bei der Erfassung von Atari oder Robotern). Das Problem hier ist, dass:

Der erste . Das „Wachsen“ nützlicher Funktionsdetektoren nimmt viel Zeit in Anspruch, da das Signal-Rausch-Verhältnis sehr niedrig ist. RL beginnt im Grunde genommen mit zufälligen Aktionen, bis Sie das Glück haben, über eine Belohnung zu stolpern. Dann müssen Sie immer noch genau herausfinden, welche spezifische Belohnung tatsächlich verursacht wurde. Weitere Forschung wird entweder fest codiert (epsilon-gierige Forschung) oder durch Methoden wie neugierige Erforschung gefördert . Dies ist ineffizient und bringt uns zurück zu Problem 1.


Zweitens sind solche tiefen Architekturen neuronaler Netze für ihre Tendenz zum „Auswendiglernen“ bekannt, und in RL testen wir normalerweise Agenten an Datensätzen für das Training, weshalb das „Auswendiglernen“ in diesem Paradigma empfohlen wird.

Ein möglicher Entwicklungspfad, den ich mit Begeisterung betrachte, besteht darin, unbeaufsichtigtes Repräsentationslernen zu verwenden, um einen schmutzigen mehrdimensionalen Eingaberaum (z. B. Pixel) in einen „konzeptuellen“ Raum mit einer niedrigeren Dimension umzuwandeln, der bestimmte erforderliche Eigenschaften wie Linearität, Entschlüsselung und Stabilität aufweist zu Lärm und mehr.

Sobald Sie es schaffen, die Pixel zu einer Art „latentem Raum“ zu verbinden, wird das Lernen plötzlich einfacher und schneller (Problem 1) und Sie hoffen, dass die aus diesem Raum extrahierten Regeln aufgrund der oben genannten Eigenschaften eine stärkere Verallgemeinerung aufweisen ( Problem 2).

Ich bin kein Experte für das Problem der Hierarchie, aber all das gilt auch hier: Es ist einfacher, ein komplexes hierarchisches Problem im „verborgenen Raum“ zu lösen als in einem unverarbeiteten Eingaberaum.

Ein Paar Spoiler von einem Übersetzer


Was ist Repräsentationslernen?
Beim maschinellen Lernen ist Merkmalslernen oder Repräsentationslernen eine Reihe von Techniken, mit denen das System automatisch die Faktoren untersuchen kann, die zur Bestimmung von Funktionen oder Klassifizierungen auf der Grundlage von Rohdaten erforderlich sind. Dies ersetzt das manuelle Feature-Engineering und ermöglicht es der Maschine, Funktionen zu lernen und sie zur Ausführung bestimmter Aufgaben zu verwenden.

Feature Learning kann "unter Beobachtung" und "ohne Beobachtung" sein:

  • Beim Lernen von Merkmalen unter überwachtem Lernen von Merkmalen werden Funktionen unter Verwendung einer beschrifteten Eingabe gelernt.
  • Beim Lernen von Merkmalen ohne Beobachtung (unbeaufsichtigtes Lernen von Merkmalen) werden Funktionen basierend auf nicht zugewiesenen Daten gelernt.

- Wikipedia-Quelle

Was ist latenter Raum?
Das Wort "latent" bedeutet hier "versteckt". In diesem Zusammenhang wird es am häufigsten beim maschinellen Lernen verwendet. Sie beobachten einige Daten in einem Raum, den Sie beobachten können, und möchten sie in einen verborgenen Raum umwandeln, in dem ähnliche Datenpunkte näher beieinander liegen.

Betrachten Sie zum Beispiel 4 Bilder:



Im beobachteten Pixelraum gibt es keine direkte Ähnlichkeit zwischen zwei Bildern. Wenn Sie es jedoch in einem verborgenen Bereich anzeigen möchten, möchten Sie, dass die Bilder links im verborgenen Bereich näher beieinander liegen als die Bilder rechts. Auf diese Weise vermittelt Ihr verborgener Raum die Essenz der Struktur Ihrer Daten in Bezug auf die Aufgabe. In LDA modellieren Sie die Aufgabe so, dass Dokumente zu ähnlichen Themen im verborgenen Bereich von Themen näher liegen. Wenn Sie Wörter einbetten, möchten Sie die Wörter in einem verborgenen Vektorraum anzeigen, damit Wörter mit einer ähnlichen Bedeutung in diesem Raum näher sind.

Bonus: Sehen Sie sich ein Video von Xander über die Überwindung seltener Belohnungen in Deep RL an (die erste oben hervorgehobene Aufgabe).


Die Komplexität des Modells wird sich weiter verbessern, indem immer mehr zusätzliche Trainingsaufgaben hinzugefügt werden, die die Spärlichkeit erhöhen, atypische Belohnungssignale (z. B. Forschung, neugieriges vorläufiges Training im Stil eines Auto-Encoders, Entwirren kausaler Faktoren in der Umwelt und mehr). Dies funktioniert besonders gut bei sehr seltenen Belohnungsbedingungen.

Aus diesem Grund werden Trainingssysteme direkt in der physischen Welt immer praktikabler (anstelle moderner Anwendungen, die hauptsächlich in simulierten Umgebungen trainiert werden und dann mithilfe der Domänen-Randomisierung in die reale Welt übertragen werden). Ich nehme an, dass 2019 die ersten wirklich beeindruckenden Demonstrationen in der Robotik bringen wird, die nur mit Deep-Learning-Methoden möglich sind und von Menschen nicht fest codiert / entworfen werden können (im Gegensatz zu den meisten Beispielen, die wir bisher gesehen haben).

Ich glaube, dass RL nach dem Erfolg von Deep RL in der Geschichte von AlphaGo (insbesondere angesichts der jüngsten Ergebnisse von AlphaFold) allmählich in realen Geschäftsanwendungen eingesetzt wird, die über den akademischen Bereich hinaus praktischen Wert bringen, aber zunächst wird der Umfang auf Anwendungen beschränkt sein, in denen es solche gibt genaue Simulationen für ein umfangreiches virtuelles Training dieser Agenten (z. B. Wirkstoffentdeckung, Optimierung der elektronischen Chiparchitektur, Weiterleitung von Fahrzeugen und Paketen usw.).

Eine allgemeine Verschiebung in der Entwicklung von RL ist ein Prozess, der bereits begonnen hat, als das Testen des Agenten auf Trainingsdaten nicht mehr als "autorisiert" betrachtet wird. Das Zusammenfassen von Metriken ist der Schlüssel, wie dies bei überwachten Lehrmethoden der Fall ist

KI für gute Jungs - Ein Schritt zur ethischen KI


Stellen Sie sich eine Welt vor, die von Algorithmen angetrieben wird, die jede menschliche Handlung definieren. Kein angenehmes Szenario? Ethik in der KI ist ein Thema, das wir in Analytics Vidhya immer diskutiert haben, aber es geht vor dem Hintergrund aller technischen Diskussionen verloren, während es anderen Themen gleichgestellt werden sollte.

In diesem Jahr befanden sich einige Organisationen nach dem Skandal von Cambridge Analytica (Facebook) und der internen Kontroverse von Google über die Entwicklung von Waffen, die ganz oben auf der Liste der Skandale standen, in einer dummen Situation.

Es gibt kein einfaches und geeignetes Rezept für alle Fälle, um die ethischen Aspekte der KI zu lösen. Die Frage erfordert einen detaillierten Ansatz in Kombination mit einem strukturierten Plan, dessen Umsetzung jemand übernehmen sollte. Lassen Sie uns ein paar wichtige Ereignisse sehen, die die Gegend Anfang dieses Jahres erschütterten.

Google- und Microsoft-Kampagnen


Es war erfreulich zu sehen, wie große Unternehmen die ethische Seite der KI betonten (obwohl der Weg, der sie zu diesem Punkt führte, nicht sehr elegant war). Beachten Sie die Richtlinien und Grundsätze einiger Unternehmen:


Im Wesentlichen geht es in diesen Dokumenten um Gerechtigkeit in der KI sowie darum, wann und wo die Grenze gezogen werden muss. Es ist immer eine gute Idee, sich beim Starten eines neuen AI-basierten Projekts auf sie zu beziehen.

Wie GDPR die Spielregeln geändert hat


Die DSGVO (Allgemeine Datenschutzverordnung) hat definitiv die Art und Weise beeinflusst, wie Daten für die Erstellung von KI-Anwendungen gesammelt werden. GDPR erschien in diesem Spiel, um den Benutzern mehr Kontrolle über ihre Daten zu geben (welche Informationen über sie gesammelt und verbreitet werden).

Wie wird sich das auf die KI auswirken? Es ist gut, wenn die Forscher auf dem Gebiet der Daten die Daten nicht erhalten oder wenn es nicht ausreicht, wird die Konstruktion eines Modells nicht beginnen. Dies legte natürlich den Grundstein für die Funktionsweise sozialer Plattformen und anderer Websites. Die DSGVO hat ein wunderbares Beispiel geschaffen: „Punktiere alles i“, aber die Nützlichkeit der KI für viele Plattformen eingeschränkt.

Ethische Trends in der KI für 2019


In diesem Bereich gibt es viele graue Flecken. Wir müssen uns als Gesellschaft zusammenschließen, um Ethik in KI-Projekte zu integrieren. Wie können wir das machen? Der Gründer und CEO von Vidhya Analytics, Kunal Jane, betonte in seiner Rede auf dem DataHack Summit 2018, dass wir ein Konzept entwickeln müssen, dem andere folgen können.

Ich erwarte neue Rollen in Organisationen, die sich mit Ethik in der KI befassen. Die besten Unternehmenspraktiken müssen umstrukturiert und die Managementansätze überprüft werden, da die KI zu einem zentralen Element der Unternehmensvision wird. Ich erwarte auch, dass die Regierung in dieser Hinsicht eine aktivere Rolle mit einem grundlegend neuen oder veränderten politischen Kurs spielen wird. In der Tat wird 2019 sehr interessant sein.

Fazit


Impactful ist das einzige Wort, das die erstaunlichen Ereignisse im Jahr 2018 kurz beschreibt. Ich bin dieses Jahr ein aktiver ULMFiT-Benutzer geworden und freue mich darauf, BERT so bald wie möglich zu erkunden. Wirklich tolle Zeit.

Ich freue mich über Ihre Meinung! Welche Entwicklungen fanden Sie am nützlichsten? Arbeiten Sie an einem Projekt mit den Tools und Ansätzen, die wir in diesem Artikel behandelt haben? Was sind Ihre Prognosen für das kommende Jahr? Ich freue mich auf Ihre Antworten in den Kommentaren unten.

Source: https://habr.com/ru/post/de439724/


All Articles