Lernen ohne Lehrer: ein neugieriger Schüler

In den letzten zehn Jahren hat das maschinelle Lernen in so unterschiedlichen Bereichen wie Mustererkennung, Robomobilen und komplexen Spielen wie Go beispiellose Fortschritte gemacht. Diese Erfolge wurden hauptsächlich durch das Training tiefer neuronaler Netze mit einem von zwei Paradigmen erzielt - Lernen mit einem Lehrer und Lernen mit Verstärkung . Beide Paradigmen erfordern die Entwicklung menschlicher Trainingssignale, die dann an den Computer übertragen werden. Bei der Ausbildung mit einem Lehrer handelt es sich um „Ziele“ (z. B. die korrekte Unterschrift unter dem Bild). Im Falle von Verstärkungen sind dies „Belohnungen“ für erfolgreiches Verhalten (Highscore im Spiel von Atari). Daher werden die Grenzen des Lernens von Menschen bestimmt.

Und wenn einige Wissenschaftler der Ansicht sind, dass ein ausreichend umfangreiches Schulungsprogramm - zum Beispiel die Fähigkeit, eine breite Palette von Aufgaben erfolgreich zu erledigen - ausreichen sollte, um allgemeine Intelligenz zu generieren, dann glauben andere, dass echte Intelligenz unabhängigere Lernstrategien erfordert. Betrachten Sie zum Beispiel den Prozess des Lehrens eines Babys. Seine Großmutter kann sich zu ihm setzen und ihm geduldig Beispiele von Enten zeigen (die als Lehrsignal beim Lernen mit einem Lehrer dienen) oder ihn mit Applaus für das Lösen eines Puzzles mit Würfeln belohnen (wie beim verstärkten Lernen). Meistens erkundet das Baby jedoch naiv die Welt und versteht die Umwelt durch Neugier, Spiel und Beobachtung. Lernen ohne Lehrer ist ein Paradigma, das entwickelt wurde, um autonome Intelligenz zu schaffen, indem Agenten (Computerprogramme) für das Studium der beobachteten Daten belohnt werden, unabhängig von bestimmten Aufgaben. Mit anderen Worten, der Agent wird zum Lernen geschult.

Die Hauptmotivation beim Lernen ohne Lehrer ist, dass wenn die an Lernalgorithmen übertragenen Daten eine extrem reichhaltige interne Struktur aufweisen (Bilder, Videos, Text), die Ziele und Belohnungen im Training normalerweise sehr trocken sind (das „Hunde“ -Label für diese Art oder) Einheit / Null, was Erfolg oder Misserfolg im Spiel anzeigt). Dies legt nahe, dass das meiste, was der Algorithmus untersucht, aus einem Verständnis der Daten selbst bestehen sollte und nicht aus der Anwendung dieses Verständnisses auf die Lösung bestimmter Probleme.

Entschlüsselung der Elemente des Sehens


2012 war ein Meilenstein für tiefes Lernen, als AlexNet (benannt nach dem leitenden Architekten Alex Krizhevsky) es wagte, Konkurrenten im ImageNet-Klassifizierungswettbewerb zu gewinnen . Ihre Fähigkeit, Bilder zu erkennen, hatte keine Analoga, aber noch überraschender war, was unter der Haube geschah. Nach der Analyse der Aktionen von AlexNet stellten die Wissenschaftler fest, dass es Bilder durch die Konstruktion immer komplexerer interner Darstellungen von Eingabedaten interpretiert. Merkmale auf niedriger Ebene, z. B. Texturen und Gesichter, werden durch niedrigere Ebenen dargestellt, und aus diesen werden auf höheren Ebenen Konzepte einer höheren Ebene kombiniert, z. B. Räder oder Hunde.

Dies ist überraschend ähnlich wie unser Gehirn Informationen verarbeitet - einfache Gesichter und Texturen in den Hauptbereichen, die mit den Sinnen zusammenhängen, werden zu komplexen Objekten wie Gesichtern in höheren Bereichen des Gehirns zusammengesetzt. Auf diese Weise kann eine komplexe Szene aus visuellen Grundelementen zusammengesetzt werden, ähnlich wie sich die Bedeutung aus den einzelnen Wörtern ergibt, aus denen ein Satz besteht. Ohne direkte Installation enthüllten AlexNet-Ebenen ein grundlegendes visuelles „Wörterbuch“, das zur Lösung des Problems geeignet ist. In gewisser Weise lernte das Netzwerk, das zu spielen, was Ludwig Wittgenstein das „ Sprachspiel “ nannte, das Schritt für Schritt von Pixeln zu Bildetiketten geht.


Visuelles Wörterbuch des Faltungsnetzwerks. Für jede Ebene werden Bilder erstellt, die die Aktivierung bestimmter Neuronen maximieren. Dann kann die Reaktion dieser Neuronen auf andere Bilder als Vorhandensein oder Nichtvorhandensein visueller „Wörter“ interpretiert werden: Texturen, Bücherregale, Gesichter von Hunden, Vögel.

Transfer Training


Unter dem Gesichtspunkt der allgemeinen Intelligenz ist das Interessanteste am AlexNet-Wörterbuch, dass es wiederverwendet oder auf andere visuelle Aufgaben übertragen werden kann, um beispielsweise nicht nur einzelne Objekte, sondern auch ganze Szenen zu erkennen. Transfer in einer sich ständig verändernden Welt ist absolut notwendig, und die Menschen machen es sehr gut: Wir können die Fähigkeiten und das Verständnis, die wir aus Erfahrung (Weltmodell) gewonnen haben, schnell an jede aktuelle Situation anpassen. Zum Beispiel wird ein Pianist mit klassischer Ausbildung leicht lernen, wie man Jazz spielt. Künstliche Wirkstoffe, die das richtige innere Bild der Welt bilden, sollten wahrscheinlich die gleichen Fähigkeiten haben.

Darstellungen, die von Klassifizierern wie AlexNet erhalten werden, haben jedoch ihre Grenzen. Da das Netzwerk darauf trainiert ist, eine Klasse (Hund, Katze, Auto, Vulkan) zu kennzeichnen, wird der Rest der Informationen - egal wie nützlich sie für andere Aufgaben sein können - ignoriert. Beispielsweise erfassen Darstellungen möglicherweise nicht den Hintergrund von Bildern, wenn sich Beschriftungen nur auf Objekte im Vordergrund beziehen. Eine mögliche Lösung besteht darin, umfassendere Trainingssignale zu geben, beispielsweise detaillierte Beschreibungen von Bildern : nicht nur ein „Hund“, sondern „Corgi fängt Frisbee in einem sonnigen Park“. Solche Etiketten sind jedoch schwer anzubringen, insbesondere in großem Maßstab, und sie reichen möglicherweise immer noch nicht aus, um alle zur Erfüllung der Aufgabe erforderlichen Informationen wahrzunehmen. Die Grundvoraussetzung für das Lernen ohne Lehrer ist, dass der beste Weg, leicht tragbare Darstellungen zu lernen, darin besteht, zu versuchen, alles zu lernen, was über die Daten möglich ist.

Wenn Ihnen das Konzept der Übertragung durch das Training von Darstellungen zu abstrakt erscheint, stellen Sie sich ein Kind vor, das gelernt hat, Menschen im Stil von „Stock, Stock, Gurke“ zu zeichnen. Er fand eine Darstellung des Aussehens einer Person, die sowohl sehr kompakt als auch gut angepasst ist. Er ergänzt jede Figur mit bestimmten Merkmalen und kann Porträts aller Klassenkameraden erstellen: Brillen für seinen besten Freund, ein rotes Lieblings-T-Shirt für seinen Schulkameraden. Und er entwickelte diese Fähigkeit nicht, um eine bestimmte Aufgabe zu erfüllen oder eine Belohnung zu erhalten, sondern als Reaktion auf ein Grundbedürfnis, die Welt um ihn herum zu reflektieren.

Lernen durch Kreativität: generative Modelle


Das vielleicht einfachste Ziel des Lernens ohne Lehrer besteht darin, den Algorithmus zu trainieren, um eigene Datenbeispiele zu erstellen. T.N. Generative Modelle sollten nicht nur die Daten reproduzieren, auf denen sie trainiert wurden (dies ist nur ein uninteressantes „Erinnern“), sondern auch ein Modell der Klasse erstellen, aus der die Daten stammen. Kein spezifisches Foto eines Pferdes oder Regenbogens, sondern eine Reihe von Fotos von Pferden und Regenbogen; keine spezifische Aussage eines bestimmten Sprechers, sondern die allgemeine Verteilung verbaler Aussagen. Das Grundprinzip generativer Modelle ist, dass die Möglichkeit, ein überzeugendes Beispiel für die Daten zu erstellen, der stärkste Beweis dafür ist, dass sie verstanden wurden: Wie Richard Feynman sagte: „Was ich nicht erstellen kann, verstehe ich nicht.“

Das bislang erfolgreichste generative Modell für Bilder bleibt das Generative-Competitive Network (GSS), bei dem zwei Netzwerke - der Generator und der Diskriminator - in den Erkennungswettbewerb eintreten, ähnlich dem Wettbewerb eines gefälschten Spezialisten und eines Detektivs. Der Generator erzeugt Bilder und versucht, den Diskriminator an ihre Realität glauben zu lassen. Der Diskriminator wird für das Erkennen von Fälschungen belohnt. Die erzeugten Bilder sind zuerst zufällig und schlampig, dann über viele Ansätze hinweg verbessert, und die dynamische Interaktion von Netzwerken führt dazu, dass immer realistischere Bilder erscheinen, die in vielen Fällen nicht von echten Fotos unterschieden werden können . GSS kann auch detaillierte Landschaften basierend auf groben Skizzen von Benutzern bereitstellen.

Ein einziger Blick auf die Bilder unten reicht aus, um sicherzustellen, dass das Netzwerk gelernt hat, viele der Hauptmerkmale der Fotos, auf denen es trainiert wurde, darzustellen - die Struktur von Tierkörpern, die Textur von Gras und die Details des Spiels von Licht und Schatten (selbst bei Reflexion einer Seifenblase). Eine sorgfältige Studie zeigt kleine Anomalien wie ein zusätzliches Bein bei einem weißen Hund und einen seltsamen rechten Winkel in den Düsen eines der Brunnen. Obwohl die Entwickler generativer Modelle versuchen, solche Unvollkommenheiten zu beseitigen, spricht die Tatsache, dass wir sie sehen können, von einem der Vorteile der Rekonstruktion vertrauter Daten wie Bilder: Durch die Untersuchung von Proben können Forscher verstehen, was das Modell gelernt hat und was noch nicht.



Schöpfung durch Vorhersage


Eine weitere bemerkenswerte Familie von Netzwerken in einer lehrerlosen Klasse sind autoregressive Modelle, bei denen Daten in kleine Teile zerlegt werden, die das Modell jeweils nacheinander vorhersagt. Solche Modelle können verwendet werden, um Daten wie folgt zu generieren: Zuerst errät das Netzwerk, was vor sich geht, sie geben diese Vermutung an seine Eingabe weiter und es errät erneut. Das bekannteste Beispiel ist das Sprachmodell, bei dem jedes nächste Wort basierend auf den vorherigen vorhergesagt wird: Dieses Modell arbeitet mit Textvorhersagen, die in verschiedenen Anwendungen und beim Senden einer E-Mail angezeigt werden. Jüngste Entwicklungen in der Sprachmodellierung ermöglichen es Ihnen, überraschend vernünftige Passagen zu erstellen - zum Beispiel aus OpenAI GPT-2 :
Hinweis zum System (vom Menschen geschrieben)

Wissenschaftler machten eine schockierende Entdeckung, indem sie eine Herde Einhörner entdeckten, die im abgelegenen und bisher unerforschten Andental lebten. Noch überraschender für die Forscher war, dass Einhörner ausgezeichnetes Englisch sprachen.

Modellfertiger Text (nach 10 Versuchen)

Wissenschaftler haben die Bevölkerung wegen ihrer charakteristischen Hörner "Ovid-Einhörner" genannt. Diese silberweißen Einhörner mit vier Hörnern waren der Wissenschaft bisher unbekannt. Und schließlich ist nach zwei Jahrhunderten das Rätsel gelöst, was zu diesem seltsamen Phänomen geführt hat.

Dr. Jorge Perez, ein Evolutionsbiologe an der Universität Lapaz, und einige seiner Mitarbeiter untersuchten die Anden, als sie ein kleines Tal entdeckten, in dem es keine anderen Tiere und Menschen gab. Perez bemerkte etwas im Tal, das aussah wie ein natürlicher Brunnen, umgeben von zwei felsigen Gipfeln und silbernem Schnee.

Dann gingen Perez und der Rest weiter in dieses Tal hinein. "Als wir zu einem der Gipfel kamen, schien das Wasser blau und es gab nur wenige Kristalle auf seiner Oberfläche", sagte Perez.

Perez und seine Freunde waren erstaunt, eine Herde Einhörner zu sehen. Diese Kreaturen konnten aus der Luft gesehen werden und kamen ihnen nicht zu nahe, um sie zu sehen - sie waren so nah, dass sie ihre Hörner berühren konnten.
Eine interessante Diskrepanz ist die Beschreibung von Einhörnern als „vierhörnig“: Es macht Spaß, die Grenzen des Verständnisses des Netzwerks zu untersuchen.

Durch Steuern der Eingabesequenz zur Feinabstimmung von Vorhersagen können Sie autoregressive Modelle verwenden, um eine Sequenz in eine andere zu übersetzen. Diese Demonstration verwendet ein bedingtes autoregressives Modell, um Text in ein realistisches handgeschriebenes Aussehen zu übersetzen. WaveNet konvertiert Text in natürliche Sprache und wird jetzt zum Generieren von Sprache für Google Assistant verwendet . Ähnliche Fortschritte bei der Abstimmung und der autoregressiven Erzeugung können für Übersetzungen von einer Sprache in eine andere verwendet werden.

Autoregressive Modelle untersuchen Daten und versuchen, jedes Teil in einer bestimmten Reihenfolge vorherzusagen. Sie können eine allgemeinere Klasse von Netzwerken mit Lernen ohne Lehrer erstellen und Vorhersagen über einen beliebigen Teil der Daten auf der Grundlage eines anderen treffen. Dies kann beispielsweise bedeuten, dass wir ein Wort aus dem Satz entfernen und versuchen, es anhand des restlichen Textes vorherzusagen . Indem wir einem System eine Abfrage einer Vielzahl lokaler Vorhersagen beibringen, zwingen wir es, alle Daten als Ganzes zu untersuchen.

Eines der Probleme generativer Modelle ist die Möglichkeit ihrer böswilligen Verwendung. Die Manipulation von Beweismitteln in Form von Fotos, Videos und Audioaufnahmen ist seit langem möglich, aber generative Modelle können die Bearbeitung dieser Materialien mit böswilliger Absicht erheblich erleichtern. Wir haben bereits eine Demonstration des sogenannten gesehen Deepfake - zum Beispiel ein gefälschtes Video mit Obama . Es ist erfreulich zu sehen, dass ernsthafte Versuche unternommen werden, diese Herausforderungen zu beantworten - zum Beispiel die Verwendung statistischer Techniken zur Erkennung und Bestätigung authentischer Materialien , die Kenntnis der Öffentlichkeit über das Geschehen und Diskussionen über die Einschränkung der Verfügbarkeit geschulter generativer Modelle. Darüber hinaus können generative Modelle selbst verwendet werden, um fabrizierte Materialien und abnormale Daten zu erkennen - beispielsweise falsche Sprache oder abnormale Zahlungen, um Benutzer vor Betrügern zu schützen. Forscher müssen an generativen Modellen arbeiten, um sie besser zu verstehen und Risiken in Zukunft zu reduzieren.

Intelligenz neu erfinden


Generative Modelle selbst sind sehr interessant, aber bei DeepMind behandeln wir sie als eine Etappe auf dem Weg zur allgemeinen Intelligenz. Wenn Sie einem Agenten die Fähigkeit geben, Daten zu generieren, müssen Sie ihm Vorstellungskraft geben und folglich die Zukunft planen und überlegen . Unsere Studien zeigen, dass Schulungen zur Vorhersage verschiedener Aspekte der Umgebung, auch ohne eine spezielle Aufgabe zur Generierung von Daten, das Weltmodell des Agenten bereichern und daher seine Fähigkeit verbessern, Probleme zu lösen.

Diese Ergebnisse überschneiden sich mit unserem intuitiven Verständnis des menschlichen Geistes. Unsere Fähigkeit, die Welt ohne besondere Aufsicht zu studieren, ist eine der grundlegenden Eigenschaften der Intelligenz. Auf einer Trainingsreise können wir gleichgültig aus dem Fenster schauen, den Samt in den Sitzen berühren und Passagiere berücksichtigen, die mit uns reisen. Wir haben in diesen Studien kein Ziel: Wir können uns kaum dem Verstand entziehen, Informationen zu sammeln, und unser Gehirn arbeitet unermüdlich daran, die Welt um uns herum und unseren Platz darin zu verstehen.

Source: https://habr.com/ru/post/de451626/


All Articles