Bild

Kaum war das Rauschen über das neuronale BERT-Netzwerk von Google zu hören, das bei einer Reihe von Konversationsaufgaben (NLP) beim maschinellen Lernen auf dem neuesten Stand der Technik war, als OpenAI eine neue Entwicklung einführte: GPT-2. Dieses neuronale Netzwerk mit einer Rekordzahl von Parametern im Moment (1,5 Milliarden gegenüber den in solchen Fällen üblicherweise verwendeten 100 bis 300 Millionen) konnte ganze Seiten mit verbundenem Text erzeugen.

Es ist so gut zu generieren, dass OpenAI sich weigerte, die Vollversion zu veröffentlichen, aus Angst, dass sie dieses neuronale Netzwerk verwenden würden, um gefälschte Nachrichten, Kommentare und Bewertungen zu erstellen, die nicht von den echten zu unterscheiden sind.

In OpenAI wurde jedoch eine reduzierte Version des neuronalen GPT-2-Netzwerks mit 117 Millionen Parametern gemeinsam genutzt. Wir werden es über den Google Colab-Dienst starten und damit experimentieren.

Ein kleiner Hintergrund

Für diejenigen, die die Entwicklung des Fortschritts in der natürlichen Sprachverarbeitung (NLP) nicht verfolgt haben.

Im Sommer 2018 trainierte OpenAI auf einer großen Textmenge ein neuronales GPT- Netzwerk, das auf der Transformer-Architektur basiert. Es stellte sich heraus, dass, wenn Sie einige der letzten Ebenen ersetzen und für eine bestimmte Aufgabe neu trainieren (dieser Ansatz wird als Feinabstimmung bezeichnet und wird häufig beim maschinellen Lernen verwendet), frühere Datensätze bei einer Vielzahl von Konversationsaufgaben sofort gebrochen werden.

Basierend auf dieser Entwicklung hat Google Ende 2018 ein eigenes neuronales BERT- Netzwerk erstellt. Sie haben das Ergebnis erheblich verbessert, indem sie das neuronale Netzwerk im Gegensatz zum GPT bidirektional gemacht haben.

OpenAI wollte nicht aufgeben und erhöhte im Februar 2019 seine GPT sofort um das Zehnfache und trainierte sie für eine noch größere Textmenge - auf 8 Millionen Webseiten (insgesamt 40 GB Text). Das resultierende GPT-2- Netzwerk ist derzeit das größte neuronale Netzwerk mit einer beispiellosen Anzahl von Parametern von 1,5 Milliarden (BERT hatte 340 Millionen im größten Modell und 110 Millionen im Standard-BERT).

Infolgedessen konnte GPT-2 ganze Seiten mit zusammenhängendem Text erzeugen. Mit wiederholten Verweisen auf die Namen der Charaktere im Verlauf der Erzählung, Zitaten, Verweisen auf verwandte Ereignisse und so weiter. Ich werde hier keine Beispiele nennen, sondern diejenigen verweisen, die auf den Originalartikel im OpenAI-Blog: Bessere Sprachmodelle und ihre Auswirkungen oder die Links am Ende des Artikels verweisen möchten.

Das Generieren eines zusammenhängenden Textes dieser Qualität ist an sich schon beeindruckend, aber das Interessanteste ist anders. GPT-2 ohne zusätzliches Training zeigte sofort Ergebnisse auf dem neuesten Stand der Technik bei einer Reihe von Konversationsaufgaben. Ich wiederhole, wer die Wichtigkeit des Augenblicks verpasst hat - ohne zusätzliches Training für eine bestimmte Aufgabe!

Wie haben sie das erreicht? Einfach den neuronalen Netzen die richtigen Fragen stellen.

GPT-2-Architektur

GPT-2 ist darauf trainiert, das nächste Wort in einem Satz vorherzusagen. Dies ist ein klassischer Ansatz zum Generieren von Text. Zunächst hatten Wiederholungsnetzwerke (RNN), insbesondere LSTM, in diesem Bereich Vorrang. Nach der Erfindung der Transformer- Architektur im Sommer 2017 setzte sie sich jedoch allmählich in Konversationsaufgaben durch. Obwohl der ursprüngliche Transformer Probleme beim Speichern langer Sequenzen hat (LSTMs erinnern sich an längere), haben die Trainingsgeschwindigkeit und die Tiefe des Netzwerks dies mehr als ausgeglichen. Übrigens sind bereits einige Modifikationen des Transformators erschienen - mit der Einführung der Wiederholung ( Universal Transformers ), einer Modifikation für längere Sequenzen ( Transformer-XL ) und anderen, aber bisher wird in Google und OpenAI nur ein leicht abgestimmter Originaltransformator verwendet.

Ich erinnere mich, dass BERT von Google etwas anders gelernt hat: nicht das nächste Wort in einem Satz vorherzusagen, sondern fehlende (maskierte) Wörter in einem Satz. Und auch um festzustellen, ob zwei aufeinanderfolgende Sätze eine logische Fortsetzung voneinander sind oder ob sie in keiner Weise durch Bedeutung verbunden sind. Dies ermöglichte es BERT, ein Sprachmodell zu sein, das die Bedeutung von Wörtern in Abhängigkeit von ihrer Umgebung (Kontext) versteht. Was den Erfolg von BERT bei NPL-Aufgaben bestimmte. Aber erst nach einer Umschulung (Feinabstimmung) für eine bestimmte Aufgabe. Nur Wörter im Basismodell vorherzusagen, funktioniert darin nicht sehr gut. Sie können mit BERT in Ihrem Browser (über Google Colab) spielen: https://habr.com/en/post/436878 .

GPT-2 ist für die Umschulung nicht erforderlich. Dies ist nicht nur ein Sprachmodell wie BERT, sondern ein Textgenerator. Geben Sie ihr einfach den Anfang des Satzes, und dann wird sie ihr Wort für Wort ergänzen.

Ein interessantes Detail: OpenAI-Untersuchungen haben gezeigt, dass Arrays von Wikipedia-Texten und literarischen Büchern (die insbesondere von BERT untersucht wurden) einen voreingenommenen Stil haben. Daher erzeugen nur auf sie trainierte neuronale Netze keinen sehr guten Text. Um die Eingabedaten und -stile zu diversifizieren, verwendete OpenAI GPT-2 für Schulungen auf regulären Webseiten, die von 8 Millionen Websites (insgesamt 40 GB Text) gesammelt wurden. Und um Werbe- und Spammer-Websites zu verwerfen, haben sie in die Beispiel-Websites aufgenommen, deren Links im reddit eine gute Bewertung haben. Das heißt, Websites, bei denen Live-Benutzer nützliche Informationen gefunden haben.

Die richtige Frage enthält die halbe Antwort.

So konnte GPT-2 dank seiner beispiellosen Größe Seiten mit zusammenhängendem Text generieren. Aber das Erstaunlichste ist, dass sie durch das Stellen der richtigen Frage (d. H. Des richtigen Anfangs einer Phrase) verschiedene Fragen beantworten konnte! Nur weil die Fortsetzung eines solchen Anfangs am natürlichsten ist.

Um beispielsweise eine Antwort auf die Frage „Was ist die Erde?“ Zu erhalten, können Sie auf die Eingabe dieses neuronalen Netzwerks den Anfang des Satzes anwenden: „Erde ist ...“. Und sie wird diesen Satz bis zum Ende vervollständigen. Weil die Antwort eine natürliche Fortsetzung dieses Anfangs sein wird.

Wenn Sie den Satzanfang richtig bilden, können Sie außerdem Erklärungen für verschiedene Zielgruppen erhalten, die deren Intelligenz, Alter und Bildung berücksichtigen. Stellen Sie sich fortgesetzte Sätze vor: "Ich als Wissenschaftler glaube, dass die Erde ... ist." Oder: "Ich als Landpflüger behaupte, die Erde sei ...". Oder: "Ich als Lehrerin in einem Kindergarten werde Ihnen jetzt erklären, Kinder, dass die Erde ...".

Wie Sie sehen können, können Sie durch Bilden der richtigen Fragen (am richtigen Anfang des Satzes) Antworten auf völlig unterschiedlichen Ebenen und mit unterschiedlichen Details erhalten. In gewisser Weise passiert etwas Ähnliches bei Menschen. Der Arzt muss dem Patienten den Krankheitsverlauf erklären, damit er versteht. Auf Patientenebene. Wenn Sie ein fünfjähriges Kind fragen, warum es das getan hat, kann es nicht sofort antworten (was natürlich bedeutet, dass Kinder mit Gefühlen und Emotionen leben). Aber um die Antwort zu geben, die von ihm erwartet wird, beginnt das Kind, sie zu erfinden - um Text zu generieren. Basierend auf der Tatsache, dass die Antwort zum Elternteil passt und zumindest irgendwie dem entspricht, was passiert ist. Wie viele Eltern wissen, werden dies zunächst lächerliche Antworten sein. Aber durch Ermutigung und Bestrafung ("Erzähl mir mehr", "finde keine Ausreden") lernt das Kind, detaillierte und vollständige Antworten zu geben.

Diese Entwicklung von OpenAI und die Fähigkeit des GPT-2-Netzwerks, Antworten auf Konversationsaufgaben ohne spezielle zusätzliche Schulung für eine bestimmte Aufgabe bereitzustellen, werfen zwei interessante Fragen auf:

1) Kann die Interpretierbarkeit neuronaler Netze durch einen solchen elementaren Textgenerator und den korrekten Beginn einer Phrase erreicht werden? Wo die Antwort eine natürliche Erweiterung sein wird. Angenommen, ein neuronales Netzwerk zeigt beispielsweise Siegel in einem Foto nicht durch die x-y-Koordinatennummern an, sondern erklärt seine Position im Klartext. Wenn Sie ihr dann im Verlauf der Klärung die richtige Frage stellen, zum Beispiel: "Ich bin zu diesem Schluss gekommen, weil ...", können Sie theoretisch erklären, wie sie die Katze auf dem Foto gefunden hat. Und diese Erklärung kann im Extremfall nicht schlechter sein als menschlich. Dies löst das globale Problem der Interpretierbarkeit neuronaler Netze.

2) Kann ein vorab trainiertes neuronales Netzwerk für große Textmengen universell sein, einen gesunden Menschenverstand haben und keine zusätzliche Schulung für bestimmte Aufgaben erfordern? Dies bedeutet, dass das neuronale Netzwerk beim Versuch, die menschliche Sprache nachzuahmen (menschliche Antworten auf Fragen), zwangsläufig den gesunden Menschenverstand lernen muss, um diese den menschlichen Antworten sehr ähnlich zu geben. Einsilbige fiktive Antworten zu geben, ist im Allgemeinen nicht typisch für Menschen. Zum größten Teil geben die Menschen detaillierte und angemessene Antworten, was bedeutet, dass das Netzwerk lernen muss, dasselbe zu tun.

Beide Fragen bleiben offen, aber der erste Schritt in ihrer Zustimmung ist definitiv getan.

Und genauer?

Wenn Sie jetzt stehen, ist es besser, sich zu setzen. Denn so hat OpenAI, das das neuronale GPT-2-Netzwerk verwendet, seine Ergebnisse bei Konversationsaufgaben für verschiedene Domänen erzielt:

Antworten auf Fragen zum Text

Das ist einfach. Oder fütterte das Netzwerk mit ein paar Absätzen mit einer Beschreibung, die irgendwo in der Mitte stand, zum Beispiel "Der Apfel liegt auf dem Tisch", und am Ende wurde zugeschrieben: "Der Apfel ist auf ..." und das Netzwerk wurde der "Tabelle" hinzugefügt. Weil es sich an den Kontext mehrerer Absätze erinnern kann.

Oder fütterte das Netzwerk als ersten Satz mit einigen Beispielen vom Typ „Frage: eine Frage, Antwort: eine Antwort“ und am Ende nach der eigentlichen Frage fügten sie hinzu: „Antwort:“. Und das neuronale Netzwerk hat die Antwort angehängt! Da es die Struktur des Dokuments auf der vorherigen Frage-Antwort enthüllte. Das ist erstaunlich.

Kurzfassung (Zusammenfassung) des Textes

Die Eingabe ist ein langer Text aus mehreren Absätzen oder sogar Seiten, und das neuronale Netzwerk sollte einen kurzen Inhalt schreiben. Wie haben Sie dieses Verhalten von GPT-2 erhalten? Kurz nach dem Text fügten sie "TL; DR" hinzu. Und alle! Dies erwies sich als ausreichend für das GPT-2, um nach diesen Zeichen eine Zusammenfassung des Artikels hinzuzufügen! Weil solche Symbole im Internet häufig die Zusammenfassung des Beitrags bezeichnen.

Textübersetzung

Die GPT-2-Eingabe erhielt den Text in der Form: "Hallo = Hallo, Hund = Hund, Wind = Wind, Katze = ...". Und das neuronale Netz fügte die Übersetzung des letzten Wortes hinzu: "Katze" (im Original auf Französisch). Weil es die Struktur des Dokuments enthüllte und es einfach mit der logischsten Fortsetzung ergänzte. Wenn dein Kiefer immer noch nicht von all dem abgefallen ist, dann habe ich zwei Neuigkeiten für dich und beide sind schlecht =).

GPT-2-Start über Google Colab

Leider wurde die Freigabe der Vollversion von GPT-2 in OpenAI verweigert. Dies wird durch die Tatsache motiviert, dass es mit diesem neuronalen Netzwerk zu einfach ist, gefälschte Nachrichten und Bewertungen in Geschäften zu generieren. Nach ihrer Aussage wird die Diskussion über die Angemessenheit der Auslegung dieses Modells für die nächsten 6 Monate fortgesetzt. Nach der OpenAI werden sie entscheiden, ob sie es hochladen oder nicht. Für eine große Organisation ist es jedoch nicht schwierig, das Modell zu wiederholen (es scheint, dass sie es mehrere Tage lang für 256 TPU trainiert haben und nach vorläufigen Schätzungen etwa 45.000 US-Dollar gekostet haben).

Sie veröffentlichten jedoch eine reduzierte Version von GPT-2 mit 117 Millionen Parametern (anstatt 1,5 Milliarden, wie im Vollmodell): https://github.com/openai/gpt-2 . Lassen Sie uns versuchen, es auszuführen und mit diesem Modell zu spielen.

Update 9. November 2019: Endlich wurde die gesamte Modellreihe einschließlich 1,5 Milliarden angelegt. Die Dateien und Anweisungen für den Start wurden aktualisiert.

Der einfachste Weg, dies zu tun, ist über Google Colab:

Öffnen Sie den Link

http://colab.research.google.com/github/blade1780/bert/blob/master/Gpt-2.ipynb

Wählen Sie im Menü Laufzeit die Option Alle ausführen aus , damit zum ersten Mal alle Zellen gestartet werden, die Modelldownloads und die erforderlichen Bibliotheken verbunden werden. Stimmen Sie zu, bei Bedarf alle Runtime zurückzusetzen. Geben Sie nach dem Erscheinen von "Model prompt >>>" Text ein und drücken Sie die Eingabetaste.

Achten Sie ganz am Anfang auf die Zeile:

model_name = '117M'

Hier können Sie die Größe des zu verwendenden GPT-2-Modells angeben. Folgende Modelle sind verfügbar (vorbehaltlich Aktualisierungen):

117M
124M
355M
774M
1558M

Hier ist 117M das kleinste Modell, das zum Zeitpunkt dieses Schreibens das einzige verfügbare war. OpenAI legte später immer mehr Modelle vor, bis zum 5. November 2019 das Maximum von 1558 Millionen (mit 1,5 Milliarden Parametern).

Wenn etwas schief gelaufen ist ...

Stellen Sie sicher, dass GPU und Python 3 im Menü Laufzeit -> Laufzeittyp ändern ausgewählt sind

Wenn die Schaltfläche Verbinden nicht aktiv ist, klicken Sie darauf, um eine Verbindung herzustellen.

Oder erstellen Sie den gesamten Code manuell:

Gehen Sie zu https://colab.research.google.com
Drücken Sie die blaue Taste NEW PYTHON 3 NOTEBOOK
Wählen Sie im Menü Laufzeit -> Laufzeittyp ändern die Option Python 3 und die GPU aus (letztere, um das neuronale Netzwerk auf der GPU auszuführen).
Geben Sie in die erste Zelle Folgendes ein:

model_name = '117M' !git clone https://github.com/openai/gpt-2 %cd gpt-2 !pip3 install -r requirements.txt !python3 download_model.py $model_name

Anstelle von 117M (dem kleinsten) können Sie ein beliebiges Zwischen- oder größtes Modell angeben: 1558M.

Klicken Sie auf das schwarze Wiedergabesymbol links neben der Zelle. Dadurch wird das ausgewählte neuronale GPT-2-Netzwerk heruntergeladen und die erforderlichen Abhängigkeiten installiert.

In der zweiten Zelle (Sie können sie über das Menü Einfügen -> Codezelle oder durch Bewegen der Maus unter der Mitte der aktuellen Zelle hinzufügen, werden die Schaltflächen zum Hinzufügen angezeigt):

 !python3 src/interactive_conditional_samples.py --model_name=$model_name

Dadurch wird der interaktive Modus gestartet. Warten Sie, bis das neuronale Netzwerk hochgefahren ist und ein Fenster zur Texteingabe mit der Aufschrift „Modellmodell >>>“ angezeigt wird. Geben Sie den Anfang der Phrase ein und drücken Sie die Eingabetaste. Nach einer Weile wird der generierte Text unter der Überschrift BEISPIEL angezeigt.

Sie können auch den Modus zum Generieren von vollständig zufälligem Text starten. Der Text wird endlos in kleinen Teilen von BEISPIEL 1, BEISPIEL 2 usw. generiert, bis Sie auf die Schaltfläche Stopp in der Zelle klicken. Erstellen Sie dazu eine neue Zelle mit dem Code:

 !python3 src/generate_unconditional_samples.py --model_name=$model_name | tee samples.txt

Das Ergebnis wird in der Datei samples.txt gespeichert. Es kann mit den folgenden Befehlen heruntergeladen werden (erstellen Sie erneut eine neue Zelle und führen Sie sie nach dem Generieren des Textes aus):

 from google.colab import files files.download('samples.txt')

Sie können die Parameter zum Generieren von Text ändern (Zufallskoeffizient usw., siehe Beschreibung in der Originalarbeit ):

 !python3 src/generate_unconditional_samples.py --model_name=$model_name --top_k 40 --temperature 0.7 | tee samples.txt

Da es sich bei dem 117M um ein stark reduziertes Modell handelt, sollten Sie keine Wunder erwarten (Update: Zum Zeitpunkt dieses Schreibens war nur dieses verfügbar. Jetzt ist alles verfügbar, einschließlich des ursprünglich größten 1558M, siehe oben). Die meisten der generierten Samples sind Unsinn. Es gibt aber auch sinnvolle Abschnitte. Der Text sollte in Englisch sein, während GPT-2 in anderen Sprachen noch nicht funktionieren kann.

Beispiele für generierten Text

Beispiele für den vom vollständigen Modell generierten Text: https://blog.openai.com/better-language-models/#sample1 (oben in der Leiste für 8 Geschichten).

Es gibt auch eine riesige 2,4-MB-Textdatei mit zufällig generierten Beispielen: https://raw.githubusercontent.com/openai/gpt-2/master/gpt2-samples.txt

Und noch eine, 2,27 MB, mit anderen Zufallseinstellungen: https://raw.githubusercontent.com/openai/gpt-2/master/gpt2-topk40-samples.txt

Referenzen

Original OpenAI Blog Artikel: Bessere Sprachmodelle und ihre Auswirkungen
Github mit allen vorgefertigten Versionen von GPT-2: https://github.com/openai/gpt-2
Diskussion über reddit Hauptnachrichten
Diskussion über reddit, das sich weigert, das vollständige Modell zu veröffentlichen: Es ist Zeit für OpenAI, CloseAI umzubenennen
Google Colab-Notebook zum Ausführen von GPT-2 (alle Modelle) in einem Browser

GPT-2 neuronales Netzwerk von OpenAI. Schnellstart