Ein Tool namens BERT ist in der Lage, Menschen bei Lese- und Verständnistests zu überholen. Es zeigt jedoch auch, in welche Richtung die KI noch gehen muss.

Im Herbst 2017 entschied
Sam Bowman , ein Computerlinguist der New York University, dass Computer den Text immer noch nicht sehr gut verstehen. Natürlich haben sie genug gelernt, um dieses Verständnis in bestimmten engen Bereichen zu simulieren, wie etwa bei automatischen Übersetzungen oder der Analyse von Gefühlen (zum Beispiel um festzustellen, ob ein Satz "unhöflich oder süß" ist, wie er sagte). Bowman wollte jedoch ein messbares Zeugnis: ein echtes Verständnis dessen, was in der menschlichen Sprache geschrieben stand. Und er kam mit einem Test auf.
In einem Artikel vom April 2018
, der in Zusammenarbeit mit Kollegen der Washington University und DeepMind, einem Unternehmen von Google, das sich mit künstlicher Intelligenz befasst, verfasst wurde, stellte Bowman eine Reihe von neun Leseverständnisaufgaben für Computer unter dem allgemeinen Namen GLUE (General Language Understanding Evaluation) vor verallgemeinerte Sprache]. Der Test wurde als "ziemlich bezeichnendes Beispiel dafür entworfen, was die Forschungsgemeinschaft für interessante Aufgaben hält", sagte Bowman, aber auf eine Art und Weise, die "für die Menschen einfach" ist. Beispielsweise wird in einer Aufgabe die Frage nach der Wahrheit eines Satzes gestellt, der auf der Grundlage von Informationen aus einem vorhergehenden Satz geschätzt werden muss. Wenn Sie sagen können, dass die Botschaft "Präsident Trump ist im Irak gelandet, nachdem er seinen siebentägigen Besuch begonnen hat" impliziert, dass "Präsident Trump im Ausland ist", bestehen Sie die Prüfung.
Autos versagten ihm. Sogar die fortgeschrittenen neuronalen Netze erzielten in allen Tests nicht mehr als 69 von 100 Punkten - die ersten drei mit einem Minus. Bowman und Kollegen waren nicht überrascht. Neuronale Netze - vielschichtige Konstruktionen mit Computerverbindungen, die in etwa der Arbeit von Neuronen im Gehirn von Säugetieren ähneln - zeigen auf dem Gebiet der „Verarbeitung natürlicher Sprache“ gute Ergebnisse, aber die Forscher waren sich nicht sicher, ob diesen Systemen etwas Ernsthaftes beigebracht wurde sprache. Und GLUE beweist es. "Frühe Ergebnisse zeigen, dass das Bestehen von GLUE-Tests über die Fähigkeiten bestehender Modelle und Methoden hinausgeht", so Bowman et al.
Ihre Einschätzung hielt jedoch nicht lange an. Im Oktober 2018 stellte Google eine neue Methode vor, BERT (Bidirectional Encoder Representations from Transformers) [bidirektionale Encoder-Präsentationen für Transformatoren]. Er erhielt eine Punktzahl von 80,5 in GLUE. In nur sechs Monaten sprangen die Autos in diesem neuen Test, der das wahre Verständnis der natürlichen Sprache durch Maschinen misst, von drei mit einem Minus auf vier mit einem Minus.
"Es war wie verdammt", erinnert sich Bowman mit einem farbenfrohen Wort. - Diese Nachricht wurde von der Community mit Misstrauen aufgenommen. BERT hat in vielen Tests Noten erhalten, die nahe an dem liegen, was wir für maximal möglich hielten. “ In der Tat gab es vor dem Erscheinen von BERT im GLUE-Test noch nicht einmal Bewertungen menschlicher Leistungen, mit denen man vergleichen konnte. Als Bowman und einer seiner Doktoranden sie im Februar 2019 zu GLUE hinzufügten, dauerten sie nur wenige Monate, und dann
schlug sie auch das BERT-basierte Modell von Microsoft.
Zum Zeitpunkt dieser Veröffentlichung sind fast alle
ersten Plätze in den GLUE-Tests von Systemen belegt, die das BERT-Modell enthalten, erweitern oder optimieren. Fünf von ihnen sind in ihren menschlichen Fähigkeiten überlegen.
Aber heißt das, dass die KI unsere Sprache langsam versteht oder nur lernt, unsere Systeme zu schlagen? Nachdem die BERT-basierten neuronalen Netze die GLUE-Typprüfungen im Sturm genommen hatten, erschienen neue Bewertungsmethoden, die diese NLP-Systeme als Computerversionen von „
smart Hans “ betrachteten, einem Pferd, das zu Beginn des 20. Jahrhunderts lebte und für das es angeblich klug genug war arithmetische Berechnungen im Kopf zu machen, aber tatsächlich die unbewussten Zeichen zu lesen, die ihm von seinem Besitzer gegeben wurden.
"Wir wissen, dass wir uns irgendwo in der Grauzone befinden zwischen dem Verstehen der Sprache in einem sehr langweiligen und engen Sinn und der Schaffung von KI", sagte Bowman. - Generell lässt sich die Reaktion von Spezialisten wie folgt beschreiben: Wie ist das passiert? Was bedeutet das? Was sollen wir jetzt tun? "
Schreiben Sie Ihre eigenen Regeln
In dem berühmten Gedankenexperiment „
Chinese Room “ sitzt eine Person, die die chinesische Sprache nicht kennt, in einem Raum voller Bücher mit Regeln. In den Büchern finden Sie genaue Anweisungen, wie Sie die Abfolge der chinesischen Zeichen, die den Raum betreten, akzeptieren und eine passende Antwort geben können. Eine Person außerhalb der Palmen Fragen in Chinesisch unter der Tür des Raumes geschrieben. Die Person im Inneren wendet sich an die Bücher mit den Regeln und formuliert vollkommen vernünftige Antworten auf Chinesisch.
Dieses Experiment wurde verwendet, um zu beweisen, dass man trotz des äußeren Eindrucks nicht sagen kann, dass die Person im Raum Chinesisch versteht. Selbst eine Simulation des Verstehens war jedoch ein akzeptables Ziel des NLP.
Das einzige Problem ist das Fehlen perfekter Bücher mit Regeln, da die natürliche Sprache zu komplex und unsystematisch ist, um auf einen soliden Satz von Spezifikationen reduziert zu werden. Nehmen Sie zum Beispiel die Syntax: Regeln (einschließlich empirischer Regeln), die die Gruppierung von Wörtern in aussagekräftige Sätze bestimmen. Der Satz "
Gewalttätig schlafen farblose grüne Ideen " hat die Syntax, aber jede Person, die die Sprache kennt, versteht ihre Sinnlosigkeit. Welches speziell entworfene Regelwerk könnte diese ungeschriebene Tatsache in Bezug auf die natürliche Sprache enthalten - von unzähligen anderen Tatsachen ganz zu schweigen?
NLP-Forscher versuchten, diese
Quadratur des Kreises zu finden , und zwangen die neuronalen Netze, ihre eigenen handwerklichen Regelbücher zu schreiben "Pre-Training" oder Vorschulung.
Bis 2018 war eines der wichtigsten Trainingsinstrumente so etwas wie ein Wörterbuch. In diesem Wörterbuch wurde eine
Vektordarstellung der Wörter [Worteinbettung] verwendet, um die Verbindungen zwischen Wörtern in Form von Zahlen zu beschreiben, damit die neuronalen Netze diese Informationen als Eingabe wahrnehmen können - so etwas wie ein grobes Glossar für eine Person in einem chinesischen Raum. Das im Vektorwörterbuch vorgeübte neuronale Netz blieb jedoch weiterhin blind für die Bedeutung von Wörtern auf Satzebene. "Aus ihrer Sicht sind die Sätze" Mann hat den Hund gebissen "und" Hund hat den Mann
gebissen "identisch", sagte
Tel Linsen , ein Computerlinguist an der Johns Hopkins University.
Tel Linsen, Computerlinguist an der Johns Hopkins University.Die verbesserte Methode verwendet das Pre-Training, um dem neuronalen Netzwerk umfassendere Regelbücher zur Verfügung zu stellen - nicht nur ein Wörterbuch, sondern auch eine Syntax mit einem Kontext -, bevor es eine bestimmte NLP-Aufgabe lehrt. Anfang 2018 hatten Forscher von OpenAI, der University of San Francisco, dem Allen Institute for Artificial Intelligence und der University of Washington gleichzeitig einen schwierigen Weg gefunden, um dem näher zu kommen. Anstatt nur eine einzige Schicht des Netzwerks zu trainieren, die die Vektordarstellung von Wörtern verwendet, begannen die Forscher, das gesamte Netzwerk für eine allgemeinere Aufgabe zu trainieren, die als Sprachmodellierung bezeichnet wird.
"Der einfachste Weg, eine Sprache zu modellieren, ist folgender: Ich werde eine Reihe von Wörtern lesen und versuchen, Folgendes vorherzusagen", erklärte
Mile Ott , ein Facebook-Forscher. „Wenn ich sage, dass George W. Bush geboren wurde, müssen die Models das nächste Wort in diesem Satz vorhersagen.“
Solche Sprachmodelle mit tiefem Training können sehr effizient erstellt werden. Forscher speisen einfach große Mengen an geschriebenem Text aus freien Quellen wie Wikipedia in ihre neuronalen Netze ein - Milliarden von Wörtern, die in grammatikalisch korrekten Sätzen angeordnet sind - und lassen das Netzwerk das nächste Wort von sich aus vorhersagen. Tatsächlich entspricht dies der Tatsache, dass wir eine Person in einem chinesischen Raum einladen, ihre eigenen Regeln zu erstellen, wobei eingehende chinesische Nachrichten als Referenz verwendet werden.
"Das Schöne an diesem Ansatz ist, dass das Modell eine Menge Syntaxkenntnisse erlangt", sagte Ott.
Darüber hinaus können solche vorab trainierten neuronalen Netze ihre Sprachdarstellungen anwenden, um eine engere Aufgabe, die nicht mit der Wortvorhersage zusammenhängt, für den Feinabstimmungsprozess zu unterrichten.
„Sie können das Modell aus der Vorbereitungsphase nehmen und an jede echte Aufgabe anpassen, die Sie benötigen“, erklärte Ott. "Und danach erhalten Sie viel bessere Ergebnisse, als wenn Sie von Anfang an versucht hätten, Ihr Problem direkt zu lösen."
Im Juni 2018, als OpenAI sein
GPT-Neuronales Netz mit einem darin enthaltenen Sprachmodell vorstellte, das einen Monat lang eine Milliarde Wörter trainierte (entnommen aus 11.038 digitalen Büchern), war das Ergebnis im GLUE-Test mit 72,8 Punkten sofort das beste das beste. Trotzdem schlug Sam Bowman vor, dass sich dieser Bereich für eine sehr lange Zeit entwickeln wird, bevor sich ein System zumindest dem menschlichen Niveau annähern kann.
Und dann erschien BERT.
Vielversprechendes Rezept
Was ist BERT?
Erstens ist es kein vollständig trainiertes neuronales Netzwerk, das sofort Ergebnisse auf menschlicher Ebene liefern kann. Bowman sagt, dies sei ein "sehr genaues Rezept für das Training des neuronalen Netzes". Als ein Bäcker nach dem Rezept garantiert leckere Kuchen ausgeben kann - die dann für verschiedene Kuchen verwendet werden können, von Blaubeere bis Spinat-Quiche - und Google-Forscher haben ein BERT-Rezept erstellt, das als ideale Grundlage für das "Backen" neuronaler Netze dienen kann (d. H , deren Feinabstimmung), damit sie verschiedene Aufgaben bei der Verarbeitung der natürlichen Sprache gut bewältigen können. Google hat den BERT-Code geöffnet, was bedeutet, dass andere Forscher dieses Rezept nicht mehr von Grund auf wiederholen müssen - sie können es einfach herunterladen. Es ist so, als würde man vorgebackenen Kuchen für Kuchen im Laden kaufen.
Wenn BERT ein Rezept ist, wie lautet dann die Zutatenliste? "Dies ist das Ergebnis von drei verschiedenen Dingen, die miteinander verbunden sind, damit das System funktioniert", sagte
Omer Levy , ein Facebook-Forscher, der das BERT-Gerät
analysierte .
Omer Levy, Facebook-ForscherDas erste ist das vorgeübte Sprachmodell, dh dieselben Verzeichnisse aus dem chinesischen Raum. Die zweite Möglichkeit besteht darin, zu entscheiden, welche Merkmale des Vorschlags am wichtigsten sind.
Im Jahr 2017 arbeitete
Jacob Uzkoreit , ein Ingenieur bei Google Brain, an Möglichkeiten, die Versuche des Unternehmens, die Sprache zu verstehen, zu beschleunigen. Er stellte fest, dass alle fortgeschrittenen neuronalen Netze unter ihren inhärenten Einschränkungen leiden: Sie studieren den Satz mit Worten. Eine solche „Sequenz“ schien mit der Vorstellung übereinzustimmen, wie die Leute den Text lesen. Uzkoreit zeigte sich jedoch interessiert: "Könnte es nicht sein, dass das Verstehen der Sprache in einem linearen, sequentiellen Modus nicht optimal ist."
Die enge Zusammenarbeit mit Kollegen führte zu einer neuen Architektur neuronaler Netze mit dem Schwerpunkt „Aufmerksamkeit“, einem Mechanismus, der es jeder Schicht des neuronalen Netzes ermöglicht, bestimmten Merkmalen der Eingabedaten im Vergleich zu anderen Merkmalen große Gewichte zuzuweisen. Diese neue Architektur mit Aufmerksamkeit, ein Transformator, kann einen Satz wie "ein Hund beißt den Mann" als Eingabe nehmen und jedes Wort auf unterschiedliche Weise parallel codieren. Zum Beispiel kann ein Transformator "Bites" und "Person" als Verb und Subjekt-Objekt binden, wobei der Artikel "a" ignoriert wird. Gleichzeitig kann sie "Biss" und "Hund" als Verb und Subjekt-Subjekt in Beziehung setzen und den Artikel "the" ignorieren.
Die inkonsistente Natur des Transformators präsentiert Sätze ausdrucksvoller oder, wie Uzkoreit sagt, baumartig. Jede Schicht des neuronalen Netzwerks stellt viele parallele Verbindungen zwischen bestimmten Wörtern her, wobei der Rest ignoriert wird - ungefähr wie ein Schüler in der Grundschule einen Satz in Teile zerlegt. Diese Verbindungen werden häufig zwischen Wörtern hergestellt, die möglicherweise nicht in der Nähe sind. "Solche Strukturen sehen aus wie eine Überlagerung mehrerer Bäume", erklärte Uzkoreit.
Solche baumartigen Darstellungen von Sätzen geben Transformatoren die Möglichkeit, kontextbezogene Bedeutungen zu modellieren und die Zusammenhänge zwischen Wörtern, die in komplexen Sätzen weit voneinander entfernt sind, effektiv zu untersuchen. "Das ist ein wenig eingängig", sagte Uzkoreit, "aber es kommt aus der Linguistik, die sich seit langem mit baumartigen Sprachmodellen beschäftigt."
Jacob Uzkoreit, Leiter des Berliner Teams Google AI BrainSchließlich erweitert die dritte Zutat im BERT-Rezept den nichtlinearen Messwert noch mehr.
Im Gegensatz zu anderen vorgefertigten Sprachmodellen, die durch Verarbeitung von Terabyte Text von links nach rechts durch neuronale Netze erstellt wurden, liest das BERT-Modell von rechts nach links und gleichzeitig von links nach rechts und lernt, vorherzusagen, welche Wörter zufällig aus Sätzen ausgeschlossen wurden. Beispielsweise kann BERT einen Satz der Form "George W. Bush in Connecticut im Jahr 1946" akzeptieren und vorhersagen, welches Wort in der Mitte des Satzes verborgen ist (in diesem Fall "geboren"), nachdem der Text in beide Richtungen verarbeitet wurde. "Diese Bidirektionalität zwingt das neuronale Netzwerk, so viele Informationen wie möglich aus einer Untergruppe von Wörtern zu extrahieren", sagte Uzkoreit.
Das BERT-basierte Vortäuschen wie ein Wortspiel - Sprachmodellierung mit Maskierung - ist nichts Neues. Es wird seit Jahrzehnten verwendet, um das Verständnis der Menschen für die Sprache zu messen. Für Google bot er eine praktische Möglichkeit, Bidirektionalität in neuronalen Netzen anstelle der Einweg-Vortrainingsmethoden zu verwenden, die zuvor in diesem Bereich vorherrschten. "Vor BERT war die unidirektionale Sprachmodellierung der Standard, obwohl dies eine optionale Einschränkung ist", sagte
Kenton Lee , ein Google-Forscher.
Jeder dieser drei Bestandteile - ein tiefes Sprachmodell mit Vorschulung, Aufmerksamkeit und Bidirektionalität - existierte vor BERT separat. Aber bis Google Ende 2018 sein Rezept veröffentlichte, hat niemand sie so erfolgreich kombiniert.
Rezept verfeinern
Wie jedes gute Rezept wurde BRET bald von verschiedenen Köchen an ihren Geschmack angepasst. Im Frühjahr 2019 gab es eine Zeit, in der „Microsoft und Alibaba einander auf den Fersen waren und wöchentlich die Plätze in der Rangliste wechselten und ihr Modell anpassten“, erinnert sich Bowman. Als die verbesserte Version von BERT im August erstmals unter dem Namen RoBERTa veröffentlicht wurde, bemerkte der Forscher
Sebastian Ruder von DeepMind in seinem beliebten
NLP-Newsletter trocken: "Neuer Monat und ein neues fortgeschrittenes Sprachmodell mit Vortraining."
Wie der Kuchen hat BERT mehrere Designentscheidungen, die sich auf die Qualität seiner Arbeit auswirken. Dies beinhaltet die Größe des gebackenen neuronalen Netzwerks, die Datenmenge, die für das Vortraining verwendet wird, die Methode zum Maskieren von Wörtern und wie lange das neuronale Netzwerk mit diesen Daten gearbeitet hat. Und in nachfolgenden Rezepten wie RoBERTa optimieren Forscher diese Entscheidungen - wie ein Koch, der ein Rezept festlegt.
Im Falle von RoBERTa haben Forscher von Facebook und der Washington University die Anzahl einiger Inhaltsstoffe erhöht (Daten vor dem Training, Länge der eingehenden Sequenzen, Trainingszeit), ein Inhaltsstoff wurde gestrichen (die Aufgabe, den nächsten Satz vorherzusagen), der ursprünglich im BERT enthalten war und die Ergebnisse negativ beeinflusste ), und der andere wurde geändert (kompliziert die Aufgabe, einzelne Wörter zu maskieren). Damit belegten sie kurzzeitig den ersten Platz im GLUE-Ranking. Sechs Wochen später verbesserten Forscher von Microsoft und der University of Maryland RoBERTa und holten den nächsten Sieg. Derzeit hat ein anderes Modell den ersten Platz in GLUE, ALBERT (die Abkürzung für "Lite BERT", dh "Lite BERT"), eingenommen, was die Grundstruktur von BERT geringfügig veränderte.
"Wir klären immer noch, welche Rezepte funktionieren und welche nicht", sagte Ott von Facebook, der an RoBERTa arbeitete.
Da Ihnen die Verbesserung der Technik des Vorbackens von Kuchen jedoch nicht die Grundlagen der Chemie vermittelt, werden Sie durch die schrittweise Verbesserung des BERT nicht viel theoretisches Wissen über die Entwicklung von NLP erhalten. "Ich werde Ihnen gegenüber äußerst ehrlich sein - ich folge diesen Arbeiten nicht, da sie für mich äußerst langweilig sind", sagte Linsen, ein Computerlinguist an der Johns Hopkins University. "Hier gibt es ein gewisses wissenschaftliches Rätsel", gibt er zu, aber nicht, wie man BERT und all seine Nachkommen schlauer macht und nicht einmal herausfindet, warum sie so schlau sind. Stattdessen "versuchen wir zu verstehen, wie gut diese Modelle die Sprache wirklich verstehen", sagte er, "anstatt seltsame Tricks zu lernen, die irgendwie mit den Datensätzen funktionieren, mit denen wir diese Modelle normalerweise bewerten."
Mit anderen Worten, BERT macht etwas richtig. Aber was ist, wenn er es aus dem falschen Grund tut?
Tricky aber nicht schlau
Im Juli 2019 verwendeten zwei Forscher der Taiwan State University, Cheng Kun, das BERT mit beeindruckenden Ergebnissen für einen relativ wenig bekannten Leistungstest, der als „Argument-Verständnis-Aufgabe“ bezeichnet wurde. Um die Aufgabe abzuschließen, muss eine implizite Anfangsbedingung („Grundlage“) gewählt werden, die das Argument für eine Aussage unterstützt. Um beispielsweise zu beweisen, dass „Rauchen Krebs verursacht“ (Aussage), da „wissenschaftliche Studien einen Zusammenhang zwischen Rauchen und Krebs gezeigt haben“ (Argumentation), müssen Sie das Argument „wissenschaftliche Forschung kann vertrauenswürdig sein“ („Grundlage“) und nicht eine andere Option wählen: „Wissenschaftliche Forschung ist teuer“ (dies ist jedoch in diesem Zusammenhang nicht relevant). Alles klar?
Wenn nicht alle, mach dir keine Sorgen. Selbst Menschen können diese Aufgabe ohne Übung nicht sehr gut. Die durchschnittliche Grundlinie für eine Person ohne Training ist 80 von 100. BERT erreichte 77 - was die Autoren als "unerwartet" bezeichneten.
, , BERT , , : BERT . , , .. « ». , , «», 61% . , , BERT 77 53 – . The Gradient ,
BERT « », , .
, "
", , BERT GLUE . , , BERT . (Heuristic Analysis for Natural-Language-Inference Systems, HANS) [ , ].
, BERT , – ? , GLUE . , , BERT. « - , GLUE, „ “, , — , — ». , BERT . « , -, , - , — . – ».
, , – BERT, , , « ». « », NLP , . « BERT », , « ».
NLP , . , BERT . « NLP, », —
, . , , , , , .
, , , . . , . « , , , », — .
SuperGLUE , , BERT. . ( ) , , , ? ?
« , — . – , LSAT MCAT, , ». , , . « , , , — . – , , , ».