Warum hat selbstlernende künstliche Intelligenz Probleme mit der realen Welt?

Die neuesten KI-Systeme beginnen mit dem Training, ohne etwas über das Spiel zu wissen, und wachsen in wenigen Stunden auf Weltniveau. Forscher haben jedoch Probleme mit der Verwendung solcher Systeme außerhalb der Spielwelt.




Bis vor kurzem hatten Maschinen, die menschliche Champions beschämen konnten, zumindest Respekt davor, menschliche Erfahrung zum Unterrichten von Spielen zu nutzen.

Um Garry Kasparov 1997 im Schach zu besiegen, verwendeten IBM-Ingenieure jahrhundertelange Schachweisheit, um ihren eigenen Deep Blue-Computer zu erstellen. Im Jahr 2016 besiegte das AlphaGo-Programm des Google DeepMind-Projekts den Champion Lee Sedola im alten Go-Brettspiel und verarbeitete Millionen von Spielpositionen, die aus Zehntausenden von Spielen zwischen Menschen gesammelt wurden.

Aber jetzt überdenken KI-Forscher, wie ihre Bots menschliches Wissen aufnehmen sollen. Der aktuelle Trend kann als "Ja, und Gott segne ihn" beschrieben werden.

Im vergangenen Oktober veröffentlichte das DeepMind-Team die Details des neuen Go-Game-Systems AlphaGo Zero, bei dem die Spiele der Leute überhaupt nicht untersucht wurden. Sie begann mit den Spielregeln und spielte mit sich selbst. Die ersten Züge waren völlig zufällig. Nach jedem Spiel akzeptierte sie neues Wissen darüber, was zum Sieg führte und was nicht. Nach diesen Spielen köderte AlphaGo Zero die bereits übermenschliche Version von AlphaGo, die Lee Sedol besiegte. Der erste gewann den zweiten mit einer Punktzahl von 100: 0.


Lee Sedol, 18-facher Weltmeister in Go, trifft 2016 auf AlphaGo.

Das Team erforschte weiter und schuf den nächsten brillanten Spieler in der AlphaGo-Familie, diesmal einfach AlphaZero. In einem im Dezember auf arxiv.org veröffentlichten Artikel haben DeepMind-Forscher enthüllt, wie AlphaZero AlphaGo Zero trainiert und besiegt hat, nachdem es wieder von vorne angefangen hat - das heißt, es hat den Bot besiegt, der den Bot besiegt hat, der den besten Go-Spieler der Welt besiegt hat. Und als sie die Regeln für japanisches Shogi- Schach erhielt, lernte AlphaZero schnell und schaffte es, die besten ihrer speziell für dieses Spiel entwickelten Algorithmen zu schlagen. Experten staunten über den aggressiven und ungewohnten Stil des Spiels. "Ich habe mich immer gefragt, wie es wäre, wenn überlegene Wesen zur Erde fliegen und uns zeigen würden, wie sie Schach spielen", sagte der dänische Großmeister Peter Heine Nielsen in einem Interview mit der Luftwaffe. "Jetzt weiß ich es."

Letztes Jahr haben wir andere Bots aus anderen Welten gesehen, die sich in so unterschiedlichen Bereichen wie Unlimited Poker und Dota 2 gezeigt haben, einem beliebten Online-Spiel, in dem Fantasy-Helden um die Kontrolle über eine andere Welt kämpfen.

Natürlich gehen die Ambitionen von Unternehmen, die Geld in solche Systeme investieren, über die Dominanz von Gaming-Meisterschaften hinaus. Forschungsteams wie DeepMind hoffen, ähnliche Methoden auf reale Aufgaben anwenden zu können - Supraleiter zu schaffen, die bei Raumtemperatur arbeiten, oder zu verstehen, welche Origami Proteine ​​in arzneimittelfreundliche Moleküle verwandeln. Und natürlich hoffen viele Praktiker, künstliche Intelligenz für allgemeine Zwecke zu entwickeln - ein schlecht definiertes, aber faszinierendes Ziel, um der Maschine die Möglichkeit zu geben, wie eine Person zu denken und verschiedene Probleme flexibel zu lösen.

Trotz aller Investitionen ist noch nicht klar, wie weit aktuelle Technologien über die Grenzen des Spielbretts hinausgehen können. "Ich bin nicht sicher, ob sich die Ideen hinter AlphaZero so einfach zusammenfassen lassen", sagte Pedro Domingos, Informatiker an der University of Washington. "Spiele sind ein sehr, sehr ungewöhnliches Thema."

Ideale Ziele für eine unvollkommene Welt


Ein gemeinsames Merkmal vieler Spiele, einschließlich Schach und Go - Spieler sehen ständig alle Chips auf beiden Seiten des Bretts. Jeder Spieler hat sogenannte „ideale Informationen“ über den Stand des Spiels. Egal wie kompliziert das Spiel ist, Sie müssen nur über Ihre aktuelle Position nachdenken.

Viele reale Situationen können damit nicht verglichen werden. Stellen Sie sich vor, wir bitten den Computer, eine Diagnose zu stellen oder Geschäftsverhandlungen zu führen. "Die meisten strategischen Interaktionen in der realen Welt beinhalten versteckte Informationen", sagt Noam Brown , ein Doktorand der Informatik an der Carnegie Malon University. "Es scheint mir, dass der Großteil der KI-Community diese Tatsache ignoriert."

Brown Poker bietet eine andere Herausforderung. Sie sehen die Karten des Gegners nicht. Aber hier erreichen Maschinen, die durch ein Spiel mit sich selbst lernen, bereits übermenschliche Höhen. Im Januar 2017 schlug das von Brown und seinem Kurator Thomas Sandholm ins Leben gerufene Libratus-Programm vier professionelle Texas Hold'em- Spieler mit einem Gewinn von 1,7 Millionen US-Dollar am Ende der 20-Tage-Meisterschaft.

Ein noch entmutigenderes Spiel mit unvollständigen Informationen ist StarCraft II, ein weiteres Online-Multiplayer-Spiel mit einer großen Anzahl von Fans. Die Spieler wählen ein Team, bauen eine Armee auf und führen Krieg in einer Science-Fiction-Landschaft. Aber die Landschaft ist vom Nebel des Krieges umgeben, weshalb die Spieler nur die Teile des Territoriums sehen, auf denen sich ihre eigenen Truppen oder Gebäude befinden. Selbst die Entscheidung, das Territorium des Gegners zu erkunden, ist voller Unsicherheit.

Dies ist das einzige Spiel, das AI noch nicht gewinnen kann. Hindernisse sind eine Vielzahl von Optionen für Spielzüge, die normalerweise mehr als tausend betragen, und die Geschwindigkeit der Entscheidungsfindung. Jeder Spieler - eine Person oder eine Maschine - muss sich mit jedem Mausklick über eine Vielzahl wahrscheinlicher Entwicklungsszenarien Gedanken machen.

Bisher kann KI nicht mit Menschen in diesem Bereich gleichberechtigt konkurrieren. Dies ist jedoch das Ziel für die Entwicklung der KI. Im August 2017 arbeitete DeepMind mit Blizzard Entertainment, dem Unternehmen, das StarCraft II entwickelt hat, zusammen, um Tools zu entwickeln, von denen sie sagten, dass sie dieses Spiel für KI-Forscher öffnen würden.

Trotz aller Komplexität ist das Ziel von StarCraft II einfach zu formulieren: den Feind zu zerstören. Dies macht sie zu Schach, Go, Poker, Dota 2 und fast jedem anderen Spiel. In Spielen kann man gewinnen.

Aus Sicht des Algorithmus sollten Aufgaben eine „Zielfunktion“ haben, ein Ziel, nach dem wir streben müssen. Als AlphaZero Schach spielte, war es einfach. Die Niederlage wurde auf -1 geschätzt, ein Unentschieden auf 0, ein Sieg auf +1. Die Zielfunktion von AlphaZero besteht darin, Punkte zu maximieren. Die Zielfunktion des Poker-Bots ist ebenso einfach: viel Geld zu gewinnen.


Computerwanderer können komplexe Verhaltensweisen wie das Gehen in unbekanntem Gelände trainieren

Situationen im wirklichen Leben sind nicht so einfach. Zum Beispiel braucht ein Robomobil eine feinere Bildung der Zielfunktion - ähnlich einer ordentlichen Auswahl von Wörtern, wenn Sie Ihren Wunsch nach einem Geist beschreiben. Zum Beispiel: Bringen Sie einen Passagier schnell an die richtige Adresse, halten Sie sich an alle Gesetze und wägen Sie die Kosten des menschlichen Lebens in gefährlichen und unsicheren Situationen angemessen ab. Domingos sagt, dass die Bildung einer objektiven Funktion durch Forscher "eines der Dinge ist, die einen großen Forscher auf dem Gebiet des maschinellen Lernens vom Durchschnitt unterscheiden".

Betrachten Sie Tay, den Twitter-Chatbot, den Microsoft am 23. März 2016 veröffentlicht hat. Sein Ziel war es, Menschen in das Gespräch einzubeziehen, was er auch tat. "Was Tay leider entdeckt hat", sagte Domingos, "ist, dass rassistische Beleidigungen der beste Weg sind, um das Engagement der Menschen zu maximieren." Es wurde nur einen Tag nach Arbeitsbeginn ausgeschaltet.

Dein eigener Hauptfeind


Einige Dinge ändern sich nicht. Die Strategien, die heute von den vorherrschenden Game Bots verwendet werden, wurden vor Jahrzehnten erfunden. "Es ist eine Explosion aus der Vergangenheit - sie geben ihr einfach mehr Rechenleistung", sagt David Duveno , IT-Spezialist an der Universität Tokio.

Strategien basieren häufig auf verstärkten Lerntechniken mit Handlungsfreiheit. Anstatt sich auf Mikromanagement einzulassen und die kleinsten Details des Algorithmus festzulegen, geben die Ingenieure der Maschine die Möglichkeit, die Umgebung zu untersuchen, um zu lernen, wie sie durch Ausprobieren selbst Ziele erreichen können. Vor der Veröffentlichung von AlphaGo und seinen Erben erzielte das DeepMind-Team 2013 den ersten großen Erfolg in den Schlagzeilen, als es mithilfe von Verstärkungstraining einen Bot erstellte, der sieben Atari 2600-Spiele lernte, und in drei davon - auf Expertenebene.

Dieser Fortschritt hat sich fortgesetzt. Am 5. Februar veröffentlichte DeepMind IMPALA , ein KI-System, mit dem 57 Spiele mit dem Atari 2600 und weitere 30 von DeepMind erstellte Level in drei Dimensionen erlernt werden können. Der Spieler wirkt in verschiedenen Umgebungen auf sie ein und erreicht Ziele wie das Öffnen von Türen oder das Sammeln von Pilzen. IMPALA schien Wissen zwischen Aufgaben zu übertragen - die Zeit, die für ein Spiel aufgewendet wurde, verbesserte die Ergebnisse im Rest.

In der breiteren Kategorie der verstärkten Lern-, Brett- und Mehrspielerspiele kann jedoch ein spezifischerer Ansatz verwendet werden. Ihre Studie kann in Form eines Spiels mit sich selbst erfolgen, wenn der Algorithmus strategische Überlegenheit erreicht und wiederholt mit einer engen Kopie von sich selbst konkurriert.

Diese Idee ist viele Jahrzehnte alt. In den 1950er Jahren erstellte der IBM-Ingenieur Arthur Samuel ein Entwurfsprogramm, das teilweise im Wettbewerb mit sich selbst spielen lernte. In den 1990er Jahren erstellte Gerald Thesaur von IBM ein Backgammon-Programm, das den Algorithmus mit sich selbst kontrastierte. Das Programm erreichte das Niveau von Experten und erfand gleichzeitig ungewöhnliche, aber effektive Spielstrategien.

In immer mehr Spielen werden Algorithmen zum Spielen mit sich selbst mit einem gleichen Gegner versehen. Dies bedeutet, dass eine Änderung der Spielstrategie zu einem anderen Ergebnis führt, aufgrund dessen der Algorithmus sofortiges Feedback erhält. "Jedes Mal, wenn Sie etwas lernen und etwas entdecken, beginnt Ihr Gegner sofort, es gegen Sie einzusetzen ", sagt Ilya Sutskever , Forschungsdirektorin bei OpenAI, einer gemeinnützigen Organisation, die er mit Ilon Mask gegründet hat. gewidmet der Entwicklung und Verbreitung von KI-Technologien und der Richtung ihrer Entwicklung in eine sichere Richtung. Im August 2017 veröffentlichte die Organisation einen Bot für Dota 2, der einen der Charaktere im Spiel kontrollierte, Shadow Fiend, einen Nekromanten-Dämon, der die besten Spieler der Welt in Einzelkämpfen besiegte. Ein weiteres OpenAI-Projekt veranlasst die Leute, ein Sumo- Match zu simulieren, wodurch sie Wrestling und Tricks lernen. Während eines Spiels mit sich selbst "gibt es keine Zeit zum Ausruhen, man muss sich ständig verbessern", sagte Sutskever.



Openai


Aber die alte Idee, mit sich selbst zu spielen, ist nur eine Zutat in den Bots, die heute vorherrschen. Sie brauchen immer noch einen Weg, um das Spielerlebnis in ein tieferes Verständnis des Themas zu verwandeln. In Schach, Go und Videospielen wie Dota 2 gibt es mehr Permutationen als Atome im Universum. Selbst wenn wir auf ein paar Menschenleben warten, während die KI ihren Schatten auf virtuellen Arenen bekämpft, kann die Maschine nicht jedes Szenario implementieren, es in eine spezielle Tabelle schreiben und darauf verweisen, wenn eine solche Situation erneut auftritt.

Um in diesem Meer von Möglichkeiten über Wasser zu bleiben, „müssen Sie die Essenz zusammenfassen und hervorheben“, sagt Peter Abbil , IT-Spezialist an der University of California in Berkeley. IBMs Deep Blue tat dies mit einer eingebauten Schachformel. Mit der Fähigkeit, die Stärke von Spielpositionen zu bewerten, die sie noch nicht gesehen hatte, war das Programm in der Lage, Bewegungen und Strategien anzuwenden, die ihre Gewinnchancen erhöhen. In den letzten Jahren ist es mit einer neuen Technik möglich, eine solche Formel ganz aufzugeben. "Jetzt wird all dies plötzlich von einem" tiefen Netzwerk "abgedeckt", sagte Abbil.

Tiefe neuronale Netze, deren Popularität in den letzten Jahren stark angestiegen ist, bestehen aus Schichten künstlicher „Neuronen“, die wie ein Stapel Pfannkuchen übereinander geschichtet sind . Wenn ein Neuron in einer der Schichten aktiviert ist, sendet es Signale auf eine höhere Ebene, und dort werden sie noch höher gesendet, und so weiter.

Durch Anpassen der Verbindungen zwischen den Schichten können diese Netzwerke überraschenderweise die Eingabedaten in die zugehörige Ausgabe umwandeln, selbst wenn die Verbindung zwischen ihnen abstrakt erscheint. Geben Sie ihnen einen Satz auf Englisch, und sie können trainiert werden, indem Sie ihn ins Türkische übersetzen. Geben Sie ihnen Bilder von Tierheimen und sie können bestimmen, welches für Katzen ist. Zeigen Sie ihnen das Spiel Poly, und sie werden die Gewinnwahrscheinlichkeit verstehen können. Normalerweise müssen solche Netzwerke jedoch zuerst Listen mit markierten Beispielen bereitstellen, an denen sie üben können.

Deshalb lässt sich das Spielen mit sich selbst und tiefen neuronalen Netzen so gut miteinander kombinieren. Unabhängige Spiele erzeugen eine Vielzahl von Szenarien, und das tiefe Netzwerk verfügt über eine nahezu unbegrenzte Datenmenge für das Training. Und dann bietet das neuronale Netzwerk eine Möglichkeit, die Erfahrungen und Muster zu lernen, die während des Spiels auftreten.

Aber es gibt einen Haken. Damit solche Systeme nützliche Daten liefern können, benötigen sie eine realistische Plattform für Spiele.

"Alle diese Spiele, all diese Ergebnisse wurden unter Bedingungen erzielt, die es ermöglichten, die Welt perfekt zu simulieren", sagte Chelsea Finn, ein Doktorand aus Berkeley, der mithilfe von KI Roboterarme steuert und Daten von Sensoren interpretiert. Andere Bereiche sind nicht so einfach zu simulieren.

Robomobile haben beispielsweise Schwierigkeiten, mit schlechtem Wetter oder mit Radfahrern umzugehen. Oder sie nehmen die ungewöhnlichen Möglichkeiten der realen Welt nicht wahr - beispielsweise einen Vogel, der direkt in die Kamera fliegt. Im Fall von Roboterarmen, so Finn, lieferten die ersten Simulationen eine grundlegende Physik, die es dem Arm ermöglichte, das Lernen zu lernen. Sie können jedoch nicht mit den Details des Berührens verschiedener Oberflächen umgehen. Aufgaben wie das Drehen des Flaschenverschlusses oder die Durchführung eines komplexen chirurgischen Eingriffs erfordern in der Realität gesammelte Erfahrungen.

Bei Problemen, die schwer zu simulieren sind, ist es nicht mehr so ​​nützlich, mit sich selbst zu spielen. „Es gibt einen großen Unterschied zwischen einem wirklich perfekten Umgebungsmodell und einem erlernten beispielhaften Modell, insbesondere wenn die Realität wirklich kompliziert ist“, schrieb Yoshua Benggio , ein Pionier des Deep Learning an der Universität von Montreal. Aber KI-Forscher haben immer noch Möglichkeiten, weiterzumachen.

Leben nach den Spielen


Es ist schwer, den Beginn der KI-Überlegenheit in Spielen zu bestimmen. Sie können Kasparovs Schachverlust, Li Sedols Niederlage gegen AlphaGos virtuelle Hände wählen. Eine weitere beliebte Option wäre der Tag 2011, an dem der legendäre Champion des Spiels Jeopardy! Ken Jennings verlor gegen IBM Watson. Watson war in der Lage, mit Hinweisen und Wortspielen umzugehen. "Ich begrüße die Entstehung unserer neuen Computer-Overlords", schrieb Jennings unter seiner letzten Antwort.

Es schien, dass Watson über ähnliche Bürokenntnisse verfügte wie die Leute, mit denen viele Probleme im wirklichen Leben gelöst wurden. Er konnte die Eingabe auf Englisch wahrnehmen, die damit verbundenen Dokumente im Handumdrehen verarbeiten, verbundene Informationen abrufen und eine beste Antwort auswählen. Aber sieben Jahre später stellt die Realität weiterhin komplexe Hindernisse für die KI dar. Der Gesundheitsbericht von Stat vom September zeigte, dass Watsons Erbe, ein Spezialist für Krebsforschung und personalisierte Behandlungsrichtlinien für Watson for Oncology, Probleme hatte.

"Fragen im Spiel Gefahr! Es ist einfacher zu handhaben, weil es keinen gesunden Menschenverstand braucht “, schrieb Bengio, der mit dem Watson-Team zusammenarbeitete, auf die Bitte, die beiden Fälle hinsichtlich der KI zu vergleichen. „Es ist viel schwieriger, einen medizinischen Artikel zu verstehen. Eine große Menge an Grundlagenforschung ist erforderlich. “

Obwohl die Spiele eng spezialisiert sind, ähneln sie mehreren realen Aufgaben. Forscher von DeepMind wollten keine Interviewfragen beantworten, was darauf hinweist, dass ihre Arbeit an AlphaZero derzeit von unabhängigen Experten untersucht wird. Das Team schlug jedoch vor, dass eine solche Technologie bald biomedizinischen Forschern helfen könnte, die die Proteinfaltung verstehen wollen.

Dazu müssen sie verstehen, wie sich die verschiedenen Aminosäuren, aus denen das Protein besteht, zu einer kleinen dreidimensionalen Maschine biegen und falten , deren Funktionalität von ihrer Form abhängt. Diese Komplexität ähnelt der Komplexität des Schachs: Chemiker kennen die Gesetze so gut, dass sie bestimmte Szenarien grob berechnen können, aber es gibt so viele mögliche Konfigurationen, dass Sie nicht alle möglichen Optionen suchen können. Aber was ist, wenn Proteinfaltung ein Spiel ist? Und das wurde bereits unternommen. Seit 2008 haben Hunderttausende das Online-Spiel Foldit ausprobiert, bei dem Benutzer Punkte für die Stabilität und Realität der von ihnen aufgerollten Proteinstruktur erhalten. Eine Maschine könnte auf ähnliche Weise trainieren und möglicherweise versuchen, ihre bisher beste Leistung durch Verstärkungstraining zu übertreffen.

Das verstärkte Lernen und Spielen mit sich selbst kann helfen, interaktive Systeme zu trainieren, schlägt Saskaver vor. Dies kann Robotern, die mit Menschen sprechen müssen, die Möglichkeit geben, dies zu trainieren, während sie mit sich selbst sprechen. Angesichts der Tatsache, dass Spezialausrüstung für KI immer schneller und erschwinglicher wird, erhalten Ingenieure mehr Anreize, Aufgaben in Form von Spielen zu entwerfen. "Ich denke, dass in Zukunft die Bedeutung des Spielens mit sich selbst und anderer Möglichkeiten, eine große Menge an Rechenleistung zu verbrauchen, zunehmen wird", sagte Satskever.

Aber wenn das Endziel der Maschinen darin besteht, alles zu wiederholen, was eine Person kann, dann hat selbst der allgemeine Champion in Brettspielen wie AlphaZero noch Raum zum Wachsen. „Ich muss zumindest auf die große Kluft zwischen realem Denken, kreativer Erforschung von Ideen und den aktuellen Fähigkeiten der KI achten“, sagt John Tenenbaum , Kognitionswissenschaftler am MTI."Solche Intelligenz existiert, aber bisher nur in den Köpfen der großen KI-Forscher."

Viele andere Forscher, die den Hype um ihr Gebiet spüren, bieten ihre eigenen Kriterien an. „Ich würde empfehlen, die Bedeutung dieser Spiele für die KI oder für allgemeine Aufgaben nicht zu überschätzen. Die Leute sind nicht sehr gut darin, das Spiel zu spielen “, sagt Francois Cholet, ein Deep-Learning-Forscher bei Google. "Aber denken Sie daran, dass selbst sehr einfache und spezialisierte Werkzeuge viel bewirken können."

Source: https://habr.com/ru/post/de410999/


All Articles