Warum haben selbstlernende KIs Probleme in der realen Welt?



Die neuesten selbstlernenden Systeme der künstlichen Intelligenz können ein Spiel von Grund auf neu lernen und Weltmeister werden. Bis vor kurzem begannen Maschinen, die Champions schlagen konnten, ihr Studium mit dem Studium der menschlichen Erfahrung. Um Garry Kasparov 1997 zu besiegen, haben IBM-Ingenieure die Informationen, die sich über Jahrhunderte der Leidenschaft der Menschheit für Schach angesammelt haben, auf Deep Blue hochgeladen. Im Jahr 2016 übertraf die bei Google DeepMind entwickelte künstliche Intelligenz AlphaGo den Champion Lee Sedola im alten Go-Brettspiel, nachdem zuvor Millionen von Positionen aus Zehntausenden von Spielen von Menschen untersucht worden waren. Aber jetzt überdenken KI-Entwickler den Ansatz, menschliches Wissen in elektronische Gehirne zu integrieren. Aktueller Trend: Kümmere dich nicht darum.

Im Oktober 2017 veröffentlichte das DeepMind-Team Informationen über ein neues System zum Spielen von Go - AlphaGo Zero. Sie studierte überhaupt keine Partys, die von Menschen gespielt wurden. Stattdessen lernte sie die Regeln und begann mit sich selbst zu spielen. Die ersten Züge waren völlig zufällig. Nach jedem Spiel analysierte das System, was zum Sieg oder zur Niederlage führte. Nach einer Weile begann AlphaGo Zero mit dem gepumpten Sieger Lee Sedola - AlphaGo zu spielen. Und sie besiegte sie mit einer Punktzahl von 100: 0.


Lee Sedol, 18-facher Weltmeister im Go-Spiel, während eines Spiels mit AlphaGo im Jahr 2016.

Dann entwickelten die Forscher ein System, das zum stärksten Spieler in der AlphaGo-Familie wurde - AlphaZero. In einem im Dezember veröffentlichten Artikel berichteten DeepMind-Entwickler, dass AlphaZero, das ebenfalls von Grund auf gelernt hatte, AlphaGo Zero übertraf - das heißt, es besiegte den Bot, der den Bot besiegte, der den besten Spieler in Go der Welt besiegte. Und als sie die Schachregeln sowie die japanische Version dieses Spiels - Shogi - erhielt, lernte AlphaZero schnell, die mächtigsten Algorithmen in diesen Spielen zu besiegen. Experten waren von dem aggressiven, ungewöhnlichen Spielstil überrascht. Der dänische Großmeister Peter Heine Nielsen bemerkte : „Ich war immer daran interessiert zu wissen, was passieren würde, wenn Übernatürliche zur Erde fliegen würden, und zeigte uns, wie sie Schach spielen können. Jetzt weiß ich es. “

Letztes Jahr haben wir das Aufkommen jenseitiger selbstlernender Bots in so unterschiedlichen Bereichen wie unbegrenztem Poker und Dota 2 gesehen.

Es ist klar, dass Unternehmen, die in diese und ähnliche Systeme investieren, viel ehrgeizigere Pläne haben als dominierende Spielmeisterschaften. Die Forscher hoffen, ähnliche Methoden verwenden zu können, um echte Probleme zu lösen, beispielsweise die Herstellung von Supraleitern, die bei Raumtemperatur arbeiten, oder die Verwendung von Origami-Prinzipien, um Proteine ​​in Moleküle potenter Wirkstoffe zu legen. Und natürlich hoffen viele Praktiker, eine Allzweck-KI zu schaffen - das Ziel ist vage, aber aufregend, was bedeutet, dass die Maschine in der Lage sein wird, wie eine Person zu denken und eine Vielzahl von Problemen zu lösen.

Trotz der großen Investitionen von Kräften und Mitteln in solche Systeme ist nicht klar, wie weit sie von der Sphäre der Spiele entfernt sein können.

Ideale Ziele für eine unvollkommene Welt


Viele Spiele, einschließlich Schach und Go, sind durch die Tatsache verbunden, dass die Spieler immer das gesamte Layout auf dem Spielfeld sehen. Jeder Spieler hat zu einem bestimmten Zeitpunkt „vollständige Informationen“ über den Status des Spiels. Aber je schwieriger das Spiel ist, desto weiter müssen Sie vom aktuellen Moment an vorausdenken. In der Realität ist dies normalerweise nicht der Fall. Stellen Sie sich vor, Sie haben den Computer gebeten, eine Diagnose zu stellen oder Geschäftsverhandlungen zu führen. Noam Brown , Doktorand am Institut für Informatik der Carnegie Mellon University: „Die meisten echten strategischen Beziehungen verwenden versteckte Informationen. Ich habe das Gefühl, dass viele Teilnehmer der KI-Community diesen Umstand ignorieren. “

Brown ist auf die Entwicklung von Pokerspielalgorithmen spezialisiert, und es gibt andere Schwierigkeiten in diesem Spiel: Sie sehen die Karten Ihrer Rivalen nicht. Aber hier erreichen Maschinen, die lernen, selbständig zu spielen, bereits himmelhohe Höhen. Im Januar 2017 schlug ein von Brown und Tuomas Sandholm entwickeltes Programm namens Libratus einen von vier Profispielern in unbegrenztem Texas Hold'em. Am Ende des 20-tägigen Turniers gewann der Bot 1,7 Millionen Dollar mehr als seine Rivalen.

Die Multiplayer-Strategie von StarCraft II ist ein noch beeindruckenderes Spiel, das einen unvollständigen Besitz von Informationen über die aktuelle Situation impliziert. Hier hat die KI den Olymp noch nicht erreicht. Dies wird durch die große Anzahl von Zügen im Spiel, die oft in Tausenden gemessen werden, und die hohe Geschwindigkeit ihrer Ausführung behindert. Jeder Spieler - eine Person oder eine Maschine - muss bei jedem Klick über die unbegrenzte Vielfalt weiterer Entwicklungen nachdenken.

Bisher kann AI nicht zu gleichen Bedingungen mit den besten Spielern konkurrieren. Aber Entwickler streben danach. Im August 2017 hat DeepMind die Unterstützung von Blizzard Entertainment (der StarCraft II entwickelt hat) für die Erstellung von Tools gewonnen, die KI-Forschern helfen sollen.

Trotz der Schwierigkeit des Gameplays besteht die Essenz von StarCraft II in einer einfachen Aufgabe: die Feinde zu zerstören. Das gleiche gilt für Schach, Go, Poker, Dota 2 und fast jedes andere Spiel. Und in Spielen kann man gewinnen.

Aus Sicht des Algorithmus sollte die Aufgabe eine „Zielfunktion“ haben, die gefunden werden muss. Es war nicht allzu schwer, als AlphaZero Schach spielte. Verlieren wird als -1, Unentschieden - 0, Sieg - +1 gezählt. Die Zielfunktion von AlphaZero war es, maximale Punkte zu sammeln. Die Zielfunktion für den Poker-Bot ist ebenfalls einfach: Gewinnen Sie viel Geld.


Der Algorithmus lernt komplexes Verhalten - Gehen auf einer unbekannten Oberfläche.

Im Leben ist nicht alles so klar. Beispielsweise benötigt ein unbemanntes Fahrzeug eine spezifischere Zielfunktion. So etwas wie eine vorsichtige Aussage seines Verlangens, die den Geist erklärt. Zum Beispiel: Bringen Sie Passagiere schnell zum richtigen Ziel, beachten Sie alle Regeln und bewerten Sie das Leben von Menschen in gefährlichen und unsicheren Situationen richtig. Pedro Domingos , Informatikspezialist an der Washington University: „Der Unterschied zwischen einem wunderbaren und einem gewöhnlichen Forscher für maschinelles Lernen liegt unter anderem in der Art und Weise, wie die Zielfunktion formuliert wird.“

Denken Sie an den Tay-Twitter-Chatbot, der am 23. März 2016 von Microsoft gestartet wurde. Sein Ziel war es, Menschen einzubeziehen, und er hat es erreicht. Aber plötzlich wurde klar, dass der beste Weg, um die Beteiligung zu maximieren, darin besteht, alle Arten von Beleidigungen auszustoßen. Der Bot wurde weniger als einen Tag später ausgeschaltet.

Dein persönlicher schlimmster Feind


Etwas bleibt unverändert. Die Methoden moderner dominanter Game Bots basieren auf Strategien, die vor Jahrzehnten erfunden wurden. Genau die gleichen Grüße aus der Vergangenheit, nur unterstützt durch moderne Rechenleistung.

Diese Strategien basieren normalerweise auf verstärktem Lernen, einer Methodik ohne menschliches Eingreifen. Anstatt den Algorithmus sorgfältig anhand detaillierter Anweisungen zu steuern, ermöglichen die Ingenieure der Maschine, die Umgebung zu erkunden und Ziele durch Ausprobieren zu erreichen. Vor der Veröffentlichung von AlphaGo und seinen Nachkommen im Jahr 2013 erzielte das DeepMind-Team ein ernstes, wichtiges Ergebnis, indem es dem Bot das Verstärkungstraining beibrachte, sieben Spiele für den Atari 2600 zu spielen, und in drei davon - auf Expertenebene.

Am 5. Februar hat das DeepMind-Team IMPALA eingeführt , ein KI-System, das 57 Spiele für den Atari 2600 spielen kann, sowie weitere 30 dreidimensionale Level, die in DeepMind erstellt wurden. Auf diesen Ebenen geht der Spieler durch verschiedene Orte und Räume, löst Probleme wie das Öffnen von Türen und das Aufheben von Pilzen. Darüber hinaus übertrug IMPALA die gesammelten Erfahrungen zwischen Aufgaben, dh jede gespielte Sitzung verbesserte die Ergebnisse der nächsten Sitzung.

Innerhalb der breiteren Kategorie des verstärkten Lernens ermöglichen Brett- und Mehrspielerspiele jedoch einen noch spezielleren Ansatz. Forschung kann die Form eines Spiels mit sich selbst annehmen, wenn der Algorithmus Erfahrung sammelt und mit seiner eigenen Kopie zu kämpfen hat.

Diese Idee ist auch sehr viele Jahre alt. In den 1950er Jahren erstellte der IBM-Ingenieur Arthur Samuel ein Überprüfungsprogramm, das sich teilweise mit Spielen zwischen Alpha und Beta befasste. In den 1990er Jahren entwickelte Gerald Tesauro, ebenfalls von IBM, ein Backgammon-Spiel, das seinen eigenen Algorithmus gegen sich selbst stellte. Der Bot erreichte das Niveau eines menschlichen Experten und entwickelte nicht standardisierte, aber effektive Strategien.

Beim Spielen mit sich selbst trifft der Algorithmus in jedem Spiel auf einen gleichen Konkurrenten. Daher führen Änderungen in der Strategie aufgrund der sofortigen Reaktion des Kopieralgorithmus zu unterschiedlichen Ergebnissen. Ilya Sutskever , Forschungsdirektor bei OpenAI: "Jedes Mal, wenn Sie etwas Neues lernen, entdecken Sie die kleinsten Informationen über das Spiel und die Umgebung, und Ihr Gegner verwendet sie sofort gegen Sie." Im August 2017 veröffentlichte OpenAI einen Bot für Dota 2 , der den Shadow Fiend-Charakter - so etwas wie einen Nekromanten-Dämon - kontrollierte und die besten Spieler der Welt in Kämpfen besiegte. Ein weiteres Projekt des Unternehmens: Zwei Algorithmen steuern Sumo-Wrestler und lernen voneinander . Und während eines solchen Trainings ist es unmöglich zu stagnieren, man muss sich ständig verbessern.


Der in OpenAI für Dota 2 erstellte Bot lernte unabhängig voneinander mehrere komplexe Strategien.

Aber die alte Idee, mit sich selbst zu spielen, ist nur eine der Zutaten für die moderne Überlegenheit von Bots, die ihr Spielerlebnis noch irgendwie „überdenken“ müssen. In Schach, Go und Videospielen wie Dota 2 gibt es eine Vielzahl möglicher Kombinationen. Selbst wenn die Maschine viele Leben in Kämpfen mit seinem Schatten auf virtuellen Arenen verbracht hat, kann sie nicht jedes mögliche Szenario berechnen, um eine Tabelle mit Aktionen zu erstellen und sie zu konsultieren, wenn sie sich erneut in einer ähnlichen Situation befindet.

Um in einem Meer von Möglichkeiten über Wasser zu bleiben, müssen Sie die Essenz verallgemeinern und erfassen. IBM Deep Blue war dank der integrierten Schachformeln erfolgreich. Ausgestattet mit der Fähigkeit, Kombinationen auf dem Brett zu bewerten, die er noch nie zuvor getroffen hatte, passte der Computer Bewegungen und Strategien an, um die Wahrscheinlichkeit seines Sieges zu erhöhen. Aber neue Techniken, die in den letzten Jahren aufgetaucht sind, haben es möglich gemacht, Formeln aufzugeben.

Tiefe neuronale Netze werden immer beliebter. Sie bestehen aus Schichten künstlicher „Neuronen“ wie Pfannkuchen in einem Stapel. Wenn Neuronen in einer Schicht ausgelöst werden, senden sie Signale an die nächste Schicht, sie senden an die nächste und so weiter. Durch Anpassen der Verbindungen zwischen den Schichten erzielen solche neuronalen Netze fantastische Ergebnisse und wandeln die Eingabedaten in eine Art miteinander verbundenes Ergebnis um, selbst wenn die Verbindung abstrakt erscheint. Angenommen, einem neuronalen Netzwerk kann eine englische Phrase zugewiesen werden, die ins Türkische übersetzt wird. Oder Sie können ihr Fotos aus einem Tierheim geben, und das neuronale Netzwerk findet die Bilder, die Katzen darstellen. Oder Sie können die Regeln des Brettspiels einem tiefen neuronalen Netzwerk zeigen und es berechnet die Wahrscheinlichkeit seines Sieges. Wie Sie jedoch verstehen, muss das neuronale Netzwerk zunächst aus einer Stichprobe beschrifteter Daten lernen.

Neuronale Netze, die mit sich selbst spielen, und tiefe neuronale Netze ergänzen sich gut. Das Spielen mit sich selbst-Netzwerken erzeugt einen Informationsfluss über Spiele und bietet tiefen Netzwerken eine theoretisch endlose Datenquelle für das Training. Tiefe Netzwerke bieten wiederum eine Möglichkeit, die Erfahrungen und Muster zu absorbieren, die durch das Spielen mit sich selbst gewonnen wurden.

Aber es gibt einen Trick. Damit Systeme, die mit sich selbst spielen, nützliche Daten generieren können, benötigen sie einen realistischen Ort zum Spielen.

Alle Spiele werden gespielt, alle Höhen werden in Umgebungen erreicht, in denen Sie die Welt mit unterschiedlichem Selbstvertrauen emulieren können. In anderen Bereichen ist es nicht so einfach, beeindruckende Ergebnisse zu erzielen.

Zum Beispiel sind unbemannte Fahrzeuge bei schlechtem Wetter schwer zu fahren, und Radfahrer auf der Straße stören sich stark. Außerdem können Drohnen eine nicht standardmäßige, aber reale Situation falsch bewerten, z. B. einen Vogel, der direkt in die Kamera des Autos fliegt. Oder nutzen Sie AI weniger exotisch - einen Roboter-Armmanipulator. Zunächst müssen ihr die Grundlagen körperlicher Handlungen beigebracht werden, damit die Hand zumindest versteht, wie man sie lernt. Gleichzeitig kennt sie die Besonderheiten des Berührens verschiedener Oberflächen und Gegenstände nicht. Daher muss die Maschine üben, um Probleme wie das Abschrauben des Deckels von der Flasche oder die Durchführung eines chirurgischen Eingriffs zu lösen.

Yoshua Bengio , Deep Learning-Spezialist an der Universität von Montreal: „In einer schwer zu simulierenden Situation ist das Lernmodell„ Spiel mit dir selbst “nicht sehr nützlich. "Es gibt einen großen Unterschied zwischen einem wirklich idealen Modell der Umwelt und einem Modell des Gelehrten", geplagt ", insbesondere wenn die Umwelt komplex ist."

Leben nach den Spielen


Es ist schwer genau zu sagen, wann die Überlegenheit der KI in Spielen begann. Sie können wählen, ob Sie Kasparov verlieren oder Lee Sedola besiegen möchten. Oft läuft der Countdown ab 2011, mit dem Verlust von Ken Jennings, dem Champion des Fernsehspiels Jeopardy! in einer zweitägigen Rivalität mit IBM Watson. Die Maschine konnte den Wortlaut und das Wortspiel verstehen. Die Entwickler haben Watson die Möglichkeit gegeben, den uns innewohnenden Text zu verarbeiten. Der Computer kann einen englischsprachigen Phrasenhinweis für ein Wort verwenden, relevante Dokumente mit hoher Geschwindigkeit anzeigen, Informationen hervorheben und die beste Antwort auswählen.

Aber im Laufe der Jahre sind die „normalen“ Lebensaufgaben für die KI immer noch nicht zugänglich. Im September 2017 wurde ein Bericht veröffentlicht, nach dem es im Rahmen des Watson for Oncology-Projekts große Schwierigkeiten bei der Erforschung und Entwicklung persönlicher Krebsbehandlungsmethoden gab. Der Computer ist viel einfacher zu verstehen, was die Fragen in Jeopardy! als die Essenz des medizinischen Artikels zu verstehen.

Es gibt jedoch eine Reihe von realen Aufgaben, die so hoch spezialisiert sind wie Spiele. Gerüchten zufolge arbeitet das DeepMind-Team daran, AlphaZero für den Einsatz in der biomedizinischen Proteinfaltungsforschung anzupassen. Dazu müssen Entwickler verstehen, wie die Aminosäuren, die Proteine ​​bilden, zu kleinen dreidimensionalen Strukturen gefaltet werden können, deren Funktionen von der Form abhängen. Es ist so schwierig wie ein Schachspiel: Chemiker kennen einige Prinzipien, mit denen einige Szenarien berechnet werden können, aber die Fülle möglicher dreidimensionaler Konfigurationen ist so groß, dass es einfach nicht realistisch ist, sie alle zu studieren. Aber was ist, wenn Sie Protein in ein Spiel verwandeln? Das haben sie schon getan. Seit 2008 haben sich Hunderttausende von Spielern beim Online-Spiel Foldit versucht, bei dem Punkte für die Stabilität und Machbarkeit der erstellten Proteinstrukturen vergeben wurden. Eine Maschine kann sich auf die gleiche Weise trainieren, beispielsweise durch Verstärkungstraining, um die besten Ergebnisse menschlicher Spieler zu übertreffen.

Verstärkungslernen und Selbstspiel können auch dazu beitragen, interaktive Systeme zu trainieren. Dann können Roboter mit Menschen sprechen und lernen zuerst, mit sich selbst zu sprechen. Angesichts der Steigerung der Produktivität und Verfügbarkeit von Spezialausrüstung für KI erhalten Ingenieure einen Anreiz, immer mehr reale Aufgaben in die Form eines Spiels zu übersetzen. Es ist wahrscheinlich, dass in Zukunft die Bedeutung der Methode „Mit sich selbst spielen“ und anderer Ansätze, die enorme Rechenleistung erfordern, nur noch zunehmen wird.

Wenn unser Hauptziel jedoch darin besteht, eine Maschine zu schaffen, die genauso viel kann wie Menschen, und eine selbstlernende Maschine, dann haben Champions von Brettspielen wie AlphaZero mögliche Entwicklungspfade. Es ist notwendig, die Kluft zwischen realer geistiger Aktivität, kreativem Verständnis von Ideen und dem, was wir heute im Bereich der KI sehen, zu erkennen. Dieses helle Bild der künstlichen Intelligenz existiert größtenteils in den Köpfen großer Forscher.

Viele Wissenschaftler, die sich des Hype bewusst sind, bieten ihre eigenen Klassifikationen an. Es besteht keine Notwendigkeit, die Bedeutung von Bots, die Spiele spielen, für die Entwicklung der KI im Allgemeinen zu überschätzen. Die Leute zum Beispiel können nicht sehr gut spielen. Andererseits können sehr einfache, spezialisierte Werkzeuge für einige Aufgaben große Höhen erreichen.

Source: https://habr.com/ru/post/de411761/


All Articles