Hat AlphaGo eine Chance im Spiel gegen Lee Sedol: Meinungen und Bewertungen von Profispielern in th

Das 9. Go-Pro-Spiel von Google und die KI von Google finden im MĂ€rz statt


Kein Computer ist in der Lage, einen professionellen Spieler im asiatischen Brettspiel zu schlagen. Die Sache dreht sich um die Eigenschaften des Spiels: Es gibt zu viele Positionen und es ist schwierig, die menschliche Intuition algorithmisch zu beschreiben. Die Welt hatte bis zum 27. Januar Ă€hnliche Ansichten. Vor einigen Tagen veröffentlichte Google Forschungsdaten aus seiner DeepMind-Abteilung . Es geht um das AlphaGo-System, das im Oktober letzten Jahres in fĂŒnf von fĂŒnf Spielen den professionellen Zweitspieler Dan Fan schlagen konnte.

Trotzdem hatten Profispieler und Bekannte von Anfang an Fragen zur QualitÀt des Spiels. Hui ist dreimaliger Meister, aber er ist Europameister, bei dem das Niveau des Spiels nicht zu hoch ist. Nicht nur die Entscheidung des Spielers, die Kraft von AlphaGo zu demonstrieren, sondern auch einige Bewegungen in den Gruppen werfen Fragen auf.

Algorithmus


Guo gilt seit langem als ein Spiel zum Trainieren, bei dem kĂŒnstliche Intelligenz aufgrund des riesigen Suchraums und der KomplexitĂ€t der Auswahl der ZĂŒge schwierig ist. Go gehört zur Klasse der Spiele mit perfekten Informationen, dh die Spieler sind sich aller Bewegungen bewusst, die andere Spieler zuvor gemacht haben. Die Lösung fĂŒr das Problem, das Ergebnis des Spiels zu finden, besteht darin, die optimale Wertfunktion in einem Suchbaum zu berechnen, der ungefĂ€hr b d mögliche ZĂŒge enthĂ€lt. Hier ist b die Anzahl der richtigen ZĂŒge in jeder Position und d die LĂ€nge des Spiels. FĂŒr Schach sind diese Werte b ≈ 35 und d ≈ 80, und eine vollstĂ€ndige Suche ist nicht möglich. Daher werden die Positionen der Figuren ausgewertet und anschließend die Bewertung bei der Suche berĂŒcksichtigt. 1996 gewann ein Computer zum ersten Mal Schach gegen einen Champion, und seit 2005 konnte kein Champion einen Computer schlagen.

FĂŒr go b ≈ 250, d ≈ 150. Die möglichen Positionen von Steinen auf einem Standardbrett sind mehr als Googol (10 100 ) mal höher als im Schach. Die Anzahl der möglichen Positionen ist grĂ¶ĂŸer als die Atome im Universum. Erschwerend kommt hinzu, dass es aufgrund der KomplexitĂ€t des Spiels schwierig ist, den Wert von ZustĂ€nden vorherzusagen. Zwei Spieler legen zweifarbige Steine ​​auf ein Brett einer bestimmten GrĂ¶ĂŸe, das Standardfeld besteht aus 19 × 19 Linien. Die Regeln variieren in Details, aber das Hauptziel des Spiels ist einfach: Sie mĂŒssen einen grĂ¶ĂŸeren Bereich auf dem Brett mit Steinen Ihrer Farbe umzĂ€unen als Ihr Gegner.

Bestehende Programme können auf Amateurebene abgespielt werden. Sie verwenden die Suche im Monte-Carlo-Baum, um den Wert jedes Zustands im Suchbaum zu bewerten. Die Programme enthalten auch Richtlinien, die die Bewegungen starker Spieler vorhersagen.

In jĂŒngster Zeit konnten tiefe Faltungs-Neuronale Netze gute Ergebnisse bei der Gesichtserkennung und Bildklassifizierung erzielen. Bei Google hat AI sogar gelernt, 49 alte Atari-Spiele alleine zu spielen . In AlphaGo interpretieren Ă€hnliche neuronale Netze die Position von Steinen auf dem Brett, was bei der Bewertung und Auswahl von Bewegungen hilft. Bei Google verfolgten die Forscher folgenden Ansatz: Sie verwendeten Wertschöpfungsnetzwerke und Richtliniennetzwerke. Dann werden diese tiefen neuronalen Netze sowohl auf einer Gruppe von Personengruppen als auch auf einem Spiel gegen ihre Kopien trainiert. Neu ist auch eine Suche, die die Monte-Carlo-Methode mit Netzwerken von Politik und Wert kombiniert. Trainingsschema und Architektur fĂŒr neuronale Netze.




Neuronale Netze wurden in mehreren Stufen des maschinellen Lernens trainiert. ZunĂ€chst wurde ein kontrolliertes Training des politischen Netzwerks direkt unter Verwendung der Bewegungen menschlicher Akteure durchgefĂŒhrt. Ein weiteres politisches Netzwerk wurde verstĂ€rkt. Der zweite spielte mit dem ersten und optimierte ihn so, dass sich die Politik auf einen Sieg verlagerte und nicht nur auf Vorhersagen von ZĂŒgen. Schließlich wurde eine Schulung durchgefĂŒhrt, die durch ein Wertschöpfungsnetzwerk verstĂ€rkt wurde, das den Gewinner von Spielen vorhersagt, die von politischen Netzwerken gespielt werden. Das Endergebnis ist AlphaGo, eine Kombination aus der Monte-Carlo-Methode und Netzwerken von Politik und Wert. Das Ergebnis der korrekten Vorhersage des nĂ€chsten Schrittes wurde in 57% der FĂ€lle erzielt. Vor AlphaGo lag das beste Ergebnis bei 44% .

160.000 Spiele mit 29,4 Millionen Positionen vom KGS- Server wurden als Eingabe fĂŒr das Training verwendet. Die Partys der Spieler vom sechsten bis zum neunten Dan wurden genommen. Eine Million Stellen wurden fĂŒr Tests zugewiesen, und das Training selbst wurde fĂŒr 28,4 Millionen Stellen durchgefĂŒhrt. Die StĂ€rke und Genauigkeit von Netzwerkrichtlinien und -werten. Damit die Algorithmen funktionieren, benötigen sie mehrere GrĂ¶ĂŸenordnungen mehr Rechenleistung als bei der herkömmlichen Suche. AlphaGo ist ein asynchrones Multithread-Programm, das Simulationen auf den Kernen des Zentralprozessors durchfĂŒhrt und Netzwerke von Richtlinien und Werten auf Videochips ausfĂŒhrt. Die endgĂŒltige Version sah aus wie eine 40-Thread-Anwendung, die auf 48 Prozessoren (wahrscheinlich separate Kerne oder sogar Hyper-Threading) und 8 Grafikbeschleunigern ausgefĂŒhrt wird. Außerdem wurde eine verteilte Version von AlphaGo erstellt, die mehrere Computer, 40 Suchströme, 1202 Kerne und 176 Videobeschleuniger verwendet.






Den vollstĂ€ndigen DeepMind-Bericht finden Sie im Dokument . Suche nach Monte Carlo in AlphaGo. Um die FĂ€higkeiten von AlphaGo zu bewerten, wurden interne Übereinstimmungen mit anderen Versionen des Programms sowie anderen Ă€hnlichen Produkten durchgefĂŒhrt. Ein Vergleich wurde mit so beliebten kommerziellen Programmen wie Crazy Stone und Zen sowie den stĂ€rksten Open-Source-Projekten Pachi und Fuego durchgefĂŒhrt. Alle basieren auf leistungsstarken Monte-Carlo-Algorithmen. Aber auch AlphaGo im Vergleich zu Nicht-Monte-Carlo-GnuGo. Die Programme erhielten 5 Sekunden pro Bewegung. Es wurde ein Vergleich sowohl des auf einem einzelnen Computer ausgefĂŒhrten AlphaGo als auch der verteilten Version des Algorithmus durchgefĂŒhrt.






Laut den Entwicklern zeigten die Ergebnisse, dass AlphaGo viel stĂ€rker ist als alle frĂŒheren Go-Programme. AlphaGo gewann 494 von 495 Spielen, was 99,8% der Spiele gegen andere Ă€hnliche Produkte entspricht. Go-Regeln erlauben ein Handicap , Handicap: Bis zu 9 schwarze Steine ​​können auf dem Spielfeld gesetzt werden, bevor sich Weiß bewegt. Aber selbst mit 4 Handicap-Steinen gewann die AlphaGo-Einzelmaschine 77%, 86% und 99% der Zeit gegen Crazy Stone, Zen und Pachi. Die verteilte Version von AlphaGo war deutlich stĂ€rker: In 77% der Spiele besiegte sie die Einzelmaschinenversion und in 100% der Spiele - alle anderen Programme. AlphaGo gegen andere Programme.




Schließlich wurde das erstellte Produkt mit einer Person verglichen. Profispieler 2 Dan kĂ€mpfte gegen die verteilte Version von AlphaGo, Fan Hui, dem Gewinner der Go-Europameisterschaft 2013, 2014 und 2015. Die Spiele wurden unter Beteiligung eines Richters der British Federation of Go und des Herausgebers der Zeitschrift Nature abgehalten. Im Zeitraum vom 5. bis 9. Oktober 2015 fanden 5 Spiele statt. Alle haben den Google DeepMind-Entwicklungsalgorithmus gewonnen. Es waren diese Spiele, die zu der Aussage fĂŒhrten, dass der Computer als erster in der Lage war, einen professionellen Spieler zu schlagen. ZusĂ€tzlich zu 5 offiziellen Parteien wurden 5 inoffizielle Parteien abgehalten, die nicht zĂ€hlten. Fan gewann zwei von ihnen.

ErhĂ€ltlich Aufnahme bewegt fĂŒnf Spiele , in einem Web - Widget sehen , und Videos auf YouTube .

Kritik von Profispielern


Die Wahl eines Profispielers und das schwache Spiel des Champions werden in Frage gestellt. Die gewÀhlten Regeln sind ebenfalls unklar: eine Stunde pro Spiel anstelle mehrerer Stunden ernsthafter Spiele. Das Format wurde jedoch von Hui selbst gewÀhlt. Im MÀrz wird AlphaGo gegen Lee Sedola spielen. Kann der Algorithmus den koreanischen Profi des neunten Dan schlagen, der als einer der besten Spieler der Welt gilt? Auf dem Spiel steht eine Million Dollar. Wenn eine Person gewinnt, erhÀlt Li Sedol sie. Wenn der Algorithmus gewinnt, geht sie an einen wohltÀtigen Zweck.

Forscher sagen, dass das AlphaGo-System wĂ€hrend des Kampfes mit Menschen im Oktober wĂ€hrend eines historischen Spiels mit Kasparov tausende Male weniger Positionen als Deep Blue in Betracht gezogen hat. Stattdessen verwendete das Programm ein Netzwerk von Richtlinien fĂŒr intelligentere Entscheidungen und ein Netzwerk von Werten, um Positionen genauer zu messen. Vielleicht ist dieser Ansatz nĂ€her an der Art und Weise, wie Menschen spielen, sagen die Forscher. DarĂŒber hinaus wurde das Deep Blue-Bewertungssystem manuell programmiert, wĂ€hrend die neuronalen AlphaGo-Netze direkt aus den Spielen heraus trainiert wurden, wobei universelle Algorithmen fĂŒr ĂŒberwachtes Lernen und verstĂ€rkendes Lernen verwendet wurden. Lee Sedoll wird sich im MĂ€rz gegen AlphaGo versuchen.




Professionelle Spieler haben unterschiedliche Sichtweisen. Es scheint einigen, dass Google speziell keinen sehr starken Spieler ausgewÀhlt hat, jemand ist sich sicher, dass Sedol diesen MÀrz verlieren wird.

Kim Mengwang (9. Dan), einer der stÀrksten englischsprachigen Profispieler, glaubt, dass Fan Hui nicht mit voller Kraft gespielt hat. In der 51. Minute des Videos gibt er ein konkretes Beispiel aus der zweiten Folge. Fan hat möglicherweise beide mit einem schwÀcheren gespielt, um die Leistung des Computers zu testen, sagt Kim. Mengwan gab zu, dass AlphaGo ein schockierend mÀchtiges Programm ist, aber es ist unwahrscheinlich, dass Lee Sedol besiegt wird.



Schiedsrichter Toby Manning erzĂ€hlte dem British Go Journal von dem Spiel. Er analysierte alle fĂŒnf Spiele und hob einige Punkte hervor. AlphaGo hat im zweiten, dritten und vierten Spiel Fehler gemacht, aber Fan hat sie nicht verwendet. Der dreifache Europameister antwortete mit seinem eigenen. Der Artikel in der Zeitschrift endet mit einer allgemeinen positiven Bewertung von AlphaGo: Das Programm ist stark, aber es ist nicht klar, wie viel.

Außerdem erhielt ich bei der Vorbereitung des Materials Kommentare von russischen Fachleuten und Go-Liebhabern. Alexander Dinerstein (Kasan), dritter Dan (Profi), siebenmaliger Europameister:

Deep Blue . , , , . Google . .

4-4 ( -, starpoint ). . : 3-3, 3-4, 5-3, , , , . , . .

, , . . – , . , - . . 20-30 , , , , . , . , . .

, - 2016 (EGC), in dessen Rahmen immer ein Computerprogrammturnier stattfindet. Die Russische Föderation von Go lud alle stÀrksten Programme zur Teilnahme am Turnier ein. Wenn sie die Einladung annehmen, spielen Google- und Facebook-Programme möglicherweise zum ersten Mal untereinander. Letzterer geht im Gegensatz zu seinem Konkurrenten einen ehrlichen Weg. Der DarkForest-Bot spielt Tausende von Spielen auf dem KGS-Server . Die stÀrkste Version nÀhert sich dem sechsten Dan auf dem Server. Dies ist ein sehr gutes Niveau. Fan Hui und Spieler seines Levels - dies ist ungefÀhr der achte Dan auf dem Server (von neun möglichen). Der Unterschied liegt bei zwei steinernen Nachteilen. Mit einem solchen Unterschied kann ein Programm manchmal eine Person wirklich schlagen. Wenn zu gleichen Bedingungen, dann ungefÀhr in einer Charge von zehn.

Maxim Podolyak (St. Petersburg), VizeprÀsident der Russischen Föderation von Go:

, , , , , , , , . , Google : , . , . : , , , . , : , . Google . , . ? ?

Alexander Krainov (Moskau), Liebhaber des Spiels gehen:

Aufgrund meiner beruflichen TĂ€tigkeit kenne ich die Situation „von der anderen Seite“ recht gut.

Im Jahr 2012 gab es einen Quantensprung beim maschinellen Lernen im Allgemeinen. Die Datenmenge fĂŒr das Training, das Niveau der Algorithmen und die Leistung fĂŒr das Training haben ein solches Niveau erreicht, dass kĂŒnstliche neuronale Netze (die seit langem als Prinzip entwickelt wurden) fantastische Ergebnisse lieferten.

Der grundlegende Unterschied zwischen dem Training in neuronalen Netzen besteht darin, dass ihnen keine Eingabefaktoren zugewiesen werden mĂŒssen (im Fall von go erklĂ€ren Sie beispielsweise, welche Formen gut sind). Im Limit können ihnen sogar die Regeln nicht erklĂ€rt werden. Die Hauptsache ist, eine große Anzahl positiver (Bewegungen der Gewinnerseite) und negativer (Bewegungen der Verliererseite) Beispiele zu nennen. Und das Netzwerk wird sich selbst lernen.

, , . . : , , ( ) , .

, .

, , , . . . . , , .

Was Lee Sedol selbst sagt


Professionelle Go-Spieler kĂ€mpfen nicht um den Weltmeistertitel, sondern um Titel. Die Anerkennung und der Status des Meisters werden durch die Anzahl der Titel bestimmt, die er im Laufe des Jahres erhalten konnte. Lee Sedol ist einer der fĂŒnf stĂ€rksten Go-Spieler der Welt, und im MĂ€rz dieses Jahres muss er mit dem AlphaGo-System kĂ€mpfen.

Der koreanische Meister selbst sagt voraus, dass er mit 4: 1 oder 5: 0 gewinnen wird. Aber nach 2-3 Jahren wird Google Rache nehmen wollen, und dann wird das Spiel mit der aktualisierten Version von AlphaGo interessanter, sagt Lee.



Die Aufgabe, einen solchen Algorithmus zu erstellen, wirft neue Fragen darĂŒber auf, was Lernen und Denken sind. Wie M. Emelyanov erinnert , wird die dritte Stufe der Fertigkeit (Pin) von oben gemĂ€ĂŸ der alten chinesischen Klassifikation als „vollstĂ€ndige Klarheit“ bezeichnet. Ein solches Level des Spiels legt nahe, dass Entscheidungen intuitiv getroffen werden, ohne oder mit nur geringen Optionen. Einer der stĂ€rksten Meister des 20. Jahrhunderts, Guo Seigen, sagte, es schien ihm, als hĂ€tte er gegen den „Go-God“ mit zwei oder drei Handicap-Steinen gewonnen. Seigan glaubte, dass er fast die Grenze des VerstĂ€ndnisses des Spiels erreicht hatte. Kann ein neuronales Netzwerk dies erreichen? Vielleicht ist die menschliche Intuition ein von der Natur festgelegter Algorithmus?

Der Autor dankt Alexander Dinerstein und der Öffentlichkeit go_secrets fĂŒr Kommentare und Hilfe bei der Veröffentlichung.

Source: https://habr.com/ru/post/de389825/


All Articles