DeepMind kann nicht aufhören: AI kann jetzt Quake III Arena spielen



DeepMind, einst ein Geschäftsbereich der Google Corporation, entwickelt AI (seine schwache Form) für verschiedene Zwecke. Jetzt ist das DeepMind-Team aktiv an der Erstellung verschiedener Formen von KI beteiligt, die sowohl für logische als auch für Desktop- und Shooter-Spiele entwickelt wurden. Es gibt viele Spiele - das ist los, StarCraft und jetzt - und die Quake III Arena.

Die Entwickler sagten in ihrem Blog, dass sie das KI-System so trainiert haben, dass es Quake III Arena genauso spielt wie eine Person. Das heißt, das Computersystem hat gelernt, sich an sich schnell ändernde Spielbedingungen anzupassen, einschließlich der Schaltstufen und ihrer Elemente. Traditionell wurde im Training ein verstärktes System verwendet.

Während dieser Art von Training erhält der Computer eine Belohnung oder eine Geldstrafe, je nachdem, ob die Passage erfolgreich ist oder nicht. In der Regel besteht das Problem eines Computers darin, dass er sich nicht schnell an sich ändernde Bedingungen anpassen kann - genau wie eine Person. Trotz der Tatsache, dass neuronale Netze seit langem aus ihren eigenen Fehlern lernen können, sind Computerspiele für sie schwierig, wenn das System die Anfangsbedingungen nicht kennt.

Das System wurde darauf trainiert, im Capture The Flag-Modus zu spielen. In diesem Fall muss der Spieler versuchen, die Flagge des Gegners zu erobern, aber in keinem Fall sollte er zulassen, dass seine eigene Flagge erobert wird. Wenn ein Team die Flagge des Gegners innerhalb von fünf Minuten maximal so oft erobern und halten kann, ist ein solches Team der Gewinner.

Um zu verhindern, dass die KI einfach die Merkmale des Levels lernt, einschließlich der Position von Räumen, Gebäuden usw., musste das neuronale Netzwerk jedes Mal auf einem neuen Level spielen. In diesem Fall entwickelte AI eine eigene Spielstrategie, ohne zu stopfen. Der Computer beobachtete die Aktionen anderer Spieler, studierte die „Geographie“ des Levels und handelte entsprechend der Situation.

Darüber hinaus haben Entwickler von Deepmind AI geschult, um das gesamte Team zu spielen, das aus verschiedenen Agenten besteht. Das gesamte System heißt For The Win (FTW).

So lernte For The Win (FTW), sein Team zu führen und die Aktionen jedes Agenten zu koordinieren und zu steuern. Wie oben erwähnt, besteht die Aufgabe darin, die eigene Flagge zu bewahren und die eines anderen zu erobern. Nachdem der Computer ein bestimmtes Niveau erreicht hatte, wurde DeepMind angeboten, mit normalen Spielern in einem speziellen Turnier zu spielen.


Alle 40 Personen haben daran teilgenommen. Die Teams im Turnier waren gemischt - das heißt, in einem Team könnten sowohl Personen als auch KI-Agenten sein. Nach den Ergebnissen des Spiels wurde klar, dass KI in ihrer reinen Form mehr Siege als Teams von Menschen gewann. In gemischten Teams zeigte die KI ein höheres Maß an Zusammenarbeit als die Menschen normalerweise zeigen. Der Computer diente also bei Bedarf als Sklave oder war direkt an dem Angriff auf die feindliche Basis beteiligt.

Laut den Entwicklern können die Arbeitsprinzipien, die zum Erstellen von For The Win (FTW) verwendet wurden, auch zum Spielen anderer Titel verwendet werden, z. B. StarCraft II oder Dota 2.

Anfang dieses Monats demonstrierte DeepMind den Prozess des Lernens von KI für das Bestehen von Spielen der alten Schule - auf Atari. Das Prinzip des Verstärkungstrainings wurde auch hier angewendet, und es ist ziemlich schwierig, der KI beizubringen, alte Spiele zu bestehen, da viele Aktionen des Protagonisten sehr implizit sind.

Grundlage war das Spiel Montezumas Rache. Es gibt weder eine klare Aufgabe noch eine Richtung, wohin man gehen soll, noch ein Verständnis dafür, was gesammelt werden muss oder gegen wen man sprechen kann. Für das Lehren des Beispiels wurden zwei Methoden verwendet: TDC (zeitliche Entfernungsklassifizierung) und CDC (crossmodale zeitliche Entfernungsklassifizierung).

Der Computer hat gelernt, das Spiel mithilfe von Video-Komplettlösungen von YouTube zu spielen - es gibt viele davon im Dienst. Während der Passage wurden die Frames der Videoaufzeichnung zum Bestehen der KI-Stufen und ihrer "Lehrer" von YouTube verglichen. Wenn der Vergleich ein hohes Maß an Ähnlichkeit ergab, würde die KI eine Belohnung erhalten. Wie sich herausstellte, führt die KI nach einiger Zeit dieselbe Abfolge von Aktionen aus wie die Person.

Bei StarCraft, das oben erwähnt wurde, besiegte eine Person im Jahr 2017 das Auto immer noch und trocknete es mit einer Punktzahl von 4: 0. Der StarCraft-Profi Song Byung-gu kämpfte dann gegen vier verschiedene StarCraft-Bots.

Source: https://habr.com/ru/post/de416209/


All Articles