Wahrscheinlich hat jeder schon gehört, dass eine KI namens AlphaStar von Google Deepmind Profis in der Echtzeitstrategie von Starcraft 2 beschmiert hat. Dies ist ein beispielloser Fall in der Forschung zur künstlichen Intelligenz. Aber ich möchte konstruktive Kritik an dieser Leistung äußern.

Ich werde versuchen, Folgendes überzeugend zu beweisen:

AlphaStar spielte mit übermenschlicher Geschwindigkeit und Genauigkeit.
Deepmind behauptet, die KI daran gehindert zu haben, Aktionen auszuführen, die für Menschen physisch unmöglich sind. Die Entwickler haben dies nicht geschafft und wissen wahrscheinlich über ihre Neigung Bescheid.
Der Grund, warum AlphaStar mit übermenschlicher Geschwindigkeit spielt, liegt höchstwahrscheinlich in seiner Unfähigkeit, die erworbene Spam-Klick-Fähigkeit loszuwerden. Ich vermute, dass die Entwickler das Programm humaner machen wollten, dies aber nicht konnten. Es wird einige Zeit dauern, bis wir uns dieser These nähern. Aber dies ist der Hauptgrund, warum ich einen Artikel geschrieben habe. Bitte haben Sie etwas Geduld.

Zunächst möchte ich klarstellen, dass ich unprofessionell bin. Ich habe die Entwicklung der KI und der Starcraft 2-Szene viele Jahre lang verfolgt, aber ich gebe nicht vor, ein Experte zu sein. Wenn Sie Fehler bemerken, geben Sie diese bitte an. Ich bin nur ein Fan und das alles ist unglaublich aufregend für mich. In dem Artikel wird viel spekuliert, und ich gebe zu, dass ich die Hauptansprüche nicht definitiv beweisen kann. Wenn Sie den Artikel lesen und mit mir nicht einverstanden sind, argumentieren Sie bitte mit allen Vorbehalten konstruktiv. Ich möchte wirklich, dass du mich davon abhältst.

Immerhin ist AlphaStar eine erstaunliche Leistung. Meiner Meinung nach die größte Errungenschaft von Deepmind heute und ich freue mich darauf, dieses Programm weiter zu verbessern. Vielen Dank für Ihre Geduld. Also lass uns gehen.

Übermenschliche Geschwindigkeit AlphaStar

David Silver, Co-Direktor von AlphaStar: "AlphaStar kann nicht schneller reagieren und nicht mehr Klicks machen als ein Live-Spieler."

Hier ist der leitende KI-Designer, der eine wichtige Aussage macht (ab 1:39).

Im Jahr 2018 dominierte Serral die Starcraft 2-Szene. Er ist der amtierende Weltmeister und gewann sieben der neun großen Turniere, an denen er teilgenommen hat, was zu einer der stärksten Einzelspieler-Dominanzen in der Geschichte von Starcraft 2 führte. Der Typ ist sehr schnell. Vielleicht der schnellste der Welt.

Ansicht aus der ersten Person (ab 13:00 Uhr):

Schauen Sie sich sein APM oben links an. Dies ist eine Reduzierung der Anzahl der Aktionen pro Minute. Tatsächlich gibt diese Zahl an, wie schnell der Spieler auf die Maus- und Tastaturtasten klickt. Serral kann APM nie länger als 500 halten. Es gibt einen Anstieg auf APM 800, jedoch nur für den Bruchteil einer Sekunde und höchstwahrscheinlich aufgrund von Spam-Klicks, über die ich gleich sprechen werde.

Der schnellste Spieler der Welt kann also ein beeindruckendes APM 500-Niveau halten, aber AlphaStar hatte einen Anstieg von bis zu 1500+. Diese nicht-menschlichen Indikatoren über APM 1000 dauerten manchmal fünf Sekunden und sind voller sinnvoller Aktionen. 1.500 Aktionen pro Minute sind 25 Aktionen pro Sekunde. Dies ist für Menschen physikalisch unmöglich. Bitte beachten Sie auch, dass fünf Sekunden in Starcraft eine lange Zeit sind, insbesondere zu Beginn eines großen Kampfes. Wenn die übermenschliche Rate in den ersten fünf Sekunden der KI einen Vorteil verschafft, gewinnt sie dank des Schneeballeffekts leicht den Kampf. Hier ist der Beginn der AlphaStar-Schlacht im dritten Spiel gegen MaNa (ab 59:30 Uhr):

AlphaStar hält den APM 1000+ fünf Sekunden lang. Eine weitere Komplikation im vierten Spiel mit dem himmelhohen APM 1500+ (c 2:11:32):

Ein Kommentator zeigt auf einen akzeptablen durchschnittlichen APM. Aber es ist klar, dass diese Ausbrüche viel höher sind als die menschlichen Fähigkeiten.

Spam-Klicks, APM und chirurgische Genauigkeit von Robotern

Die meisten Spieler sind anfällig für Spam-Klicks. Sinnlose Klicks, die nichts beeinflussen. Zum Beispiel bewegt eine Person die Armee und klickt aus irgendeinem Grund mehrmals auf das Ziel. Welchen Effekt? Nichts. Die Armee wird nicht schneller gehen. Ein Klick war genug. Warum macht er das dann? Es gibt zwei Gründe:

Spam-Klick ist ein natürlicher Nebeneffekt, wenn eine Person versucht, so schnell wie möglich zu klicken.
Hilft beim Aufwärmen der Finger.

Erinnerst du dich an Serral? Seine beeindruckende Kraft liegt eigentlich nicht in der Geschwindigkeit, sondern in der Genauigkeit. Es hat nicht nur einen wirklich hohen APM, sondern ist auch erstaunlich effektiv (Gesamtklicks pro Minute, außer bei Spam-Klicks). Von nun an werde ich das effektive APM als EPM reduzieren. Es ist wichtig zu bedenken, dass EPM nur sinnvolle Maßnahmen berücksichtigt.

Schauen Sie sich an, wie ein ehemaliger Profi auf Twitter den Verstand verlor, als er Serrals EPM erkannte:

Serral hat in seinen WCS Leipzig-Wiederholungen durchweg 300+ EPM. 344 EPM in einem Spiel gegen die Biografie des Majors. Die 3 anderen Halbfinalisten sind rund 200 EPM. Die besten Koreaner, die ich mir angesehen habe, sind zwischen 200 und 240. Serral ist im Durchschnitt 50% schneller als seine Gegner. Beängstigend!
- Jos de Kroon (@Retjah), 1. Februar 2018

Sein EPM 344 ist ein fast unrealistischer Indikator. Es ist so groß, dass es mir immer noch schwer fällt zu glauben, dass dies wahr ist. Der Unterschied zwischen APM und EPM betraf auch AlphaStar. Wenn AI ohne Spam-Klicks spielen kann, bedeutet dies, dass sein Spitzen-EPM zeitweise dem Spitzen-APM entspricht? Dies macht Spannungsspitzen bis zu 1000+ noch unmenschlicher. Wenn wir berücksichtigen, dass AlphaStar mit perfekter Präzision spielt, erscheinen seine mechanischen Fähigkeiten völlig absurd. Er klickt immer genau dort, wo er klicken möchte. Die Leute vermissen es und AlphaStar arbeitet im richtigen Moment viermal schneller als der schnellste Spieler der Welt - mit der Genauigkeit, von der eine Person nur träumen kann.

Fast alle in der Community sind sich einig, dass AlphaStar Sequenzen ausgeführt hat, die kein Mensch wiederholen kann. Er war schneller und genauer als physisch möglich. Der schnellste Profi der Welt ist um ein Vielfaches langsamer. Die Genauigkeit kann nicht einmal verglichen werden.

Die Behauptung von David Silver, dass AlphaStar nur Aktionen ausführen kann, die eine Person reproduzieren kann, ist einfach nicht wahr.

Alles richtig machen oder einfach die Geschwindigkeit einschalten?

Oriol Vinyals, Leitender Architekt von AlphaStar: „Es ist wichtig, Spiele zu meistern, die als„ grundlegende Herausforderungen für die KI “anerkannt sind. Wir versuchen, intelligente Systeme zu schaffen, die unsere erstaunlichen Fähigkeiten übernehmen. Daher ist es sehr wichtig, dass sie so menschlich wie möglich lernen. Egal wie cool es sich anhört, aber das Erreichen einer maximalen Leistung im Spiel, wie sehr hohe APMs, hilft uns nicht wirklich dabei, die Fähigkeiten und den Fortschritt unserer Agenten zu messen, was den Benchmark unbrauchbar macht. "

Warum möchte Deepmind den Agenten darauf beschränken, als Person zu spielen? Warum nicht einfach ohne Einschränkungen schlecht laufen lassen? Der Grund ist, dass in Starcraft 2 mechanische Superkräfte das Gameplay ruinieren. In diesem Video greift der Bot eine Gruppe von Panzern mit mehreren Zerglingen an und realisiert die perfekte Mikrotaktik. Normalerweise können Zerglinge fast nichts gegen Panzer tun, aber dank Robotern wird die Mikrotaktik viel tödlicher: Sie zerstören Panzer mit minimalen Verlusten. Bei solch einem guten Einheitenmanagement muss die KI keine Strategie lernen. Schließlich ist Deepmind nicht daran interessiert, eine KI zu schaffen, die Starcraft-Profis einfach besiegt. Tatsächlich wollen sie dieses Projekt als Sprungbrett für die Förderung der allgemeinen KI-Forschung nutzen. Es ist sehr traurig, dass einer der Projektmanager Einschränkungen und menschliche Fähigkeiten erklärt, wenn der Agent diese eindeutig verletzt und seine Spiele gerade dank übermenschlicher Ausführung gewinnt.

AlphaStar ist den Mitarbeitern in der Einheitenverwaltung überlegen - dieser Faktor wurde nicht berücksichtigt, als die Entwickler das Spiel sorgfältig ausbalancierten. Diese unmenschliche Kontrolle kann jedes strategische Denken zerstören, das die KI beherrscht. Es kann sogar strategisches Denken völlig unnötig machen. Das Programm bleibt nicht nur bei einem lokalen Maximum hängen. Wenn das Spiel mit unmenschlicher Geschwindigkeit und Genauigkeit gespielt wird, ist der Missbrauch einer perfekten Einheitenkontrolle wahrscheinlich der beste, effektivste und zuverlässigste Weg, um zu gewinnen. Egal wie traurig es klingt.

Hier ist, was einer der Profis über die Stärken und Schwächen von AlphaStar sagte und mit einer Punktzahl von 1-5 gegen ihn verlor:

MaNa: „Ich würde sagen, dass seine beste Qualität das Unit Management ist. AlphaStar besiegte alle Spiele mit ungefähr der gleichen Anzahl von Einheiten. Der schlimmste Aspekt einer kleinen Anzahl von Spielen ist die hartnäckige Weigerung, ein Upgrade durchzuführen. Er war vom Sieg der Basiseinheiten so überzeugt, dass er praktisch nichts verbesserte, wofür er im Ausstellungsspiel [dem letzten Spiel mit MaNa, in dem die KI verlor - ca. trans.]. Es gab nicht so viele entscheidende Momente bei der Entscheidungsfindung, daher würde ich sagen, dass die Mechanik der Grund für den Sieg wurde. "

Unter Starcraft-Fans ist es fast einstimmig, dass AlphaStar fast ausschließlich aufgrund seiner übermenschlichen Geschwindigkeit, Reaktionszeit und Genauigkeit gewann. Die Profis, die gegen ihn gespielt haben, scheinen dem zuzustimmen. Ein Deepmind-Mitarbeiter spielte gegen AlphaStar, bevor das Programm gegen Profis gespielt wurde. Höchstwahrscheinlich wird er auch einer solchen Einschätzung zustimmen. David Silver und Oriol Vinyals wiederholen das Mantra, dass AlphaStar nur das kann, was eine Person ist, aber wir haben bereits gesehen, dass dies einfach nicht so ist.

AlphaStar scheint es nicht „richtig zu machen“, wie David sagt (ab 1:38):

Hier stimmt eindeutig etwas nicht.

Warum hat Deepmind AlphaStar übermenschliche Geschwindigkeit erlaubt?

Kommen wir zum Schluss zur Hauptsache. Vielen Dank für das Lesen zu diesem Ort. Aber zuerst, um es zusammenzufassen.

Wir wissen, was APM-, EPM- und Spam-Klicks sind.
Wir haben ein gewisses Verständnis für die maximalen Fähigkeiten des Menschen.
Das AlphaStar-Spiel widerspricht direkt den Behauptungen der Entwickler bezüglich seiner Einschränkungen.
Die Starcraft 2-Community war sich einig, dass AlphaStar dank der unmenschlichen Kontrolle der Einheiten gewann und nicht einmal exzellentes strategisches Denken benötigte.
Deepmind hat nicht vor, einen schnellen Bot zu erstellen, also hätte es nicht so spielen sollen.
Es ist sehr unwahrscheinlich, dass keiner der KI-Mitarbeiter von Starcraft glaubte, dass eine Person die Ausbrüche von APM 1500+ nicht wiederholen kann. Ihr Starcraft-Spezialist sollte mehr über Starcraft wissen als meiner. Sie arbeiten eng mit Blizzard zusammen, der geistiges Eigentum bei StarCraft besitzt. Es liegt in ihrem Interesse (siehe vorherigen Absatz sowie Aussagen von Silver und Vinyals), den Bot so nah wie möglich an der Person zu verhalten.

Warum hat Deepmind angesichts all dieser Punkte der KI überhaupt erlaubt, die Einschränkungen des menschlichen Körpers explizit zu umgehen?

Dies ist reine Spekulation meinerseits, und ich behaupte nicht, die genaue Geschichte zu kennen. Aber ich vermute, dass Folgendes passiert ist:

Zu Beginn des Projekts einigte sich Deepmind auf enge Grenzen. Zu diesem Zeitpunkt hat AlphaStar die übermenschlichen APM-Bursts verboten, die wir in der Demo gesehen haben. Wenn ich das System entwerfen würde, würde ich solche Einschränkungen festlegen:

Maximale durchschnittliche APM während des Spiels .
Maximaler kurzer APM-Burst . Ich denke, es ist ratsam, 4-6 Klicks pro Sekunde einzustellen. Erinnern Sie sich an Serral und sein EPM 344, das sich von der Konkurrenz abhebt? Dies sind weniger als sechs Klicks pro Sekunde. Gegen MaNa erzeugte das Programm über lange Zeiträume 25 Klicks pro Sekunde. Dies ist viel schneller als selbst die schnellsten Spam-Klicks einer Person, daher ist es unwahrscheinlich, dass die anfänglichen Einschränkungen dies zuließen.
Mindestzeit zwischen Klicks . Selbst wenn Sie die maximale Geschwindigkeit während Bursts begrenzen, kann der Bot in einem kurzen Moment während des zulässigen Intervalls, zu dem eine Person nicht in der Lage ist, sehr schnell klicken.

Einige schlagen vor, der Genauigkeit von Klicks ein zufälliges Element hinzuzufügen, aber ich vermute, dass dies die Lerngeschwindigkeit zu stark verringert.

Setzen Sie also Grenzen. Was weiter? Anschließend startete Deepmind ein Simulationstraining für Tausende von High-End-Amateur-Videospielen. In dieser Phase versucht der Agent lediglich nachzuahmen, was die Leute tun - und er beherrscht Spam-Klicks. Dies ist sehr wahrscheinlich, weil die Leute sie sehr oft herstellen. Dies ist fast das sich wiederholendste Verhaltensmodell bei Menschen, daher muss es sehr tief im Verhalten des Agenten verwurzelt sein.

Die maximalen APM-Bursts von AlphaStar liegen zunächst nahe an den festgelegten Grenzwerten. Die meisten AlphaStar-Klicks erwiesen sich jedoch als Spam-Klicks, sodass sein APM für einen normalen Kampf nicht ausreichte. Aber ohne Experimente gibt es kein Training. Folgendes hat einer der Entwickler in der gestrigen AMA gesagt: Ich denke, er ist in diesem Betrug ein wenig verschmiert:

Oriol Vinyals, leitender Architekt bei AlphaStar: „Es ist sehr interessant, AI beizubringen , mit niedrigem APM zu spielen. In der Anfangszeit trainierten unsere Agenten mit sehr niedrigen APMs und waren im Allgemeinen nicht in der Lage, Mikromanagement zu betreiben. “

Um das Lernen zu beschleunigen, erhöhen Entwickler die APM-Grenzwerte, indem sie kurze Bursts zulassen. Hier sind die APM-Einschränkungen, die für AlphaStar in einem Demo-Match gelten:

Oriol Vinyals: „Insbesondere haben wir ein Limit von 600 APM in Intervallen von 5 Sekunden, 400 APM in Intervallen von 15 Sekunden, 320 für 30 Sekunden und 300 für 60 Sekunden festgelegt. Wenn der Agent in diesen Intervallen weitere Aktionen ausführt, werden diese verworfen / ignoriert. Diese Werte stammen aus der menschlichen Statistik. “

Wenn Sie mit Starcraft nicht sehr vertraut sind, sehen solche Grenzwerte vernünftig aus, ermöglichen jedoch übermenschliche APM-Bursts, über die wir bereits gesprochen haben, sowie übermenschliche Genauigkeit.

Die maximale Anzahl von Spam-Klicks ist begrenzt. Normalerweise sind dies Befehle zum Bewegen oder Angreifen, wenn auf die Karte geklickt wird. Versuchen Sie, wie schnell Sie mit der Maus klicken können. Der Agent hat Spam-Klicks von Spielern gelernt und klickt nicht schneller als eine Person. Das heißt, zusätzliche APM-Klicks mit übermenschlicher Geschwindigkeit sind für Experimente "willkürlich".

Willkürliches APM wird für Kampfexperimente verwendet. Diese Interaktion tritt häufig während des Trainings auf. AlphaStar beginnt mit der Untersuchung einer neuen Art von Verhalten, das zu besseren Ergebnissen führt, und der Prozentsatz an Spam in Klicks wird reduziert.

Wenn der Agent die Vorteile erfahren hat, warum ist Deepmind nicht zu den ursprünglich härteren, humaneren Einschränkungen für APM zurückgekehrt? Sicherlich haben sie erkannt, dass KI übermenschliche Fähigkeiten zeigt. Die Starcraft-Community hat das unmenschliche Mikromanagement von AlphaStar fast einstimmig anerkannt. Profis sagten AMA, dass die Hauptstärke von AlphaStar die Kontrolle über Einheiten und die Hauptschwäche das strategische Denken ist. Die Deepmind-Entwickler müssen zu dem gleichen Schluss gekommen sein. Wahrscheinlich liegt der Grund darin, dass der Agent Spam-Klicks nicht entfernen konnte. Zwar handelt er die meiste Zeit klar, fällt aber dennoch regelmäßig in Spam-Klicks. Dies zeigt sich im ersten Spiel gegen MaNa, als Alphastar die Rampe hinaufsteigt (ab 39:30 Uhr):

Schauen Sie sich die blauen Kreise mit den hervorgehobenen Einheiten genau an

Der Spam-Agent klickte auf Teams, um Einheiten mit einer Geschwindigkeit von 800 APM zu bewegen. Er hat die menschliche Dummheit nie völlig verlernt, obwohl diese Handlungen völlig nutzlos sind und sein APM-Limit verschlingen. Der Fehler ist besonders gefährlich bei großen Schlachten. Wahrscheinlich wurde die APM-Grenze angehoben, um die Verbindung zu reparieren und dem Agenten zu ermöglichen, zu solchen Zeiten normal zu arbeiten.

Was ist daran so wichtig?

Ich vermute, dass der Agent die Spam-Klicks, die er während des Simulationstrainings beim Menschen gelernt hat, nicht loswerden konnte. Deepmind musste an der APM-Grenze basteln, um Experimente und weitere Fortschritte zu ermöglichen. Es trat jedoch ein unangenehmer Nebeneffekt des übermenschlichen Spiels auf, aufgrund dessen der Agent im Wesentlichen gegen die Regeln verstößt und in der Lage ist, Strategien umzusetzen, die ihm ursprünglich verboten waren.

Dies ist eine wichtige Sache, da eine solche Prügelei von Fachleuten direkt der Mission widerspricht, die Deepmind wiederholt erklärt hat. Aus diesem Grund hinterlässt diese Grafik einen sauren Geschmack von Heuchelei im Mund:

Dieses Bild wurde von Deepmind auf seinem Blog veröffentlicht.

Es sieht so aus, als ob das Diagramm Personen irreführen soll, die mit Starcraft 2 nicht vertraut sind. Es zeigt das angeblich akzeptable APM von AlphaStar. Schauen Sie sich APM MaNa an und vergleichen Sie es mit AlphaStar. Obwohl der Durchschnitt bei MaNa höher ist, geht der Schwanz des AlphaStar weit über die menschlichen Fähigkeiten hinaus. Bitte beachten Sie, dass MaNa einen Spitzen-APM von etwa 750 hat, während AlphaStar einen Spitzenwert von über 1500 hat. Denken Sie jetzt daran, dass APM bei einer Person mehr als die Hälfte aus Spam-Klicks besteht und AlphaStar-EPMs vollkommen genaue Klicks sind.

Schauen Sie sich jetzt die APMs bei TLO an. Der Schwanz geht für 2000. Denken Sie eine Sekunde darüber nach. Wie ist das möglich? Möglich wurde dies durch einen Trick namens "Schnellfeuer". TLO klickt nicht superschnell. Er hält nur den Knopf gedrückt - und das Spiel registriert ihn als 2000 APM. Das einzige, was Sie mit schnellem Feuer tun können, ist Spam mit verrückter Geschwindigkeit. Das ist alles. TLO verwendet dies nur aus irgendeinem Grund. Gleichzeitig werden die übermenschlichen APM-Bursts von AlphaStar maskiert - und die Zahlen sehen für Leute, die mit Starcraft nicht vertraut sind, realistisch aus.

Deepminds Blogbeitrag versucht nicht, die absurden TLO-Zahlen zu erklären. Wenn sie die übertriebenen TLOs nicht erklären, sollten sie sie nicht in den Zeitplan aufnehmen. Der Punkt.

Solche Statistiken kommen einer Lüge gefährlich nahe. Deepmind sollte sich an höhere Standards halten.

Hat AlphaStar übermenschliche Geschwindigkeit als Patch für Simulationstrainingsfehler implementiert?

Übermenschliche Geschwindigkeit AlphaStar

Spam-Klicks, APM und chirurgische Genauigkeit von Robotern

Alles richtig machen oder einfach die Geschwindigkeit einschalten?

Warum hat Deepmind AlphaStar übermenschliche Geschwindigkeit erlaubt?

Was ist daran so wichtig?

More articles: