¿AlphaStar implementó la velocidad sobrehumana como un parche para el error de entrenamiento de simulación?

Probablemente todos hayan escuchado que una IA llamada AlphaStar de Google Deepmind ha manchado a los profesionales en la estrategia en tiempo real de Starcraft 2 . Este es un caso sin precedentes en la investigación de Inteligencia Artificial. Pero quiero expresar una crítica constructiva sobre este logro.

Trataré de demostrar de manera convincente lo siguiente:

  1. AlphaStar jugó con velocidad y precisión sobrehumanas.
  2. Deepmind afirma haber prohibido a la IA realizar acciones que son físicamente imposibles para los humanos. Los desarrolladores no tuvieron éxito en esto y probablemente saben acerca de su cant.
  3. La razón por la que AlphaStar juega a velocidades sobrehumanas probablemente se deba a su incapacidad para deshacerse de la habilidad adquirida de clics de spam. Sospecho que los desarrolladores querían hacer que el programa fuera más humano, pero no pudieron. Tomará tiempo abordar esta tesis. Pero esta es la razón principal por la que escribí un artículo, así que por favor sea paciente.

En primer lugar, quiero aclarar que no soy un profesional. Seguí el desarrollo de la IA y la escena de Starcraft 2 durante muchos años, pero no pretendo ser un experto. Si observa algún error, indíquelo. Solo soy un fanático y todo esto es increíblemente emocionante para mí. Hay mucha especulación en el artículo, y admito que no puedo probar definitivamente las principales afirmaciones. Con todas las reservas, si lee el artículo y no está de acuerdo conmigo, discuta constructivamente. Realmente quiero que me disuadas.

Después de todo, AlphaStar es un logro increíble. En mi opinión, el mayor logro de Deepmind hoy, y espero con ansias cómo seguir mejorando este programa. Gracias por tu paciencia Entonces vamos.

Velocidad sobrehumana AlphaStar


David Silver, codirector de AlphaStar: "AlphaStar no puede responder más rápido y no puede hacer más clics que un jugador en vivo".


Aquí está el diseñador principal de IA haciendo una declaración importante (de 1:39)

En 2018, Serral dominó la escena de Starcraft 2. Es el actual campeón mundial y ha ganado siete de los nueve torneos principales en los que participó, lo que lo convierte en uno de los ejemplos más poderosos de dominio de un jugador en la historia de Starcraft 2. El tipo es muy rápido. Quizás el más rápido del mundo.

Vista en primera persona (a partir de las 13:00):


Echa un vistazo a su APM en la esquina superior izquierda. Esta es una reducción para el número de acciones por minuto. De hecho, este número refleja la rapidez con que el jugador hace clic en los botones del mouse y del teclado. Serral nunca puede mantener APM durante más de 500 durante mucho tiempo. Hay un aumento de hasta APM 800, pero solo por una fracción de segundo y, muy probablemente, como resultado de clics de spam, de lo que hablaré en breve.

Entonces, el jugador más rápido del mundo es capaz de mantener un nivel impresionante de APM 500, pero AlphaStar tuvo un aumento de hasta 1500+. Estos indicadores no humanos sobre APM 1000 a veces duraron cinco segundos y están llenos de acciones significativas. 1.500 acciones por minuto son 25 acciones por segundo. Esto es físicamente imposible para los humanos. Además, tenga en cuenta que cinco segundos en Starcraft es mucho tiempo, especialmente al comienzo de una gran batalla. Si la tasa sobrehumana en los primeros cinco segundos le da a AI una ventaja, entonces fácilmente ganará la batalla gracias al efecto bola de nieve. Aquí está el comienzo de la batalla AlphaStar en el tercer juego contra MaNa (a partir de las 59:30):


AlphaStar sostiene el APM 1000+ por cinco segundos. Otra complicación en el cuarto juego con el APM 1500+ (c 2:11:32):


Un comentarista apunta a un APM promedio aceptable. Pero está claro que estas explosiones son mucho más altas que las habilidades humanas.

Clics de spam, APM y precisión quirúrgica del robot


La mayoría de los jugadores son propensos a los clics de spam. Clics sin sentido que no afectan nada. Por ejemplo, una persona mueve el ejército y, por alguna razón, hace clic varias veces en el destino. Que efecto Nada El ejército no irá más rápido. Un clic fue suficiente. Entonces, ¿por qué está haciendo esto? Hay dos razones:

  1. Spam-click es un efecto secundario natural cuando una persona intenta hacer clic lo más rápido posible.
  2. Ayuda a calentar tus dedos.

¿Recuerdas a Serral? Su impresionante poder no está en la velocidad, sino en la precisión. No solo tiene un APM realmente alto, sino que también es increíblemente efectivo (clics totales por minuto, excepto los clics de spam). De ahora en adelante, reduciré el APM efectivo como EPM. Es importante recordar que EPM solo considera acciones significativas.

Eche un vistazo a cómo un ex profesional perdió la cabeza en Twitter cuando reconoció el EPM de Serral:


Su EPM 344 ​​es un indicador casi irreal. Es tan alto que todavía me cuesta creer que esto sea cierto. La diferencia entre APM y EPM también afectó a AlphaStar. Si AI puede jugar sin clics de spam, ¿significa esto que su EPM máximo es a veces igual al APM máximo? Esto hace que las oleadas de hasta 1000+ sean aún más inhumanas. Cuando tenemos en cuenta que AlphaStar juega con una precisión perfecta, sus capacidades mecánicas parecen completamente absurdas. Siempre hace clic exactamente donde quiere hacer clic. La gente falla, y AlphaStar en los momentos correctos comienza a trabajar cuatro veces más rápido que el jugador más rápido del mundo, con la precisión con la que una persona solo puede soñar.

Casi todos en la comunidad están de acuerdo en que AlphaStar realizó secuencias que ningún ser humano puede repetir. Era más rápido y más preciso de lo físicamente posible. El profesional más rápido del mundo es varias veces más lento. La precisión ni siquiera se puede comparar.

La afirmación de David Silver de que AlphaStar solo puede realizar acciones que una persona puede reproducir simplemente no es cierta.

¿Todo está bien o simplemente enciende la velocidad?


Oriol Vinyals, arquitecto principal, AlphaStar: "Es importante dominar los juegos que son reconocidos como" desafíos fundamentales para la IA ". Estamos tratando de crear sistemas inteligentes que se hagan cargo de nuestras increíbles capacidades, por lo que es muy importante que aprendan de la manera más humana posible. No importa cuán genial suene, pero lograr el máximo rendimiento en el juego, como APM muy altos, realmente no nos ayuda a medir las capacidades y el progreso de nuestros agentes, lo que hace que el punto de referencia sea inútil ".

¿Por qué Deepmind quiere limitar al agente para que juegue como persona? ¿Por qué no dejarlo ir mal sin restricciones? La razón es que en Starcraft 2, las superpotencias mecánicas arruinan el juego. En este video, el bot ataca a un grupo de tanques con varios zerglings, dándose cuenta de la microtáctica perfecta. Por lo general, los zerglings no pueden hacer casi nada contra los tanques, pero gracias a los robots, la microtáctica se vuelve mucho más mortal: destruyen los tanques con pérdidas mínimas. Con una gestión de unidades tan buena, la IA no necesita aprender estrategias. Después de todo, Deepmind no está interesado en crear una IA que simplemente derrote a los profesionales de Starcraft; de hecho, quieren usar este proyecto como un trampolín para promover la investigación general de IA. Es muy triste que uno de los gerentes de proyecto declare limitaciones junto con las habilidades humanas, cuando el agente las viola claramente y gana sus juegos precisamente gracias a la ejecución sobrehumana.

AlphaStar es superior a las personas en la gestión de unidades: este factor no se tuvo en cuenta cuando los desarrolladores equilibraron cuidadosamente el juego. Este control inhumano es capaz de estropear cualquier pensamiento estratégico que la IA haya dominado. Incluso puede hacer que el pensamiento estratégico sea completamente innecesario. El programa no solo está atascado en un máximo local. Si el juego se juega con velocidad y precisión inhumanas, es probable que el abuso del control perfecto de la unidad sea la mejor, más efectiva y confiable forma de ganar. No importa lo triste que suene.

Esto es lo que dijo uno de los profesionales sobre las fortalezas y debilidades de AlphaStar, perdiendo ante él con un puntaje de 1-5:

MaNa: “Diría que su mejor calidad es la gestión de unidades. AlphaStar derrotó a todos los juegos con aproximadamente el mismo número de unidades. El peor aspecto de un pequeño número de juegos es la obstinada negativa a actualizar. Estaba tan convencido de la victoria de las unidades básicas que prácticamente no actualizó nada, por lo que pagó en el partido de exhibición [el último juego con MaNa, donde perdió la IA - aprox. trans.]. No hubo tantos momentos decisivos en la toma de decisiones, por lo que diría que la mecánica se convirtió en la razón de la victoria ".

Entre los fanáticos de Starcraft, es casi unánime que AlphaStar ganó casi exclusivamente por su velocidad, tiempo de reacción y precisión sobrehumanos. Los profesionales que jugaron contra él parecen estar de acuerdo con eso. Un empleado de Deepmind jugó contra AlphaStar antes de que el programa se jugara contra profesionales. Lo más probable es que también esté de acuerdo con dicha evaluación. David Silver y Oriol Vinyals repiten el mantra de que AlphaStar es capaz de hacer solo lo que una persona es, pero ya hemos visto que esto simplemente no es así.

AlphaStar no parece estar "haciendo las cosas bien", como dice David (de 1:38):


Algo está claramente mal aquí.

¿Por qué Deepmind permitió la velocidad sobrehumana de AlphaStar?


Finalmente, pasemos a lo principal. Gracias por leer este lugar. Pero primero, para resumir.

  • Sabemos qué son los clics APM, EPM y spam.
  • Tenemos cierta comprensión de las capacidades máximas del hombre.
  • El juego AlphaStar contradice directamente las afirmaciones de los desarrolladores sobre sus limitaciones.
  • La comunidad de Starcraft 2 estuvo de acuerdo en que AlphaStar ganó gracias al control inhumano de las unidades y ni siquiera necesitó un excelente pensamiento estratégico.
  • Deepmind no se propone crear un bot rápido, por lo que no debería haber jugado así.
  • Es muy poco probable que ninguno del equipo de Starcraft AI haya pensado que una persona no puede repetir las explosiones de APM 1500+. Su especialista en Starcraft debería saber más sobre Starcraft que el mío. Trabajan en estrecha colaboración con Blizzard, que posee la propiedad intelectual de StarCraft. Es de su interés (ver el párrafo anterior, así como las declaraciones de Silver y Vinyals) hacer que el bot actúe lo más cerca posible de la persona.

Teniendo en cuenta todos estos puntos, ¿por qué Deepmind incluso permitió que la IA eludiera explícitamente las limitaciones del cuerpo humano?

Esto es pura especulación de mi parte, y no pretendo saber la historia exacta. Pero sospecho que ha sucedido lo siguiente:

Al comienzo del proyecto, Deepmind acordó límites estrechos. En este punto, AlphaStar prohibió las explosiones sobrehumanas de APM que vimos en la demostración. Si diseñara el sistema, establecería tales restricciones:

  • Máximo APM promedio en todo el juego .
  • Máxima ráfaga corta de APM . Creo que es aconsejable establecerlo en 4-6 clics por segundo. ¿Recuerdas a Serral y su EPM 344, que está por encima de la competencia? Esto es menos de seis clics por segundo. Contra MaNa, el programa generó 25 clics por segundo durante largos períodos de tiempo. Esto es mucho más rápido que incluso los clics de spam más rápidos de una persona, por lo que es poco probable que las restricciones iniciales lo permitan.
  • Tiempo mínimo entre clics . Incluso si limita la velocidad máxima durante las ráfagas, el bot puede hacer clic muy rápidamente en un breve momento durante el intervalo permitido, que una persona no es capaz de hacer.

Algunos sugieren agregar un elemento de aleatoriedad a la precisión de los clics, pero sospecho que esto reducirá demasiado la velocidad de aprendizaje.

Entonces, establece límites. Que sigue Deepmind luego lanzó entrenamiento de simulación en miles de videojuegos de aficionados de alta gama. En esta etapa, el agente simplemente está tratando de imitar lo que hace la gente, y domina los clics de spam. Esto es muy probable porque las personas los hacen con mucha frecuencia. Este es casi el modelo de comportamiento más repetitivo en las personas, por lo que debe estar muy arraigado en el comportamiento del agente.

Las ráfagas APM máximas de AlphaStar están inicialmente cerca de los límites establecidos. Pero la mayoría de los clics de AlphaStar resultaron ser clics de spam, por lo que su APM no fue suficiente para una pelea normal. Pero sin experimentación, no hay entrenamiento. Esto es lo que dijo uno de los desarrolladores en el AMA de ayer: creo que está un poco manchado en esta estafa:

Oriol Vinyals, arquitecto principal, AlphaStar: “Enseñar a la IA a jugar con un APM bajo es bastante interesante. En los primeros días, nuestros agentes entrenaron con APM muy bajos y generalmente no eran capaces de microgestión ".

Para acelerar el aprendizaje, los desarrolladores aumentan los límites de APM al permitir ráfagas cortas. Estas son las limitaciones de APM que estaban vigentes para AlphaStar en una partida de demostración:

Oriol Vinyals: “En particular, establecemos un límite de 600 APM a intervalos de 5 segundos, 400 APM a intervalos de 15 segundos, 320 por 30 segundos y 300 por 60 segundos. Si el agente emite más acciones en estos intervalos, las descartamos / ignoramos. Estos valores están tomados de las estadísticas humanas ".

Si no está muy familiarizado con Starcraft, entonces estos límites parecen razonables, pero permiten las explosiones sobrehumanas de APM, de las que hablamos anteriormente, así como la precisión sobrehumana.

Existe un límite en la cantidad máxima de clics de spam. Por lo general, estos son comandos para moverse o atacar cuando se hace un clic en el mapa. Pruebe qué tan rápido puede hacer clic en el botón del mouse. El agente aprendió clics de spam de los jugadores y no hará clic más rápido que una persona. Es decir, los clics adicionales de APM a una velocidad sobrehumana son "arbitrarios" para los experimentos.

El APM arbitrario se usa para experimentos de batalla. Esta interacción a menudo ocurre durante el entrenamiento. AlphaStar comienza a estudiar un nuevo tipo de comportamiento que conduce a mejores resultados, y se reduce el porcentaje de spam en los clics.

Si el agente aprendió los beneficios, ¿por qué Deepmind no volvió a las restricciones más duras y humanitarias originales de APM? Seguramente se dieron cuenta de que la IA demuestra habilidades sobrehumanas. La comunidad de Starcraft ha reconocido casi por unanimidad la microgestión inhumana de AlphaStar. Los profesionales le dijeron a AMA que la principal fortaleza de AlphaStar es su control sobre las unidades, y su principal debilidad es el pensamiento estratégico. Los desarrolladores de Deepmind deben haber llegado a la misma conclusión. Probablemente la razón es que el agente no pudo deshacerse de los clics de spam. Aunque la mayoría de las veces actúa con claridad, pero todavía cae regularmente en clics de spam. Esto es evidente en el primer juego contra MaNa, cuando Alphastar sube por la rampa (a partir de las 39:30):


Mire cuidadosamente los círculos azules con unidades resaltadas

El agente de spam hizo clic en equipos para mover unidades a una velocidad de 800 APM. Nunca desaprendió por completo la estupidez humana, aunque estas acciones son completamente inútiles y consumen su límite de APM. El error es especialmente peligroso durante las grandes batallas. Probablemente, el límite de APM se elevó para arreglar la articulación y permitir que el agente trabaje normalmente en esos momentos.

¿Qué es tan importante sobre esto?


Sospecho que el agente no pudo deshacerse de los clics de spam que aprendió durante el entrenamiento de simulación en humanos. Deepmind tuvo que jugar con el límite de APM para hacer posible la experimentación y el progreso. Sin embargo, apareció un efecto secundario desagradable del juego sobrehumano, debido a que, en esencia, el agente viola las reglas, pudiendo implementar estrategias que inicialmente se le prohibieron.

Esto es algo importante, porque tal paliza a los profesionales contradice directamente la misión que Deepmind ha declarado en repetidas ocasiones. Debido a esto, este gráfico deja un sabor agrio de hipocresía en la boca:



Esta imagen fue publicada por Deepmind en su blog.

Parece que el gráfico está diseñado para engañar a las personas que no están familiarizadas con Starcraft 2. Representa el APM supuestamente aceptable de AlphaStar. Eche un vistazo a APM MaNa y compárelo con AlphaStar. Aunque el promedio es más alto en MaNa, la cola del AlphaStar va mucho más allá de las capacidades humanas. Tenga en cuenta que MaNa tiene un APM pico de aproximadamente 750, mientras que AlphaStar tiene un pico de más de 1,500. Ahora considere que, en una persona, APM está compuesto en más de la mitad de clics de spam, y los EPM de AlphaStar son clics perfectamente precisos.

Ahora eche un vistazo a los APM en TLO. La cola se va para el año 2000. Piénselo por un segundo. ¿Cómo es esto posible? Esto fue posible gracias a un truco llamado "fuego rápido". TLO no hace clic en superrápido. Simplemente mantiene presionado el botón, y el juego lo registra como 2000 APM. Lo único que puedes hacer con fuego rápido es el spam a una velocidad loca. Eso es todo TLO solo usa esto por alguna razón. Pero al mismo tiempo, las ráfagas APM sobrehumanas de AlphaStar están enmascaradas, y los números parecen realistas para las personas que no están familiarizadas con Starcraft.

La publicación de blog de Deepmind no intenta explicar las absurdas cifras de TLO. Si no explican los TLO exagerados, entonces no deberían incluirse en el programa. El punto

Tales estadísticas peligrosamente cercanas a una mentira. Deepmind debe cumplir con estándares más altos.

Source: https://habr.com/ru/post/437796/


All Articles