AlphaStar implementou a velocidade sobre-humana como um patch para erros de treinamento em simulação?

Todo mundo provavelmente já ouviu falar que uma IA chamada AlphaStar do Google Deepmind difundiu profissionais na estratégia em tempo real de Starcraft 2 . Este é um caso sem precedentes na pesquisa de Inteligência Artificial. Mas quero expressar críticas construtivas sobre essa conquista.

Vou tentar provar de forma convincente o seguinte:

  1. AlphaStar jogou com velocidade e precisão sobre-humanas.
  2. Deepmind alega ter proibido a IA de executar ações fisicamente impossíveis para os seres humanos. Os desenvolvedores não foram bem-sucedidos e provavelmente sabem sobre o que eles podem fazer.
  3. A razão pela qual o AlphaStar é reproduzido em velocidades sobre-humanas é provavelmente devido à sua incapacidade de se livrar da habilidade de cliques de spam adquirida. Eu suspeito que os desenvolvedores queriam tornar o programa mais humano, mas não conseguiram. Vai levar tempo para abordar esta tese. Mas essa é a principal razão pela qual escrevi um artigo, portanto, seja paciente.

Antes de tudo, quero esclarecer que não sou profissional. Acompanhei o desenvolvimento da IA ​​e da cena de Starcraft 2 por muitos anos, mas não pretendo ser um especialista. Se você perceber algum erro, indique-o. Eu sou apenas um fã e tudo isso é incrivelmente emocionante para mim. Há muita especulação no artigo, e admito que não posso provar definitivamente as principais alegações. Com todas as reservas, se você ler o artigo e discordar de mim, discuta de forma construtiva. Eu realmente quero que você me dissuade.

Afinal, AlphaStar é uma conquista incrível. Na minha opinião, a maior conquista do Deepmind hoje, e estou ansioso para saber como melhorar ainda mais este programa. Obrigado pela sua paciência. Então vamos lá.

Velocidade sobre-humana AlphaStar


David Silver, co-diretor da AlphaStar: "O AlphaStar não pode responder mais rápido e não pode fazer mais cliques do que um player ao vivo".


Aqui está o principal designer de IA fazendo uma declaração importante (de 1:39)

Em 2018, Serral dominou a cena de Starcraft 2. Ele é o atual campeão mundial e venceu sete dos nove principais torneios em que participou, levando a um dos exemplos mais poderosos de domínio de um jogador na história de Starcraft 2. O cara é muito rápido. Talvez o mais rápido do mundo.

Visão em primeira pessoa (a partir das 13:00):


Dê uma olhada no APM dele no canto superior esquerdo. Esta é uma redução para o número de ações por minuto. De fato, esse número reflete a rapidez com que o jogador clica nos botões do mouse e do teclado. O Serral nunca pode reter o APM por mais de 500 por um longo tempo.Há um aumento de até APM 800, mas apenas por uma fração de segundo e, provavelmente, como resultado de cliques de spam, sobre os quais falarei em breve.

Portanto, o jogador mais rápido do mundo é capaz de manter um nível impressionante de APM 500, mas o AlphaStar teve picos de mais de 1500. Esses indicadores não humanos sobre o APM 1000 às vezes duravam cinco segundos e estão cheios de ações significativas. 1.500 ações por minuto são 25 ações por segundo. Isso é fisicamente impossível para os seres humanos. Além disso, lembre-se de que cinco segundos no Starcraft são muito tempo, especialmente no início de uma grande batalha. Se a taxa sobre-humana nos primeiros cinco segundos der uma vantagem à AI, ela vencerá facilmente a batalha graças ao efeito bola de neve. Aqui está o começo da batalha do AlphaStar no terceiro jogo contra o MaNa (a partir das 59:30):


O AlphaStar mantém o APM 1000+ por cinco segundos. Outra complicação no quarto jogo com o APM 1500+ (c 2:11:32):


Um comentarista aponta para um APM médio aceitável. Mas é claro que essas explosões são muito mais altas que as habilidades humanas.

Cliques de spam, APM e precisão cirúrgica do robô


A maioria dos jogadores é propensa a cliques de spam. Cliques inúteis que não afetam nada. Por exemplo, uma pessoa move o exército e, por algum motivo, clica várias vezes no destino. Que efeito? Nada. O exército não vai mais rápido. Um clique foi suficiente. Então, por que ele está fazendo isso? Existem dois motivos:

  1. O clique de spam é um efeito colateral natural quando uma pessoa tenta clicar o mais rápido possível.
  2. Ajuda a aquecer os dedos.

Lembra do Serral? Seu poder impressionante não está na velocidade, mas na precisão. Ele possui não apenas um APM realmente alto, mas também surpreendentemente eficaz (total de cliques por minuto, exceto cliques de spam). A partir de agora, reduzirei o APM efetivo como EPM. É importante lembrar que o EPM considera apenas ações significativas.

Veja como um ex-profissional perdeu a cabeça no Twitter quando reconheceu o EPM de Serral:


Seu EPM 344 ​​é um indicador quase irrealista. É tão alto que ainda é difícil para mim acreditar que isso é verdade. A diferença entre APM e EPM também afetou o AlphaStar. Se a IA puder ser reproduzida sem cliques de spam, isso significa que seu pico de EPM é às vezes igual ao pico de APM? Isso torna os surtos de mais de 1000 ainda mais desumanos. Quando levamos em conta que o AlphaStar joga com precisão perfeita, suas capacidades mecânicas parecem completamente absurdas. Ele sempre clica exatamente onde deseja clicar. As pessoas sentem falta, e o AlphaStar nos momentos certos começa a trabalhar quatro vezes mais rápido que o jogador mais rápido do mundo - com a precisão que uma pessoa só pode sonhar.

Quase todos na comunidade concordam que o AlphaStar realizou sequências que nenhum ser humano é capaz de repetir. Ele era mais rápido e preciso do que era fisicamente possível. O profissional mais rápido do mundo é várias vezes mais lento. A precisão nem pode ser comparada.

A afirmação de David Silver de que o AlphaStar só pode executar ações que uma pessoa pode reproduzir simplesmente não é verdadeira.

Faça tudo certo ou apenas ligue a velocidade?


Oriol Vinyals, arquiteto principal, AlphaStar: “É importante dominar jogos que são reconhecidos como“ desafios fundamentais para a IA ”. Estamos tentando criar sistemas inteligentes que assumem nossas incríveis capacidades, por isso é muito importante que eles aprendam o mais humanamente possível. Não importa o quão legal seja, mas atingir o desempenho máximo no jogo, como APMs muito altos, não nos ajuda a medir as capacidades e o progresso de nossos agentes, o que torna inútil o benchmark ".

Por que o Deepmind quer limitar o agente a jogar como pessoa? Por que não deixar ir mal, sem restrições? O motivo é que em Starcraft 2, superpoderes mecânicos arruinam a jogabilidade. Neste vídeo, o bot ataca um grupo de tanques com vários zerglings, realizando a microtática perfeita. Normalmente, os zerglings não podem fazer quase nada contra tanques, mas graças aos robôs, as microtáticas se tornam muito mais mortais: elas destroem tanques com perdas mínimas. Com um gerenciamento de unidade tão bom, a IA não precisa aprender estratégia. Afinal, o Deepmind não está interessado em criar uma IA que simplesmente derrote os profissionais da Starcraft; na verdade, eles querem usar esse projeto como um trampolim na promoção de pesquisas gerais sobre a IA. É muito triste que um dos gerentes de projeto declare limitações junto com as habilidades humanas, quando o agente as viola claramente e vence seus jogos precisamente graças à execução sobre-humana.

O AlphaStar é superior às pessoas no gerenciamento de unidades - esse fator não foi levado em consideração quando os desenvolvedores equilibraram cuidadosamente o jogo. Esse controle desumano é capaz de estragar qualquer pensamento estratégico que a IA tenha dominado. Pode até tornar o pensamento estratégico completamente desnecessário. O programa não está parado no máximo local. Se o jogo for jogado com velocidade e precisão desumanas, é provável que o abuso do controle perfeito da unidade seja a melhor, mais eficaz e confiável maneira de vencer. Não importa o quão triste isso pareça.

Aqui está o que um dos profissionais disse sobre os pontos fortes e fracos do AlphaStar, perdendo para ele com uma pontuação de 1-5:

MaNa: “Eu diria que sua melhor qualidade é o gerenciamento de unidades. AlphaStar derrotou todos os jogos com aproximadamente o mesmo número de unidades. O pior aspecto de um pequeno número de jogos é a recusa teimosa em atualizar. Ele estava tão convencido da vitória pelas unidades básicas que praticamente não atualizou nada, pelo qual pagou na partida de exibição [o último jogo com MaNa, onde a IA perdeu - aprox. trans.]. Não houve tantos momentos decisivos na tomada de decisões, então eu diria que a mecânica se tornou a razão da vitória.

Entre os fãs de Starcraft, é quase unânime que o AlphaStar tenha vencido quase exclusivamente por causa de sua velocidade sobre-humana, tempo de reação e precisão. Os profissionais que jogaram contra ele parecem concordar com isso. Um funcionário do Deepmind jogou contra o AlphaStar antes do programa ser disputado contra profissionais. Muito provavelmente, ele também concordará com essa avaliação. David Silver e Oriol Vinyals repetem o mantra de que o AlphaStar é capaz de fazer apenas o que uma pessoa é, mas já vimos que isso simplesmente não é assim.

O AlphaStar não parece estar "fazendo o certo", como diz David (de 1:38):


Algo está claramente errado aqui.

Por que Deepmind permitiu a velocidade sobre-humana do AlphaStar?


Finalmente, vamos passar à coisa principal. Obrigado por ler neste lugar. Mas primeiro, para resumir.

  • Sabemos o que são cliques em APM, EPM e spam.
  • Temos algum entendimento das capacidades máximas do homem.
  • O jogo AlphaStar contradiz diretamente as reivindicações dos desenvolvedores sobre suas limitações.
  • A comunidade Starcraft 2 concordou que o AlphaStar venceu graças ao controle desumano das unidades e nem precisou de um excelente pensamento estratégico.
  • O Deepmind não pretende criar um bot rápido, por isso não deveria ter sido reproduzido dessa maneira.
  • É muito improvável que nenhuma equipe da IA ​​do Starcraft tenha pensado que uma pessoa não é capaz de repetir as explosões do APM 1500+. O especialista em Starcraft deve saber mais sobre Starcraft do que o meu. Eles trabalham em estreita colaboração com a Blizzard, que possui propriedade intelectual no StarCraft. É do interesse deles (veja o parágrafo anterior, bem como as declarações de Silver e Vinyals) fazer o bot agir o mais próximo possível da pessoa.

Dados todos esses pontos, por que Deepmind sequer permitiu que a IA contornasse explicitamente as limitações do corpo humano?

Isso é pura especulação da minha parte, e não pretendo saber a história exata. Mas suspeito que aconteceu o seguinte:

No início do projeto, a Deepmind concordou com limites rígidos. Nesse ponto, o AlphaStar baniu as explosões sobre-humanas de APM que vimos na demo. Se eu projetasse o sistema, definiria essas restrições:

  • Média máxima de APM ao longo do jogo .
  • Explosão curta máxima de APM . Eu acho que é aconselhável configurá-lo em 4-6 cliques por segundo. Lembre-se da Serral e seu EPM 344, que é um corte acima da concorrência? Isso é menos de seis cliques por segundo. Contra o MaNa, o programa gerou 25 cliques por segundo por longos períodos de tempo. Isso é muito mais rápido do que os cliques de spam mais rápidos de uma pessoa, portanto, é improvável que as restrições iniciais permitam isso.
  • Tempo mínimo entre cliques . Mesmo se você limitar a velocidade máxima durante rajadas, o bot pode clicar rapidamente em um breve momento durante o intervalo permitido, do qual uma pessoa não é capaz.

Alguns sugerem a adição de um elemento aleatório à precisão dos cliques, mas suspeito que isso reduzirá muito a velocidade de aprendizado.

Então, defina limites. O que vem a seguir? A Deepmind lançou o treinamento de simulação em milhares de videogames amadores sofisticados. Nesta fase, o agente está simplesmente tentando imitar o que as pessoas fazem - e ele domina os cliques de spam. Isso é muito provável porque as pessoas as fazem com muita frequência. Este é quase o modelo mais repetitivo de comportamento nas pessoas, por isso deve estar profundamente enraizado no comportamento do agente.

As explosões máximas de APM do AlphaStar estão inicialmente próximas dos limites estabelecidos. Mas a maioria dos cliques do AlphaStar acabou sendo spam, então o APM dele não era suficiente para uma luta normal. Mas sem experimentação, não há treinamento. Aqui está o que um dos desenvolvedores disse na AMA de ontem: Acho que ele está um pouco manchado nesse golpe:

Oriol Vinyals, arquiteto principal, AlphaStar: “Ensinar a IA a jogar com baixa APM é bastante interessante. Nos primeiros dias, nossos agentes treinavam com APMs muito baixos e geralmente não eram capazes de microgerenciamento. ”

Para acelerar o aprendizado, os desenvolvedores aumentam os limites de APM, permitindo rajadas curtas. Aqui estão as limitações de APM que estavam em vigor para o AlphaStar em uma partida de demonstração:

Oriol Vinyals: “Em particular, definimos um limite de 600 APM em intervalos de 5 segundos, 400 APM em intervalos de 15 segundos, 320 por 30 segundos e 300 por 60 segundos. Se o agente emitir mais ações nesses intervalos, as descartamos / as ignoramos. Esses valores são retirados das estatísticas humanas. ”

Se você não está familiarizado com Starcraft, esses limites parecem razoáveis, mas permitem as explosões sobre-humanas de APM, sobre as quais falamos anteriormente, bem como a precisão sobre-humana.

Há um limite para o número máximo de cliques de spam. Geralmente, esses são comandos para mover ou atacar quando um clique é feito no mapa. Experimente o quão rápido você pode clicar no botão do mouse. O agente aprendeu cliques de spam dos jogadores e não clicará mais rápido que uma pessoa. Ou seja, cliques adicionais no APM em velocidade sobre-humana são "arbitrários" para experimentos.

O APM arbitrário é usado para experimentos de batalha. Essa interação geralmente ocorre durante o treinamento. O AlphaStar começa a estudar um novo tipo de comportamento que leva a melhores resultados e a porcentagem de spam em cliques é reduzida.

Se o agente aprendeu os benefícios, por que o Deepmind não voltou às restrições mais rígidas e humanas do APM? Certamente eles perceberam que a IA demonstra habilidades sobre-humanas. A comunidade Starcraft reconheceu quase por unanimidade o microgerenciamento desumano do AlphaStar. Os profissionais disseram à AMA que a principal força do AlphaStar é seu controle sobre as unidades, e sua principal fraqueza é o pensamento estratégico. Os desenvolvedores do Deepmind devem ter chegado à mesma conclusão. Provavelmente, o motivo é que o agente não conseguiu se livrar dos cliques de spam. Embora na maioria das vezes ele aja com clareza, ele ainda cai regularmente em cliques de spam. Isso é evidente no primeiro jogo contra o MaNa, quando o Alphastar sobe a rampa (a partir das 39:30):


Observe atentamente os círculos azuis com unidades de destaque

O agente de spam clicou em equipes para mover unidades a uma velocidade de 800 APM. Ele nunca aprendeu completamente a estupidez humana, embora essas ações sejam completamente inúteis e consumam seu limite de APM. O bug é especialmente perigoso durante grandes batalhas. Provavelmente, o limite de APM foi aumentado para fixar a junta e permitir que o agente trabalhasse normalmente nesses momentos.

O que é tão importante nisso?


Suspeito que o agente não tenha conseguido se livrar dos cliques de spam que ele aprendeu durante o treinamento em simulação em humanos. Deepmind teve que mexer com o limite de APM para tornar possível a experimentação e o progresso adicional. No entanto, apareceu um efeito colateral desagradável do jogo sobre-humano, pelo qual, em essência, o agente viola as regras, podendo implementar estratégias inicialmente proibidas para ele.

Isso é importante, porque esse espancamento de profissionais contradiz diretamente a missão que Deepmind afirmou repetidamente. Por esse motivo, este gráfico deixa um gosto amargo de hipocrisia na boca:



Esta imagem foi publicada por Deepmind em seu blog.

Parece que o gráfico foi projetado para enganar pessoas não familiarizadas com o Starcraft 2. Ele descreve o APM supostamente aceitável do AlphaStar. Dê uma olhada no APM MaNa e compare-o com o AlphaStar. Embora a média seja maior no MaNa, a cauda do AlphaStar vai muito além das capacidades humanas. Observe que o MaNa tem um APM de pico de cerca de 750, enquanto o AlphaStar tem um pico de mais de 1500. Agora, lembre-se de que, em uma pessoa, o APM é mais da metade composto por cliques de spam e os EPMs do AlphaStar são cliques perfeitamente precisos.

Agora dê uma olhada nos APMs no TLO. A cauda sai para 2000. Pense nisso por um segundo. Como isso é possível? Isso foi possível graças a um truque chamado "fogo rápido". O TLO não clica em super rápido. Ele apenas segura o botão - e o jogo o registra como 2000 APM. A única coisa que você pode fazer com fogo rápido é spam a uma velocidade louca. Isso é tudo. O TLO apenas usa isso por algum motivo. Mas, ao mesmo tempo, as explosões sobre-humanas de APM da AlphaStar são mascaradas - e os números parecem realistas para pessoas que não estão familiarizadas com a Starcraft.

A publicação no blog de Deepmind não está tentando explicar os números absurdos do TLO. Se eles não explicarem os TLOs exagerados, eles não deverão ser incluídos no cronograma. O ponto.

Tais estatísticas perigosamente próximas a uma mentira. Deepmind deve aderir a padrões mais altos.

Source: https://habr.com/ru/post/pt437796/


All Articles