Olá Habr!
Raramente decidimos publicar aqui traduções de textos há dois anos, sem código e foco claramente acadêmico - mas hoje abriremos uma exceção. Esperamos que o dilema apresentado no título do artigo excite muitos de nossos leitores, e você já leu o trabalho original ou agora lê o trabalho fundamental sobre estratégias evolutivas com as quais este post é polemizado. Bem-vindo ao gato!

Em março de 2017, a OpenAI fez barulho na comunidade de aprendizagem profunda, publicando o artigo "
Estratégias de evolução como uma alternativa escalável ao aprendizado por reforço ". Neste trabalho, resultados impressionantes foram descritos em favor do fato de a luz não convergir no treinamento com reforço (RL), e é aconselhável tentar outros métodos ao treinar redes neurais complexas. Em seguida, surgiu uma discussão sobre a importância do aprendizado reforçado e o quanto ele merece o status da tecnologia "obrigatória" para aprender a resolver problemas. Aqui, quero falar sobre o fato de que você não deve considerar essas duas tecnologias como concorrentes, uma das quais é claramente melhor que a outra; pelo contrário, eles acabam se complementando. De fato, se você pensar um pouco sobre o que é necessário para criar uma
IA comum e esses sistemas que, ao longo de sua existência, seriam capazes de aprender, julgar e planejar, então quase certamente chegaremos à conclusão de que essa ou aquela solução combinada será necessária . A propósito, foi a natureza que chegou à decisão combinada, que dotou a inteligência complexa de mamíferos e outros animais superiores durante a evolução.
Estratégias evolutivas
A tese principal do artigo da OpenAI foi que, em vez de usar o aprendizado por reforço combinado com a retropropagação tradicional, eles treinaram com sucesso a rede neural para resolver problemas complexos usando a chamada "estratégia evolutiva" (ES). Essa abordagem de ES consiste em manter a distribuição dos valores de peso em uma balança de rede, com muitos agentes trabalhando em paralelo e usando parâmetros selecionados nessa distribuição. Cada agente opera em seu próprio ambiente e, após a conclusão de um determinado número de episódios ou etapas de um episódio, o algoritmo retorna uma recompensa total, expressa como uma pontuação de condicionamento físico. Dado esse valor, a distribuição dos parâmetros pode ser deslocada para agentes mais bem-sucedidos, privando os menos bem-sucedidos. Milhões de vezes repetindo essa operação envolvendo centenas de agentes, é possível mover a distribuição de pesos para um espaço que nos permita formular uma política de qualidade para os agentes resolverem sua tarefa. De fato, os resultados apresentados no artigo são impressionantes: é mostrado que, se você executar mil agentes em paralelo, o movimento antropomórfico em duas pernas poderá ser estudado em menos de meia hora (enquanto até os métodos mais avançados de RL exigem mais de uma hora). Para uma revisão mais detalhada, recomendo a leitura de um excelente
post dos autores do experimento, bem como do próprio
artigo científico .
Várias estratégias de aprendizado para postura ereta antropomórfica, estudadas pelo método ES da OpenAI.Caixa preta
O grande benefício desse método é que é fácil paralelizar. Embora os métodos RL, por exemplo, A3C, exijam a troca de informações entre fluxos de trabalho e o servidor de parâmetros, o ES precisa apenas de estimativas de validade e informações generalizadas sobre a distribuição de parâmetros. Graças a essa simplicidade, esse método ignora os métodos modernos de RL em escalabilidade. No entanto, tudo isso não é em vão: você precisa otimizar a rede com base no princípio de uma caixa preta. Nesse caso, a "caixa preta" significa que durante o treinamento a estrutura interna da rede é completamente ignorada e apenas o resultado geral (recompensa pelo episódio) é usado, e depende se os pesos de uma rede específica serão herdados pelas gerações futuras. Em situações em que não obtemos um feedback pronunciado do ambiente - e na solução de muitas tarefas tradicionais relacionadas à RL, o fluxo de recompensa é muito rarefeito - o problema passa de uma "caixa preta parcialmente" para uma "caixa preta completamente". Nesse caso, é possível aumentar seriamente a produtividade, portanto, é claro, esse compromisso é justificado. "Quem precisa de gradientes se eles ainda são irremediavelmente barulhentos?" - esta é a opinião geral.
No entanto, em situações em que o feedback é mais ativo, os assuntos de ES estão começando a dar errado. A equipe do OpenAI descreve como a rede simples de classificação MNIST foi treinada usando ES, e dessa vez o treinamento foi 1000 vezes mais lento. O fato é que o sinal de gradiente na classificação das imagens é extremamente informativo sobre como ensinar à rede uma melhor classificação. Assim, o problema está associado não tanto à técnica RL, como a recompensas esparsas em ambientes que produzem gradientes ruidosos.
Solução encontrada por natureza
Se você tentar aprender com o exemplo da natureza, pensando em maneiras de desenvolver a IA, em alguns casos a IA pode ser representada como uma
abordagem orientada a
problemas . No final, a natureza opera dentro de tais limitações que os cientistas da computação simplesmente não têm. Há uma opinião de que uma abordagem puramente teórica para resolver um problema específico pode fornecer soluções mais eficazes do que alternativas empíricas. Ainda assim, acho que seria aconselhável verificar como um sistema dinâmico que opera sob condições de certas restrições (Terra) forma agentes (animais, em particular mamíferos), capazes de comportamentos flexíveis e complexos. Embora algumas dessas limitações não sejam aplicáveis nos mundos simulados da ciência de dados, outras são muito boas.
Tendo examinado o comportamento intelectual dos mamíferos, vemos que ele é formado como resultado da complexa interação de dois processos intimamente relacionados:
aprender com a experiência de outras pessoas e
aprender com nossa própria experiência . O primeiro é frequentemente identificado com a evolução devido à seleção natural, mas aqui utilizo um termo mais amplo para levar em conta epigenética, microbiomas e outros mecanismos que garantem a troca de experiências entre organismos que não são geneticamente relacionados entre si. O segundo processo, o aprendizado em primeira mão, é toda a informação que um animal consegue assimilar ao longo da vida, e essa informação está diretamente relacionada à interação desse animal com o mundo exterior. Esta categoria inclui tudo, desde aprender a reconhecer objetos até dominar a comunicação inerente ao processo educacional.
Grosso modo, esses dois processos que ocorrem na natureza podem ser comparados com duas opções para otimizar redes neurais. Estratégias evolutivas, nas quais informações de gradiente são usadas para atualizar informações sobre o corpo, aproximam-se do aprendizado da experiência de outra pessoa. Da mesma forma, os métodos de gradiente, nos quais o recebimento de uma experiência específica leva a uma ou outra mudança no comportamento do agente, são comparáveis ao aprendizado da experiência. Se você pensar nas variedades de comportamento intelectual ou nas habilidades que cada uma dessas duas abordagens desenvolve nos animais, essa comparação é mais pronunciada. Nos dois casos, os “métodos evolutivos” contribuem para o estudo de comportamentos reativos que permitem o desenvolvimento de uma certa aptidão (suficiente para permanecer vivo). Aprender a andar ou escapar do cativeiro em muitos casos é equivalente a comportamentos mais "instintivos" que são "conectados" em muitos animais no nível genético. Além disso, este exemplo confirma que os métodos evolutivos são aplicáveis nos casos em que a recompensa do sinal é extremamente rara (como, por exemplo, o fato da criação bem-sucedida de um filhote). Nesse caso, é impossível correlacionar a recompensa com qualquer conjunto específico de ações que possam ter sido cometidas muitos anos antes do início desse fato. Por outro lado, se considerarmos o caso em que o SE falha, a classificação das imagens, os resultados serão extraordinariamente comparáveis aos resultados do treinamento com animais obtido no decorrer de inúmeras experiências psicológicas comportamentais realizadas em mais de 100 anos.
Treinamento animal
Os métodos utilizados no aprendizado por reforço são, em muitos casos, retirados diretamente da literatura psicológica sobre
condicionamento operante , e o condicionamento operante foi estudado com base na psicologia animal. A propósito, Richard Sutton, um dos dois fundadores do treinamento por reforço, é bacharel em psicologia. No contexto do condicionamento operante, os animais aprendem a associar recompensa ou punição a padrões comportamentais específicos. Formadores e pesquisadores podem, de alguma forma, manipular essa associação com recompensas, provocando animais a mostrar engenhosidade ou certos comportamentos. No entanto, o condicionamento operante usado no estudo de animais nada mais é do que uma forma mais pronunciada desse condicionamento, com base na qual os animais são treinados ao longo da vida. Recebemos constantemente sinais positivos de reforço do ambiente e ajustamos nosso comportamento de acordo. De fato, muitos neurofisiologistas e cientistas cognitivos acreditam que, de fato, pessoas e outros animais agem um nível acima e aprendem constantemente a prever os resultados de seu comportamento em situações futuras, contando com possíveis recompensas.
O papel central da previsão no auto-estudo está mudando a dinâmica descrita acima da maneira mais significativa. O sinal anteriormente considerado muito rarefeito (recompensa episódica) é muito denso. Teoricamente, a situação é aproximadamente a seguinte: a cada momento, o cérebro dos mamíferos calcula os resultados com base em um fluxo complexo de estímulos e ações sensoriais, enquanto o animal é simplesmente imerso nesse fluxo. Nesse caso, o comportamento final do animal emite um sinal denso, que deve ser guiado pela correção das previsões e pelo desenvolvimento do comportamento. O cérebro usa todos esses sinais para otimizar previsões (e, consequentemente, a qualidade das ações tomadas) no futuro. Uma visão geral dessa abordagem é apresentada no excelente livro “
Surf Incerteza ” do cientista cognitivo e filósofo Andy Clark. Se extrapolamos esses argumentos para o treinamento de agentes artificiais, o treinamento de reforço revela uma falha fundamental: o sinal usado nesse paradigma é irremediavelmente fraco em comparação com o que poderia ser (ou deveria ser). Nos casos em que é impossível aumentar a saturação do sinal (talvez porque seja, por definição, fraco ou esteja associado à reatividade de baixo nível) - provavelmente é melhor preferir um método de treinamento bem paralelizado, por exemplo, ES.
Melhor aprendizado de redes neurais
Com base nos princípios de maior atividade nervosa inerente ao cérebro dos mamíferos, que está constantemente envolvido na previsão, ultimamente tem sido possível obter certos sucessos no treinamento de reforço, que agora leva em consideração a importância de tais previsões. Posso recomendar dois trabalhos semelhantes:
Em ambos os artigos, os autores complementam as políticas típicas de redes neurais padrão com resultados previstos em relação a condições ambientais futuras. No primeiro artigo, a previsão é aplicada a uma variedade de variáveis de medição e, no segundo, mudanças no ambiente e no comportamento do agente como tal. Nos dois casos, o sinal escasso associado ao reforço positivo se torna muito mais saturado e informativo, proporcionando aprendizado acelerado e assimilação de modelos comportamentais mais complexos. Essas melhorias estão disponíveis apenas ao trabalhar com métodos que usam o sinal de gradiente, mas não com métodos que operam com o princípio de "caixa preta", como, por exemplo, ES.
Além disso, os métodos de aprendizado em primeira mão e gradiente são muito mais eficazes. Mesmo naqueles casos em que era possível estudar um problema específico usando o método ES em vez de usar treinamento de reforço, o ganho foi alcançado devido ao fato de muitas vezes mais dados estarem envolvidos na estratégia ES do que com RL. Pensando neste caso sobre os princípios do treinamento em animais, observamos que o resultado do treinamento em um exemplo estrangeiro se manifesta após muitas gerações, enquanto às vezes um único evento experimentado pela própria experiência é suficiente para o animal aprender a lição para sempre. Embora esse
treinamento sem exemplos ainda não se encaixe totalmente nos métodos tradicionais de gradiente, é muito mais inteligível que o ES. Existem, por exemplo, abordagens como
controle neural episódico , onde os valores Q são armazenados durante o processo de treinamento, após o qual o programa é verificado com eles antes de executar ações. Acontece que um método gradiente permite aprender a resolver problemas muito mais rapidamente do que antes. No artigo sobre controle neural episódico, os autores mencionam o hipocampo humano, capaz de armazenar informações sobre o evento mesmo após uma experiência vivida e, portanto, desempenha um
papel crítico no processo de recall. Tais mecanismos requerem acesso à organização interna do agente, o que também é, por definição, impossível no paradigma de SE.
Então, por que não combiná-los?
Provavelmente, a maior parte deste artigo poderia ter deixado a impressão de que eu estava defendendo métodos de RL nele. No entanto, acredito que, a longo prazo, a melhor solução seria uma combinação dos dois métodos, de modo que cada um seja usado nas situações em que é mais adequado. Obviamente, no caso de muitas políticas reativas ou em situações com sinais muito escassos de reforço positivo, o ES vence, especialmente se você tiver o poder de computação no qual pode executar um treinamento paralelo em massa. Por outro lado, métodos gradientes que usam aprendizado reforçado ou treinamento de professores serão úteis quando um feedback abrangente estiver disponível, e a solução do problema precisa ser aprendida rapidamente e com menos dados.
Voltando à natureza, descobrimos que o primeiro método, em essência, estabelece as bases para o segundo. É por isso que, durante a evolução, os mamíferos desenvolveram um cérebro que permite um aprendizado extremamente eficiente a partir do material de sinais complexos vindos do ambiente. Então, a questão permanece em aberto. Talvez as estratégias evolutivas nos ajudem a inventar arquiteturas eficazes de aprendizado que serão úteis para métodos de aprendizado gradiente. Afinal, a solução encontrada pela natureza é realmente muito bem-sucedida.