Sobre o autor Richard Sutton é professor de ciência da computação na Universidade de Alberta. É considerado um dos fundadores dos métodos modernos de ensino computacional com reforço.De acordo com o resultado de 70 anos de pesquisa em IA, a lição principal é que os métodos computacionais gerais são, em última análise, os mais eficazes. E por uma ampla margem. Obviamente, o motivo é a lei de Moore, ou melhor, o declínio exponencial no custo da computação.
A maioria dos estudos de IA sugeriu que o agente tem acesso aos recursos de computação em andamento. Nesse caso, a única maneira de aumentar a produtividade é usar o conhecimento humano. Mas um projeto de pesquisa típico tem vida curta e, após alguns anos, o desempenho do computador aumenta inevitavelmente.
Em um esforço para melhorar a curto prazo, os pesquisadores estão tentando aplicar o conhecimento humano na área de assunto, mas, a longo prazo, apenas o poder da computação é importante. Essas duas tendências não devem se contradizer, mas na prática elas se contradizem. Tempo gasto em uma direção é tempo perdido para outra. Existem obrigações psicológicas para investir em uma abordagem ou outra. E a implementação do conhecimento na área de assunto tende a complicar o sistema de tal maneira que ele é menos adequado para o uso de métodos computacionais gerais. Houve muitos exemplos em que os pesquisadores aprenderam essa lição amarga tarde demais, e é útil considerar algumas das mais famosas.
No xadrez do computador, o sistema que derrotou o campeão mundial Kasparov em 1997 foi baseado em uma profunda busca por opções. Naquela época, a maioria dos pesquisadores de xadrez analisava esses métodos com alarme porque aplicava uma compreensão humana da área de estudo - a estrutura especial de um jogo de xadrez. Quando uma abordagem mais simples, baseada em pesquisa, com hardware e software especializado se mostrou significativamente mais eficaz, esses pesquisadores se recusaram a admitir a derrota. Eles disseram que o método da força bruta pode ter funcionado uma vez, mas não é uma estratégia geral. De qualquer forma, as pessoas
não jogam xadrez assim. Esses pesquisadores queriam métodos de vitória baseados no entendimento humano do jogo, mas ficaram desapontados.
Uma situação semelhante existe nos estudos do jogo de go, apenas com um atraso de 20 anos. Grandes esforços iniciais visavam evitar a pesquisa e usar o conhecimento do sujeito humano ou os recursos do jogo, mas todos esses esforços foram inúteis quando uma pesquisa profunda por opções com computação paralela maciça foi efetivamente aplicada. Verificou-se que o auto-estudo também era importante para dominar a função do valor, como em muitos outros jogos e até no xadrez, embora essa função não tenha desempenhado um grande papel no programa de 1997, que ganhou o campeão mundial pela primeira vez. Aprender em um jogo consigo mesmo e aprender em geral são semelhantes a pesquisar no sentido em que permitem o uso de computação paralela maciça. Pesquisa e treinamento são as aplicações mais importantes do poder da computação na pesquisa em IA. Como no xadrez por computador, no desenvolvimento de um programa para o jogo do go, os pesquisadores primeiro se concentraram em aplicar um entendimento humano da área de estudo (que exigia menos pesquisa) e muito mais tarde obteve grande sucesso quando aplicaram a pesquisa e o treinamento.
Na década de 1970, a DARPA realizou um concurso de sistema de reconhecimento de fala. Os concorrentes propuseram muitos métodos especiais que utilizavam o conhecimento da área temática - conhecimento de palavras, fonemas, aparelho vocal humano etc. Por outro lado, foram apresentados novos métodos de natureza mais estatística. Eles fizeram muito mais computação com base nos modelos ocultos de Markov (HMMs). E, novamente, os métodos estatísticos triunfaram sobre os métodos baseados no conhecimento do domínio. Isso levou a mudanças significativas em todo o processamento de linguagem natural. Gradualmente, ao longo dos anos, estatísticas e cálculos tornaram-se dominantes nessa área. O recente aumento da aprendizagem profunda no reconhecimento de fala é o passo final nessa direção. Os métodos de aprendizado profundo dependem ainda menos do conhecimento humano e usam ainda mais computação juntamente com o aprendizado em grandes conjuntos de dados. Isso melhorou bastante os sistemas de reconhecimento de fala. Como nos jogos, os pesquisadores sempre tentaram criar sistemas que funcionam com o modelo de suas próprias mentes: tentaram transferir seus conhecimentos da área de assunto para seus sistemas. Mas, no final, acabou sendo contraproducente e foi um enorme desperdício de tempo quando a lei de Moore disponibilizou cálculos maciços e ferramentas foram desenvolvidas para seu uso efetivo.
Na visão computacional, uma imagem semelhante. Os métodos iniciais consideravam a visão uma busca pelos limites dos objetos, cilindros generalizados ou em termos de sinais SIFT. Mas hoje tudo isso é descartado. As redes neurais modernas de aprendizagem profunda usam apenas os conceitos de convolução e alguns invariantes, enquanto funcionam muito melhor.
Esta é uma ótima lição. No setor como um todo, ainda não o entendemos completamente, pois continuamos a cometer os mesmos erros. Para combater isso de maneira eficaz, você precisa entender o que torna esses erros atraentes. Temos que aprender uma lição amarga: construir um modelo da mente humana não funciona a longo prazo. A lição amarga é baseada em várias observações históricas:
- Os pesquisadores frequentemente tentavam integrar seus conhecimentos aos agentes de IA.
- Sempre ajuda a curto prazo e satisfaz pessoalmente o pesquisador, mas
- A longo prazo, essa abordagem repousa no teto e até atrasa o progresso.
- Em última análise, o progresso da inovação vem da abordagem oposta, baseada em cálculos massivos por meio de pesquisa e treinamento.
O sucesso final é colorido pela amargura e muitas vezes não é totalmente aceito, porque é uma vitória sobre uma abordagem atraente e centrada na pessoa.
Uma lição deve ser aprendida com essa experiência amarga: é preciso reconhecer o enorme poder dos métodos comuns que continuam a aumentar com o aumento do poder de computação, mesmo quando são necessárias grandes quantidades de computação. Pesquisa e treinamento parecem ser infinitamente escaláveis.
O segundo ponto geral a ser tirado da lição amarga é que o pensamento humano real é extremamente, irrevogavelmente difícil. Deveríamos parar de tentar encontrar uma maneira simples de apresentar o conteúdo da mente como modelos simples de espaço, objetos ou múltiplos agentes. Tudo isso faz parte de um mundo externo internamente complexo. Isso não pode ser modelado porque a complexidade é infinita. Em vez disso, devem ser desenvolvidos meta-métodos que possam encontrar e capturar essa complexidade arbitrária. Para esses métodos, é importante que eles possam encontrar boas aproximações, mas essa pesquisa é realizada pelos próprios métodos, e não por nós. Precisamos de agentes de IA que possam conduzir pesquisas eles mesmos e não usar o conhecimento que descobrimos. A construção do sistema de IA no conhecimento humano apenas complica seu treinamento.