Aprendendo sem professor: um aluno curioso

Na última década, o aprendizado de máquina avançou sem precedentes em áreas tão diversas como reconhecimento de padrões, robomobiles e jogos complexos, como o go. Esses sucessos foram alcançados principalmente através do treinamento de redes neurais profundas com um dos dois paradigmas - aprender com um professor e aprender com reforço . Ambos os paradigmas exigem o desenvolvimento de sinais de treinamento humano, que são então transmitidos ao computador. No caso de treinamento com um professor, esses são “objetivos” (por exemplo, a assinatura correta abaixo da imagem); no caso de reforços, essas são “recompensas” por um comportamento bem-sucedido (alta pontuação no jogo da Atari). Portanto, os limites da aprendizagem são determinados pelas pessoas.

E se alguns cientistas acreditam que um programa de treinamento suficientemente extenso - por exemplo, a capacidade de concluir com êxito uma ampla gama de tarefas - deve ser suficiente para gerar inteligência de uso geral, outros pensam que a verdadeira inteligência exigirá estratégias de aprendizado mais independentes. Considere, por exemplo, o processo de ensino de um bebê. Sua avó pode sentar-se com ele e mostrar-lhe pacientemente exemplos de patos (trabalhando como sinal de ensino ao aprender com um professor) ou recompensando-o com aplausos por resolver um quebra-cabeça com cubos (como no aprendizado reforçado). No entanto, na maioria das vezes o bebê ingenuamente explora o mundo e compreende o ambiente através da curiosidade, brincadeira e observação. Aprender sem um professor é um paradigma projetado para criar inteligência autônoma por agentes recompensadores (programas de computador) por estudar os dados que eles observam, independentemente de tarefas específicas. Em outras palavras, o agente é treinado para aprender.

A principal motivação na aprendizagem sem um professor é que, se os dados transmitidos para os algoritmos de aprendizagem tiverem uma estrutura interna extremamente rica (imagens, vídeos, texto), os objetivos e as recompensas do treinamento geralmente serão muito secos (o rótulo de “cachorro” para essa espécie ou unidade / zero, indicando sucesso ou falha no jogo). Isso sugere que a maior parte do que o algoritmo está estudando deve consistir em um entendimento dos dados em si, e não em aplicar esse entendimento à solução de certos problemas.

Decodificação dos elementos da visão


O ano de 2012 foi um marco para o aprendizado profundo, quando a AlexNet (nomeada em homenagem ao arquiteto principal Alex Krizhevsky) desafiou os concorrentes no concurso de classificação da ImageNet . Sua capacidade de reconhecer imagens não tinha análogos, mas ainda mais surpreendente era o que estava acontecendo sob o capô. Após analisar as ações da AlexNet, os cientistas descobriram que ela interpreta imagens através da construção de representações internas cada vez mais complexas dos dados de entrada. Recursos de baixo nível, por exemplo, texturas e faces, são representados por camadas inferiores e, a partir deles, nas camadas superiores, são combinados conceitos de um nível superior, como rodas ou cães.

Isso é surpreendentemente semelhante ao modo como nosso cérebro processa informações - rostos e texturas simples nas principais áreas relacionadas aos sentidos são agrupados em objetos complexos, como rostos nas áreas mais altas do cérebro. Assim, uma cena complexa pode ser montada a partir de primitivas visuais, da mesma maneira que o significado surge das palavras individuais que compõem uma frase. Sem instalação direta, as camadas AlexNet revelaram um "dicionário" visual fundamental adequado para resolver o problema. De certa forma, a rede aprendeu a jogar o que Ludwig Wittgenstein chamou de " jogo da linguagem " , que vai passo a passo de pixels a rótulos de imagens.


Dicionário visual da rede neural convolucional. Para cada camada, são criadas imagens que maximizam a ativação de certos neurônios. Então a reação desses neurônios a outras imagens pode ser interpretada como a presença ou ausência de “palavras” visuais: texturas, estantes de livros, rostos de cães, pássaros.

Transferência de treinamento


Do ponto de vista da inteligência de uso geral, a coisa mais interessante no dicionário AlexNet é que ela pode ser reutilizada ou transferida para outras tarefas visuais, por exemplo, para reconhecer não apenas objetos individuais, mas também cenas inteiras. A transferência em um mundo em constante mudança é absolutamente necessária, e as pessoas fazem isso muito bem: somos capazes de adaptar rapidamente as habilidades e o entendimento adquiridos com a experiência (modelo mundial) a qualquer situação atual. Por exemplo, um pianista com educação clássica aprenderá facilmente como tocar jazz. Os agentes artificiais que formam a imagem interna correta do mundo provavelmente devem ter os mesmos recursos.

No entanto, representações obtidas por classificadores como AlexNet têm suas limitações. Em particular, como a rede é treinada para rotular uma classe (cachorro, gato, carro, vulcão), o restante das informações - não importa quão útil possa ser para outras tarefas - ela será ignorada. Por exemplo, as representações podem não capturar o plano de fundo das imagens se os rótulos se referirem apenas aos objetos em primeiro plano. Uma solução possível é fornecer sinais de treinamento mais abrangentes, por exemplo, descrições detalhadas das imagens : não apenas um "cachorro", mas "Corgi pega um frisbee em um parque ensolarado". No entanto, esses rótulos são difíceis de afixar, especialmente em larga escala, e ainda podem não ser suficientes para perceber todas as informações necessárias para concluir a tarefa. A premissa básica de aprender sem um professor é que a melhor maneira de aprender representações facilmente portáteis é tentar aprender tudo o que é possível sobre os dados.

Se o conceito de transferência através do treinamento de representações lhe parecer muito abstrato, imagine uma criança que aprendeu a desenhar pessoas no estilo de “palito, palito, pepino”. Ele encontrou uma representação da aparência de uma pessoa, que é ao mesmo tempo muito compacta e bem adaptada. Complementando cada figura com certas características, ele pode criar retratos de todos os colegas de classe: óculos para seu melhor amigo, uma camiseta vermelha favorita para seu colega de escola. E ele desenvolveu essa habilidade não para cumprir uma tarefa específica ou receber uma recompensa, mas em resposta a uma necessidade básica de refletir o mundo ao seu redor.

Aprendendo através da criatividade: modelos generativos


Talvez o objetivo mais simples de aprender sem um professor seja treinar o algoritmo para criar seus próprios exemplos de dados. T.N. modelos generativos não devem apenas reproduzir os dados nos quais foram treinados (este é apenas um “lembrete” desinteressante), mas criar um modelo da classe da qual os dados foram obtidos. Não uma fotografia específica de um cavalo ou arco-íris, mas um conjunto de fotografias de cavalos e arco-íris; não uma afirmação específica de um falante em particular, mas a distribuição geral de afirmações verbais. O princípio básico dos modelos generativos é que a possibilidade de criar um exemplo convincente dos dados é a evidência mais forte de que eles são entendidos: como Richard Feynman disse: "aquilo que não posso criar, não entendo".

Até agora, o modelo generativo de maior sucesso para imagens continua sendo a Rede Competitiva-Gerativa (GSS), na qual duas redes - o gerador e o discriminador - entram na competição de reconhecimento, semelhante à competição de um especialista falso e um detetive. O gerador produz imagens, tentando fazer o discriminador acreditar em sua realidade; o discriminador é recompensado por detectar falsificações. As imagens geradas são primeiro aleatórias e desleixadas, depois aprimoradas em várias abordagens, e a interação dinâmica das redes leva ao aparecimento de imagens cada vez mais realistas, que em muitos casos não podem ser distinguidas das fotos reais. O GSS também pode fornecer paisagens detalhadas com base em esboços aproximados dos usuários.

Uma simples olhada nas imagens abaixo será suficiente para garantir que a rede tenha aprendido a retratar muitas das principais características das fotografias em que foi treinada - a estrutura dos corpos dos animais, a textura da grama e os detalhes do jogo de luz e sombra (mesmo no reflexo de uma bolha de sabão). Um estudo cuidadoso revela pequenas anomalias, como uma perna extra em um cachorro branco e um estranho ângulo reto nos jatos de uma das fontes. Embora os criadores de modelos generativos estejam tentando se livrar de tais imperfeições, o fato de podermos vê-los fala de uma das vantagens de reconstruir dados tão familiares quanto as imagens: estudando amostras, os pesquisadores podem entender o que o modelo aprendeu e o que ainda não aprendeu.



Criação através da previsão


Outra família notável de redes em uma classe sem professores são os modelos autorregressivos, nos quais os dados são divididos em pequenos pedaços, cada um dos quais o modelo prevê por sua vez. Esses modelos podem ser usados ​​para gerar dados da seguinte forma: primeiro, a rede adivinha o que está acontecendo, alimenta essa conjectura com sua entrada e adivinha novamente. O exemplo mais famoso é o modelo de linguagem, onde cada palavra seguinte é prevista com base nas anteriores: esse modelo trabalha com previsões de texto que aparecem em vários aplicativos e ao enviar um email. Desenvolvimentos recentes em modelagem de linguagem permitem criar passagens surpreendentemente razoáveis ​​- por exemplo, extraídas do OpenAI GPT-2 :
Dica para o sistema (escrito pelo homem)

Os cientistas fizeram uma descoberta chocante ao descobrir uma manada de unicórnios que vivem no remoto e anteriormente inexplorado Vale dos Andes. Ainda mais surpreendente para os pesquisadores foi o fato de os unicórnios falarem inglês excelente.

Texto preenchido pelo modelo (após 10 tentativas)

Os cientistas chamaram a população de "unicórnios ovídeos" por causa de seus chifres distintos. Esses unicórnios branco-prateado de quatro chifres eram desconhecidos anteriormente pela ciência. E finalmente, depois de dois séculos, o mistério do que deu origem a esse estranho fenômeno foi resolvido.

O Dr. Jorge Perez, biólogo evolucionário da Universidade Lapaz e vários de seus associados estudaram os Andes quando descobriram um pequeno vale onde não havia outros animais e pessoas. Perez notou algo no vale que parecia uma fonte natural, cercada por dois picos rochosos e neve prateada.

Então Perez e o resto foram mais longe neste vale. "Quando chegamos a um dos picos, a água parecia azul e havia poucos cristais em sua superfície", disse Perez.

Perez e seus amigos ficaram surpresos ao ver um rebanho de unicórnios. Essas criaturas podiam ser vistas do ar, não chegando muito perto delas para vê-las - elas estavam tão próximas que podiam tocar seus chifres.
Uma discrepância interessante é a descrição dos unicórnios como "quadrúpedes": é divertido estudar as limitações da compreensão da rede.

Ao controlar a sequência de entrada usada para ajustar as previsões, é possível usar modelos auto-regressivos para converter uma sequência em outra. Esta demonstração usa um modelo autorregressivo condicional para converter o texto em uma aparência manuscrita realista. O WaveNet converte texto em fala natural e agora é usado para gerar voz para o Google Assistant . Progresso semelhante no ajuste e na geração autoregressiva pode ser usado para traduções de um idioma para outro.

Modelos autoregressivos estudam dados, tentando prever cada parte em uma determinada ordem. Você pode criar uma classe de redes mais generalizada com aprendizado sem professor, fazendo previsões sobre qualquer parte dos dados com base em qualquer outra. Por exemplo, isso pode significar que removemos uma palavra da frase e tentamos predizê-la com base no restante do texto . Ensinando um sistema através de uma consulta a ele de diversas previsões locais, forçamos o estudo de todos os dados em geral.

Um dos problemas dos modelos generativos é a possibilidade de seu uso malicioso. A manipulação de evidências na forma de fotografias, vídeos e gravações de áudio é possível há muito tempo, mas modelos generativos podem facilitar bastante a edição desses materiais com intenções maliciosas. Já vimos uma demonstração do chamado deepfake - por exemplo, um vídeo falso com Obama . É gratificante ver que existem sérias tentativas de responder a esses desafios - por exemplo, o uso de técnicas estatísticas para detectar materiais sintéticos e confirmar os autênticos, familiarizando o público com o que está acontecendo e discussões sobre como limitar a disponibilidade de modelos generativos treinados. Além disso, os próprios modelos generativos podem ser usados ​​para detectar materiais fabricados e dados anormais - por exemplo, detectar fala falsa ou detectar pagamentos anormais para proteger os usuários contra fraudadores. Os pesquisadores precisam trabalhar em modelos generativos para entendê-los melhor e reduzir riscos no futuro.

Reinventando a Inteligência


Os modelos generativos são muito interessantes, mas no DeepMind os tratamos como um estágio no caminho para a inteligência de uso geral. Dar a um agente a capacidade de gerar dados é sobre como lhe dar imaginação e, consequentemente, a capacidade de planejar e raciocinar sobre o futuro. Nossos estudos mostram que o treinamento em prever vários aspectos do ambiente, mesmo sem uma tarefa especial para gerar dados, enriquece o modelo mundial do agente e, portanto, melhora sua capacidade de resolver problemas.

Esses resultados se sobrepõem à nossa compreensão intuitiva da mente humana. Nossa capacidade de estudar o mundo sem supervisão especial é uma das propriedades fundamentais da inteligência. Em uma viagem de treinamento, podemos indiferentemente olhar pela janela, tocar o veludo nos assentos, considerar passageiros viajando conosco. Não temos um objetivo nesses estudos: dificilmente podemos escapar de nossas mentes da coleta de informações, e nosso cérebro trabalha incansavelmente para entender o mundo ao nosso redor e nosso lugar nele.

Source: https://habr.com/ru/post/pt451626/


All Articles