
Experiência de pensamento
Imagine que você acordou em uma sala estranha. Este não é um quarto aconchegante no qual você adormeceu, mas uma cela mal iluminada com um piso úmido e fresco. Gesso rachado nas paredes. E a única entrada e saída é supostamente uma enorme porta de ferro, trancada com um cadeado por dentro. Um pouco mais alto na parede há uma janela gradeada que permite a passagem de luz. Se você olhasse em volta, chegaria à conclusão de que está preso, isso seria perfeitamente razoável. Parece horrível.
Mas isso vai te satisfazer? Provavelmente não. Você desejará explorar a sala um pouco mais, talvez puxe o cadeado para testar sua confiabilidade. Ou deseja testar a força dessas paredes rebocadas. Talvez alguns golpes fortes e você faça um buraco pelo qual possa sair? Ou talvez essas grades na janela tenham aberturas tão grandes que você possa subir? A interação com o ambiente fornece muito mais informações do que a observação passiva. A visão pode ser uma hipótese, mas testá-la requer uma interação real com o ambiente.
Conceito de conceitos
Conteúdo e conclusão são conceitos.
Cão também é um conceito. Além de
correr ,
floresta ,
beleza ,
verde ou
morte . Conceitos são abstrações que distinguimos da interação cotidiana com o mundo. Eles formam os blocos reutilizáveis de conhecimento que as pessoas precisam para entender o mundo.
Quando temos uma compreensão conceitual de algo, significa que temos alguma experiência com essa coisa, de alguma forma a dominamos. No caso do conteúdo, essa experiência significa que podemos identificar objetos contêineres no mundo que podem conter algo, separá-los de "não contêineres", colocar algumas coisas dentro, recuperá-las e antecipar o que acontecerá, se vamos de alguma forma interagir com eles. Podemos até olhar para coisas novas e entender se elas podem potencialmente conter algo em si ou vice-versa - se elas podem ser incluídas em algum outro assunto.
As principais abordagens do entendimento conceitual em IA, incluindo sistemas de aprendizado profundo treinados em conjuntos de dados como o
ImageNet , aparentemente possuem algumas dessas habilidades, mas elas não têm um entendimento mais profundo - a experiência que vem da interação. Ao perceber uma imagem ou até mesmo um vídeo, essas abordagens podem determinar se existe um tipo específico de "contêiner", por exemplo, um copo, uma casa ou uma garrafa, e também para determinar onde esse objeto está localizado na imagem. Mas eles quase certamente falharão quando se depararem com um tipo inexplorado de tal objeto. Uma solicitação para se colocar em algum lugar só terá um completo mal-entendido nesse sistema, uma vez que correlaciona o conceito de um objeto contêiner com uma série de sinais visuais, mas não possui um entendimento ativo do termo do conteúdo em algo.
Conceitos da experiência sensório-motora
Henri Poincaré foi um dos primeiros a enfatizar o papel das representações sensório-motoras na compreensão humana. Em seu livro Science and Hypothesis, ele argumentou que um ser imóvel nunca poderia dominar o conceito de espaço tridimensional. Há não muito tempo, vários cientistas cognitivos sugeriram que representações conceituais surgem da integração de percepção e ação. Por exemplo,
O'Regan e Noë definem a experiência sensório-motora como "uma estrutura de regras que define as mudanças sensoriais produzidas por várias ações motoras" e a observação passiva como "um modo de explorar o mundo que depende do conhecimento da experiência sensório-motora".
Noë acrescenta que "os conceitos são um tipo de abordagem para gerenciar o que está por aí".
Embora a importância da experiência sensório-motora tenha sido apreciada dentro da comunidade cognitiva, essas idéias levaram a apenas alguns modelos computacionais específicos que exploram seu papel na formação de conceitos. No
artigo que apresentamos na AAAI-18, mostramos um modelo computacional que explora conceitos por meio da interação com o ambiente.
O que fizemos
Planejamos realizar e estudar as duas principais habilidades que compõem o entendimento conceitual: a capacidade de detectar ativamente um conceito e a capacidade de tirar conclusões ou agir sobre esse conceito. Além disso, queríamos investigar situações nas quais as habilidades interativas são preferíveis às abordagens passivas e entender como o uso de conceitos simples já estudados pode ajudar a estudar os mais complexos.
Começamos desenvolvendo um campo de treinamento virtual especial para explorar conceitos ativos, um ambiente que chamamos de
PixelWorld (disponível no
github ). Neste mundo, as coisas são organizadas um pouco mais fácil do que no real. Este é um campo bidimensional discreto que contém um agente de pixel e um ou mais objetos de outro tipo, também consistindo em pixels (por exemplo, linhas, pontos ou contêineres).
O agente tem uma implementação bastante simples: percebe apenas o espaço de células 3 × 3 ao seu redor e pode mover-se para cima, baixo, esquerda, direita ou parada e enviar algumas informações. Essa implementação requer o estudo das idéias mais básicas sobre o mundo, tanto o próprio conceito de um objeto quanto o conceito de conceitos de interação. Apesar de parecer privação sensorial excessiva, a eliminação de uma percepção visual rica nos permite focar no papel de transformar o comportamento multifacetado em uma visão significativa do mundo.
Treinamos agentes em dois tipos diferentes de tarefas. A primeira tarefa foi investigar o ambiente e relatar se o conceito necessário está presente no ambiente. Por exemplo, um contêiner. E foi recompensado se a resposta estivesse correta. A segunda tarefa foi agir em relação a esse conceito. Por exemplo, coloque-se neste contêiner. Isso era recompensado se ele cumprisse corretamente a tarefa e a relatasse. Para isso, usamos treinamento de reforço.
Por exemplo, ensinamos o agente a determinar quando ele foi encerrado em um objeto em um plano horizontal. A animação abaixo demonstra esse comportamento: o agente verifica se há uma parede à direita e depois se há uma parede à esquerda. Assim que os dois testes são aprovados, ele relata que está "em custódia".

Treinamos o próximo agente para entender a mesma coisa quando ele já está cercado por dois objetos nas laterais: um contêiner sólido e um contêiner com um buraco. A animação mostra que o agente entra no objeto certo, verificando se é um contêiner sólido. Ele detecta um buraco e depois sobe para o contêiner esquerdo, sinalizando no final que está sob custódia.

Podemos entender com mais detalhes o que o agente está fazendo analisando os registros de suas ações:

A figura acima mostra cada ação executada pelo agente na animação mostrada acima. Cada caixa representa uma ação, o tempo aumenta da esquerda para a direita. “DOWN”, “RIGHT”, “UP” e “LEFT” são as principais ações do agente, e cada linha de “SMC” representa um caso especial de interação sensório-motora que o agente pode executar. SMC (
contingências sensorimotoras - aprox. Transl. ) Pode ser representado como pequenos programas que, quando executados, usam uma sequência de ações básicas até que o agente decida parar e enviar um dos dois sinais que significam sucesso ("SIG1", verde) ou derrota ("SIG0", vermelho). Cada um desses SMCs surgiu como um agente treinado para resolver um problema conceitual mais simples. Por exemplo, o “SMC 3” foi treinado para subir em um contêiner se ele estava inicialmente no chão à sua esquerda. E esta é a primeira coisa que o agente faz na animação da etapa 0 a 11. Assim, o agente pode executar tarefas complexas, como fazer uma conclusão final sobre a conclusão, executando uma sequência de SMCs de baixo nível correspondentes.
Depois disso, expandimos nossos conceitos além do prazo de conclusão e incluímos conceitos como estar em cima de um objeto ou ficar à esquerda de dois objetos:


O treinamento desses agentes em apenas um ambiente não seria suficiente, pois para entender quais aspectos do ambiente estão relacionados aos conceitos e quais não, são necessários muitos ambientes diferentes. A presença de tantos tipos de ambientes também nos permite determinar os tipos nos quais uma abordagem ativa e reutilização de comportamentos desenvolvidos anteriormente se beneficiariam de abordagens passivas.
Para atender a essa necessidade, aplicamos um tipo especial de gravação com base na lógica de primeira ordem para preparar matrizes de dados para experimentos usando expressões lógicas tanto para gerar mídia quanto para marcá-las em relação ao conceito representado dentro delas. Criamos 96 matrizes organizadas em blocos de treinamento, de conceitos simples a complexos. O sistema de gravação e os ambientes mencionados acima estão contidos na versão do PixelWorld.
O que temos
Comparamos nossa abordagem ativa com a passiva, usando uma rede neural convolucional, treinada para determinar se um conceito está presente, com base em uma percepção estática de todo o ambiente. Para conceitos que usam "conclusão", a abordagem interativa é claramente superior à rede convolucional. Para conceitos envolvendo objetos diversos de muitas formas e relações espaciais, descobrimos que a rede de convolução funcionava melhor em alguns casos, mas pior em outros. Deve-se notar que abordagens passivas, por definição, não podem interagir com o ambiente, portanto, neste caso, a única coisa que se poderia esperar era uma detecção estática do conceito. Somente nossa abordagem proativa pode ser bem-sucedida em ambientes que exigem um entendimento de algum tipo de interação ou relacionamento com o conceito.
Também descobrimos que a reutilização do comportamento melhorou os resultados das duas tarefas (detecção e interação), com os resultados mais óbvios nos casos em que os conceitos incluíam vários objetos ou exigiam sequências complexas no comportamento.
Conclusões
Nosso trabalho mostra que representações conceituais sensório-motoras interativas podem ser formalizadas e assimiladas. Embora as experiências refletidas neste artigo ajudem a identificar o papel da interação de uma maneira geral, sua combinação com a abordagem do
sistema de visão generativa pode ser útil para o estudo dos conceitos do mundo real. Além disso, a combinação de representações sensório-motoras com técnicas como "
redes de esquema " permitiria ao agente ter uma representação interna do mundo externo que ele pode usar para simulação e planejamento.
Embora a inteligência artificial descontrolada seja um tópico que é melhor deixar para os filmes de ficção científica, acreditamos que extrair conceitos da interação sensório-motora é uma das chaves para ir além das modernas técnicas passivas de inteligência artificial.