É importante que computadores e pessoas vejam o mundo de maneira diferente?

Por alguns parâmetros, a visão de máquina é superior à humana. Segundo outros, talvez nunca nos alcance.




Quando os engenheiros decidiram ensinar os computadores a ver pela primeira vez, eles deram como certo que os computadores veriam tudo exatamente como as pessoas. As primeiras sugestões para visão computacional da década de 1960 foram "aparentemente motivadas pelas características da visão humana", disse John Tsotsos , cientista da computação da Universidade de York.

Desde então, muita coisa mudou.

A visão computacional superou o estágio dos castelos no ar e se transformou em uma área em desenvolvimento ativo. Hoje, os computadores estão à frente das pessoas em algumas tarefas de reconhecimento de padrões, por exemplo, na classificação de imagens (“cachorro ou lobo?”) Ou na detecção de anomalias em fotografias médicas. E o processo de processamento de dados visuais por "redes neurais" é cada vez mais diferente do processo usado pelas pessoas.

Os computadores nos venceram em nosso próprio jogo, jogando de acordo com outras regras.

As redes neurais subjacentes à visão computacional são bastante simples. Eles recebem uma imagem de entrada e a processam em várias etapas. Primeiro, eles reconhecem os pixels, depois os rostos e contornos, depois os objetos inteiros e, no final, dão um palpite sobre o que escorregaram. Esses sistemas são chamados de redes neurais de distribuição direta porque sua operação é semelhante a um transportador.

Não sabemos muito sobre a visão humana, mas sabemos que não funciona assim. Em nossa história recente, “O Modelo Matemático Revela os Segredos da Visão ”, descrevemos um novo modelo matemático que tenta explicar o principal mistério da visão humana: como o córtex visual do cérebro recria representações vívidas e precisas do mundo com base nas escassas informações que recebe da retina.

Esse modelo pressupõe que o córtex visual é capaz de funcionar devido a uma sequência de ciclos de feedback neural que processam pequenas alterações nos dados provenientes do mundo exterior em uma gama diversificada de imagens que aparecem antes da nossa percepção interior. Esse processo de feedback é muito diferente dos métodos de propagação direta com os quais a visão por computador trabalha.

"Este trabalho demonstra como o córtex visual é complexo e, de certa forma, diferente" da visão computacional, disse Jonathan Victor , neurocientista da Universidade de Cornell.

No entanto, em algumas tarefas, a visão computacional é superior à humana. Surge a questão: é necessário construir esquemas de visão computacional baseados no ser humano?

Em certo sentido, a resposta será negativa. As informações que atingem o córtex visual são limitadas pela anatomia: um número relativamente pequeno de nervos conecta o córtex visual ao mundo exterior, o que limita a quantidade de dados visuais com os quais o córtex visual precisa trabalhar. Os computadores não têm esses problemas de largura de banda; portanto, não há motivo para trabalhar com falta de informações.

“Se eu tivesse infinito poder computacional e memória infinita, precisaria limitar o fluxo de informações? Provavelmente não ”, disse Tsotsos. No entanto, ele acha que negligenciar a visão humana é imprudente.

As tarefas de classificação em que os computadores obtiveram sucesso hoje em dia são muito simples para a visão por computador, diz ele. Para resolver com êxito esses problemas, você só precisa encontrar correlações em conjuntos de dados massivos. Para tarefas mais complexas, como examinar um objeto de diferentes ângulos de visão para reconhecê-lo (aproximadamente como uma pessoa se familiariza com uma estátua, contornando-a de lados diferentes), essas correlações podem não ser suficientes. Para sua execução adequada, os computadores podem precisar aprender com uma pessoa.

No ano passado, em uma entrevista à nossa revista, Judah Pearl , pioneira em inteligência artificial , falou da mesma coisa em um contexto mais geral, argumentando que o treinamento em correlação não seria suficiente para o desenvolvimento de sistemas de IA em longo prazo.

Por exemplo, uma característica fundamental da visão humana é uma reação atrasada. Processamos informações visuais e chegamos à conclusão sobre o que vemos. Quando essa conclusão não nos convém, olhamos para o que está acontecendo novamente e, muitas vezes, esse segundo olhar nos diz com mais precisão o que está acontecendo. Os sistemas de visão computacional que operam de acordo com o esquema de distribuição direta não têm essa oportunidade, por causa da qual frequentemente falham miseravelmente até nas tarefas mais simples de reconhecimento de padrões.

A visão humana tem outro aspecto, menos óbvio e mais importante, que falta à visão computacional.

O sistema visual humano vem melhorando ao longo dos anos. No trabalho de 2019 , que Tsotsos escreveu com os colegas, descobriu-se que a capacidade de suprimir o ruído em uma cena saturada de detalhes e focar no que eles precisam aparece nas pessoas apenas com 17 anos de idade. Outros pesquisadores descobriram que a capacidade de reconhecer rostos está constantemente melhorando até 20 anos.

Os sistemas de visão computacional funcionam digerindo grandes quantidades de dados. A arquitetura subjacente é fixa e não muda ao longo do tempo, como acontece no cérebro. E se os mecanismos de aprendizagem subjacentes forem tão diferentes, os resultados serão diferentes? Tsotsos acredita que o sistema de visão computacional no final está aguardando o acerto de contas.

"Aprender com esses métodos de aprendizado profundo está o mais longe possível do aprendizado humano", disse ele. "Portanto, parece-me que um beco sem saída os espera." Eles atingirão o limite de desenvolvimento além do qual não podem mais ir. ”

Source: https://habr.com/ru/post/pt469945/


All Articles