As limitações dos algoritmos de reconhecimento de imagem



Não, não se trata de algoritmos de reconhecimento de imagem - trata-se das limitações de seu uso, principalmente na criação de IA.

Na minha opinião, o reconhecimento de imagens visuais por uma pessoa e um sistema de computador é muito diferente - tanto que ele tem pouco em comum. Quando uma pessoa diz "entendo", ela pensa mais do que vê, o que não pode ser dito sobre um sistema de computador equipado com equipamento para reconhecimento de imagem.

Sei que a idéia não é nova, mas proponho mais uma vez garantir sua validade pelo exemplo de um robô que afirma possuir inteligência. A questão do teste é: que tipo de robô o mundo circundante deve ver para se tornar completamente como uma pessoa?

Obviamente, o robô deve reconhecer objetos. Ah, sim, os algoritmos lidam com isso - através do treinamento nas amostras originais, pelo que entendi. Mas isso é catastroficamente pequeno!

Eu
Em primeiro lugar, cada objeto do mundo circundante consiste em muitos objetos e, por sua vez, é um subconjunto de outros objetos. Eu chamo essa propriedade de aninhamento. Mas e se um sujeito simplesmente não tiver um nome, não estiver na base das amostras originais usadas para aprender o algoritmo - o que o robô deve reconhecer neste caso?

A nuvem que estou observando atualmente na janela não possui partes nomeadas, embora obviamente consista em arestas e meio. No entanto, não há termos especiais para as bordas e o meio da nuvem, não cunhados. Para indicar um objeto sem nome, usei uma expressão verbal (“nuvem” - tipo de objeto, “borda da nuvem” - expressão verbal), que não está incluída nos recursos do algoritmo de reconhecimento de imagem.

Acontece que um algoritmo sem um bloco lógico é de pouca utilidade. Se o algoritmo detectar uma parte do objeto inteiro, ele nem sempre será capaz de descobrir - consequentemente, o robô não será capaz de dizer - o que é.

II
Em segundo lugar, a lista de objetos que compõem o mundo não está fechada: é constantemente atualizada.

Uma pessoa tem a capacidade de construir objetos da realidade, atribuindo nomes a novos objetos descobertos, por exemplo, espécies da fauna. Ele chamará um cavalo com cabeça humana e tronco como centauro, mas, para isso, primeiro perceberá que a criatura tem cabeça e tronco humanos, e tudo o mais é eqüino, reconhecendo assim o objeto visto como novo. É isso que o cérebro humano faz. E o algoritmo, na ausência de dados de entrada, determinará tal criatura como pessoa ou como cavalo: sem operar com as características dos tipos, não será possível estabelecer sua combinação.

Para que um robô se torne como um ser humano, ele deve ser capaz de definir novos tipos de objetos para ele e atribuir nomes a esses tipos. Nas descrições do novo tipo, as características dos tipos conhecidos devem aparecer. E se o robô não sabe como, por que diabos precisamos dele, tão bonito?

Digamos que enviamos um robô de reconhecimento para Marte. Um robô vê algo incomum, mas é capaz de identificar um objeto exclusivamente em termos terrenos conhecidos por ele. O que isso dará às pessoas que ouvem mensagens verbais vindas do robô? Às vezes, dará algo, é claro (se objetos da Terra forem encontrados em Marte) e, em outros casos, nada (se os objetos marcianos não forem semelhantes aos objetos da Terra).

A imagem é outra questão: a própria pessoa será capaz de ver tudo, avaliar e nomear corretamente. Somente através de um algoritmo de reconhecimento de imagem não treinado, mas do cérebro humano mais astuciosamente construído.

III
Em terceiro lugar, há algum problema com a individualização de objetos.

O mundo ao redor consiste em objetos específicos. Na verdade, você só pode ver objetos específicos. Mas, em alguns casos, eles precisam ser verbalmente individualizados, para os quais nomes pessoais são usados ​​("Vasya Petrov") ou uma simples indicação de um objeto específico, pronunciado ou implícito ("esta tabela"). O que chamo de tipos de objetos ("pessoas", "tabelas") são apenas nomes coletivos de objetos que possuem certas características comuns.

Os algoritmos de reconhecimento de imagem, se treinados nas amostras originais, poderão reconhecer objetos individualizados e não individualizados - isso é bom. Reconhecimento facial em lugares lotados e tudo mais. O ruim é que esses algoritmos não entenderão quais objetos devem ser reconhecidos como possuidores de uma individualidade e quais não valem absolutamente nada.

O robô, como proprietário da IA, deve ocasionalmente explodir em mensagens como:
- Ah, e eu vi essa velha há uma semana!

Mas não vale a pena abusar de tais réplicas sobre folhas de grama, especialmente porque existem receios bem fundamentados sobre a suficiência do poder de computação para executar essa tarefa.

Não está claro para mim onde a linha tênue é traçada entre uma mulher idosa individualizada e inúmeras folhas de grama, que são individualizadas por nada menos que uma mulher idosa, mas que não interessam a uma pessoa do ponto de vista da individualização. Qual é a imagem reconhecida nesse sentido? Quase nada - o começo de uma percepção difícil a dolorosa da realidade circundante.

IV
Quarto, a dinâmica dos objetos, determinada por seu arranjo espacial mútuo. Eu digo, isso é algo!

Estou sentado em frente à lareira em uma poltrona profunda e agora estou tentando me levantar.
"O que você vê, robô?"

Do nosso ponto de vista cotidiano, o robô me vê levantando de uma cadeira. O que ele deveria responder? Provavelmente a resposta relevante seria:
"Eu vejo você se levantando da sua cadeira."

Para fazer isso, o robô deve saber quem eu sou, o que é uma cadeira e o que significa subir ...

O algoritmo de reconhecimento de imagem, após as configurações apropriadas, será capaz de reconhecer a mim e à cadeira, e comparando os quadros, podemos determinar o fato de uma remoção mútua de mim da cadeira, mas o que significa "subir"? Como a “elevação” acontece na realidade física?

Se eu já me levantei e fui embora, tudo é bem simples. Depois que me afastei da cadeira, todos os objetos no escritório não mudaram a posição espacial um do outro, com exceção de mim, que estava originalmente na cadeira e depois de algum tempo estava longe da cadeira. É permitido concluir que deixei a cadeira.

Se ainda estou levantando da cadeira, tudo fica um pouco mais complicado. Ainda estou ao lado da cadeira, no entanto, a posição espacial relativa das partes do meu corpo mudou:

  • inicialmente a tíbia e o tronco estavam na posição vertical e a coxa na horizontal (eu estava sentado),
  • No momento seguinte, todas as partes do corpo estavam na posição vertical (levantei-me).

Observe o meu comportamento como pessoa, ele conclui instantaneamente que estou levantando de uma cadeira. Para uma pessoa, isso não será tanto uma conclusão lógica quanto uma percepção visual: ela literalmente me verá levantando da minha cadeira, embora na verdade ele veja uma mudança na posição relativa de partes do meu corpo. No entanto, na realidade, será uma conclusão lógica que alguém deve explicar ao robô, ou o robô deve elaborar essa conclusão lógica por conta própria.

Ambos são igualmente difíceis:

  • entrar na informação inicial da base de conhecimento que levantar é uma mudança seqüencial na posição espacial mútua de certas partes do corpo de alguma forma não é inspiradora;
  • não é menos estúpido esperar que o robô, como uma criatura artificial, adivinhe rapidamente que a mudança na posição espacial mútua de certas partes do corpo descritas acima é chamada de pé. Nos seres humanos, esse processo leva anos, quanto será necessário para um robô?

E o que os algoritmos de reconhecimento de imagem têm a ver com isso? Eles nunca serão capazes de determinar que eu estou me levantando de uma cadeira.

V.
"Levantar-se" é um conceito abstrato, determinado por uma mudança nas características dos objetos materiais, neste caso, uma mudança em sua posição espacial mútua. No caso geral, isso é verdade para quaisquer conceitos abstratos, porque os próprios conceitos abstratos não existem no mundo material, mas são completamente dependentes de objetos materiais. Embora muitas vezes os percebemos como observados pessoalmente.

Mover a mandíbula para a direita ou esquerda, sem abrir a boca - como é chamada essa ação? Mas de jeito nenhum. Sem dúvida, pela razão de que esse movimento geralmente não é característico para uma pessoa. Usando os algoritmos discutidos, o robô verá algo, mas qual é o objetivo? Na base das amostras iniciais, o nome desejado estará ausente e será difícil nomear a ação registrada do robô. E para fornecer formulações verbais detalhadas para ações sem nome, bem como para outros conceitos abstratos, os algoritmos de reconhecimento de imagem não são treinados.

De fato, temos uma duplicata do primeiro parágrafo, não apenas com relação aos objetos, mas também aos conceitos abstratos. No entanto, o restante dos parágrafos, anterior e próximo, também pode ser vinculado a conceitos abstratos - apenas presto atenção ao aumento do nível de complexidade ao trabalhar com abstrações.

VI
Sexto, um relacionamento causal.

Imagine que você está assistindo uma caminhonete voando fora da estrada e derrubando uma cerca. A razão pela qual a cerca é demolida é o movimento de recolhimento e, por sua vez, o movimento de coleta resulta na demolição da cerca.

- Eu vi com meus próprios olhos!
Esta é a resposta para a pergunta de se você viu ou não o que aconteceu. E o que você realmente viu?

Alguns itens nessa dinâmica:

  • uma caminhonete saiu da estrada
  • a picape chegou perto da cerca,
  • a cerca mudou de forma e localização.

Com base na percepção visual, o robô deve perceber que, no caso usual, as cercas não mudam de forma e localização: aqui isso aconteceu como resultado do contato com a picape. A causa do sujeito e o efeito do sujeito devem estar em contato um com o outro, caso contrário, a causalidade está ausente em seu relacionamento.

Embora aqui caiamos em uma armadilha lógica, porque outros objetos podem entrar em contato com a consequência do sujeito, não apenas com a razão do sujeito.

Suponha que, no momento da coleta, bata na gralha em cima do muro. Uma caminhonete e uma gralha entraram em contato com a cerca ao mesmo tempo: como determinar o resultado de qual contato a cerca foi demolida?

Provavelmente usando repetibilidade:

  • se, em cada caso, quando uma gralha estiver sobre a cerca, ela for demolida, a culpa é da gralha;
  • se, em cada caso, quando uma picape colidir com a cerca, a culpa é da picape.

Assim, a conclusão de que a cerca foi demolida por uma coleta não é exatamente uma observação, mas o resultado de uma análise baseada na observação de objetos em contato.

Por outro lado, a ação pode ser realizada à distância, por exemplo, a ação de um ímã sobre um objeto de ferro. Como o robô adivinha que mover um ímã para mais perto de uma unha faz com que ela se apresse em direção ao ímã? A imagem visual não é assim:

  • o ímã está se aproximando, mas não está em contato com a unha,
  • no mesmo instante, a unha corre para o ímã por sua própria iniciativa e entra em contato com ele.

Como você pode ver, é muito difícil rastrear relações de causa e efeito, mesmo nos casos em que a testemunha declara com convicção feroz que a viu com seus próprios olhos. Os algoritmos de reconhecimento de imagem são impotentes aqui.

VII
Sétimo e último, esta é a escolha dos objetivos de percepção visual.

A imagem visual circundante pode consistir em centenas e milhares de objetos aninhados um no outro, muitos dos quais estão constantemente mudando sua posição espacial e outras características. Obviamente, o robô não precisa perceber todas as folhas de grama no campo, como todos os rostos de uma rua da cidade: você só precisa perceber o importante, dependendo das tarefas executadas.

Obviamente, ajustar o algoritmo de reconhecimento de imagem à percepção de alguns objetos e ignorar outros não funcionará, pois talvez não se saiba com antecedência o que prestar atenção e o que ignorar, principalmente porque as metas atuais podem mudar ao longo do caminho. Uma situação pode surgir quando você primeiro precisa perceber muitos milhares de objetos aninhados um no outro - literalmente cada um deles - para analisar e só então emitir um veredicto de quais objetos são essenciais para resolver o problema atual e quais não são de interesse. É assim que a pessoa percebe o mundo à sua volta: ela vê apenas o importante, não prestando atenção a eventos de fundo desinteressantes. Como ele consegue é um segredo.

E o robô, mesmo equipado com os algoritmos de reconhecimento de imagem mais modernos e engenhosos? ... Se, durante um ataque de alienígenas marcianos, ele inicia um relatório com boletins meteorológicos e continua com uma descrição da nova paisagem espalhada à sua frente, ele pode não ter tempo para relatar o ataque.

Conclusões

  1. O simples reconhecimento de imagens visuais não substituirá os olhos humanos.
  2. Os algoritmos de reconhecimento de imagem são uma ferramenta auxiliar com um escopo muito restrito.
  3. Para o robô começar não apenas a pensar, mas a ver pelo menos humanamente, os algoritmos são necessários não apenas para o reconhecimento de padrões, mas também para o mesmo pensamento humano completo e, no entanto, inatingível.

Source: https://habr.com/ru/post/pt450422/


All Articles