A DeepMind AI falha em identificar com precisão as ações de Homer Simpson



Existem mais e mais tipos de redes neurais, e elas realmente ajudam as pessoas a viver e trabalhar. Alguns sistemas preveem o clima, outros aprendem a fazer diagnósticos e parte dos sistemas entra em grandes negócios. A IA, sua forma fraca, já sabe como analisar grandes quantidades de dados, encontrando dependências entre, à primeira vista, fatores não relacionados. Mas, é claro, ainda existem muitos problemas - a inteligência artificial não é capaz de lidar com a análise do comportamento de um personagem de desenho animado "misterioso" como Homer Simpson.

Não, o sistema pode identificar algumas de suas ações, mas não todas. Ao mesmo tempo, a rede neural foi treinada em um grande número de vídeos do YouTube de Os Simpsons. Vale ressaltar que o DeepMind está longe de ser novo no desenvolvimento de vários sistemas de IA. Por exemplo, um dos desenvolvimentos desta empresa, anteriormente parte do Google, e agora transferido para a jurisdição do Softbank, conseguiu derrotar os campeões mundiais no jogo.

Os sistemas DeepMind, bem como desenvolvimentos desse tipo por outras empresas, são capazes de analisar grandes volumes de informações. Com o tempo, o trabalho das redes neurais se torna cada vez mais perfeito à medida que elas aprendem. Seja reconhecimento facial ou tradução do inglês para chinês e vice-versa - os resultados estão melhorando dia a dia. Para ensinar seu sistema, chamado Kinetics, a entender o comportamento das pessoas, os funcionários da DeepMind “alimentaram” mais de 300.000 vídeos do YouTube, aprendendo a distinguir cerca de 400 tipos de ações humanas.

“Os sistemas de IA agora são muito bons em reconhecer vários objetos nas imagens, mas seu lado fraco é trabalhar com vídeo”, afirma representantes da DeepMind. "Uma das principais razões é a falta de grandes amostras de vídeos de alta qualidade."

Para resolver esse problema, os funcionários do DeepMind decidiram criar sua própria amostra . Para cada um dos 400 tipos de ações, uma pessoa do YouTube foi "cortada" em pelo menos 400 vídeos, com duração de 10 segundos. O resultado é um dos primeiros conjuntos de dados especializados e de alta qualidade projetados para o ensino da IA. Obviamente, a empresa DeepMind, que formou essa amostra enquanto ainda era uma divisão do Google, teve sorte porque o Google (agora detentor do alfabeto) é o proprietário do YouTube. Consequentemente, os funcionários da Deepmind provavelmente tiveram acesso a ferramentas especializadas para trabalhar com materiais de serviço de vídeo. Outras empresas terão mais dificuldade nesse sentido, já que encontrar vídeos de alta qualidade disponíveis ao público para compilar um conjunto de dados especializado não é tão fácil quanto parece.

A precisão de identificar as várias cinéticas vistas nos vídeos das ações das pessoas foi de cerca de 80%, o que não é tão pouco. É verdade que isso se aplica a vídeos comuns, onde eles jogam tênis, acalmam uma criança chorando, fazem uma previsão do tempo etc. No caso de Homer Simpson, tudo é mais complicado, aqui a precisão cai imediatamente quatro vezes, até 20%. Era difícil para as redes neurais identificar as ações de Homer, como jogar uma moeda, pentear cabelos inexistentes (aqueles pares de cabelos que restavam não eram contados) e outros.

Além de Homer, a Kinetics é difícil de identificar um prato ou produto se apenas uma parte dele for mostrada. Um hambúrguer comido pela metade já está definido com muito menos precisão do que um todo. Os problemas também surgem se o objeto for muito pequeno. Segundo o representante da DeepMind, para ensinar a rede neural a determinar corretamente alguma ação com alto grau de precisão, às vezes apenas alguns vídeos são suficientes. Mas, às vezes, nem cem ajudam a aumentar a precisão da determinação de ações específicas.



Todos estes são problemas bem conhecidos. Por exemplo, anteriormente a mesma rede neural tinha dificuldades em identificar os rostos de pessoas pertencentes a certos grupos étnicos. Segundo alguns especialistas, os algoritmos subjacentes ao Kinetics são capazes de determinar o sexo de uma pessoa de acordo com alguns recursos de fala e textos .

A rede neural do DeepMind é capaz de determinar o sexo de uma pessoa no vídeo (embora de maneira alguma em todos os casos), bem como avaliar o "equilíbrio de gênero" de vários vídeos. Por exemplo, o vídeo com bigodes e barbas de barbear é principalmente masculino (quem ficaria surpreso), mas trabalhar com sobrancelhas ou torcida é feminino. É verdade que o problema com o reconhecimento de gênero ainda permanece, os desenvolvedores têm algo para trabalhar aqui.

No futuro, é provável que o trabalho nesses sistemas determine não apenas o que as pessoas fazem no vídeo, mas também o motivo de suas ações. Por exemplo, uma rede neural pode determinar por que uma pessoa exclamou "oh", explicando o que causou essa ação. Isso requer um trabalho adicional sólido e muitos, muitos conjuntos de dados para treinamento.

Provavelmente, se você treinar melhor o Kinetics, esse sistema aprenderá a determinar as ações de Homer Simpson. Embora quem sabe, esse seja um personagem muito imprevisível. Será que vai funcionar?

Source: https://habr.com/ru/post/pt404523/


All Articles