🚼 🤜🏼 🕊️ O que a IA perfura ao gerar rostos humanos 👩🏻‍✈️ 🕺🏻 🥞

Em 2014, o pesquisador de aprendizado de máquina Jan Goodfellow apresentou a idéia de redes de contenção generativas ou GANs. “Generatividade” consiste no fato de que o resultado de seu trabalho são imagens, e não uma avaliação de insumos (como “cachorro quente ou não”) e “competitividade” - que duas redes neurais jogam gato e rato como agentes federais com falsificadores : uma rede neural está tentando enganar a outra criando imagens realistas e a segunda tentando distinguir falso.

As primeiras imagens GAN foram fáceis de identificar. Veja estas caras de 2014 .

“Aprendizagem sem professores para se apresentar com redes competitivas geradoras convolucionais profundas” (2014), Radford et al., Também conhecido como DCGAN

Mas os últimos rostos gerados a partir de outubro de 2017 já são mais difíceis de identificar.

“Crescimento progressivo da GAN para melhorar a qualidade, estabilidade e diversidade” (2017), Karras et al., Também conhecido como PGAN ou ProGAN

Aqui estão alguns dos recursos das imagens que a GAN gerou. Nós nos concentramos nos rostos porque eles são um campo de teste comum para pesquisadores e muitos dos artefatos mais visíveis aparecem em outros tipos de imagens.

Cabelo liso parece tinta

Cabelos compridos geralmente parecem hipertrofiados com mechas retas, como se alguém tivesse manchado um monte de acrílico com uma faca de paleta ou uma escova enorme.

O texto não é descriptografável

Se a GAN treinou em rostos, é difícil para ela encontrar objetos estruturados raros em segundo plano. Além disso, os GANs são treinados nas versões padrão e espelhada das imagens, o que gera problemas na modelagem de texto, que geralmente é exibida em apenas uma orientação.

Fundo surreal

Uma das razões pelas quais os rostos gerados parecem críveis é porque todas as imagens de treinamento estavam centralizadas. Isso reduz a variação na geração de, por exemplo, olhos e ouvidos. Por outro lado, o plano de fundo pode conter qualquer coisa. Como é muito difícil modelar, a rede neural finalmente replica as texturas gerais de fundo, em vez das cenas de fundo "reais".

Assimetria

Um GAN pode ter dificuldade em gerenciar dependências distantes. Por exemplo, acessórios emparelhados, como brincos, geralmente coincidem no conjunto de dados, mas não nas imagens criadas. Os olhos dessas fotografias geralmente olham na mesma direção e geralmente da mesma cor, e os rostos gerados frequentemente sofrem de estrabismo e heterocromia. A assimetria geralmente aparece nas orelhas de diferentes alturas ou tamanhos.

Dentes estranhos

Os GANs podem montar uma cena comum, mas atualmente estão enfrentando dificuldades com detalhes repetitivos semi-regulares, como dentes. Às vezes, o GAN solta dentes tortos, alonga ou aperta dentes individuais de maneiras estranhas. Historicamente, esse problema se manifestou em outras áreas, como a síntese de texturas com imagens como tijolos.

Cabelo caótico

Essa é uma das maneiras mais rápidas de reconhecer uma imagem falsa. Como regra, o GAN recolhe o cabelo em pedaços, cria feixes aleatórios ao redor dos ombros e joga uma pêra grossa na testa. Penteados reais são muito variados e detalhados, tornando-os um dos objetos mais difíceis para a geração GAN realista. Às vezes, objetos estranhos podem se transformar em texturas peludas.

Piso incompreensível

Este GAN foi treinado na suíte CelebA com 200.000 imagens de 10.000 celebridades. Nesse conjunto, não encontrei ninguém com pêlos faciais, brincos e maquiagem ao mesmo tempo; mas o GAN mistura regularmente os atributos típicos de diferentes sexos. Em geral, acho que isso se deve ao fato de o GAN nem sempre ter uma idéia das categorias binárias opostas que são aceitas na sociedade humana (neste caso, "homem versus mulher").

Ruído semi-regular

Em vez de um fundo monocromático, algumas áreas podem receber ruído semi-regular com faixas horizontais ou verticais. Nos casos acima, a rede provavelmente está tentando imitar a textura do tecido. GANs mais antigos geram muito mais ruído perceptível, que geralmente é descrito como artefatos de xadrez .

Arco-íris flare

Algumas áreas com um preenchimento sólido e claro recebem um reflexo multicolorido: são colarinhos, pescoços e olhos brancos (não mostrados aqui).

Exemplos de imagens reais

Preste atenção a um plano de fundo claro, texto, brincos emparelhados, dentes do mesmo tamanho, penteados detalhados. Conhecendo todos os truques da GAN, tente jogar e verifique como você distingue os rostos reais dos falsos. Nota: alguns têm problemas com o botão Iniciar .

O que a IA perfura ao gerar rostos humanos