🚵🏻 💺 🍚 ¿Qué perfora la IA cuando genera rostros humanos? 🍧 👿 ✌🏿

En 2014, el investigador de aprendizaje automático Jan Goodfellow propuso la idea de redes de contención generativa o GAN. La "generatividad" consiste en el hecho de que el resultado de su trabajo son imágenes, y no una evaluación de los aportes (como "hot dog o no"), y "competitividad": que dos redes neuronales juegan al gato y al ratón como federales con falsificadores : una red neuronal está tratando de engañar a la otra creando imágenes realistas, y la segunda está tratando de distinguir lo falso.

Las primeras imágenes de GAN fueron fáciles de identificar. Mira estas caras de 2014 .

"Aprendizaje sin maestros para presentar con profundas redes competitivas generativas convolucionales" (2014), Radford et al. También conocido como DCGAN

Pero las últimas caras generadas a partir de octubre de 2017 ya son más difíciles de identificar.

"Crecimiento progresivo de GAN para mejorar la calidad, la estabilidad y la diversidad" (2017), Karras et al. También conocido como PGAN o ProGAN

Estas son algunas de las características de las imágenes que generó la GAN. Nos centramos en las caras porque son un campo de pruebas común para los investigadores, y muchos de los artefactos más visibles aparecen en otros tipos de imágenes.

El cabello lacio parece pintura

El cabello largo a menudo se ve hipertrofiado con hebras rectas, como si alguien untara un montón de acrílico con una espátula o un cepillo enorme.

El texto no es descifrable

Si la GAN se entrena en caras, entonces es difícil para ella encontrar objetos estructurados raros en el fondo. Además, las GAN están capacitadas en versiones estándar y espejo de imágenes, lo que genera problemas al modelar texto, que generalmente se muestra en una sola orientación.

Fondo surrealista

Una de las razones por las cuales las caras generadas se ven creíbles es porque todas las imágenes de entrenamiento estaban centradas. Esto reduce la variación en la generación de, por ejemplo, ojos y oídos. Por otro lado, el fondo puede contener cualquier cosa. Es demasiado difícil de modelar, por lo que la red neuronal en última instancia replica las texturas de fondo generales, en lugar de las escenas de fondo "reales".

Asimetría

Una GAN puede tener dificultades para administrar dependencias que están lejos. Por ejemplo, los accesorios emparejados, como los aretes, generalmente coinciden en el conjunto de datos, pero no en las imágenes creadas. Los ojos en estas fotografías generalmente miran en la misma dirección y generalmente del mismo color, y las caras generadas a menudo sufren de estrabismo y heterocromía. La asimetría a menudo aparece en las orejas de diferentes alturas o tamaños.

Dientes extraños

Las GAN pueden armar una escena común, pero actualmente están experimentando dificultades con detalles repetitivos semi regulares como los dientes. A veces, la GAN emite dientes torcidos, estira o aprieta los dientes individuales de manera extraña. Históricamente, este problema se ha manifestado en otras áreas, como la síntesis de texturas con imágenes como ladrillos.

Cabello caótico

Esta es una de las formas más rápidas de reconocer una imagen falsa. Como regla general, la GAN recoge el cabello en grumos, crea paquetes al azar alrededor de los hombros y arroja pelusa gruesa sobre la frente. Los peinados reales son muy variados y detallados, lo que los convierte en uno de los objetos más difíciles para la generación realista de GAN. Los objetos extraños a veces pueden convertirse en texturas peludas.

Piso incomprensible

Esta GAN fue entrenada en la suite CelebA con 200,000 imágenes de 10,000 celebridades. En este set no conocí a nadie con vello facial, aretes y maquillaje al mismo tiempo; pero la GAN mezcla regularmente los atributos típicos de diferentes sexos. En general, creo que esto se debe al hecho de que la GAN no siempre tiene una idea de las categorías binarias opuestas que se aceptan en la sociedad humana (en este caso, "hombre versus mujer").

Ruido semi-regular

En lugar de un fondo monocromo, algunas áreas pueden recibir ruido semi-regular con rayas horizontales o verticales. En los casos anteriores, la red probablemente está tratando de imitar la textura de la tela. Las GAN más antiguas generan un ruido mucho más notable, que generalmente se describe como artefactos de ajedrez .

Llamarada del arco iris

Algunas áreas con un relleno sólido claro reciben un destello multicolor: estos son collares, cuellos y ojos blancos (no se muestran aquí).

Ejemplos de imágenes reales.

Presta atención a un fondo claro, texto, pendientes emparejados, dientes del mismo tamaño, peinados detallados. Conociendo todos los trucos de GAN, intenta jugar el juego y comprueba cómo distingues las caras reales de las falsas. Nota: algunos tienen problemas con el botón Inicio .

¿Qué perfora la IA cuando genera rostros humanos?