La red neuronal ha aprendido a dibujar escenas complejas a partir de una descripción textual.

El grupo de investigación Microsoft Research introdujo una red neuronal generativa-competitiva que es capaz de generar imágenes con múltiples objetos basados ​​en una descripción textual. A diferencia de los anteriores algoritmos similares de texto a imagen, capaces de reproducir imágenes de solo objetos básicos, esta red neuronal puede hacer frente a descripciones complejas de manera más eficiente.


La complejidad de crear un algoritmo de este tipo era que, en primer lugar, el bot no podía recrear todos los objetos básicos en buena calidad de acuerdo con sus descripciones, y en segundo lugar, no podía analizar cómo se pueden relacionar varios objetos entre sí en dentro de una composición. Por ejemplo, para crear una imagen de acuerdo con la descripción "Una mujer en un casco se sienta en un caballo", la red neuronal tuvo que "entender" semánticamente cómo cada uno de los objetos se relaciona entre sí. Logramos resolver estos problemas entrenando la red neuronal basada en el conjunto de datos abiertos COCO que contiene datos de marcado y segmentación para más de 1.5 millones de objetos.


Microsoft enseñó a la red neuronal cómo dibujar escenas complejas utilizando descripciones textuales

El algoritmo se basa en la red neuronal generativa-competitiva orientada a objetos ObjGAN (Newtorks Adversarial Generativo Atentado por Objetos). Ella analiza el texto, extrayendo de él palabras-objetos que deben colocarse en la imagen. A diferencia de una red convencional de confrontación generativa que consiste en un generador que crea imágenes y un discriminador que evalúa la calidad de las imágenes generadas, ObjGAN contiene dos discriminadores diferentes. Uno analiza cuán realistas son cada uno de los objetos reproducidos y cuánto coincide con la descripción existente. El segundo determina cuán realista es toda la composición y se relaciona con el texto.


El predecesor del algoritmo ObjGAN fue AttnGAN, también desarrollado por investigadores de Microsoft. Es capaz de generar imágenes de objetos a partir de descripciones textuales más simples. La tecnología para convertir texto en imágenes se puede utilizar para ayudar a diseñadores y artistas a crear bocetos.


El algoritmo ObjGAN está disponible públicamente en GitHub.


Más detalles técnicos.

Source: https://habr.com/ru/post/457198/


All Articles