A rede neural aprendeu a desenhar cenas complexas a partir de uma descrição textual

O grupo de pesquisa Microsoft Research introduziu uma rede neural competitiva entre gerações que é capaz de gerar imagens com vários objetos com base em uma descrição textual. Ao contrário de algoritmos similares de texto para imagem anteriores, capazes de reproduzir imagens apenas de objetos básicos, essa rede neural pode lidar com descrições complexas com mais eficiência.


A complexidade de criar esse algoritmo era que, primeiro, antes que o bot não fosse capaz de recriar todos os objetos básicos de acordo com suas descrições em boa qualidade, e segundo, não era possível analisar como vários objetos podem se relacionar entre si. dentro de uma composição. Por exemplo, para criar uma imagem de acordo com a descrição "Uma mulher de capacete senta-se em um cavalo", a rede neural precisava "semanticamente" entender como cada um dos objetos se relaciona. Conseguimos resolver esses problemas treinando a rede neural com base no conjunto de dados abertos COCO contendo dados de marcação e segmentação para mais de 1,5 milhão de objetos.


A Microsoft ensinou à rede neural como desenhar cenas complexas usando descrições de texto

O algoritmo é baseado na rede neural gerativa-competitiva orientada a objetos ObjGAN (Newtorks Adversarial Generativo Atencioso Atencioso e Orientado a Objetos). Ela analisa o texto, extraindo palavras-objetos que precisam ser colocados na imagem. Diferente de uma rede geradora-adversária convencional que consiste em um gerador que cria imagens e um discriminador que avalia a qualidade das imagens geradas, o ObjGAN contém dois discriminadores diferentes. Analisa-se quão realista é cada um dos objetos reproduzidos e quanto ele corresponde à descrição existente. O segundo determina o quão realista é toda a composição e se relaciona com o texto.


O antecessor do algoritmo ObjGAN foi o AttnGAN, também desenvolvido por pesquisadores da Microsoft. É capaz de gerar imagens de objetos a partir de descrições textuais mais simples. A tecnologia para converter texto em imagens pode ser usada para ajudar designers e artistas a criar esboços.


O algoritmo ObjGAN está disponível publicamente no GitHub.


Mais detalhes técnicos.

Source: https://habr.com/ru/post/pt457198/


All Articles