A rede neural do Google estiliza aleatoriamente imagens em tempo real


A rede neural do Google sobrepõe qualquer um dos 32 estilos treinados na foto (cinco são mostrados aqui). O programa não exige hardware e memória. O código será publicado em breve

Síntese de texturas com a transferência de estilo de uma imagem para outra - uma técnica bem conhecida aos 15 anos de idade. Foi descrito pela primeira vez no artigo " Analogies in Image " por um grupo de pesquisadores da Microsoft Research para a conferência SIGGRAPH 2001, bem como no artigo " Image padding for synthesis and transfer texture " da Mitsubishi Electric Research e da University of California em Berkeley no mesmo ano de 2001. Agora é difícil dizer qual apareceu antes.

Em 2015, a técnica recebeu uma segunda vida, quando as redes neurais foram conectadas à síntese de imagens com transferência de estilo. Isso aconteceu após a publicação do trabalho científico Art Style Neuroalgorithm ” de Gatis, Ecker e Betge da Universidade Eberhard-Karl em Tübingen, Alemanha ( artigo sobre Geektimes ). O trabalho é tão impressionante que o algoritmo descrito foi implementado em vários programas de computador para o mercado consumidor, incluindo aplicativos móveis como o Russian Prisma (junho de 2016).

O trabalho de Gatis, Ecker e Betge é bom porque os autores treinaram a rede neural nas obras existentes de artistas famosos: Vincent Van Gogh, Pablo Picasso, Edward Munch e outros. Ao mesmo tempo, a rede neural pode continuar sendo treinada em outros conjuntos de dados, portanto, essa é uma ferramenta universal. É uma rede neural que roda no servidor da Prisma e em outras empresas que distribuem aplicativos móveis para estilizar fotos de usuários.

A rede neural convolucional de Getis, Ecker e Betge foi criada com base na rede neural VGG de 19 camadas de Simonyan e Zisserman, e o processamento da imagem original ocorre em várias etapas. Em cada estágio da hierarquia, o número de filtros aumenta. O estilo de um estilo específico ocorre nos primeiros estágios da "redução da amostra" (traços largos, padrões cubistas etc.), e as últimas camadas da rede neural processam a imagem original para que os objetos permaneçam reconhecíveis ( d e e no diagrama). A rede neural começa a trabalhar a partir de uma posição aleatória (ou a partir da imagem original) até que o resultado atenda aos requisitos especificados.



Representações de conteúdo e estilo são separadas uma da outra na rede neural. Assim, eles podem ser controlados independentemente um do outro. Por exemplo, pegue conteúdo de uma imagem e estilize de outra.


Exemplos de imagens estilizadas nas redes neurais de Gatis, Ecker e Betge

Imagem original: Old Town in Tübingen


Amostra de estilo: pintura “Cabeça de palhaço” (1907-1908), Georges Rouault, estilo: expressionismo


O resultado do trabalho da rede neural


Este trabalho é considerado um avanço fundamental nas tecnologias de aprendizado profundo, porque esta é a primeira prova conceitual da transferência de estilo artístico através de uma rede neural. O que foi considerado uma visão artística, estilo do autor e gênero de arte, é formalizado com sucesso e absorvido por uma rede neural. A inteligência artificial primeiro dominou a criatividade real.

A idéia de separar o estilo e o conteúdo da imagem criou uma variedade de redes neurais, inclusive para a geração de imagens assustadorase para gerar fotos pornôs .

Infelizmente, as redes neurais de Gatis, Ecker e Betge têm uma desvantagem: essa rede neural é muito exigente em recursos de computação. Isso ficou claro após o lançamento dos primeiros aplicativos de demonstração, que foram processados ​​no servidor por vários minutos.

Em trabalhos subseqüentes, inclusive por especialistas russos , a rede neural foi significativamente otimizada devido à funcionalidade limitada. Como resultado, a otimização chegou a tal ponto que, em poucos minutos, a estilização da foto começou a ocorrer quase instantaneamente. Portanto, houve uma oportunidade de estilizar até vídeos em tempo real !

Mas essa estilização tem um outro lado da moeda. O estilo ultra-rápido é possível apenas se uma imagem for tirada para a amostra . Essa é uma limitação do algoritmo original, porque não está vinculado a um estilo. Em outras palavras, se você deseja criar um sistema capaz de transmitir 100 estilos diferentes, é necessário pré-treinar 100 redes neurais diferentes.

Agora, o Google contribuiu para esta pesquisa. Em 24 de outubro de 2016, os funcionários da equipe do Google Brain publicaram um artigo descrevendo um algoritmo que funciona tão rápido quanto os anteriores, mas ao mesmo tempo em uma única rede neural universal que pode impor qualquer estilo adquirido.

De acordo comdesenvolvedores, seu algoritmo é simples de implementar e não apresenta altas demandas em RAM. Além disso, após treinar em vários estilos, ele é capaz de combinar vários estilos ao mesmo tempo e trabalha em tempo real. Por exemplo, aqui está uma fotografia da mesma cidade velha de Tübingen, na qual quatro estilos são sobrepostos simultaneamente .



Os pesquisadores acreditam que seu trabalho abre novas possibilidades para o uso criativo de redes neurais de estilização. Em um futuro próximo, eles prometem publicar o código-fonte do programa para o TensorFlow no blog Magenta , para que todos possam executar a demonstração em seu computador.

Mais detalhes sobre o estilo de imagens na rede neural são descritos no popular vídeo científico .. Foi gravado por dois funcionários Nat e Lo em 20% do tempo de trabalho, que o Google aloca para projetos de sua escolha.

Source: https://habr.com/ru/post/pt398703/


All Articles