Olá Habr! Apresento a você a tradução do artigo
“Síntese de superfícies e texturas faciais via GAN” .
Quando os pesquisadores têm falta de dados reais, geralmente recorrem ao aumento de dados, como uma maneira de expandir o conjunto de dados existente. A idéia é modificar o conjunto de dados de treinamento existente de maneira a deixar intactas as propriedades semânticas.
Não é uma tarefa tão trivial quando se trata de rostos humanos.O método de geração de faces deve levar em conta transformações complexas de dados, como
- pose
- iluminação
- deformações não rígidas
enquanto cria imagens realistas que são consistentes com as estatísticas de dados reais.
Considere como os métodos mais avançados tentam resolver esse problema.
Abordagens modernas para enfrentar a geração
As redes neurais adversárias generativas (GANs) demonstraram ser mais eficazes em fornecer mais realismo aos dados sintéticos. Ao aceitar dados sintetizados como entrada, o
GAN produz amostras que são mais parecidas com dados reais . No entanto, as propriedades semânticas podem ser alteradas e mesmo a função de perda, punindo a alteração de parâmetros, não resolve o problema até o fim.
O modelo 3D Morphable (3DMM) é o método mais comum para representar e sintetizar geometria e texturas e foi originalmente introduzido no contexto da geração de rostos humanos tridimensionais. De acordo com este modelo, a estrutura geométrica e as texturas de um rosto humano podem ser aproximadas linearmente como uma combinação de vetores de raiz.
Recentemente, o
modelo 3DMM foi combinado com redes
neurais convolucionais para aumentar os dados. No entanto, as amostras resultantes são muito suaves e irreais, como pode ser visto na figura abaixo:

Pessoas obtidas usando 3DMM
Além disso, os 3DMMs geram dados com base em uma distribuição gaussiana, que raramente reflete a distribuição real dos dados. Por exemplo, abaixo estão dois coeficientes de PCA (análise de componentes principais) criados em faces reais e sintetizados usando 3DMM. A diferença entre a distribuição sintética e a distribuição real pode facilmente levar à geração de dados incorretos.

Os dois primeiros coeficientes de PCA para indivíduos reais (à esquerda) e 3DMM gerados (à direita)
Ideia de ponta
Slossberg, Shamai e Kimmel, do Technion Israel Institute of Technology,
oferecem uma nova abordagem para a síntese de rostos humanos realistas usando uma combinação de 3DMM e GAN.
Em particular, os pesquisadores usam o GAN para simular o espaço de texturas humanas parametrizadas e criar as geometrias de face correspondentes, calculando os melhores coeficientes 3DMM para cada textura. As texturas geradas são mapeadas para a geometria apropriada para produzir novas faces 3D de alta resolução.
Essa arquitetura gera imagens realistas, enquanto:
- Não sofre controle sobre atributos como pose e iluminação
- quantitativamente não limitado na geração de novas faces.
Vamos dar uma olhada no processo de geração de dados.
Processo de geração de dados

Preparação de dados
O pipeline de geração de dados consiste em quatro etapas principais:
- Coleta de dados : Os pesquisadores coletaram mais de 5.000 exames (exames de rosto) de diferentes grupos étnicos, de gênero e faixa etária. Cada participante teve que representar 5 expressões faciais diferentes, incluindo a neutra.
- Marcação : 43 pontos principais foram adicionados ao mashi de forma semi-automática, renderizando o rosto e usando o detector de marcação de rosto pré-treinado
- Alinhamento de malhas : implementado devido à deformação da malha de gabarito da face, de acordo com a geometria de cada varredura, com foco na marcação afixada.
- Transferência de textura : a textura é transferida da digitalização para o modelo usando a técnica de conversão de raios incorporada na caixa de ferramentas do Blender. Depois disso, a textura é convertida do modelo em uma faixa bidimensional usando uma transformação universal predefinida

Texturas faciais alinhadas planas
O próximo passo é ensinar ao GAN como criar simulações de texturas alinhadas. Para esta tarefa, os pesquisadores usaram um GAN progressivo com um gerador e discriminador organizado como uma rede neural simétrica. Em tal implementação, o gerador aumenta progressivamente o tamanho do mapa de recursos até atingir o tamanho da imagem de saída, enquanto o discriminador reduz gradualmente o tamanho de volta para uma única saída.
Texturas de rosto GANO último passo é criar a geometria da face. Os pesquisadores tentaram diferentes abordagens para encontrar os coeficientes de geometria corretos para a textura. Comparação qualitativa e quantitativa dos vários métodos abaixo (erro geométrico L2):

Duas texturas sintetizadas sobrepostas em diferentes geometrias.
Inesperadamente, o método dos mínimos quadrados mostra os melhores resultados. Considerando a simplicidade do método, foi escolhido para todos os experimentos.
Resultados
O método proposto pode gerar muitas faces novas e cada uma delas pode ser representada em várias poses, com diferentes expressões e iluminação. Várias expressões faciais são adicionadas à geometria neutra usando o modelo Blend Shape. As imagens resultantes são mostradas abaixo:



Para avaliações quantitativas, os pesquisadores usaram
a Métrica Truncada de Wasserstein (SWD) para medir a distância entre as distribuições de treinamento e as imagens geradas.

A tabela demonstra que as texturas resultantes são estatisticamente mais próximas dos dados reais do que aquelas obtidas usando 3DMM.
A experiência a seguir avalia a capacidade de sintetizar imagens, que são significativamente diferentes do conjunto de dados de treinamento, e obter imagens nunca vistas antes. Assim, 5% dos indivíduos não foram incluídos na avaliação. Os pesquisadores mediram L2 a distância entre cada pessoa real dos dados de treinamento e a mais semelhante das geradas, e da mesma forma - para a real do conjunto de dados de treinamento.

Distância entre faces sintetizadas e reais
Como pode ser visto nos gráficos, os dados de teste estão mais próximos das imagens geradas do que das imagens de treinamento. Além disso, a distância "Teste para falsificar" não é muito diferente de "Falso para real". Daqui resulta que as amostras obtidas não são apenas faces sintetizadas semelhantes a um conjunto de treinamento, mas faces completamente novas.
Por fim, para verificar a possibilidade de gerar o conjunto de dados inicial, foi realizada uma avaliação qualitativa: as texturas faciais obtidas por esse modelo foram comparadas com o vizinho mais próximo na métrica L2.

Texturas sintetizadas (acima) versus os "vizinhos" reais mais próximos (abaixo)
Como você pode ver, as texturas reais mais próximas são bem diferentes das originais, o que nos permite concluir sobre a capacidade de gerar
novas faces.
Sumário
O modelo proposto é provavelmente o primeiro capaz de sintetizar realisticamente a textura e a geometria dos rostos humanos. Isso pode ser útil para detectar e reconhecer rostos ou modelos de reconstrução de rostos. Além disso, ele pode ser usado nos casos em que muitas faces realistas são necessárias, por exemplo, na indústria cinematográfica ou em jogos de computador. Além disso, essa estrutura não se limita à síntese de rostos humanos, mas pode realmente ser usada para outras classes de objetos em que o aumento de dados é possível.
O originalTraduzido - Stanislav Litvinov.