Reduzindo a dependência de dados marcados em redes generativo-adversárias

Redes adversas generativas (GAN) - Uma classe de modelos generativos profundos com recursos interessantes. Sua principal idéia é treinar duas redes neurais, um gerador que aprende a síntese de dados (por exemplo, imagens) e um discriminador que aprende como distinguir dados reais daqueles sintetizados pelo gerador. Essa abordagem foi usada com sucesso para síntese de imagem de alta qualidade , compactação de imagem aprimorada e muito mais.


Evolução das amostras geradas durante o treinamento no ImageNet. O gerador é limitado pela classe da imagem (por exemplo, "coruja barbada" ou "golden retriever").

No campo da síntese de imagens naturais, os GSS condicionais alcançam os melhores resultados, os quais, diferentemente dos incondicionais, usam rótulos (“máquina”, “cachorro” etc.) durante o treinamento. E, embora isso simplifique a tarefa e forneça uma melhoria significativa no resultado, essa abordagem requer uma grande quantidade de dados marcados, que raramente são encontrados na prática.

Em nosso trabalho “Gerando imagens de alta qualidade com menos tags”, propomos uma nova abordagem para reduzir a quantidade de dados marcados necessários para o treinamento em CSS condicional avançado. Combinando essa abordagem com as recentes inovações no desenvolvimento de GSS em larga escala, produzimos imagens naturais de qualidade comparável usando 10 vezes menos tags. Também estamos lançando uma grande atualização da biblioteca Compare GAN com base neste estudo, que contém todos os componentes necessários para treinar e avaliar o GSS moderno.

Melhorias através de semi-supervisão e auto-supervisão


No GSS condicional, o gerador e o discriminador são geralmente limitados aos rótulos de classe. Em nosso trabalho, propomos a substituição de tags afixadas manualmente pelas supostas. Para exibir rótulos de boa qualidade para um grande conjunto composto principalmente por dados não marcados, usamos uma abordagem em duas etapas. Primeiro, aprendemos como apresentar recursos de imagem apenas com o exemplo da parte não alocada do banco de dados. Para aprender sobre a apresentação de sinais, usamos a auto-supervisão na forma de uma abordagem proposta recentemente, na qual dados não rotulados são misturados aleatoriamente, e uma rede neural convolucional profunda prediz o ângulo de rotação. A ideia é que os modelos sejam capazes de reconhecer objetos básicos e suas formas para concluir com êxito esta tarefa:



Em seguida, consideramos a sequência de ativação de uma das camadas intermediárias da rede treinada como uma nova representação das características dos dados de entrada e treinamos o classificador para reconhecer o rótulo desses dados de entrada usando a parte rotulada do conjunto de dados inicial. Como a rede foi treinada preliminarmente para extrair atributos de dados semanticamente significativos (em uma tarefa com previsão de rotação), o treinamento desse classificador é mais eficaz por exemplos do que o treinamento de toda a rede do zero. Por fim, usamos esse classificador para marcar dados não alocados.

Para melhorar ainda mais a qualidade do modelo e a estabilidade do treinamento, incentivamos a rede de discriminadores a aprender representações significativas de atributos que não são esquecidos durante o treinamento devido às perdas auxiliares apresentadas anteriormente . Essas duas vantagens, juntamente com o treinamento em larga escala, fornecem GSSs condicionais avançados que são adequados para sintetizar imagens do ImageNet, a julgar pela distância Fréchet .


A rede de geradores produz uma imagem baseada em um vetor próprio. Em cada linha, a interpolação linear dos códigos próprios das imagens mais à esquerda e à direita leva à interpolação semântica no espaço da imagem.

Compare a biblioteca GAN para treinamento e avaliação do GSS


A pesquisa avançada no campo da GSS depende muito de códigos bem desenvolvidos e testados, já que mesmo a reprodução de resultados e técnicas anteriores exige muito esforço. Para apoiar a ciência aberta e permitir que a comunidade de pesquisa se baseie em descobertas recentes, estamos lançando uma grande atualização na biblioteca Compare GAN. Inclui funções de perda, esquemas de regularização e normalização, arquitetura de rede neural e métricas numéricas, frequentemente usadas no GSS moderno. Ela também já suporta:

  • Treinamento em GPU e TPU.
  • Configuração fácil com o Gin ( exemplos ).
  • Um grande número de conjuntos de dados através da biblioteca TensorFlow .

Conclusão e planos para o futuro


Dada a diferença entre fontes de dados rotuladas e não rotuladas, está se tornando cada vez mais importante aprender apenas com dados parcialmente rotulados. Mostramos que uma combinação simples, porém poderosa, de auto-supervisão e semi-vigilância pode ajudar a preencher essa lacuna no GSS. Acreditamos que a auto-supervisão é uma ideia promissora que precisa ser explorada para outras áreas da modelagem generativa.

Source: https://habr.com/ru/post/pt444768/


All Articles