Reducción de la dependencia de datos etiquetados para redes de contención generativa

Redes Adversarias Generativas (GAN) - Una clase de modelos generativos profundos con características interesantes. Su idea principal es entrenar dos redes neuronales, un generador que aprende la síntesis de datos (por ejemplo, imágenes) y un discriminador que aprende a distinguir datos reales de aquellos sintetizados por el generador. Este enfoque se ha utilizado con éxito para la síntesis de imágenes de alta calidad , la compresión de imágenes mejorada y más.


Evolución de las muestras generadas durante el entrenamiento en ImageNet. El generador está limitado por la clase de la imagen (por ejemplo, "búho barbudo" o "golden retriever").

En el campo de la síntesis de imágenes naturales, los GSS condicionales logran los mejores resultados que, a diferencia de los incondicionales, usan etiquetas ("máquina", "perro", etc.) durante el entrenamiento. Y aunque esto simplifica la tarea y proporciona una mejora significativa en el resultado, este enfoque requiere una gran cantidad de datos etiquetados, que rara vez se encuentran en la práctica.

En nuestro trabajo "Generar imágenes de alta calidad con menos etiquetas", proponemos un nuevo enfoque para reducir la cantidad de datos etiquetados necesarios para entrenar CSS condicional avanzado. Combinando este enfoque con los recientes avances en el desarrollo de GSS a gran escala, producimos imágenes naturales de calidad comparable usando 10 veces menos etiquetas. También estamos lanzando una gran actualización de la biblioteca Compare GAN basada en este estudio, que contiene todos los componentes necesarios para la capacitación y evaluación del GSS moderno.

Mejoras a través de semi-supervisión y auto-supervisión.


En GSS condicional, el generador y el discriminador generalmente se limitan a las etiquetas de clase. En nuestro trabajo, proponemos reemplazar las etiquetas adheridas manualmente por las supuestas. Con el fin de mostrar etiquetas de buena calidad para un conjunto grande que consiste principalmente en datos sin etiquetar, utilizamos un enfoque de dos pasos. Primero, aprendemos cómo presentar características de imagen solo con el ejemplo de la parte no asignada de la base de datos. Para aprender sobre la presentación de signos, utilizamos la auto-supervisión en forma de un enfoque recientemente propuesto en el que los datos no etiquetados se mezclan aleatoriamente, y una red neuronal convolucional profunda predice el ángulo de rotación. La idea es que los modelos deberían poder reconocer objetos básicos y sus formas para completar con éxito esta tarea:



Luego consideramos la secuencia de activación de una de las capas intermedias de la red entrenada como una nueva representación de las características de los datos de entrada, y entrenamos al clasificador para que reconozca la etiqueta de estos datos de entrada usando la parte etiquetada del conjunto de datos inicial. Dado que la red fue entrenada preliminarmente para extraer atributos de datos semánticamente significativos (en una tarea con predicción de rotación), el entrenamiento de este clasificador es más efectivo con ejemplos que el entrenamiento de toda la red desde cero. Finalmente, usamos este clasificador para marcar datos no asignados.

Para mejorar aún más la calidad del modelo y la estabilidad del entrenamiento, alentamos a la red discriminadora a aprender representaciones significativas de atributos que no se olvidan durante el entrenamiento debido a las pérdidas auxiliares que presentamos anteriormente . Estas dos ventajas, junto con la capacitación a gran escala, proporcionan GSS condicionales avanzados que son muy adecuados para sintetizar imágenes de ImageNet, a juzgar por la distancia de Fréchet .


La red del generador produce una imagen basada en un vector propio. En cada fila, la interpolación lineal de los códigos propios de las imágenes más a la izquierda y a la derecha conduce a una interpolación semántica en el espacio de la imagen.

Compare la biblioteca GAN para capacitación y evaluación de GSS


La investigación avanzada en el campo de GSS depende en gran medida del código bien desarrollado y probado, ya que incluso la reproducción de resultados y técnicas anteriores requiere mucho esfuerzo. Para apoyar la ciencia abierta y permitir que la comunidad de investigación se base en avances recientes, estamos lanzando una gran actualización de la biblioteca Compare GAN. Incluye funciones de pérdida, esquemas de regularización y normalización, arquitectura de red neuronal y métricas numéricas, a menudo utilizadas en el SGS moderno. Ella también ya apoya:

  • Entrenamiento en GPU y TPU.
  • Fácil configuración con Gin ( ejemplos ).
  • Una gran cantidad de conjuntos de datos a través de la biblioteca TensorFlow .

Conclusión y planes para el futuro.


Dada la brecha entre las fuentes de datos etiquetadas y no etiquetadas, cada vez es más importante aprender de los datos parcialmente etiquetados. Hemos demostrado que una combinación simple pero poderosa de auto-supervisión y semi-vigilancia puede ayudar a cerrar esta brecha para GSS. Creemos que la auto-supervisión es una idea prometedora que necesita ser explorada para otras áreas del modelado generativo.

Source: https://habr.com/ru/post/444768/


All Articles