Aprendizaje profundo para determinar el estilo y el género de las pinturas.

Hola Habr!


Hoy quiero hablar sobre la segunda parte del proyecto de servicio para la identificación y clasificación de obras de arte. Permíteme recordarte que resolvimos dos tareas principales:


  1. buscar una imagen en la base de datos de una fotografía tomada por un teléfono móvil;
  2. determinación del estilo y género de una imagen que no está en la base de datos.

Hoy consideraremos el uso de una red neuronal convolucional para clasificar imágenes por estilo y género.



¿Ayuda a Dasha a entender el arte contemporáneo?


Determinando el estilo de las pinturas


De casi 250,000 pinturas en la base de datos de Arthive, a menos del 20% se le asigna un género, estilo o técnica, a menudo las clases que se muestran en la base de datos no corresponden a los valores verdaderos, muchas clases que contienen muy pocas imágenes. Parece que incluso hay clases que contienen unidades de imágenes. Aparentemente, algunos autores consideran necesario crear un nombre para su propio estilo.

En total, se asignaron alrededor de 75 estilos en la base de datos, sin embargo, para nuestro trabajo, el cliente seleccionó 27 estilos obligatorios (a los que posteriormente se agregó otro), que el sistema debe reconocer.

Para ellos, la distribución del relleno resultó ser muy desigual.


EstilocantidadEstilocantidad
Realismo19594Primitivismo1234
Impresionismo15864Art Decó1092
Romanticismo8963Renacimiento del norte921
Barroco7726Cubismo902
Moderno4882Academicismo707
Surrealismo4793Gótico608
Renacimiento4709Modernismo539
Expresionismo4329Realismo socialista481
Simbolismo4321Arte pop475
Postimpresionismo3951Puntillismo275
Arte abstracto3664Fauvismo217
Ukiyo-e3136Vanguardia174
Clasicismo1730Hiperrealismo13
Rococó1600Fantasía8
Total96908

Todos los estilos
EstilocantidadEstilocantidadEstilocantidad
Realismo19594Arte pop475Decorativismo66
Impresionismo15864Biedermeier471Minimalismo66
Romanticismo8963Realismo fantástico386Sentimentalismo66
Barroco7726Expresionismo abstracto358Cloisonismo60 60
Moderno4882Nabis339Pintura metafísica56
Surrealismo4793Puntillismo275Machiaioli52
Renacimiento4709Suprematismo273Orfismo51
Expresionismo4329Prerrafaelitas252Dada50
Simbolismo4321Realismo mágico248Neoimpresionismo49
Postimpresionismo3951Renacimiento temprano232Luminismo41
Arte abstracto3664Neoexpresionismo230Proto-renacimiento39
La edad de oro de Holanda3292Fauvismo217Plantanismo37
Ukiyo-e3136Posmodernismo192Tenebrizm35
Clasicismo1730Vanguardia174Impresionismo abstracto34
Rococó1600Arte contemporáneo149Conceptualismo29
Primitivismo1234Precisión138Japonismo24
Art Decó1092Cubofuturismo108Posmoderna24
Renacimiento del norte921Constructivismo104Luchismo24
Cubismo902Tonalismo103Bizantino20
Academicismo707Orfismo94Realismo romantico19
Gótico608Regionalismo93Hiperrealismo13
Neoclasicismo601Realismo analítico89Verismo11
Manierismo544Naturalismo73Neo-primitivismo10
Modernismo539Neo-modernismo70Fantasía8
Realismo socialista481Futurismo67Metarealismo7 7
Total106284


Nos enfrentamos a la tarea de clasificar imágenes, pero no podemos seleccionar ninguna característica simple manualmente. Por lo tanto, utilizaremos el aprendizaje automático profundo, en el que características tan complejas se identifican automáticamente en el proceso de aprendizaje.



Transferencia de aprendizaje


Considere la red de inicio v3.



Arquitectura general con salidas intermedias.

En su arquitectura (y en cualquier otra red profunda), dos componentes principales se pueden distinguir condicionalmente: Feature Extractor y Predictor.

Feature Extractor asigna la imagen de color de entrada en un espacio de características multidimensional (mapa de características multicanal). El mapa de características almacena información espacial, es decir, es un tensor tridimensional con dimensiones para el ancho, la altura y el número de canales de características; la agrupación final aún no se ha aplicado aquí, lo que eliminará por completo la información sobre la posición relativa de las características en la imagen original. La red Inception v3 Feature Extractor recibe 299 imágenes de entrada  veces299  veces3, y en la salida forma un mapa de signos de tamaño 17  veces17  veces2048. El tamaño de entrada puede variar, lo que conducirá a cambios en el tamaño del mapa de características y puede ser útil para reducir los costos computacionales cuando se trabaja con la red.

Predictor es una red que genera resultados basados ​​en un mapa de características generado por Feature Extractor. Como regla general, para la tarea de clasificación, Predictor es una capa de neuronas completamente conectada, cuyo número de salidas coincide con el número de clases del problema.

El aprendizaje de transferencia clásico supone que tomamos una red capacitada, separamos Feature Extractor de ella y la complementamos con un nuevo predictor con la cantidad de clases que necesitamos. La red resultante se entrena a baja velocidad con pesos parcial o completamente congelados de capas de Extractor de características.


Aplicamos el aprendizaje de transferencia para clasificar estilos. Tome la red Inception-v3 entrenada en un conjunto de datos imagenet y reemplace la capa de salida de neuronas en ella, que clasifica las imágenes de entrada en el número de estilos seleccionados. Capacitamos a la red en imágenes de diferentes estilos, congelando la capacitación de todas las capas, excepto la última.


Para el análisis de datos, mostramos la distribución del conjunto de validación por clase.



Cada fila corresponde a una clase del conjunto de validación. El brillo de los cuadrados en la fila es proporcional al número de imágenes que caen en la clase correspondiente a la columna.

Para mayor claridad, excluimos la diagonal principal y re-normalizamos los valores de cada fila.



Además, intentaremos mapear la distribución de estilos al espacio bidimensional usando TSNE.


Se puede observar que se observan muchos errores, por ejemplo, en la clasificación de pinturas al estilo del fauvismo; una parte importante de ellas se refiere al expresionismo de la red. El Renacimiento del Norte y el gótico a menudo se conocen como renacimiento. Muchas imágenes del estilo rococó y el clasicismo se relacionan con el realismo. El modernismo y la modernidad generalmente caen en muchos estilos.


Después de lanzar un script simple que analizaba la base de datos de capacitación en carpetas de acuerdo con el estilo definido por la red, realizamos un análisis rápido de errores. Resultó que el marcado de la base de datos al menos plantea preguntas.

Muchas imágenes en el estilo del modernismo (que, aunque fue marcado por el cliente como obligatorio, pero en general no es un estilo, sino una tendencia en el arte en general), en realidad se duplicaron en otros estilos, especialmente en el modernismo (pero este ya es un estilo).


En el estilo del realismo socialista, estaban presentes imágenes abstractas, por ejemplo, las obras de Lissitzky. Lo más probable es que llegaron allí gracias al trabajo de Lissitzky en el cartel soviético, que tiene una relación muy indirecta con el realismo socialista.


En muchos sentidos, estos son realmente errores, pero a veces la razón es la debatibilidad del tema de resaltar algunos estilos, especialmente modernos. Vale la pena considerar que la base de datos está llena de varios usuarios, y entre ellos a veces no hay consenso.

Los errores en los datos conducen a errores correspondientes en la clasificación de imágenes por la red. En el proceso de limpieza de la base, tanto por nosotros como por el crítico de arte experto por parte del cliente, el margen de beneficio para la muestra de capacitación se mejoró significativamente.


Sin embargo, el grueso de los errores de clasificación de la red (en total) se refiere a estilos más o menos bien establecidos, como el rococó, el clasicismo y el realismo. La atribución de obras a estos estilos, por regla general, se lleva a cabo sobre la base de una época o autoría y, al parecer, no causa dudas ni disputas. ¿Por qué la red no puede distinguir su estilo? La razón principal radica en el uso de una red pre-entrenada para extraer rasgos.


El hecho es que esta red fue entrenada para clasificar objetos, determinar qué se representa exactamente, al tiempo que descarta información que no es esencial para la tarea sobre cómo se representa. Por ejemplo, desde el punto de vista de la red, en todas las imágenes al comienzo del artículo, en general, se representa a una persona.


Para resolver este problema, creamos una red con salidas intermedias: se cree que los signos se vuelven más difíciles a medida que se mueven a lo largo de la red, y la información no esencial desaparece gradualmente. Tratemos de extraer de las capas intermedias lo que no era esencial para la clasificación de imagenet.



Arquitectura general con salidas intermedias.

Hay otro problema: gráficos, impresiones, bocetos. En imagenet, en el que la red de inicio se entrenó previamente, simplemente no hay nada como esto, respectivamente, y las características resaltadas por la red no son adecuadas para clasificar tales imágenes.







Realismo, Impresionismo.

Camille Carot, Agar y el ángel.

Barroco
Rembrandt Harmenszoon Van Rijn, Agar y el ángel


Por otro lado, las pinturas al estilo de Ukiyo-e , un tipo de grabado que se ha generalizado en Japón desde el siglo XVII, han colgado maravillosamente en una nube separada. Aunque inicialmente no estaban en nuestra lista obligatoria, los agregamos allí.



Asakusa Rice Fields y Torinomachi Festival


Después de trabajar con los datos, se logró una mejor distribución entre las clases.


Nos ocupamos de los géneros.


Del número total de géneros, se seleccionaron 13 (resaltados en negrita)


Génerocantidad
Escena alegórica2500
Retrato2308
Paisaje2213
Fantasía2191
Escena literaria2096
Paisaje de la ciudad2048
Desnudo1981
Bodegón1932
Escena de género1736
Animalismo1587
Escena religiosa1417
Escena mitológica1368
Marina1210
Arquitectura958
El interior635
Escena historica534
Escena de batalla201
Zakli180
Veduta124
Paisaje urbano16
Total27235

Básicamente, la reducción en el número de géneros se logró reduciendo los géneros de varias escenas: "religiosa", "mitológica", "alegórica", "literaria" y combinándolas bajo el nombre general de "escena de género". Llegamos a la conclusión de que la separación de estos géneros difícilmente se puede realizar con suficiente precisión sin un análisis cultural significativo.

Por ejemplo, para una escena alegórica, por definición se supone que hay un significado oculto en la imagen, el uso de significados figurativos en los objetos representados. También hay una dificultad con la "escena religiosa": es muy probable que una red entrenada para emitir tal clase también los llame imágenes de caricatura (por ejemplo, parodiando la Última Cena de Da Vinci), y esto puede ofender a alguien .


El marcado de datos por género inicialmente parece ser bueno, excepto por varios géneros para los cuales hay pocas imágenes en la base de datos. Al buscar en Internet, pudimos ampliar ligeramente la cantidad de imágenes en géneros (principalmente la escena de batalla, garzas y vedutas).
Después de combinar géneros difíciles en una "escena de género" común, inmediatamente tratamos de entrenar la red "en la frente" usando redes de aprendizaje de transferencia.


Géneros, Resultado 1


Se puede ver que los puntos correspondientes a imágenes de diferentes géneros se mezclan. Para estas imágenes, la red proporciona valores altos de las probabilidades de pertenecer a varios géneros a la vez, y el género con la probabilidad más alta se determina casi por accidente. Aparentemente, la razón es que los géneros, a diferencia de los estilos, tienen una jerarquía más pronunciada. Intentamos entender estas conexiones, obtuvimos ese mapa de géneros:



Jerarquía de géneros


Los géneros de jerarquía subsidiaria y parental a menudo tienen características comunes desde el punto de vista de la red (y también desde nuestro punto de vista). Por ejemplo, la escena de batalla en la tierra en su conjunto tiene las mismas características que el paisaje habitual: la imagen de una gran área abierta o ciudad, y la escena de batalla en el mar es más como el género del puerto deportivo. Por lo tanto, dividimos el género de la escena de batalla en dos: en tierra y en el mar. Otro ejemplo: los retratos, una escena de género y las imágenes de desnudos desde el punto de vista de una red preformada tienen un signo común: la presencia de personas.


En la base de datos, las imágenes de contenido similar a menudo se refieren al género infantil o al padre, dependiendo de dónde fue determinado por el experto que trajo las imágenes a la base de datos. En este sentido, se llevó a cabo una limpieza a gran escala y una nueva división de la base teniendo en cuenta la posible jerarquía de géneros, lo que requirió mucho esfuerzo (logramos automatizarlo, pero no mucho).


Para transferir la jerarquía de géneros a la red, abandonamos el envío directo y configuramos la unidad para imágenes no solo en un género, sino también en su padre, si lo hay, y también reemplazamos la función objetivo del proceso de aprendizaje y la función de activar la capa de salida . Por lo tanto, la tarea se convirtió en clasificación Multilabel (la imagen de entrada puede pertenecer a varias clases).



Nos parece que falta otro género aquí: la abstracción. Estrictamente hablando, este no es un género. Al menos los expertos insistieron en que no existía ese género. Para evitar que la red ofrezca respuestas aleatorias a imágenes abstractas, se agregó una más al desglose general de los géneros con el nombre "no se pudo determinar", incluidas las imágenes abstractas y controvertidas.


En lugar de una conclusión


En general, fue posible lograr una precisión satisfactoria en la clasificación de estilos y géneros de imágenes, pero hay mucho que mejorar.


Desafortunadamente, la clasificación de estilos y técnicas no se finalizó, el soporte no se implementó en el servicio.

Source: https://habr.com/ru/post/es422357/


All Articles