Redes neuronales aprendieron a juzgar un libro por tapa
La expresión persistente "no juzgues un libro por su portada" advierte en contra de evaluar algo o alguien solo por su apariencia. Pero cuando el lector ve el libro, sucede lo mismo: el conocimiento generalmente comienza con una portada. Es ella quien deja la primera impresión del contenido y comienza a dibujar la historia en la mente de una persona. Las buenas portadas están hechas para ser juzgadas.La gente hace un gran trabajo definiendo un género apenas mirando el diseño visual de un libro. Acuerde que elegir un libro de cocina, una biografía o una guía con solo mirar la portada es bastante fácil. Entonces surge una pregunta interesante: ¿puede la inteligencia artificial juzgar con éxito un libro por su portada como una persona?Los científicos de la Universidad de Kyushu en Japón intentaron obtener una respuesta . Se ponen delante de una red neuronal convolucional ( CNN) la tarea de estudiar portadas de libros y determinar la categoría a la que se refieren. El método de capacitación resultó ser bastante simple: los investigadores descargaron más de 13.5 mil portadas de Amazon.com junto con el título, el nombre del autor y el género del libro. Además de definir una categoría, este conjunto de datos puede ser útil en el futuro para entrenar redes neuronales en reconocer y analizar fuentes y resolver otros problemas de diseño. En su experimento, los científicos usaron solo géneros, descartando todos los demás datos del conjunto. Red neuronal entendida en 20 géneros posibles. Si el libro se repitió en varias categorías a la vez, los científicos simplemente indicaron la primera.
Luego, el equipo de investigación utilizó el 80% del conjunto de datos para entrenar a la red neuronal a reconocer el género en función de la imagen de portada. La red neuronal que utilizaron en su experimento consistió en cuatro capas, en cada una de las cuales había 512 neuronas. Juntos, aprendieron a determinar la correlación entre el diseño de portada y el género. Otro 10% del conjunto de datos fue a verificar la red. En la etapa final, el 10% restante se usó para determinar qué tan bien la red puede clasificar imágenes desconocidas.El resultado fue bastante interesante. El algoritmo determinó correctamente los tres géneros encontrados con mayor frecuencia en el 40% de los casos. Con todos los demás géneros, la precisión fue de aproximadamente el 20%. Esto es mucho mejor que solo un accidente. El funcionamiento relativamente correcto de la red neuronal muestra que la clasificación de libros por portadas es una tarea real, aunque difícil.Algunos géneros han resultado más fáciles de reconocer que otros. Por ejemplo, los libros de viajes o libros sobre computadoras y tecnología son relativamente fáciles de definir, ya que los diseñadores generalmente usan imágenes de portada que tienen un significado similar. Además, los científicos descubrieron que la red neuronal reconocía fácilmente los libros de cocina si se usaban fotos en su diseño.
Sin embargo, la red neuronal comenzó a dudar si valía la pena aparecer en la portada de una fotografía de un cocinero u otros objetos relacionados indirectamente con la cocina.Las biografías y las memorias también causaron dificultades en la red neuronal: muy a menudo, tales libros se enviaban a la categoría histórica. Curiosamente, para muchos de estos libros, fue la historia la que resultó ser el género secundario en Amazon.com. Por lo tanto, no se puede decir que el algoritmo estaba 100% equivocado.
CNN también confundió libros infantiles con cómics y novelas gráficas, así como libros de medicina con libros de texto de matemáticas. Esto no es sorprendente, dadas las ciertas similitudes entre estas categorías. La red también se confundió con libros de derecho y religión que eran diferentes en esencia, pero de diseño similar. Por lo general, sus portadas se hacen en un solo color sin dibujos, o con imágenes abstractas.
El trabajo presentado por científicos japoneses tiene un inconveniente significativo. No compararon el rendimiento de su red neuronal con la capacidad de una persona para identificar géneros por portada. Sería un experimento interesante, que sería fácil de organizar mediante plataformas de crowdsourcing en línea. Y hasta que se lleve a cabo este experimento, no sabremos si la inteligencia artificial hace frente a la tarea mejor que una persona. Pero a pesar de esta molesta omisión, no importa qué tan bien podamos definir los géneros por tapa, los autos algún día podrán hacerlo más rápido. Es solo cuestión de tiempo.Sin embargo, el resultado de este estudio es notable. Puede ayudar a los diseñadores a mejorar sus habilidades cuando se trata de portadas de libros. Puede ir aún más lejos y enseñar la técnica de diseñar portadas sin intervención humana. En el futuro, esto puede significar que crear un diseño de portada por una persona es otra tarea que irá a los archivos de historia.El diseño gráfico se ha convertido en un objeto de aprendizaje automático hace relativamente poco. La experiencia más famosa en la aplicación práctica de redes neuronales se asocia, en primer lugar, con el reconocimiento del estilo artístico de autores famosos de pinturas y su posterior transferencia.a otras imágenes. Los investigadores de la Universidad de Kyushu persiguieron un objetivo similar, pero fueron un poco más allá: trataron de revelar el significado oculto detrás del estilo de diseño. Si hablamos de clasificación, ya ha habido intentos de enseñar a las redes neuronales a clasificar música , imágenes y textos por género.El trabajo científico se publica en arXiv.org ( ArXiv: 1610.09204 [cs.CV])Source: https://habr.com/ru/post/es398965/
All Articles