Rumor de la máquina. Red neuronal SoundNet entrenada para reconocer objetos por sonido
Izquierda: un intento de reconocer la escena y los objetos solo por el sonido. Derecha: una fuente de sonido real.Recientemente, las redes neuronales han hecho un progreso considerable en el reconocimiento de objetos y escenas en video. Dichos logros son posibles gracias a la capacitación en conjuntos de datos masivos con objetos marcados (por ejemplo, consulte "Aprendizaje de funciones profundas para el reconocimiento de escenas utilizando la base de datos de lugares" . NIPS, 2014). Al mirar fotografías o videos, la computadora puede determinar casi con precisión la escena seleccionando una descripción adecuada de 401 escenaspor ejemplo, una cocina desordenada, una cocina elegante, la habitación de un adolescente, etc. Pero en el campo de la comprensión, los sonidos de la red neuronal aún no han mostrado tal progreso. Los especialistas del Laboratorio de Informática e Inteligencia Artificial del Instituto Tecnológico de Massachusetts (CSAIL) corrigieron esta deficiencia mediante el desarrollo del sistema de aprendizaje automático SoundNet .De hecho, poder localizar una escena por sonido es una tarea tan importante como ubicar una escena por video. Al final, la imagen de la cámara a menudo puede ser borrosa o no proporcionar suficiente información. Pero si el micrófono funciona, el robot ya podrá averiguar dónde está.Desde el punto de vista de la ciencia, la formación de redes neuronales SoundNet es una tarea bastante banal. Los empleados de CSAIL utilizaron el método de sincronización natural entre la visión artificial y la audición mecánica, enseñando a la red neuronal a extraer automáticamente la representación sonora de un objeto del material de video no asignado. Para la capacitación, utilizamos alrededor de 2 millones de videos de Flickr (26 TB de datos), así como una base de datos de sonidos anotados: 50 categorías y alrededor de 2000 muestras.
Arquitectura de red neuronal SoundNetAunque el entrenamiento de la red neuronal se realizó bajo observación visual, el sistema ofrece un excelente resultado en modo fuera de línea al clasificar al menos tres escenas acústicas estándar, según las cuales los desarrolladores lo verificaron. Además, una prueba de la red neuronal mostró que ella aprendió independientemente a reconocer los sonidos característicos de algunas escenas, y los desarrolladores no proporcionaron sus muestras para reconocer estos objetos específicamente. Basado en el video sin marcar, la red neuronal misma aprendió qué escena corresponde al sonido de una multitud jubilosa (este es un estadio) y el pájaro gorjeo (esto es un césped o un parque). Simultáneamente con la escena, la red neuronal reconoce un objeto específico, que es la fuente del sonido.El video muestra algunos ejemplos de reconocimiento de objetos por sonido. Al principio, suena el sonido y se muestra el resultado del reconocimiento, y la imagen en sí es borrosa, por lo que puede intentar comprobarlo usted mismo. ¿Podrá comprender el lugar de acción y la presencia de ciertos objetos solo por el sonido con la misma precisión que la red neuronal? Por ejemplo, ¿cuál es el significado de la canción "Happy Birthday To You!", Que cantan varias personas al unísono. La respuesta correcta: el objeto está quemando velas , la escena es un restaurante, cafetería, bar ."La visión artificial ha comenzado a funcionar tan bien que podemos transferir esta tecnología a otras áreas", dijo Carl Vondrick, un estudiante del Instituto de Tecnología de Massachusetts en Ingeniería Eléctrica e Informática, uno de los autores del trabajo científico. - Utilizamos la relación natural entre la visión por computadora y el sonido. Fue posible lograr una gran escala debido a la multitud de materiales de video sin etiquetar, de modo que la red neuronal aprendió a comprender el sonido ”.Las pruebas de SoundNet se llevaron a cabo en dos bases de datos estándar de grabaciones de sonido, y mostraron una precisión de reconocimiento de objetos del 13-15% mayor que la mejor de tales programas. En un conjunto de datos con 10 categorías diferentes de sonidos, SoundNet clasifica los sonidos con una precisión del 92%, y en un conjunto de datos con 50 categorías muestra una precisión del 74%. A modo de comparación, en los mismos conjuntos de datos, las personas muestran una precisión de reconocimiento de, en promedio, 96% y 81%.
Incluso las personas a veces no pueden determinar exactamente lo que están escuchando. Intenta llevar a cabo tal experimento tú mismo. Deje que un colega inicie un video arbitrario de YouTube, e intente no mirar el monitor para decir qué sucede, de dónde provienen los sonidos y qué se muestra en la pantalla. Lejos de siempre puedes adivinar. Por lo tanto, la tarea para la inteligencia artificial no es realmente fácil, pero SoundNet logró hacer frente bastante bien.En el futuro, dichos programas informáticos pueden encontrar una aplicación práctica. Por ejemplo, su teléfono móvil reconocerá automáticamente que ha entrado en un lugar público, un cine o teatro, y silenciará automáticamente el volumen del timbre. Si la película comenzó y la audiencia se calmó, el teléfono apagará automáticamente el sonido y activará la alerta vibratoria.La orientación por terreno por sonido ayudará en los programas de control para robots autónomos y otras máquinas.En sistemas de seguridad y hogares inteligentes, el sistema puede responder específicamente de manera específica a sonidos específicos de una manera específica. Por ejemplo, el sonido de una ventana rota. En las "ciudades inteligentes" del futuro, el reconocimiento del ruido de la calle ayudará a comprender sus causas y a lidiar con la contaminación acústica.El artículo científico fue publicado el 27 de octubre de 2016 en el dominio público en arXiv.org (arXiv: 1610.09001, pdf ).Source: https://habr.com/ru/post/es399659/
All Articles