El programa fue enseñado a seleccionar sonidos realistas para fotos.



Al mirar una fotografía, una persona puede adivinar fácilmente qué sonido debe corresponder a este cuadro.

El conocimiento sólido viene con las experiencias de la vida. Observamos varios eventos en la vida y escuchamos sonidos. Con experiencia, se ha acumulado una gran colección en el cerebro. Una persona realiza una búsqueda asociativa rápida en la memoria, selecciona el sonido más adecuado y lo reproduce observando una fotografía.

Aproximadamente el mismo principio funciona y el nuevo programa desarrollado por especialistas de Disney Research y la Escuela Técnica Superior Suiza de Zurich para seleccionar sonidos para fotografías. En principio, los autores del programa intentaron específicamente copiar el proceso humano de establecer la relación entre el sonido y la imagen.

La información sobre los sonidos se puede obtener no solo de la realidad. En la guardería, a todos los niños se les enseña necesariamente que la vaca dice "mu".

Las películas y los juegos de computadora reponen la colección de sonidos del cerebro en gran medida. Después de todo, a menudo muestran eventos sobre los cuales las personas no tienen experiencia de vida. Por lo tanto, casi todos saben cómo suena un disparo de una pistola, aunque pocas personas lo han escuchado en realidad. Se puede suponer que los sonidos de películas / juegos constituyen más de la mitad de todos los sonidos acumulados en la memoria para la vida de una persona.

El programa de Investigación de Disney también fue entrenado para componer una colección de sonidos por secuencias. Esta no es una tarea tan fácil, porque el sistema debe filtrar una gran cantidad de sonidos extraños y determinar exactamente qué objeto corresponde a qué sonido.

La interpretación del contenido visual es una tarea clave de la visión artificial. En los últimos años, se han obtenido muchos resultados impresionantes en esta área en la clasificación y reconocimiento de objetos, segmentación, seguimiento y reconstrucción 3D. Pero aprender la red neuronal de la relación entre el contenido visual y los datos de audio sigue siendo un área bastante inexplorada.

A este respecto, debe tenerse en cuenta que el cerebro humano es capaz de hacer cosas asombrosas. Por ejemplo, puede captar un sonido "adecuado", que en principio no puede existir. Por ejemplo, el sonido de una flor en crecimiento, aunque las flores, en principio, no emiten ningún sonido. Los autores del nuevo programa no se propusieron copiar la funcionalidad del cerebro humano en el campo de tales fantasías. Aunque esto es posible, supongo.

Como generar sonido


Una de las opciones para seleccionar sonido para un objeto es la síntesis de sonido de acuerdo con las características físicas del objeto en el video. Pero de esta manera, se puede expresar un número muy limitado de objetos.

En contraste, el sistema de Disney Research y la Escuela Técnica Superior Suiza de Zúrich recogieron muestras de sonidos prefabricados de videos reales. El video muestra ejemplos de tales videos que se usaron para capacitación.


Luego se enseñó al sistema a separar el sonido deseado de los extraños. El principio principal de este procedimiento es encontrar un sonido similar en todos los videos de un objeto. Este sonido será el sonido del objeto, y todo lo demás es ruido de fondo.

Una vez que el sistema ha aprendido a seleccionar el sonido apropiado para un objeto específico, la tarea trivial permanece, porque el reconocimiento de objetos en el video del sistema de visión artificial ya está bastante bien realizado.

Los investigadores realizaron experimentos en 9 tipos de objetos con 10–20 muestras de video que duraron 15–90 s para cada uno de ellos. Para seleccionar los sonidos necesarios, se utilizó el clasificador kNN .



Una encuesta de personas mostró que reconocen los sonidos filtrados por el programa mucho mejor que los sonidos no filtrados.



Para que sirve


Además de la tarea más lógica de autoaprendizaje de robots y otros sistemas de inteligencia artificial que copian la funcionalidad del cerebro humano, el mapeo de sonido a objetos gráficos es útil en muchas aplicaciones útiles de visión artificial y multimedia. Por ejemplo, para automatizar el trabajo de un camión de ruido, un especialista en la grabación de efectos de sonido en películas y juegos de computadora.

Se sabe que cuando se graban películas, los sonidos no son demasiado expresivos. Para mejorar la expresividad de la película, los efectos de sonido se aplican por separado a la secuencia de video. Entonces resulta una película mucho más espectacular y espectacular. Además, el cancelador de ruido ayuda a eliminar defectos cuando el sonido real no coincide con la secuencia de video. Por ejemplo, cuando en una película el héroe golpea al oponente con fuerza, pero en realidad los actores solo fingen ser golpeados. En este caso, el cancelador de ruido corrige el defecto, es decir, impone sonidos realistas de crujido de huesos, golpeteo de carne, flujo cerebral y otros efectos atractivos.

Otra posible aplicación del programa es la actuación de voz para personas con discapacidad auditiva. Ahora no solo pueden escuchar los sonidos circundantes, sino también escucharlos en la mejor calidad, jugosos, sin ruidos innecesarios, como en una película. Las personas comunes sin discapacidad auditiva incluso envidiarán a los discapacitados, ya que los atletas con una pierna envidian a los completamente sin piernas , que tienen una ventaja competitiva: las prótesis biónicas más avanzadas, por lo que corren mucho más rápido y derrotan fácilmente a los atletas de una pierna (e incluso de dos piernas).

Es probable que tales tecnologías de realidad aumentada tengan demanda en la industria del entretenimiento, en la que una persona percibe la realidad circundante a través de una interfaz de computadora. Finalmente, podremos bloquear a personas innecesarias del mundo que nos rodea (como en la serie Black Mirror). El sistema simplemente filtrará el sonido de su voz. Reemplácelo con otro sonido permitido. La imagen de la persona bloqueada será reemplazada por otro objeto con la generación de los sonidos correspondientes. Alternativamente, puede simplemente cambiar las voces de colegas en la oficina y familiares por voces más agradables. Por ejemplo, la voz de un amigo se puede cambiar a pronones sexuales durante las caricias nocturnas, agregar sonidos faltantes, etc.

Source: https://habr.com/ru/post/es399317/


All Articles