Cómo dibujar y leer sonido
Foto de Matthew Potter CC-BY¿Cómo conectar información de audio y visual? Esta pregunta a menudo la hacen científicos y aficionados de todo el mundo. Entonces, en febrero de 2006, la noticia de que los científicos lograron reproducir sonidos de una vasija de barro de más de 6500 años se extendió rápidamente por Internet.El alfarero supuestamente aplicó un ritmo musical a la olla durante su fabricación. Desafortunadamente, esto resultó ser una broma fallida de April Fools en la televisión belga.Sin embargo, Patrick Feaster pudo procesar el registro, cuya edad supera los 1000 años. En esta ocasión, en mayo de 2011, habló en la conferencia de la Asociación de Colecciones de Sonidos Grabados (ARSC) con la inauguración de la "paleospectrofonía".Sumérgete en la historia: transcribiendo registros pasados
Patrick usa tecnología moderna (en este caso, no particularmente moderna, ya que el espectrograma fue inventado hace mucho tiempo) para convertir objetos visuales en sonidos. Sin embargo, la humanidad no siempre fue así e intentó, por el contrario, "capturar" el sonido en las imágenes.Durante mucho tiempo (antes de la creación del fonógrafo por Thomas Edison), la gente estaba preocupada por la pregunta: cómo encontrar una forma de arreglar la música que ayudaría a la persona que mira la grabación a tocar la melodía en sus cabezas tan fácilmente como lo hacen los músicos profesionales al mirar la partitura. Desafortunadamente, según el Dr. Fister, esa tarea es inalcanzable en principio, ya que nuestro cerebro en la mayoría de los casos no es lo suficientemente bueno para convertir la información visual en audio.Quizás la solución a este problema en el pasado no fue coronada con éxito, pero la historia nos ha dejado muchas pruebas de cómo las personas en diferentes épocas intentaron crear sistemas de grabación de sonido similares. El más famoso de estos sistemas formó la base del fonógrafo autógrafo, el predecesor del fonógrafo, inventado por el francés Edouard Martenville. Un fonoautógrafo era un dispositivo en el que el sonido pasaba a través de un cono, haciendo que la membrana conectada a la aguja vibrara. La aguja, a su vez, dibujó líneas onduladas en un cilindro de vidrio cubierto de papel hollín.Con la ayuda de un autógrafo fonográfico, el sonido se podía capturar, pero no había forma de reproducirlo. Este es el problema que decidió Fister. En 2008, él, sus colegas y el experto en audio David Giovannoni se reunieron en el Laboratorio Nacional Lawrence Berkeley para descifrar una de las fonoautografías mejor conservadas de Martenville.Lawrence’s Lab desarrolló tecnologías para extraer sonidos de fotografías de alta calidad que capturaron imágenes de medios de cera frágiles o discos rotos. Utilizando estas tecnologías, los científicos recibieron del fonoautograma la grabación de la canción "Moonlight" ("Au Clair de la Lune"), realizada en 1860. Se cree que este es el primer registro en el que podemos distinguir una voz humana.Sin embargo, la solución a este problema no fue suficiente para Fister: posteriormente, no solo grabó sonido de más de 50 fonoautogramas, sino que también investigó intentos anteriores de "grabar sonido". Por extraño que parezca, el servicio Google Books ayudó a este científico. Utilizándolo, Fister escribió personajes de libros que fueron constantemente ignorados, considerados peculiaridades históricas.Encontró la línea ondulada más antigua del libro de 1806. A través de otras técnicas, pudo descifrar la melodía de 1677, que fue registrada por muchos puntos. Otro fue descubierto en los registros del siglo X, donde las líneas mostraban qué clave se debía cantar. Se pueden encontrar ejemplos de tales entradas en su sitio web Phonozoic .Otro enfoque
Los investigadores del MIT, Microsoft y Adobe siguen un camino diferente: reconstruyen el sonido a partir de una imagen en movimiento (o más bien, vibrante). Los investigadores han desarrollado un algoritmo para obtener una señal de audio de las vibraciones grabadas en video.En uno de estos experimentos, lograron extraer un discurso legible al grabar un paquete vacío debajo de los chips. En una serie de otros experimentos, lo mismo podría hacerse con la superficie del papel de aluminio, un vaso de agua e incluso con las hojas de una planta doméstica. En 2014, el equipo presentó sus logros en la conferencia anual SIGGRAPH. ( Video de una presentación de uno de los investigadores que trabajó en el proyecto en la conferencia TED).El hecho es que cuando un sonido entra en contacto con un objeto, lo hace vibrar. Los movimientos creados por estas vibraciones son tan leves e invisibles que una persona no puede verlos. Sin embargo, la cámara puede "verlos": para extraer la señal de audio del video, los científicos utilizaron la grabación de video con una velocidad de captura de cuadros mayor que la frecuencia de la señal de audio.Inicialmente, se usaron cámaras con una frecuencia de disparo de 2000 y 6000 cuadros por segundo en los experimentos, pero los investigadores trataron de usar otras cámaras más económicas. Por supuesto, no fue posible extraer el discurso articulado del video grabado a una velocidad de cuadro de 60 cuadros por segundo, pero aun así parecía posible entender cuántas personas había en la sala, su género e incluso las características de su pronunciación.Por supuesto, cuando se piensa en usar tales desarrollos, las "historias de espías" vienen a la mente, sin embargo, los propios investigadores llaman a su proyecto la oportunidad de descubrir nuevas facetas en la imagen de los objetos y estudiar sus propiedades previamente inexploradas. Y si hace cientos de años, la gente intentaba encontrar una forma de "grabar sonido", ahora ese "registro" se convierte en un efecto secundario que, a su vez, ayuda a revelar nuevas propiedades de objetos familiares.Hazlo tu mismo
Como ya se mencionó, el primer fonoautograma se descifró gracias a la tecnología de reproducción de sonido de fotografías de registros antiguos (ya escribimos sobre esta tecnología en uno de nuestros materiales; también contiene enlaces a grabaciones de audio descifradas). Sin embargo, Patrick Fister enfatiza que cualquiera puede hacer frente a esta tarea, si sabe qué hacer.Un proceso detallado se describe en este material. Por nuestra cuenta, notamos que para resolver el problema necesitará una foto de alta calidad, habilidades básicas de Photoshop (la onda dibujada en vinilo debe ser digitalizada, "enderezada" - la ranura en la placa está torcida en espiral - eliminar todo tipo de ruidos y desplazamientos), así como una computadora relativamente potente con una gran cantidad de RAMPara convertir la imagen resultante en un archivo WAV, Patrick utiliza un software bastante exótico: esto es ImageToSound. Es gratis, pero a pesar de esto, es bastante difícil de encontrar en la red (Patrick compartió la fuente ).El programa convierte secuencialmente cada bloque de imagen (ancho de bloque - 1 píxel) en una muestra de audio. Desafortunadamente, este software ni siquiera es compatible con Windows 7 (el autor usa una computadora separada con Windows 98 para funcionar). Como alternativa, Fister sugiere usar el programa AEO-Light, pero advierte que él mismo no está completamente familiarizado con las complejidades de trabajar con él.El último paso es controlar la velocidad de reproducción. Aquí las matemáticas simples vienen al rescate. Primero debe conocer la velocidad de reproducción en la placa original, la longitud de una revolución de la onda digitalizada (después de la "despiralización") en píxeles y la frecuencia de muestreo del archivo final.Si la imagen se editó en un archivo de audio con una frecuencia de muestreo de 44,1 kHz, esto significa que el segundo archivo de audio será igual a 44 100 píxeles de la imagen. Si, por ejemplo, la velocidad de una canción en un disco de vinilo fue de 50 rpm, y después de la digitalización y la despiralización, una revolución del disco tomó 30,000 píxeles, obtenemos 1,500,000 píxeles por minuto (50x30,000).Si dividimos este número por 60, obtenemos el número de píxeles por segundo (1,500,000 / 60 = 25,000). Divida la frecuencia de muestreo por el número de píxeles por segundo (44 100/25 000 = 1.764). Multiplique el número resultante por la longitud del archivo de audio (tiempo de reproducción de la canción) y obtenga el tiempo con el que este archivo se grabó originalmente. Si se desconoce la velocidad de reproducción de la grabación original, Patrick le aconseja que elija la velocidad final de oído.Advierte Patrick Fister: este es un trabajo bastante laborioso que requiere tiempo y paciencia, pero al mismo tiempo ofrece resultados a veces sorprendentes: especialmente cuando se trata de las voces del pasado, que, al parecer, se perdieron para siempre.PD. Más materiales sobre el tema del audio: en nuestro blog " World of Hi-Fi ".Source: https://habr.com/ru/post/es393257/
All Articles