Como desenhar e ler som
Foto de Matthew Potter CC-BYComo conectar informações de áudio e visuais? Esta pergunta é freqüentemente feita por cientistas e amadores de todo o mundo. Assim, em fevereiro de 2006, as notícias de que os cientistas conseguiram reproduzir sons de uma panela de barro com mais de 6500 anos se espalharam rapidamente pela Internet.O oleiro teria aplicado um ritmo musical ao pote durante sua fabricação. Infelizmente, isso acabou sendo uma piada malsucedida de April Fools na televisão belga.No entanto, Patrick Feaster conseguiu processar o registro, cuja idade excede 1000 anos. Nesta ocasião, em maio de 2011, ele falou na conferência da Association for Recorded Sound Collections (ARSC) com a abertura da "paleoespectrofonia".Mergulhando na história: transcrevendo registros passados
Patrick usa tecnologia moderna (neste caso, não particularmente moderna, desde que o espectrograma foi inventado há muito tempo) para converter objetos visuais em sons. No entanto, a humanidade nem sempre seguiu esse caminho e tentou, pelo contrário, “capturar” o som nas imagens.Por um longo tempo (antes da criação do fonógrafo por Thomas Edison), as pessoas ficaram preocupadas com a questão: como criar uma maneira de fixar músicas que ajudassem a pessoa que assistia à gravação a tocar a melodia em suas cabeças tão facilmente quanto os músicos profissionais quando observavam a partitura. Infelizmente, de acordo com o Dr. Fister, essa tarefa é inatingível em princípio, uma vez que nosso cérebro na maioria dos casos não é bom o suficiente para converter informações visuais em áudio.Talvez a solução para esse problema no passado não tenha sido coroada de sucesso, mas a história nos deixou muitas evidências de como pessoas de diferentes épocas tentaram criar sistemas de gravação de som semelhantes. O mais famoso desses sistemas formou a base do fono-autógrafo - o antecessor do fonógrafo, inventado pelo francês Edouard Martenville. Um fonoautógrafo era um dispositivo no qual o som passava através de um cone, fazendo vibrar a membrana conectada à agulha. A agulha, por sua vez, desenhava linhas ondulatórias em um cilindro de vidro coberto de papel sujo.Com a ajuda de um fonógrafo, o som podia ser capturado, mas não havia como reproduzi-lo. Esse é o problema que Fister decidiu. Em 2008, ele, seus colegas e o especialista em áudio David Giovannoni se reuniram no Laboratório Nacional Lawrence Berkeley para decifrar um dos fonoautógrafos mais bem preservados de Martenville.O Lawrence's Lab desenvolveu tecnologias para extrair sons de fotografias de alta qualidade que capturavam imagens de mídia de cera frágil ou discos quebrados. Usando essas tecnologias, os cientistas receberam do fonoautograma a gravação da música "Moonlight" ("Au Clair de la Lune"), feita em 1860. Acredita-se que este seja o primeiro registro em que podemos distinguir uma voz humana.No entanto, a solução para esse problema não foi suficiente para Fister: posteriormente, ele não apenas gravou o som de mais de 50 fonoautogramas, mas também investigou tentativas anteriores de "gravar som". Por mais estranho que pareça, o serviço do Google Livros ajudou esse cientista. Usando isso, Fister escreveu personagens de livros que eram constantemente ignorados, considerados peculiaridades históricas.Ele encontrou a mais antiga linha ondulada no livro de 1806. Através de outras técnicas, ele foi capaz de decifrar a melodia de 1677, que foi gravada por muitos pontos. Outro foi descoberto nos registros do século 10, onde as linhas mostravam qual chave deveria ser cantada. Exemplos de tais entradas podem ser encontrados em seu site Phonozoic .Outra abordagem
Pesquisadores do MIT, Microsoft e Adobe seguem um caminho diferente: eles reconstroem o som a partir de uma imagem em movimento (ou melhor, vibrando). Pesquisadores desenvolveram um algoritmo para obter um sinal de áudio a partir de vibrações gravadas em vídeo.Em um desses experimentos, eles conseguiram extrair fala legível da gravação de um pacote vazio por baixo dos chips. Em várias outras experiências, o mesmo poderia ser feito com a superfície da folha de alumínio, um copo de água e até com as folhas de uma planta doméstica. Em 2014, a equipe apresentou suas realizações na conferência anual do SIGGRAPH. ( Vídeo de uma apresentação de um dos pesquisadores que trabalhou no projeto na conferência TED.)O fato é que, quando um som entra em contato com um objeto, ele vibra. Os movimentos criados por essas vibrações são tão leves e invisíveis que uma pessoa não pode vê-las. No entanto, a câmera pode “vê-los”: para extrair o sinal de áudio do vídeo, os cientistas usaram a gravação de vídeo com uma taxa de captura de quadros maior que a frequência do sinal de áudio.Inicialmente, câmeras com uma frequência de gravação de 2000 e 6000 quadros por segundo foram usadas nos experimentos, mas os pesquisadores tentaram usar outras câmeras mais econômicas. Obviamente, não foi possível extrair fala articulada do vídeo gravado a uma taxa de quadros de 60 quadros por segundo, mas ainda assim parecia possível entender quantas pessoas estavam na sala, seu gênero e até os recursos de sua pronúncia.É claro que, ao pensar em usar esses desenvolvimentos, "histórias de espionagem" vêm à mente, no entanto, os próprios pesquisadores chamam seu projeto de oportunidade de descobrir novas facetas na imagem dos objetos e estudar suas propriedades anteriormente inexploradas. E se há centenas de anos, as pessoas tentavam encontrar uma maneira de "gravar som", agora esse "registro" se torna um efeito colateral, o que, por sua vez, ajuda a revelar novas propriedades de objetos familiares.Faça você mesmo
Como já mencionado, o primeiro fonoautograma foi decodificado graças à tecnologia de reprodução de som de fotografias de discos antigos (já escrevemos sobre essa tecnologia em um de nossos materiais - ele também contém links para gravações de áudio descriptografadas). No entanto, Patrick Fister enfatiza que qualquer um pode lidar com essa tarefa - se ele souber o que fazer.Um processo detalhado é descrito neste material. Por conta própria, observamos que, para resolver o problema, você precisará de uma foto de alta qualidade, habilidades básicas do Photoshop (a onda desenhada no vinil deve ser digitalizada, "endireitada" - a ranhura na placa é torcida em espiral - remove todos os tipos de ruído e deslocamentos), bem como um computador relativamente poderoso com uma grande quantidade de RAM.Para converter a imagem resultante em um arquivo WAV, Patrick usa um software bastante exótico: este é o ImageToSound. É gratuito, mas, apesar disso, é muito difícil encontrar na rede (Patrick compartilhou a fonte ).O programa converte sequencialmente cada bloco de imagem (largura do bloco - 1 pixel) em uma amostra de áudio. Infelizmente, este software nem suporta o Windows 7 (o autor usa um computador separado com o Windows 98 para funcionar). Como alternativa, Fister sugere usar o programa AEO-Light, mas alerta que ele próprio não está completamente familiarizado com os meandros de trabalhar com ele.O último passo é controlar a velocidade de reprodução. Aqui a matemática simples vem em socorro. Primeiro, você precisa conhecer a velocidade de reprodução na placa original, o comprimento de uma revolução da onda digitalizada (após a "despiralização") em pixels e a frequência de amostragem do arquivo final.Se a imagem foi editada em um arquivo de áudio com uma frequência de amostragem de 44,1 kHz, isso significa que o segundo arquivo de áudio será igual a 44 100 pixels da imagem. Se, por exemplo, a velocidade de uma música em um disco de vinil era de 50 revoluções por minuto, e após a digitalização e a despiralização, uma revolução do disco levava 30.000 pixels, obtemos 1.500.000 pixels por minuto (50x30.000).Se dividirmos esse número por 60, obteremos o número de pixels por segundo (1.500.000 / 60 = 25.000). Divida a taxa de amostragem pelo número de pixels por segundo (44 100/25 000 = 1,764). Multiplique o número resultante pelo tamanho do arquivo de áudio (tempo de reprodução da música) e obtenha o tempo com que esse arquivo foi originalmente gravado. Se a velocidade de reprodução da gravação original for desconhecida, Patrick recomenda que você escolha a velocidade final de ouvido.Patrick Fister adverte - este é um trabalho minucioso que exige tempo e paciência, mas ao mesmo tempo gera resultados surpreendentes: especialmente quando se trata das vozes do passado, que, ao que parece, foram perdidas para sempre.PS Mais materiais sobre o tema do áudio - em nosso blog " World of Hi-Fi ".Source: https://habr.com/ru/post/pt393257/
All Articles