如何绘制和阅读声音


Matthew Potter CC-BY

如何连接音频和视频信息?来自世界各地的科学家和业余爱好者经常问这个问题。因此,在2006年2月,科学家设法从6500多年历史的陶罐中再现声音的消息迅速传播到整个Internet。

据称,陶工在锅的制造过程中施加了音乐节奏。不幸的是,这在比利时电视台上是一次愚人节愚人节笑话。

但是,帕特里克·费斯特(Patrick Feaster)能够处理年龄超过1000岁的记录。在此之际,2011年5月,他在“录音声音协会”(ARSC)的会议上发表了“古谱”的演讲。

沉浸在历史中:抄写过去的记录

帕特里克(Patrick)使用现代技术(在这种情况下,不是很现代,因为频谱图是很久以前发明的),以便将视觉对象转换为声音对象。但是,人类并非总是这样,而是试图“捕获”图像中的声音。

长期以来(在托马斯·爱迪生(Thomas Edison)创建留声机之前),人们一直在担心以下问题:如何提出一种固定音乐的方法,以像观看音乐的乐迷一样,帮助观看录音的人像专业音乐家那样轻松地演奏旋律。不幸的是,根据Fister博士的说法,这种任务原则上是无法实现的,因为在大多数情况下,我们的大脑不足以将视觉信息转换为音频。

也许过去解决该问题的方法并未获得成功,但历史为我们提供了许多证据,证明不同时代的人们如何尝试创建类似的录音系统。这些系统中最著名的是留声机签名的基础-留声机的前身是法国人爱德华·马滕维尔(Edouard Martenville)发明的。留声机是一种声音穿过圆锥体,使与针头相连的膜振动的装置。针又在覆盖有烟熏纸的玻璃圆筒上画出波浪状的线。

借助唱机,可以捕获声音,但是无法再现。这是Fister决定的问题。 2008年,他,他的同事和音频专家David Giovannoni聚集在劳伦斯伯克利国家实验室,破译了Martenville保存最完好的唱片之一。

劳伦斯实验室(Lawrence's Lab)开发了从高质量照片中提取声音的技术,这些照片捕获了易碎的蜡质媒体或破裂的光盘。利用这些技术,科学家们从音素图上获得了1860年制作的歌曲“ Moonlight”(“ Au Clair de la Lune”)的录音。相信这是我们可以区分人声的第一张唱片。

但是,对于Fister来说,解决这个问题的方法还不够:随后,他不仅录制了50多个声图谱的声音,而且还探索了“录音”的早期尝试。看起来很奇怪,Google图书服务帮助了这位科学家。Fister使用它从经常被忽略的,被认为是历史怪癖的书中写下了人物。

他在1806年的书中找到了最古老的起伏线。通过其他技术,他能够破译1677年的旋律,这一点得到了很多记录。另一种是在10世纪的唱片中发现的,这些唱片的线显示了应该演唱的琴键。此类条目的示例可以在其Phonozoic网站上找到

另一种方法

麻省理工学院,微软和Adobe的研究人员走了一条不同的道路:他们从动态(或振动)的图片中重建声音。研究人员已经开发出一种算法,可以从录制在视频上的振动中获得音频信号。

在这些实验之一中,他们设法从记录芯片下面的空数据包中提取出清晰的语音。在其他许多实验中,也可以对铝箔表面,一杯水甚至是家用植物的叶子进行同样的处理。 2014年,该团队在SIGGRAPH年度会议上展示了他们的成就。 (视频来自TED会议上从事该项目的研究人员之一的演讲。)

事实是,当声音与物体接触时,它就会振动。这些振动产生的运动非常微小且看不见,以至于人们看不到它们。但是,摄像机可以“看到”它们:为了从视频中提取音频信号,科学家使用了视频录制,其帧捕获速率高于音频信号的频率。

最初,在实验中使用了拍摄频率为2000帧/秒和6000帧/秒的相机,但研究人员尝试使用其他更便宜的相机。当然,不可能以每秒60帧的帧速率从录制的视频中提取清晰的语音,但是似乎仍然可以了解房间中有多少人,他们的性别,甚至是他们的发音特征。

当然,在考虑使用此类开发工具时,会想到“间谍故事”,研究人员自己称他们的项目为寻找物体图像中的新面并研究其先前未开发的特性的机会。而且,如果数百年前,人们试图提出一种“记录声音”的方法,那么如今,这种“记录”成为一种副作用,这反过来又有助于揭示熟悉物体的新特性。

自己动手

如前所述,由于使用了从旧唱片的照片中复制声音的技术,因此第一个语音音素被解密了(我们已经在其中一种材料中写过关于这种技术的信息-它还包含解密音频记录的链接)。但是,帕特里克·菲斯特(Patrick Fister)强调,任何人都可以应对这一任务-如果他知道该怎么做。材料中

描述了详细的过程。就我们自己而言,我们注意到,要解决该问题,您将需要高质量的照片,基本的Photoshop技能(必须将在乙烯基上绘制的波浪数字化,“拉直”-印版上的凹槽呈螺旋形扭曲-消除各种噪音和位移),以及一台功能强大的计算机与大量的RAM。

为了将生成的图像转换为WAV文件,Patrick使用了一种非常奇特的软件:这是ImageToSound。它是免费的,但是尽管如此,在网络上还是很难找到的(Patrick共享了源代码)。

该程序将每个图像块(块宽度-1像素)顺序转换为音频样本。不幸的是,该软件甚至不支持Windows 7(作者使用带有Windows 98的单独计算机来工作)。作为替代方案,菲斯特建议使用AEO-Light 程序,但警告说他本人并不完全熟悉使用该程序的复杂性。

最后一步是控制播放速度。简单的数学在这里得到了拯救。首先,您需要了解原始板上的播放速度,以像素为单位的数字化波(“去气化”后)旋转一圈的长度以及最终文件的采样频率。

如果将图像编辑为采样频率为44.1 kHz的音频文件,则意味着音频文件的第二个将等于图像的44 100像素。例如,如果黑胶唱片上的歌曲速度为50 rpm,并且在数字化和除气后,唱片的旋转一圈花费了30,000像素,则每分钟可获得1,500,000像素(50x30,000)。

如果将这个数字除以60,就可以得到每秒的像素数(1,500,000 / 60 = 25,000)。用采样率除以每秒的像素数(44 100/25 000 = 1.764)。将所得的数字乘以音频文件的长度(歌曲播放时间),并获得最初记录该文件的时间。如果原始录音的播放速度未知,Patrick建议您通过耳朵选择最终速度。

帕特里克·菲斯特(Patrick Fister)警告-这是一项相当艰苦的工作,需要时间和耐心,但同时有时也会产生惊人的效果:尤其是谈到过去的声音时,它似乎永远消失了。

附言:有关音频主题的更多材料-在我们的博客“ Hi-Fi世界”中

Source: https://habr.com/ru/post/zh-CN393257/


All Articles