来自德克萨斯大学奥斯汀分校(UT Austin)的专家
开发了一种神经网络,该网络可以处理视频中的单声道音频记录并重新创建其“环绕”声。
我们告诉它如何工作。
marneejill / CC BY-SA 摄新的3D声音创建方法
环绕声经常出现在游戏或电影中,但是3D声音在网络上的条件视频中很少见。 录制它需要昂贵的设备,视频创作者并不总是可以使用这些设备-通常仅使用智能手机进行拍摄。
以这种方式记录的音轨限制了我们对视频的感知:它无法传达声源在空间中的位置以及它们如何移动。 因此,视频的声音可能会感觉“平坦”。
UT奥斯汀大学的教授克里斯汀·格劳曼(Kristen Grauman)和学生高若涵(Ruohan Gao)解决了这个问题。 他们创建了一个基于机器学习算法的系统,该系统可以将单声道音频录制转换为“环绕”视频录制。 该技术称为“ 2.5D视觉声音”。
这不是成熟的空间声音,而是“模型化”的声音。 但是,根据开发商的说法,对于一般的听众来说,差异几乎是不可察觉的。
技术如何运作
UT Austin开发的系统
使用两个神经网络。
第一个神经网络是在
ResNet架构的基础上创建的,该架构由Microsoft的研究人员于2015年引入。 它识别视频中的对象,并收集有关它们在帧中运动的信息。 在输出端,网络生成一个称为特征图的矩阵,其中包含对象在视频每一帧上的坐标。
该信息被传输到第二个神经网络-Mono2Binaural。 它是在德克萨斯大学开发的。 该网络还接收使用
Hann函数使用
窗口傅里叶变换获得
的音频录音的
频谱图 。
Mono2Binaural由十个
卷积层组成。 在网络中的每个层之后,都有一个批处理归一化块(可
提高算法预测
的准确性)和一个具有ReLU
激活功能的线性整流块。
神经网络的卷积层分析频谱图中的频率变化,并组成一个矩阵,其中包含有关频谱图的哪个部分应属于左音频通道以及哪个属于右音频通道的信息。 然后,使用逆窗口傅立叶变换,生成新的音频记录。
同时,Mono2Binaural可以为视频中的每个对象分别再现空间声音。 例如,神经网络可以识别视频中的两种乐器-鼓和管道-并为它们各自创建单独的音轨。
关于“ 2.5D视觉声音”的观点
根据开发人员自己的观点,他们设法创造出一种技术,该技术可以再现“现实的空间感”。 Mono2Binaural在测试期间显示出良好的结果,因此作者确信他们的项目具有巨大的潜力。
为了证明其技术的有效性,专家们进行了一系列实验。 他们邀请了一群比较两个音轨声音的人:一个是使用Mono2Binaural创建的,另一个是使用Ambisonics方法创建的。
后者是在加利福尼亚大学圣地亚哥分校开发的。 这种方法还可以从单声道创建“环绕”音频,但是与新技术不同的是,它仅适用于360度视频。
大多数听众选择Mono2Binaural音频作为最接近真实声音的声音。 测试还显示,在60%的情况下,用户可以通过耳朵准确地识别声源的位置。
该算法仍然有一些缺点。 例如,神经网络无法区分大量物体的声音。 另外,显然,她将无法确定音源的位置,该位置不在视频上。 但是,开发人员计划解决这些问题。
技术类似物
在视频声音识别领域,有几个类似的项目。 我们之前写过其中的一篇。 这是麻省理工学院的专家提供的“
可视麦克风 ”。 他们的算法可以识别在无声视频上声波的影响下物体的微观振动,并根据这些数据恢复在室内听到的声音。 科学家们从一堆薯条,家用植物甚至砖块中“读取”了
玛丽小羊羔的歌曲的旋律。
奎因·多姆布罗夫斯基 ( Quinn Dombrowski) / CC BY-SA其他项目正在开发以360度视频录制声音的技术。 其中之一就是我们前面提到的Ambisonics。 该算法的原理类似于Mono2Binaural:它
分析对象在帧中
的运动并将它们与声音的变化关联起来。 但是,Ambisonics技术具有一些局限性:神经网络仅适用于360度视频,并且如果记录上有回声,则不能很好地发出声音。
该领域的另一个项目是来自G-Audio的Sol VR360。 与其他开发不同,该技术
已经在用户服务中实现了Sol声音处理。 它为音乐会或体育比赛中的360度视频创建空间音频。 该服务的缺点是生成的剪辑仅在Sol应用程序中播放。
结论
用于创建空间声音的系统的开发人员可以在VR和AR应用程序中看到技术的主要应用领域,以最大程度地使人沉浸在游戏或电影的氛围中。 如果有可能克服他们所面临的许多困难,那么该技术也可以用于帮助视障人士。 在这样的系统的帮助下,他们将能够更详细地了解视频框架中发生的事情。
有关我们电报频道中音频技术的更多信息:
A.
InSight首先记录了火星风的声音
八种音频技术将于2019年进入TECnology名人堂
主动降噪窗户淹没了大都市的声音