该程序被教导为照片选择逼真的声音。



看着照片,一个人可以轻松地猜出哪种声音应该与此框相对应。

声音知识伴随着生活经验。我们观察生活中的各种事件并聆听声音。在大脑中积累了丰富的经验。一个人在内存中进行快速联想搜索,选择最合适的声音-并通过观察照片进行再现。迪士尼研究和苏黎世瑞士高等技术学校的专家为选择照片声音选择

了相同的原理,并开发新程序。原则上,该程序的作者专门尝试复制建立声音和图片之间关系的人类过程。

关于声音的信息不仅可以从现实中获得。在幼儿园,必须教所有的孩子牛说“ mu”。

电影和电脑游戏在很大程度上补充了大脑的声音。毕竟,它们经常显示有关哪些人没有生活经验的事件。因此,尽管几乎没有人听说过手枪的声音,但几乎所有人都知道它的声音。可以假设,电影/游戏中的声音占一个人一生中记忆中累积的所有声音的一半以上。

迪士尼研究计划还经过培训,可以通过镜头合成声音。这不是一件容易的事,因为系统必须滤除大量无关的声音并准确确定哪个对象对应于哪个声音。

视觉内容的解释是机器视觉的关键任务。近年来,在对象的分类和识别,分割,跟踪和3D重建方面,在该领域已获得许多令人印象深刻的结果。但是,了解视觉内容和音频数据之间关系的神经网络仍然是一个尚未探索的领域。

在这方面,应该注意的是,人的大脑有能力使事物惊奇。例如,他可以拾取“合适”的声音,原则上是不存在的。例如,一朵正在生长的花朵的声音,尽管原则上这些花朵不会发出任何声音。新程序的作者并未着手在这种幻想领域复制人脑的功能。虽然这是可能的,但我想。

如何产生声音


选择对象声音的选项之一是根据视频中对象的物理特性合成声音。但是通过这种方式,可以发出非常有限数量的对象。

相反,迪斯尼研究中心和苏黎世瑞士高级技术学校的系统从真实视频中收集了现成的声音样本。该视频显示了用于培训的此类视频的示例。


然后,教该系统将所需的声音与外界隔绝。此过程的主要原理是在一个对象的所有视频中找到相似的声音。这种声音将是物体的声音,而其他一切都是背景噪声。

在系统学会为特定对象选择合适的声音之后,由于机器视觉系统视频中的对象识别已经非常好地执行,因此琐碎的任务仍然存在。

研究人员对9种类型的物体进行了实验,每个物体具有10-20个视频样本,持续15-90 s。为了选择必要的声音,使用了kNN分类器



对人的一项调查显示,与未过滤的声音相比,他们识别程序过滤的声音要好得多。



这是为了什么


除了复制人脑功能的机器人和其他人工智能系统的自学这一最合乎逻辑的任务外,在许多有用的机器视觉和多媒体应用程序中,将声音映射到图形对象也将派上用场。例如,使噪音卡车的工作自动化-在电影和计算机游戏中录制声音效果的专家。

众所周知,在拍摄电影时,声音表现得不太好。为了提高影片的表现力,然后将声音效果分别应用于视频序列。事实证明,这是一部更加壮观的电影。此外,当真实声音与视频序列不匹配时,噪声消除器有助于消除缺陷。例如,在电影中,英雄会重击对手-但实际上演员只是假装被击中。在这种情况下,降噪器可以纠正缺陷,即施加逼真的声音,包括骨头cru缩,肉刺,大脑流动和其他吸引人的效果。

该程序的另一个可能应用是为有听力障碍的人提供声音代理。现在,他们不仅可以听到周围的声音,而且可以像电影中那样以最佳的质量,多汁的声音听到它们,而没有不必要的噪音。普通的没有听力障碍的人甚至会嫉妒残障人士,因为一条腿的运动员羡慕完全无腿的运动员,他们具有竞争优势-更先进的仿生假肢,这样他们跑得更快,更容易击败单腿(甚至两腿)的运动员。

这样的增强现实技术在娱乐业中可能是需要的,在娱乐业中,人们通过计算机接口感知周围的现实。最终,我们将能够阻止不必要的人进入我们周围的世界(如《黑镜》系列)。该系统将简单地过滤他们的声音。将其替换为另一种允许的声音。被阻止的人的图像将被另一个对象替换,并产生相应的声音。或者,您可以简单地更改办公室同事和亲戚的声音,以获得更悦耳的声音。例如,在傍晚的爱抚中,朋友的声音可以更改为性伴侣,添加缺失的声音等。

Source: https://habr.com/ru/post/zh-CN399317/


All Articles