机器谣言。SoundNet神经网络经过训练可以通过声音识别物体


左:尝试仅通过声音识别场景和物体。右图:真实的声音源

最近,神经网络在识别视频中的对象和场景方面取得了长足的进步。通过对带有标记对象的海量数据集进行培训,可以实现这样的成就(例如,请参阅“使用位置数据库学习场景识别的深度特征”,NIPS,2014年)。通过查看照片或视频,计算机可以从401个场景中选择一种合适的描述来几乎准确地确定场景例如,杂乱的厨房,时尚的厨房,青少年的卧室等。但是在理解领域中,神经网络的声音尚未显示出这种进展。麻省理工学院信息与人工智能实验室(CSAIL)的专家通过开发SoundNet机器学习系统纠正了这一缺陷

实际上,能够通过声音定位场景与通过视频定位场景一样重要。最后,来自相机的图片通常会模糊或无法提供足够的信息。但是,如果麦克风正常工作,则机器人将能够确定其位置。

从科学的角度来看,训练SoundNet神经网络是一项艰巨的任务。 CSAIL的员工使用了机器视觉和机器听力之间的自然同步方法,通过教神经网络自动从未分配的视频材料中提取对象的声音表示。在培训方面,我们使用了大约200万个Flickr视频(26 TB数据)以及带注释声音的数据库-50个类别和大约2000个样本。


SoundNet神经网络架构

尽管神经网络的训练是在视觉观察下进行的,但根据至少三个标准声学场景的分类,该系统在独立模式下给出了出色的结果,开发人员根据该分类对其进行了检查。此外,对神经网络的测试表明,她独立学习了识别某些场景的声音特征,并且开发人员没有提供她的样本来专门识别这些对象。基于未标记的视频片段,神经网络本身了解到哪个场景对应于欢腾的人群(这是体育场)和鸟鸣叫声(这是草坪或公园)的声音。与场景同时,神经网络识别一个特定的对象,它是声音的来源。

该视频显示了一些通过声音识别物体的示例。首先,声音响起并显示识别结果,并且图像本身模糊-因此您可以尝试检查一下自己。您能否像神经网络一样准确地通过声音来了解动作的位置和某些对象的存在。例如,几人一致演唱的歌曲“祝你生日快乐!”最有可能是什么意思?正确答案:对象是燃烧的蜡烛,场景是餐厅,咖啡厅,酒吧


麻省理工学院电气工程与计算机科学学院的学生卡尔·沃恩德里克(Carl Vondrick)说: “机器视觉已经开始发挥作用,我们可以将这项技术转移到其他领域。” -我们使用了计算机视觉和声音之间的自然关系。由于存在大量未分配的视频资料,因此有可能实现较大规模,从而使神经网络学会了理解声音。”

SoundNet测试是在两个标准的录音数据库上进行的,它显示出对象识别的准确度比同类最佳程序高13-15%。在具有10种不同类别声音的数据集上,SoundNet对声音进行分类的准确度为92%,在具有50种类别的数据集上显示的准确性为74%。为了进行比较,在相同的数据集上,人们的识别准确率平均为96%和81%。



甚至人们有时也无法准确指出他们在听什么。尝试自己进行这样的实验。让同事从YouTube播放任意视频-您不要看监视器就说发生了什么,声音来自何处以及屏幕上显示了什么。您并非总是可以猜测。因此,人工智能的任务确实并非易事,但SoundNet能够很好地应对。

将来,这样的计算机程序可能会找到实际应用。例如,您的手机将自动识别您已进入公共场所-电影院或剧院,并自动使铃声音量静音。如果电影开始播放并且观众平静下来,电话将自动关闭声音并打开振动警报。

通过声音按地形定向将有助于自主机器人和其他机器的控制程序。

在安全系统和智能家居中,系统可以以特定方式自动响应特定声音。例如,窗户打碎的声音。在未来的“智能城市”中,街道噪声识别将有助于了解其原因并处理声音污染。

科学论文发表在arXiv.org 2016 10月27日,在开放存取(的arXiv:1610.09001,PDF格式)。

Source: https://habr.com/ru/post/zh-CN399659/


All Articles