Boato de máquina. Rede neural SoundNet treinada para reconhecer objetos pelo som
Esquerda: uma tentativa de reconhecer a cena e os objetos apenas pelo som. Certo: uma fonte sonora realRecentemente, as redes neurais fizeram um progresso considerável no reconhecimento de objetos e cenas em vídeo. Tais conquistas são possíveis graças ao treinamento em conjuntos de dados massivos com objetos marcados (por exemplo, consulte “Aprendendo recursos profundos para reconhecimento de cenas usando banco de dados de locais” . NIPS, 2014). Ao olhar para fotografias ou vídeos, o computador pode determinar quase com precisão a cena selecionando uma descrição adequada entre 401 cenaspor exemplo, uma cozinha desordenada, uma cozinha elegante, o quarto de um adolescente etc. Mas no campo da compreensão, os sons da rede neural ainda não mostraram esse progresso. Especialistas do Laboratório de Informática e Inteligência Artificial do Instituto de Tecnologia de Massachusetts (CSAIL) corrigiram essa falha desenvolvendo o sistema de aprendizado de máquina SoundNet .De fato, ser capaz de localizar uma cena por som é uma tarefa tão importante quanto localizar uma cena por vídeo. No final, a imagem da câmera geralmente pode ficar embaçada ou não fornecer informações suficientes. Mas se o microfone funcionar, o robô já será capaz de descobrir onde está.Do ponto de vista da ciência, o treinamento de redes neurais SoundNet é uma tarefa bastante banal. Os funcionários da CSAIL usaram o método de sincronização natural entre visão e audição, ensinando a rede neural a extrair automaticamente a representação sonora de um objeto do material de vídeo não alocado. Para o treinamento, usamos cerca de 2 milhões de vídeos do Flickr (26 TB de dados), além de um banco de dados de sons anotados - 50 categorias e cerca de 2000 amostras.
Arquitetura de rede neural SoundNetEmbora o treinamento da rede neural tenha sido realizado sob observação visual, o sistema fornece um excelente resultado no modo offline, classificando pelo menos três cenas acústicas padrão, segundo as quais os desenvolvedores o verificaram. Além disso, um teste da rede neural mostrou que ela aprendeu a reconhecer os sons característicos de algumas cenas, e os desenvolvedores não forneceram suas amostras para reconhecer esses objetos especificamente. Com base nas imagens de vídeo não marcadas, a própria rede neural aprendeu qual cena corresponde ao som de uma multidão jubilosa (este é um estádio) e twitter de pássaros (este é um gramado ou um parque). Simultaneamente à cena, a rede neural reconhece um objeto específico, que é a fonte do som.O vídeo mostra alguns exemplos de reconhecimento de objetos pelo som. A princípio, o som soa e o resultado do reconhecimento é exibido, e a própria imagem é desfocada - para que você possa tentar se controlar. Você será capaz de entender o local da ação e a presença de certos objetos apenas pelo som com a mesma precisão que a rede neural. Por exemplo, qual é o significado mais provável da música "Parabéns pra você!", Que é cantada por várias pessoas em uníssono? A resposta correta: o objeto está queimando velas , a cena é um restaurante, café, bar ."A visão de máquina começou a funcionar tão bem que podemos transferir essa tecnologia para outras áreas", disse Carl Vondrick, estudante do Instituto de Tecnologia de Massachusetts em Engenharia Elétrica e Ciência da Computação, um dos autores do trabalho científico. - Usamos a relação natural entre visão computacional e som. Foi possível alcançar uma grande escala devido à infinidade de materiais de vídeo não alocados, para que a rede neural aprendesse a entender o som. ”O teste do SoundNet foi realizado em dois bancos de dados padrão de gravações sonoras e mostrou uma precisão de reconhecimento de objetos 13 a 15% mais alta que o melhor desses programas. Em um conjunto de dados com 10 categorias diferentes de sons, o SoundNet classifica sons com uma precisão de 92% e, em um conjunto de dados com 50 categorias, mostra uma precisão de 74%. Para comparação, nos mesmos conjuntos de dados, as pessoas mostram precisão de reconhecimento de, em média, 96% e 81%.
Mesmo as pessoas às vezes não conseguem identificar exatamente o que estão ouvindo. Tente conduzir esse experimento você mesmo. Deixe um colega iniciar um vídeo arbitrário do YouTube - e você tenta não olhar para o monitor para dizer o que acontece, de onde vêm os sons e o que é mostrado na tela. Longe de sempre, você pode adivinhar. Portanto, a tarefa da inteligência artificial não é realmente fácil, mas a SoundNet conseguiu lidar muito bem com ela.No futuro, esses programas de computador podem encontrar aplicação prática. Por exemplo, seu celular reconhece automaticamente que você entrou em um local público - um cinema ou teatro e silencia automaticamente o volume da campainha. Se o filme começar e o público se acalmar, o telefone desligará automaticamente o som e ativará o alerta vibratório.A orientação pelo terreno pelo som ajudará nos programas de controle para robôs autônomos e outras máquinas.Em sistemas de segurança e residências inteligentes, o sistema pode responder especificamente automaticamente a sons específicos de uma maneira específica. Por exemplo, o som de uma janela quebrada. Nas “cidades inteligentes” do futuro, o reconhecimento do ruído da rua ajudará a entender suas causas e a lidar com a poluição sonora.O artigo científico foi publicado em 27 de outubro de 2016 em domínio público em arXiv.org (arXiv: 1610.09001, pdf ).Source: https://habr.com/ru/post/pt399659/
All Articles