O programa foi ensinado a selecionar sons realistas para fotos.
Olhando para uma fotografia, uma pessoa pode adivinhar facilmente qual som deve corresponder a esse quadro.Conhecimento sólido vem com experiências de vida. Observamos vários eventos da vida e ouvimos sons. Com a experiência, uma grande coleção se acumulou no cérebro. Uma pessoa realiza uma pesquisa associativa rápida na memória, seleciona o som mais adequado - e o reproduz observando uma fotografia.Aproximadamente o mesmo princípio funciona e o novo programa desenvolvido por especialistas da Disney Research e da Escola Técnica Suíça Superior de Zurique para selecionar sons para fotografias. Em princípio, os autores do programa tentaram especificamente copiar o processo humano de estabelecer a relação entre som e imagem.Informações sobre sons podem ser obtidas não apenas da realidade. No jardim de infância, todas as crianças são necessariamente ensinadas que a vaca diz "mu".Filmes e jogos de computador reabastecem a coleção cerebral de sons em grande medida. Afinal, eles costumam mostrar eventos sobre os quais as pessoas não têm experiência de vida. Portanto, quase todo mundo sabe como soa um tiro de uma pistola, embora poucas pessoas tenham ouvido na realidade. Pode-se presumir que os sons de filmes / jogos compõem mais da metade de todos os sons acumulados na memória pela vida de uma pessoa.O programa Disney Research também foi treinado para compor uma coleção de sons por filmagem. Esta não é uma tarefa tão fácil, porque o sistema deve filtrar um grande número de sons estranhos e determinar exatamente qual objeto corresponde a qual som.A interpretação do conteúdo visual é uma tarefa fundamental da visão de máquina. Nos últimos anos, muitos resultados impressionantes foram obtidos nessa área na classificação e reconhecimento de objetos, segmentação, rastreamento e reconstrução 3D. Mas aprender a rede neural da relação entre conteúdo visual e dados de áudio ainda é uma área bastante inexplorada.A esse respeito, deve-se notar que o cérebro humano é capaz de coisas surpreendentes. Por exemplo, ele pode captar um som "adequado", que em princípio não pode existir. Por exemplo, o som de uma flor em crescimento, embora as flores, em princípio, não emitam sons. Os autores do novo programa não se propuseram a copiar a funcionalidade do cérebro humano no campo de tais fantasias. Embora isso seja possível, eu acho.Como gerar som
Uma das opções para selecionar o som para um objeto é a síntese do som de acordo com as características físicas do objeto no vídeo. Mas dessa maneira, um número muito limitado de objetos pode ser dublado.Por outro lado, o sistema da Disney Research e a Escola Técnica Suíça Superior de Zurique coletaram amostras de sons prontos de vídeos reais. O vídeo mostra exemplos desses vídeos que foram usados para treinamento.Em seguida, o sistema foi ensinado a separar o som desejado dos estrangeiros. O principal princípio deste procedimento é encontrar um som semelhante em todos os vídeos de um objeto. Este som será o som do objeto e todo o resto é ruído de fundo.Depois que o sistema aprendeu a selecionar o som apropriado para um objeto específico, a tarefa trivial permanece, porque o reconhecimento de objetos no vídeo do sistema de visão por máquina já é muito bem executado.Os pesquisadores realizaram experimentos em 9 tipos de objetos, com 10 a 20 amostras de vídeo com duração de 15 a 90 s para cada um deles. Para selecionar os sons necessários, foi utilizado o classificador kNN .
Uma pesquisa com pessoas mostrou que eles reconhecem sons filtrados pelo programa muito melhor do que sons não filtrados.
Para que serve?
Além da tarefa mais lógica de auto-treinamento de robôs e outros sistemas de inteligência artificial que copiam a funcionalidade do cérebro humano, o mapeamento de som para objetos gráficos é útil em muitas aplicações úteis de visão de máquina e multimídia. Por exemplo, para automatizar o trabalho de um caminhão de ruído - um especialista em gravar efeitos sonoros em filmes e jogos de computador.Sabe-se que, ao gravar filmes, os sons não são muito expressivos. Para melhorar a expressividade do filme, os efeitos sonoros são aplicados separadamente à sequência de vídeo. Então, o filme é muito mais espetacular e espetacular. Além disso, o cancelador de ruído ajuda a eliminar defeitos quando o som real não corresponde à sequência de vídeo. Por exemplo, quando em um filme o herói bate forte no oponente - mas, na realidade, os atores apenas fingem ser hits. Nesse caso, o cancelador de ruído corrige o defeito, ou seja, impõe sons realistas de esmagamento ósseo, ranger de carne, cérebro em movimento e outros efeitos atraentes.Outra aplicação possível do programa é a dublagem para pessoas com deficiência auditiva. Agora eles podem não apenas ouvir os sons ao redor, mas ouvi-los com a melhor qualidade, suculentos, sem ruídos desnecessários - como em um filme. Pessoas comuns sem deficiência auditiva invejam até os deficientes físicos, pois atletas com uma perna invejam os completamente sem pernas , que têm uma vantagem competitiva - próteses biônicas mais avançadas, para que corram muito mais rápido e derrotem facilmente atletas de uma perna (e até de duas pernas).É provável que essas tecnologias de realidade aumentada sejam procuradas na indústria do entretenimento, na qual uma pessoa percebe a realidade circundante através de uma interface de computador. Finalmente, seremos capazes de bloquear pessoas desnecessárias do mundo ao nosso redor (como na série Black Mirror). O sistema simplesmente filtrará o som de sua voz. Substitua-o por outro som permitido. A imagem da pessoa bloqueada será substituída por outro objeto com a geração dos sons correspondentes. Como alternativa, você pode simplesmente mudar as vozes dos colegas no escritório e dos parentes para obter vozes mais agradáveis. Por exemplo, a voz de um amigo pode ser alterada para pronons sexuais durante as carícias noturnas, adicionar sons ausentes etc.Source: https://habr.com/ru/post/pt399317/
All Articles