Estilo de música com redes neurais


Na última década, as Redes Neurais Profundas (DNNs) tornaram-se uma excelente ferramenta para várias tarefas de IA, como classificação de imagens, reconhecimento de fala e até participação em jogos. Como os desenvolvedores tentaram mostrar o que causou o sucesso do DNN no campo da classificação de imagens e criaram ferramentas de visualização (por exemplo, Deep Dream, Filters) que ajudam a entender “o que” exatamente “estuda” o modelo DNN, surgiu uma nova aplicação interessante : extrair “estilo” de uma imagem e aplicar a outro conteúdo diferente. Isso foi chamado de "transferência de estilo de imagem".



Esquerda: imagem com conteúdo útil, no centro: imagem com estilo, direita: conteúdo + estilo (fonte: Blog de pesquisa do Google )


Isso não apenas despertou o interesse de muitos outros pesquisadores (por exemplo, 1 e 2 ), mas também levou ao surgimento de vários aplicativos móveis bem-sucedidos. Nos últimos anos, esses métodos de transferência de estilo visual melhoraram bastante.



Invólucro no estilo Adobe (fonte: Engadget )



Exemplo do site da Prisma


Uma breve introdução a esses algoritmos:



No entanto, apesar dos avanços no trabalho com imagens, a aplicação dessas técnicas em outras áreas, por exemplo, para o processamento de música, era muito limitada (ver 3 e 4 ), e os resultados não são tão impressionantes quanto no caso das imagens. Isso sugere que é muito mais difícil transferir estilo na música. Neste artigo, examinaremos o problema com mais detalhes e discutiremos algumas abordagens possíveis.


Por que é tão difícil transferir estilo na música?


Vamos primeiro responder à pergunta: o que é "transferência de estilo" na música ? A resposta não é tão óbvia. Nas imagens, os conceitos de "conteúdo" e "estilo" são intuitivos. “Conteúdo da imagem” descreve os objetos representados, por exemplo, cães, casas, rostos etc., e “estilo da imagem” refere-se a cores, iluminação, pinceladas e textura.


No entanto, a música é semanticamente abstrata e multidimensional por natureza. "Conteúdo musical" pode significar coisas diferentes em diferentes contextos. Freqüentemente, o conteúdo da música está associado a uma melodia e o estilo a um arranjo ou harmonização. No entanto, o conteúdo pode ser a letra e diferentes melodias usadas para cantar podem ser interpretadas como estilos diferentes. Na música clássica, o conteúdo pode ser considerado a partitura (que inclui harmonização), enquanto o estilo é a interpretação das notas pelo intérprete, que traz sua própria expressão (variando e acrescentando alguns sons dele mesmo). Para entender melhor a essência da transferência de estilo na música, confira alguns desses vídeos:




No segundo vídeo, várias técnicas de aprendizado de máquina são usadas.


Portanto, a transferência de estilo na música é, por definição, difícil de formalizar. Existem outros fatores principais que complicam a tarefa:


  1. As máquinas BAD entendem de música (por enquanto): o sucesso na transferência de estilo em imagens decorre do sucesso da DNN em tarefas relacionadas à compreensão de imagens, como reconhecimento de objetos. Como os DNNs podem aprender propriedades que variam entre objetos, técnicas de retropaginação podem ser usadas para modificar a imagem de destino para corresponder às propriedades do conteúdo. Embora tenhamos feito um progresso significativo na criação de modelos baseados em DNN, capazes de entender tarefas musicais (por exemplo, transcrever melodias, definir um gênero etc.), ainda estamos longe das alturas alcançadas no processamento de imagens. Este é um sério obstáculo para a transferência de estilo na música. Os modelos existentes simplesmente não conseguem aprender as propriedades “excelentes” que permitem classificar a música, o que significa que a aplicação direta dos algoritmos de transferência de estilo usados ​​ao trabalhar com imagens não produz o mesmo resultado.
  2. A música é passageira : são dados que representam séries dinâmicas, ou seja, um fragmento musical muda com o tempo. Isso complica o aprendizado. Embora as redes neurais recorrentes e o LSTM (Long Short-Term Memory) permitam que você aprenda mais com dados transitórios, ainda precisamos criar modelos confiáveis ​​que aprendam a reproduzir a estrutura da música a longo prazo (nota: essa é uma área real de pesquisa e cientistas da equipe do Google Magenta alcançaram algum sucesso nisso ).
  3. A música é discreta (pelo menos no nível simbólico): simbólica, ou música gravada no papel, é de natureza discreta. No temperamento uniforme , o sistema de afinação de instrumentos musicais mais popular da atualidade, os tons de som ocupam posições discretas em uma escala de frequência contínua. Ao mesmo tempo, a duração dos tons também está no espaço discreto (geralmente tons de um quarto, tons completos e assim por diante). Portanto, é muito difícil adaptar os métodos de propagação de pixel back (usados ​​para trabalhar com imagens) no campo da música simbólica.


A natureza discreta das notas musicais em um temperamento uniforme.


Portanto, as técnicas usadas para transferir estilo nas imagens não são diretamente aplicáveis ​​à música. Para fazer isso, eles precisam ser processados ​​com ênfase em conceitos e idéias musicais.


Para que serve a transferência de estilo na música?


Por que você precisa resolver esse problema? Como nas imagens, os usos potenciais da transferência de estilos na música são bastante interessantes. Por exemplo, desenvolvendo uma ferramenta para ajudar compositores . Por exemplo, um instrumento automático capaz de transformar uma melodia usando arranjos de diferentes gêneros será extremamente útil para compositores que precisam experimentar rapidamente idéias diferentes. Os DJs também estarão interessados ​​em tais instrumentos.


Um resultado indireto de tal pesquisa será uma melhoria significativa nos sistemas de informática musical. Como explicado acima, para que a transferência de estilo funcione na música, os modelos que criamos devem aprender a "entender" diferentes aspectos.


Simplifique a tarefa de transferir estilo na música


Vamos começar com uma tarefa muito simples de analisar melodias monofônicas em diferentes gêneros. Melodias monofônicas são seqüências de notas, cada uma determinada pelo tom e duração. A progressão do tom depende, em grande parte, da escala da melodia, e a progressão da duração depende do ritmo. Então, primeiro, separamos claramente conteúdo de afinação” e “estilo rítmico” como duas entidades com as quais você pode reformular a tarefa de transferir estilo. Além disso, ao trabalhar com melodias monofônicas, agora evitaremos as tarefas associadas ao arranjo e ao texto.


Na ausência de modelos pré-treinados que possam distinguir com sucesso entre progressões de tons e ritmos de melodias monofônicas, primeiro recorremos a uma abordagem muito simples para transferir estilos. Em vez de tentar alterar o conteúdo do som aprendido na melodia-alvo com o estilo rítmico aprendido no ritmo-alvo, tentaremos ensinar individualmente os padrões de tons e durações de diferentes gêneros, e tentar combiná-los. Esquema aproximado da abordagem:



Esquema do método de transferência de estilo entre gêneros.


Ensinamos separadamente progressões de tom e ritmo


Apresentação dos dados


Apresentaremos as melodias monofônicas como uma sequência de notas musicais, cada uma com um índice de tons e uma sequência. Para que a nossa chave de apresentação seja independente, usaremos a apresentação com base em intervalos: o tom da próxima nota será apresentado como um desvio (± semitom) do tom da nota anterior. Vamos criar dois dicionários para tons e durações em que cada estado discreto (para tom: +1, -1, +2, -2 e assim por diante; para durações: semínima, semínima, semínima com ponto e assim por diante) recebe um índice dicionário.



Apresentação de dados.


Arquitetura de modelo


Usaremos a mesma arquitetura que Colombo e colegas usaram - eles ensinaram simultaneamente duas redes neurais LSTM para o mesmo gênero musical: a) a rede de tons aprendida para prever o próximo tom com base na nota anterior e na duração anterior, b) a rede de duração aprendida para prever a próxima duração com base na próxima nota e duração anterior. Além disso, antes das redes LSTM, adicionaremos camadas de incorporação para comparar índices e durações de tons de entrada em espaços de incorporação memorizados. A arquitetura da rede neural é mostrada na figura:



Procedimento de treinamento


Para cada gênero, as redes responsáveis ​​por tons e durações são treinadas ao mesmo tempo. Usaremos dois conjuntos de dados: a) Norbeck Folk Dataset , cobrindo cerca de 2.000 músicas folclóricas irlandesas e suecas, b) um conjunto de dados de jazz (não disponível ao público), cobrindo cerca de 500 músicas de jazz.


Mesclando modelos treinados


Durante o teste, a melodia é gerada primeiro usando a rede de tons e a duração da rede treinada no primeiro gênero (por exemplo, folk). Em seguida, a sequência de tons da melodia gerada é usada na entrada de uma rede de sequências treinadas em outro gênero (por exemplo, jazz), e o resultado é uma nova sequência de durações. Portanto, uma melodia criada usando uma combinação de duas redes neurais possui uma sequência de tons correspondente ao primeiro gênero (folk) e uma sequência de durações correspondendo ao segundo gênero (jazz).


Resultados Preliminares


Pequenos trechos de algumas das músicas resultantes:
Tons Folk e Durações Folk



Extrato da notação musical.


Tons folclóricos e durações de jazz



Extrato da notação musical.


Tons e sequências de jazz



Extrato da notação musical .


Tons de jazz e sequências folclóricas



Extrato da notação musical.


Conclusão


Embora o algoritmo atual não seja ruim para começar, ele possui várias desvantagens críticas:


  1. É impossível "transferir estilo" com base em uma melodia de destino específica . Os modelos aprendem padrões de tons e durações em um gênero, o que significa que todas as transformações são determinadas pelo gênero. Seria ideal modificar uma peça de música no estilo de uma música ou peça de destino específica.
  2. Não é possível controlar o grau de mudança de estilo. Seria muito interessante obter uma "alça" que governasse esse aspecto.
  3. Ao mesclar gêneros, é impossível preservar a estrutura musical em uma melodia transformada. Uma estrutura de longo prazo é importante para a avaliação musical em geral e, para que as melodias geradas sejam musicalmente estéticas, a estrutura deve ser preservada.

Nos artigos a seguir, examinaremos maneiras de contornar essas deficiências.

Source: https://habr.com/ru/post/pt409697/


All Articles