2 de out. de 2024

Um novo modelo para geração simbólica de música usando metadados musicais




TX, 01/10/2024 



Por Ingrid F Adelli 



A inteligência artificial (IA) abriu novas oportunidades interessantes para a indústria da música, como, por exemplo, o desenvolvimento de ferramentas que podem gerar automaticamente composições musicais ou faixas de instrumentos específicos. No entanto, a maioria das ferramentas existentes foi projetada para ser utilizada por músicos, compositores e produtores de música, em vez de usuários sem expertise.

Pesquisadores do LG AI Research desenvolveram recentemente um novo sistema interativo que permite que qualquer usuário transforme suas ideias em música de forma simples. Este sistema, descrito em um artigo publicado no servidor de pré-prints arXiv, combina um transformador autoregressivo baseado apenas em decodificação, treinado em conjuntos de dados musicais, com uma interface de usuário intuitiva.

"Apresentamos a demonstração da geração de música simbólica, focando na criação de motivos musicais curtos que servem como tema central da narrativa", escreveram Sangjun Han, Jiwon Ham e seus colegas no artigo. "Para a geração, adotamos um modelo autoregressivo que utiliza metadados musicais como entrada e gera sequências MIDI multitrilhas de 4 compassos."

O modelo baseado em transformador que sustenta o sistema de geração de música simbólica da equipe foi treinado em dois conjuntos de dados musicais, nomeadamente o conjunto Lakh MIDI e o MetaMIDI. Esses conjuntos contêm, coletivamente, mais de 400.000 arquivos MIDI (interface digital de instrumentos musicais), que são arquivos de dados que armazenam diversas informações sobre faixas musicais (como as notas tocadas, a duração das notas e a velocidade com que são tocadas).

Para treinar seu modelo, a equipe converteu cada arquivo MIDI em um arquivo de representação de eventos musicais (REMI). Esse formato específico codifica dados MIDI em tokens que representam vários recursos musicais (como altura e intensidade). Arquivos REMI capturam a dinâmica da música de maneiras que são particularmente favoráveis para treinar modelos de IA para geração musical.



"Durante o treinamento, removemos aleatoriamente tokens dos metadados musicais para garantir um controle flexível", escreveram os pesquisadores. "Isso proporciona aos usuários a liberdade de selecionar tipos de entrada enquanto mantém o desempenho generativo, permitindo maior flexibilidade na composição musical."

Além de desenvolverem seu modelo baseado em transformador para geração de música simbólica, Han, Ham e seus colegas criaram uma interface simples que torna o sistema acessível tanto para especialistas quanto para usuários leigos. Essa interface atualmente consiste em uma barra lateral e um painel interativo central.

Na barra lateral, os usuários podem especificar aspectos da música que desejam que o modelo gere, como quais instrumentos devem tocar e o tempo da música. Depois que o modelo gera uma música, eles podem editar a faixa no painel central, por exemplo, removendo/adicionando instrumentos ou ajustando o momento em que começarão a tocar.

"Validamos a eficácia da estratégia por meio de experimentos em termos de capacidade do modelo, fidelidade musical, diversidade e controle", escreveram Han, Ham e seus colegas. "Além disso, ampliamos o modelo e o comparamos com outros modelos de geração musical por meio de um teste subjetivo. Nossos resultados indicam sua superioridade tanto em controle quanto na qualidade musical."

Os pesquisadores descobriram que seu modelo teve um desempenho significativamente bom e conseguiu gerar, de maneira confiável, até 4 compassos de música com base nas especificações dos usuários. Em estudos futuros, eles poderiam melhorar ainda mais o sistema, estendendo a duração das faixas musicais que o modelo pode criar, ampliando as especificações que os usuários podem fornecer e aprimorando a interface do sistema.

"Nosso modelo, treinado para gerar 4 compassos de música com controle global, tem limitações na extensão da duração da música e no controle de elementos locais ao nível de compassos", escreveram os pesquisadores. "No entanto, nossas tentativas têm importância na geração de temas musicais de alta qualidade que podem ser usados como loops."

Artigos recomendados: Música e IAG


Fonte:https://techxplore.com/news/2024-09-music-generation-musical-metadata.html 

Nenhum comentário:

Postar um comentário

Related Posts Plugin for WordPress, Blogger...