MITTR, 07/10/2022
Por Tammy Xu
A técnica, chamada AudioLM, gera sons naturalistas sem a necessidade de anotação humana.
Um novo sistema de IA pode criar fala e música com som natural após ser solicitado com alguns segundos de áudio.
O AudioLM, desenvolvido por pesquisadores do Google, gera áudio que se encaixa no estilo do prompt, incluindo sons complexos como música de piano ou pessoas falando, de uma forma quase indistinguível da gravação original. A técnica mostra-se promissora para acelerar o processo de treinamento da IA para gerar áudio e, eventualmente, pode ser usada para gerar automaticamente músicas para acompanhar vídeos.
(Você pode ouvir todos os exemplos aqui)
O áudio gerado por IA é comum: vozes em assistentes domésticos como Alexa usam processamento de linguagem natural. Sistemas de música de IA, como o Jukebox da OpenAI, já geraram resultados impressionantes, mas a maioria das técnicas existentes precisa de pessoas para preparar transcrições e rotular dados de treinamento baseados em texto, o que leva muito tempo e trabalho humano. Jukebox, por exemplo, usa dados baseados em texto para gerar letras de músicas.
O AudioLM, descrito em um artigo não revisado por pares no mês passado, é diferente: não requer transcrição ou rotulagem. Em vez disso, os bancos de dados de som são inseridos no programa e o aprendizado de máquina é usado para compactar os arquivos de áudio em trechos de som, chamados “tokens”, sem perder muita informação. Esses dados de treinamento tokenizados são então alimentados em um modelo de aprendizado de máquina que usa processamento de linguagem natural para aprender os padrões do som.
Para gerar o áudio, alguns segundos de som são inseridos no AudioLM, que então prevê o que vem a seguir. O processo é semelhante ao modo como modelos de linguagem como o GPT-3 preveem quais frases e palavras normalmente seguem umas às outras.
Os clipes de áudio lançados pela equipe soam bem naturais. Em particular, a música de piano gerada usando AudioLM soa mais fluida do que a música de piano gerada usando técnicas de IA existentes, que tendem a soar caóticas.
Roger Dannenberg, que pesquisa música gerada por computador na Carnegie Mellon University, diz que o AudioLM já tem uma qualidade de som muito melhor do que os programas anteriores de geração de música. Em particular, diz ele, o AudioLM é surpreendentemente bom em recriar alguns dos padrões de repetição inerentes à música feita pelo homem. Para gerar música de piano realista, o AudioLM precisa capturar muitas das vibrações sutis contidas em cada nota quando as teclas do piano são tocadas. A música também tem que sustentar seus ritmos e harmonias por um período de tempo.
“Isso é realmente impressionante, em parte porque indica que eles estão aprendendo alguns tipos de estrutura em vários níveis”, diz Dannenberg.
AudioLM não se limita apenas à música. Como foi treinado em uma biblioteca de gravações de humanos falando frases, o sistema também pode gerar fala que continua no sotaque e na cadência do falante original - embora neste ponto essas frases ainda possam parecer non sequiturs que não fazem qualquer sentido. O AudioLM é treinado para aprender que tipos de trechos de som ocorrem frequentemente juntos e usa o processo inverso para produzir frases. Também tem a vantagem de poder aprender as pausas e exclamações que são inerentes aos idiomas falados, mas não são facilmente traduzidas em texto.
Rupal Patel, que pesquisa ciência da informação e da fala na Northeastern University, diz que trabalhos anteriores usando IA para gerar áudio poderiam capturar essas nuances apenas se fossem explicitamente anotadas nos dados de treinamento. Em contraste, o AudioLM aprende essas características dos dados de entrada automaticamente, o que aumenta o efeito realista.
“Há muito do que poderíamos chamar de informação linguística que não está nas palavras que você pronuncia, mas é outra maneira de se comunicar com base na maneira como você diz as coisas para expressar uma intenção específica ou emoção específica”, diz Neil Zeghidour, um co-criador do AudioLM. Por exemplo, alguém pode rir depois de dizer algo para indicar que era uma piada. “Tudo isso torna a fala natural”, diz ele.
Eventualmente, a música gerada por IA pode ser usada para fornecer trilhas sonoras de fundo com som mais natural para vídeos e apresentações de slides. A tecnologia de geração de fala que soa mais natural pode ajudar a melhorar as ferramentas de acessibilidade da Internet e os bots que funcionam em ambientes de saúde, diz Patel. A equipe também espera criar sons mais sofisticados, como uma banda com instrumentos diferentes ou sons que imitam uma gravação de uma floresta tropical.
No entanto, as implicações éticas da tecnologia precisam ser consideradas, diz Patel. Em particular, é importante determinar se os músicos que produzem os clipes usados como dados de treinamento receberão atribuição ou royalties do produto final – um problema que surgiu com IAs de texto para imagem. O discurso gerado por IA que é indistinguível da coisa real também pode se tornar tão convincente que permite a disseminação de informações erradas com mais facilidade.
No artigo, os pesquisadores escrevem que já estão considerando e trabalhando para mitigar esses problemas – por exemplo, desenvolvendo técnicas para distinguir sons naturais de sons produzidos usando o AudioLM. Patel também sugeriu incluir marcas d'água de áudio em produtos gerados por IA para torná-los mais fáceis de distinguir do áudio natural.
Artigos recomendados: IA e Big Tech
Fonte:https://www.technologyreview.com/2022/10/07/1060897/ai-audio-generation/
Nenhum comentário:
Postar um comentário