EDT, 16/06/2023
Por Andrew Tarantola
Mas a empresa não compartilhará o aplicativo ou seu código-fonte por enquanto.
Hoje, estamos um passo mais perto do futuro de (uma) celebridade imortal que há muito nos foi prometido (desde abril). A Meta revelou o Voicebox, seu modelo generativo de conversão de texto em fala que promete fazer pela palavra falada o que ChatGPT e Dall-E, respeitosamente, fizeram pela geração de texto e imagem.
Essencialmente, é um gerador de saída de texto como GPT ou Dall-E - apenas em vez de criar prosa ou imagens bonitas, ele cospe clipes de áudio. A Meta define o sistema como “um modelo de correspondência de fluxo não autorregressivo treinado para preencher a fala, dado contexto de áudio e texto”. Ele foi treinado em mais de 50.000 horas de áudio não filtrado. Especificamente, a Meta usou falas gravadas e transcrições de vários audiolivros de domínio público escritos em inglês, francês, espanhol, alemão, polonês e português.
Esse conjunto diversificado de dados permite que o sistema gere mais fala com som de conversação, independentemente dos idiomas falados por cada parte, de acordo com os pesquisadores. “Nossos resultados mostram que os modelos de reconhecimento de fala treinados em fala sintética gerada pelo Voicebox, funcionam quase tão bem quanto os modelos treinados em fala real”. Além disso, a fala gerada por computador foi executada com apenas 1 por cento de degradação da taxa de erro, em comparação com a queda de 45 a 70 por cento observada nos modelos TTS existentes.
O sistema foi ensinado primeiro a prever segmentos de fala com base nos segmentos ao seu redor, bem como na transcrição da passagem. “Tendo aprendido a preencher a fala a partir do contexto, o modelo pode aplicar isso em tarefas de geração de fala, incluindo a geração de partes no meio de uma gravação de áudio sem ter que recriar toda a entrada”, explicaram os pesquisadores do Meta.
O Voicebox também é supostamente capaz de editar ativamente clipes de áudio, eliminando o ruído da fala e até mesmo substituindo palavras incorretas. “Uma pessoa pode identificar qual segmento bruto da fala está corrompido pelo ruído (como um cachorro latindo), cortá-lo e instruir o modelo a regenerar esse segmento”, disseram os pesquisadores, da mesma forma que usar um software de edição de imagem para limpar fotografias.
Os geradores de conversão de texto em fala já existem há um minuto - eles são como os TomToms de seus pais foram capazes de fornecer instruções de direção duvidosas na voz de Morgan Freeman. Iterações modernas como Speechify ou Prime Voice AI da Elevenlab são muito mais capazes, mas ainda requerem montanhas de material de origem para imitar adequadamente seu assunto - e depois outra montanha de dados únicos e outros assuntos diferentes em que você quer que ele seja treinado.
Voicebox não, graças a um novo método de treinamento text-to-speech zero-shot chamado Meta de Flow Matching. Os resultados do benchmark não estão nem perto, já que a IA da Meta supostamente superou o estado atual da arte em inteligibilidade (uma taxa de erro de palavra de 1,9% contra 5,9%) e “semelhança de áudio” (uma pontuação composta de 0,681 contra 0,580 da SOA), tudo enquanto opera até 20 vezes mais rápido que os melhores sistemas TTS atuais.
Mas não coloque seus navegadores de celebridades alinhados ainda, nem o aplicativo Voicebox nem seu código-fonte estão sendo lançados ao público neste momento, Meta confirmou na sexta-feira, citando “os riscos potenciais de uso indevido”, apesar do “muito uso emocionante casos para modelos de fala generativa”. Em vez disso, a empresa lançou uma série de exemplos de áudio (veja acima/abaixo), bem como um trabalho de pesquisa inicial do programa. No futuro, a equipe de pesquisa espera que a tecnologia encontre seu caminho para próteses para pacientes com danos nas cordas vocais, NPCs de jogo e assistentes digitais.
Artigos recomendados: DPFV e Meta
Fonte:https://www.engadget.com/metas-voicebox-ai-is-a-dall-e-for-text-to-speech-150021287.html
Nenhum comentário:
Postar um comentário