12 de jan. de 2023

A nova tecnologia de IA da Microsoft pode imitar a voz de qualquer pessoa com base em uma amostra de 3 segundos




HBC, 11/01/2023 



VALL-E foi treinado em áudio de mais de 7.000 falantes de inglês.

A Microsoft revelou um novo modelo de IA um tanto estranho. Os pesquisadores afirmam que o VALL-E é capaz de ouvir e simular a voz de praticamente qualquer pessoa. Embora a maioria dos modelos de IA que recriam vozes humanas normalmente exijam pelo menos um minuto de entrada de gravação de áudio, ou até mais, o VALL-E precisa de apenas uma amostra de 3 segundos.

Para desenvolver o VALL-E, os cientistas usaram a biblioteca Libri-Light da Meta, contendo áudio de mais de 7.000 falantes. Eles então usaram a biblioteca para treinar a IA em 60.000 horas de gravações em inglês.

A empresa chama o VALL-E de “modelo de linguagem de codec neural”, baseado em um modelo semelhante da Meta que usa IA para produzir áudio de conversão de texto em fala.

Algumas vozes do VALL-E são surpreendentemente realistas, enquanto outras não correspondem à tarefa. Parece que, para criar uma simulação precisa, a voz inserida no sistema deve soar um pouco semelhante a um dos falantes em que o modelo foi treinado.

A Microsoft planeja continuar desenvolvendo o modelo para melhorar a precisão e a pronúncia de certas palavras. No momento, o código não é de código aberto devido ao risco de deepfakes, mas os interessados ​​podem conferir uma demonstração do VALL-E.

Artigos recomendados: DPF e IA


Fonte:https://hypebeast.com/2023/1/microsoft-vall-e-ai-model-voice-simulation

Nenhum comentário:

Postar um comentário

Related Posts Plugin for WordPress, Blogger...