HBC, 11/01/2023
VALL-E foi treinado em áudio de mais de 7.000 falantes de inglês.
A Microsoft revelou um novo modelo de IA um tanto estranho. Os pesquisadores afirmam que o VALL-E é capaz de ouvir e simular a voz de praticamente qualquer pessoa. Embora a maioria dos modelos de IA que recriam vozes humanas normalmente exijam pelo menos um minuto de entrada de gravação de áudio, ou até mais, o VALL-E precisa de apenas uma amostra de 3 segundos.
Para desenvolver o VALL-E, os cientistas usaram a biblioteca Libri-Light da Meta, contendo áudio de mais de 7.000 falantes. Eles então usaram a biblioteca para treinar a IA em 60.000 horas de gravações em inglês.
A empresa chama o VALL-E de “modelo de linguagem de codec neural”, baseado em um modelo semelhante da Meta que usa IA para produzir áudio de conversão de texto em fala.
Algumas vozes do VALL-E são surpreendentemente realistas, enquanto outras não correspondem à tarefa. Parece que, para criar uma simulação precisa, a voz inserida no sistema deve soar um pouco semelhante a um dos falantes em que o modelo foi treinado.
A Microsoft planeja continuar desenvolvendo o modelo para melhorar a precisão e a pronúncia de certas palavras. No momento, o código não é de código aberto devido ao risco de deepfakes, mas os interessados podem conferir uma demonstração do VALL-E.
Surprised there isn't more chatter around VALL-E
— Steven Tey (@steventey) January 9, 2023
This new model by @Microsoft can generate speech in any voice after only hearing a 3s sample of that voice 🤯
Demo → https://t.co/GgFO6kWKha pic.twitter.com/JY88vf4lYc
Artigos recomendados: DPF e IA
Fonte:https://hypebeast.com/2023/1/microsoft-vall-e-ai-model-voice-simulation
Nenhum comentário:
Postar um comentário