Correio Paulista: A nova tecnologia de IA da Microsoft pode imitar a voz de qualquer pessoa com base em uma amostra de 3 segundos

12 de jan. de 2023

A nova tecnologia de IA da Microsoft pode imitar a voz de qualquer pessoa com base em uma amostra de 3 segundos

HBC, 11/01/2023

VALL-E foi treinado em áudio de mais de 7.000 falantes de inglês.

A Microsoft revelou um novo modelo de IA um tanto estranho. Os pesquisadores afirmam que o VALL-E é capaz de ouvir e simular a voz de praticamente qualquer pessoa. Embora a maioria dos modelos de IA que recriam vozes humanas normalmente exijam pelo menos um minuto de entrada de gravação de áudio, ou até mais, o VALL-E precisa de apenas uma amostra de 3 segundos.

Para desenvolver o VALL-E, os cientistas usaram a biblioteca Libri-Light da Meta, contendo áudio de mais de 7.000 falantes. Eles então usaram a biblioteca para treinar a IA em 60.000 horas de gravações em inglês.

A empresa chama o VALL-E de “modelo de linguagem de codec neural”, baseado em um modelo semelhante da Meta que usa IA para produzir áudio de conversão de texto em fala.

Algumas vozes do VALL-E são surpreendentemente realistas, enquanto outras não correspondem à tarefa. Parece que, para criar uma simulação precisa, a voz inserida no sistema deve soar um pouco semelhante a um dos falantes em que o modelo foi treinado.

A Microsoft planeja continuar desenvolvendo o modelo para melhorar a precisão e a pronúncia de certas palavras. No momento, o código não é de código aberto devido ao risco de deepfakes, mas os interessados podem conferir uma demonstração do VALL-E.

Surprised there isn't more chatter around VALL-E

This new model by @Microsoft can generate speech in any voice after only hearing a 3s sample of that voice 🤯

Demo → https://t.co/GgFO6kWKha pic.twitter.com/JY88vf4lYc
— Steven Tey (@steventey) January 9, 2023

Artigos recomendados: DPF e IA

Fonte:https://hypebeast.com/2023/1/microsoft-vall-e-ai-model-voice-simulation

Páginas

12 de jan. de 2023

A nova tecnologia de IA da Microsoft pode imitar a voz de qualquer pessoa com base em uma amostra de 3 segundos

Nenhum comentário:

Postar um comentário

Publicações recentes

Páginas

12 de jan. de 2023

A nova tecnologia de IA da Microsoft pode imitar a voz de qualquer pessoa com base em uma amostra de 3 segundos

Nenhum comentário:

Postar um comentário

Inscrever-se

Publicações recentes