20 de jan. de 2023

O futuro da voz da IA ​​está aqui: a nova IA tem fala sintética emocionalmente inteligente




ZMSC, 20/01/2023 



Por Rupendra Brahambhatt 



Esta IA sabe como soar como você ou qualquer outra pessoa.

Os lançamentos de IA do ano passado nos dão uma ideia de que não são os empregos de baixa qualificação que a IA procura. Se você é um artista, definitivamente deveria se preocupar – especialmente se você é um dublador. Um artigo de pesquisa publicado recentemente pela Microsoft revela detalhes sobre o VALL-E, um modelo de IA que pode reproduzir a voz de qualquer pessoa a partir de uma amostra de voz de apenas três segundos.

Anteriormente, informamos que a empresa chinesa Tencent Music também usa voz de IA para lançar músicas com vozes de artistas reais – embora a Tencent afirme que está usando principalmente seu mecanismo de IA para produzir músicas nas vozes de cantores lendários que já morreram, é bem possível que a engine se tornará uma alternativa para cantores humanos para a Tencent no futuro. Afinal, nenhuma empresa no mundo gostaria de gastar milhões de dólares em cantores humanos, se tivesse um software que pudesse fazer o mesmo trabalho de graça. 

Além de ser uma grande empresa de software, a Microsoft também se destaca como uma das principais empresas de jogos do mundo. A empresa também está em processo de aquisição da Activision Blizzard por mais de US$ 68 bilhões. Se esse acordo acontecer, será a maior aquisição de videogame da história da humanidade. Agora você deve estar se perguntando qual é a conexão entre o mecanismo de IA da Tencent Music, o negócio de jogos da Microsoft e o VALL-E. 

VALL-E aumentará a voz da IA

Se olharmos para a receita de jogos da Microsoft, ela ficou em US $ 16,23 bilhões apenas em 2022. A empresa lançou algumas das maiores franquias de jogos, incluindo Gears of War e Halo, e definitivamente gasta muito dinheiro com artistas que dão voz aos personagens desses jogos.

Ao contrário da Tencent, ela não precisa contratar cantores, mas contrata muitos dubladores. Agora não há dados oficiais sobre quanto a Microsoft gasta com seus dubladores, mas o número é definitivamente grande, considerando a gigantesca receita da empresa com jogos. Embora tudo seja apenas uma suposição, parece possível que, como a Tencent, a Microsoft também esteja planejando empregar IA para dar voz a seus jogos no futuro. 

Pode haver vários outros motivos pelos quais a Microsoft está trabalhando no VALL-E. Para entendê-los, vamos primeiro entender o que é esse VALL-E.

O VALL-E é basicamente um modelo de codec neural capaz de imitar a voz humana e o tom emocional que acompanha essa voz. Não é um software de síntese de voz comum porque, junto com a voz, também captura o estilo específico no qual um falante humano fala – e para fazer isso, tudo o que ele precisa é de uma amostra de voz de três segundos do falante. 

Então, por exemplo, imagine que você tem um amigo chamado Carlos, que fala de maneira que sempre parece zangado. Você é um animador que cria curtas-metragens de animação. Agora, para dublar um personagem em um de seus filmes, você precisa de Carlos. Infelizmente, Carlos também é aquele amigo que bebe muito e faz escândalo por onde passa. 

Você quer a voz de Carlos, mas não pode levá-lo ao estúdio para gravar. Se você tivesse acesso a um modelo de IA como o VALL-E, seria capaz de dublar seu personagem apenas a partir de uma amostra de voz de três segundos de Carlos (que você pode gravar até mesmo em um carro). Você não precisará que Carlos venha ao estúdio para gravar. 

Imagine o que uma empresa como a Microsoft poderia fazer com o VALL-E. A equipe da Microsoft sugere que, uma vez totalmente desenvolvido, o VALL-E poderia ser adotado para edição de voz e aplicativos de conversão de texto em fala de qualidade premium. Além de imitar a voz e o tom emocional, esse modelo de codec neural também pode simular o ambiente acústico em sua saída (output). 

Se a amostra de voz de entrada foi tirada de um gravador, a amostra de saída de VALL-E terá a ambiência de um gravador. Os autores do trabalho de pesquisa VALL-E escreveram,

O VALL-E supera significativamente o sistema TTS (text-to-speech) de última geração em termos de naturalidade da fala e similaridade do locutor. Além disso, descobrimos que o VALL-E pode preservar a emoção do locutor e o ambiente acústico do prompt acústico em síntese.

O VALL-E da Microsoft pode atrapalhar tudo

Um relatório da Ars Technica menciona que o VALL-E é desenvolvido usando um modelo de codec de áudio baseado em aprendizado profundo (deep learning) chamado EnCodec, que foi lançado pela Meta no ano passado. O EnCodec pode dividir uma amostra de voz em pequenos codecs de áudio (programas de computador que compactam ou descompactam dados para fazer alterações neles) que podem ser treinados posteriormente para introduzir manipulações na amostra de voz.



Além disso, o VALL-E foi treinado usando o Libri-light, uma biblioteca de áudio de código aberto com curadoria da Meta. Ele contém 60.000 horas de conteúdo de áudio (principalmente, discursos de mais de 7.000 palestrantes) em inglês (disponível no LibriVox). Atualmente, a IA da Microsoft só pode imitar a voz se corresponder ao conteúdo de áudio no qual é treinada. 

Você pode ler sobre o VALL-E e verificar algumas de suas amostras de áudio no GitHub. No entanto, ao contrário do DALL-E mini e do ChatGPT, o programa ainda não está disponível para uso público devido às sérias implicações que os deepfakes de áudio podem ter. Existem pessoas que adorariam trocar mensagens com vozes de políticos e celebridades, mas também existem criminosos e golpistas que poderiam usar o VALL-E para criar o caos.

Além disso, há a Microsoft que obviamente não gostaria que seus concorrentes usassem seu modelo de IA de voz de graça. A empresa pode até ter seus próprios planos secretos para chocar a indústria de jogos usando VALL-E como dublador em seus jogos. 

No futuro, a Microsoft pode usar essa tecnologia para fornecer aos jogadores a opção de usar qualquer voz que desejarem para seu personagem. Quem sabe – talvez você consiga fazer um personagem do jogo soar como você usando VALL-E. 

Também chegou a hora de os dubladores considerarem os direitos autorais de suas vozes porque, com um programa como o VALL-E, eles podem ser substituídos a qualquer momento no futuro. Não importa se você acredita ou não, a revolução da IA ​​começou.

Nota: você pode ouvir os áudios de IA na matéria original clicando em "Fonte" abaixo ou clicando aqui!

Artigos recomendados: IA e DPF


Fonte:https://www.zmescience.com/science/news-science/the-future-of-ai-voice-is-here-new-ai-has-emotionally-intelligent-synthetic-speech/

Nenhum comentário:

Postar um comentário

Related Posts Plugin for WordPress, Blogger...