29 de fev. de 2024

Novo sistema de IA da Alibaba, 'EMO', cria vídeos realistas de fala e canto a partir de fotos




VB, 28/02/2024 



Por Michael Nuñez 



Pesquisadores do Instituto de Computação Inteligente da Alibaba desenvolveram um novo sistema de inteligência artificial chamado "EMO", abreviação de Emote Portrait Alive, que pode animar uma única foto de retrato e gerar vídeos da pessoa falando ou cantando de maneira incrivelmente realista.

O sistema, descrito em um artigo de pesquisa publicado no arXiv, é capaz de criar movimentos faciais fluidos e expressivos e poses de cabeça que correspondem de perto aos nuances de uma faixa de áudio fornecida. Isso representa um avanço significativo na geração de vídeos de cabeças falantes impulsionada por áudio, uma área que desafiou os pesquisadores de IA por anos.



"Técnicas tradicionais frequentemente falham em capturar o espectro completo de expressões humanas e a singularidade dos estilos faciais individuais", disse o autor principal Linrui Tian no artigo. "Para abordar essas questões, propomos o EMO, um novo framework que utiliza uma abordagem direta de síntese de áudio para vídeo, contornando a necessidade de modelos 3D intermediários ou pontos de referência faciais."

Conversão direta de áudio para vídeo

O sistema EMO emprega uma técnica de IA conhecida como modelo de difusão, que tem mostrado uma tremenda capacidade para gerar imagens sintéticas realistas. Os pesquisadores treinaram o modelo em um conjunto de dados de mais de 250 horas de vídeos de cabeças falantes selecionados de discursos, filmes, programas de TV e performances de canto.

Ao contrário de métodos anteriores que dependem de modelos faciais 3D ou formas blend para aproximar movimentos faciais, o EMO converte diretamente a forma de onda de áudio em quadros de vídeo. Isso permite capturar movimentos sutis e peculiaridades específicas de identidade associadas à fala natural.

De acordo com experimentos descritos no artigo, o EMO supera significativamente os métodos existentes de ponta em métricas que medem qualidade de vídeo, preservação de identidade e expressividade. Os pesquisadores também conduziram um estudo de usuário que constatou que os vídeos gerados pelo EMO são mais naturais e emotivos do que aqueles produzidos por outros sistemas.

Gera vídeos realistas de canto

Além de vídeos de conversação, o EMO também pode animar retratos de canto com formas apropriadas de boca e expressões faciais evocativas sincronizadas com os vocais. O sistema suporta a geração de vídeos por uma duração arbitrária com base no comprimento do áudio de entrada.

"Resultados experimentais demonstram que o EMO é capaz de produzir não apenas vídeos convincentes de fala, mas também vídeos de canto em vários estilos, superando significativamente as metodologias de ponta existentes em termos de expressividade e realismo", afirma o artigo.

A pesquisa do EMO sugere um futuro onde conteúdo de vídeo personalizado pode ser sintetizado a partir apenas de uma foto e de um clipe de áudio. No entanto, preocupações éticas permanecem sobre o uso potencial dessa tecnologia para se passar por pessoas sem consentimento ou espalhar desinformação. Os pesquisadores afirmam que planejam explorar métodos para detectar vídeos sintéticos.

Artigos recomendados: Vídeo e Áudio


Fonte:https://venturebeat.com/ai/alibabas-new-ai-system-emo-creates-realistic-talking-and-singing-videos-from-photos/ 

Nenhum comentário:

Postar um comentário

Related Posts Plugin for WordPress, Blogger...