Correio Paulista: A Microsoft apresenta o VASA-1, um framework de IA que faz retratos humanos falar e cantar

VB, 18/04/2024

A Microsoft deu um grande salto no campo da geração de conteúdo impulsionada por IA. Apenas algumas horas atrás, o braço de pesquisa da empresa liderada por Satya Nadella apresentou o VASA-1, um framework de IA que pode converter retratos humanos em vídeos falados e cantados.

O projeto marca uma mudança significativa no que foi alcançado na geração de conteúdo gerado por IA, pois trabalha com entrada mínima. Tudo o que precisa é de um retrato estático e um arquivo de áudio com discurso, e o modelo o trará à vida, completo com sincronização labial e expressões relacionadas e movimentos de cabeça.

A Microsoft compartilhou múltiplos exemplos demonstrando a habilidade do framework, incluindo um de Mona Lisa rappeando. No entanto, dada o evidente risco de geração de deepfakes a partir dessa tecnologia, a empresa também enfatizou que isso é apenas uma demonstração de pesquisa e não há planos de levar a tecnologia ao mercado.

Microsoft just dropped VASA-1.

This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba

10 wild examples:

1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD
— Min Choi (@minchoi) April 18, 2024

O Microsoft VASA traz imagens estáticas à vida

Atualmente, ferramentas que geram conteúdo de IA, especialmente vídeo, são uma espada de dois gumes. Elas podem ser usadas para aplicações positivas, como produzir cenas para projetos de publicidade, ou para atos prejudiciais, como produzir deepfakes e prejudicar a reputação de uma pessoa/celebridade.

Mas, aqui está a coisa complicada, até mesmo os deepfakes podem ter aplicações positivas. Imagine um artista que concorda em ter sua réplica digital criada para projetos de publicidade ou promoções em mídias sociais. Com o VASA-1, a Microsoft caminha nessa linha tênue de produção de deepfakes com o que descreve como "geração de rostos falantes e animados de personagens virtuais com habilidades visuais afetivas atraentes (VAS)".

De acordo com a empresa, o modelo principal, quando fornecido com uma imagem estática do rosto de uma pessoa e um arquivo de áudio de discurso, pode transformá-lo em um vídeo, completo com movimentos labiais sincronizados com o áudio, além de uma gama de emoções, nuances faciais e movimentos naturais de cabeça que contribuem para a percepção de autenticidade e vivacidade. A empresa até compartilhou vários exemplos demonstrando como um único retrato de uma pessoa pode ser convertido em um vídeo da mesma pessoa falando ou cantando.

"As inovações principais incluem um modelo holístico de geração de dinâmica facial e movimento de cabeça que funciona em um espaço latente facial, e o desenvolvimento de tal espaço latente facial expressivo e desvinculado usando vídeos", escreveram os pesquisadores por trás do VASA no site da empresa.

Mais importante ainda, a equipe até observou que a tecnologia permite que os usuários controlem sua geração, permitindo-lhes ajustar aspectos como sequência de movimento, direção do olhar, distância da cabeça e emoções simplesmente movendo um controle deslizante para cima e para baixo. Além disso, pode funcionar com conteúdo que não foi incluído no conjunto de dados de treinamento, incluindo fotos artísticas, áudios de canto e discurso não em inglês.

Longo caminho a percorrer para a implementação real do VASA

Embora os exemplos compartilhados pela Microsoft pareçam reais, especialmente em alguns casos, muitos clipes revelam que foram gerados com IA. O movimento não parece suave. A empresa, por sua vez, diz que a abordagem gera vídeos de 512 X 512 a 45fps no modo de processamento em lote offline, e pode suportar até 40fps no modo de transmissão online. Ela até afirma que o trabalho supera outros métodos neste espaço quando testado por meio de experimentos extensivos, incluindo comparação em um conjunto totalmente novo de métricas.

Dito isso, também é importante observar que esse tipo de trabalho pode ser facilmente abusado para retratar uma imagem negativa de uma pessoa – fazendo-as dizer coisas que realmente não disseram em um vídeo. É por isso que a Microsoft não está lançando o VASA como um produto ou uma API. A empresa enfatizou que todos os retratos humanos mostrados em clipes de demonstração foram gerados com IA, e esta tecnologia é amplamente destinada a gerar habilidades visuais afetivas para avatares de IA virtuais, visando aplicações positivas em vez de conteúdo usado para enganar ou iludir.

A longo prazo, a Microsoft vê a pesquisa do VASA como um passo em direção a avatares realistas que imitam movimentos e emoções humanas. Isso, diz a empresa, poderia ajudar a melhorar a equidade educacional, melhorar a acessibilidade para pessoas com desafios de comunicação e oferecer companhia ou apoio terapêutico para aqueles que precisam.

Artigos recomendados: VideoAI e Generativo

Fonte:https://venturebeat.com/ai/microsoft-shows-off-vasa-1-an-ai-framework-that-makes-human-headshots-talk-sing/

Páginas

18 de abr. de 2024

A Microsoft apresenta o VASA-1, um framework de IA que faz retratos humanos falar e cantar

Nenhum comentário:

Postar um comentário