6 de fev. de 2025

ByteDance lança novo modelo de IA generativa OmniHuman




BU, 05/02/2025



Por Masha Borak 


  

A empresa chinesa de tecnologia, ByteDance, desenvolveu um modelo de IA generativa capaz de criar vídeos altamente realistas de seres humanos a partir de uma única imagem e um sinal de movimento. O modelo, chamado OmniHuman-1, representa um avanço significativo na geração de vídeos realistas.  

Os pesquisadores da ByteDance demonstraram a tecnologia gerando vídeos realistas de figuras como Albert Einstein e o CEO da Nvidia, Jensen Huang. Nos vídeos, os personagens falam e cantam, assumindo poses corporais desafiadoras, incluindo o uso das mãos, e são exibidos em diferentes proporções, como retratos, meio corpo e corpo inteiro. Além disso, o sistema também pode animar desenhos animados.  

A empresa por trás do TikTok afirma que o OmniHuman supera as tecnologias atuais, que ainda enfrentam dificuldades para animar mais do que rostos ou partes superiores do corpo, limitando sua aplicabilidade no mundo real. Segundo um artigo publicado pela ByteDance, o OmniHuman se destaca por gerar vídeos humanos extremamente realistas a partir de sinais de entrada fracos, especialmente áudio.  

No OmniHuman, introduzimos uma estratégia de treinamento misto baseada em condicionamento multimodal de movimento, permitindo que o modelo se beneficie da ampliação de dados com diferentes tipos de entrada”, explicam os pesquisadores. “Isso supera o problema enfrentado por abordagens anteriores, que sofriam com a escassez de dados de alta qualidade.”  

Os pesquisadores utilizaram mais de 18.000 horas de dados sobre movimento humano para treinar o modelo, permitindo que ele aprendesse a partir de texto, áudio e gestos corporais. O resultado são vídeos de seres humanos com aparência mais natural.  

Nossa principal descoberta é que incorporar múltiplos sinais de condicionamento, como texto, áudio e pose, durante o treinamento pode reduzir significativamente o desperdício de dados”, afirma o estudo.  

O sistema inicialmente processa cada tipo de entrada separadamente, condensando detalhes de movimento a partir de descrições textuais, imagens de referência, sinais de áudio e dados de movimento. Em seguida, aprimora progressivamente esses dados para gerar vídeos realistas, refinando a animação ao compará-la com vídeos reais.  

A ByteDance tem investido fortemente na geração de vídeos por IA, competindo com empresas como Meta, Microsoft e Google DeepMind. Em janeiro, a empresa lançou uma atualização para seu modelo de IA Doubao, alegando que ele superou o benchmark AIME o1 da OpenAI.

Artigos recomendados: Persona e Web3


Fonte:https://www.biometricupdate.com/202502/bytedance-releases-new-generative-ai-model-omnihuman 

Nenhum comentário:

Postar um comentário

Related Posts Plugin for WordPress, Blogger...