CTPH, 25/01/2024
Por Savannah Fortis
O conceito mais recente do Google, Lumiere, é um modelo de difusão tempo-espaço que transforma texto e imagens em vídeos realistas gerados por IA com recursos de edição sob demanda.
Pesquisadores do Google divulgaram planos para um novo modelo de difusão espaço-temporal chamado Lumiere, que transformará texto ou uma imagem em um vídeo gerado por IA realista, com capacidades de edição sob demanda.
Lumiere é projetado para retratar "movimento realista, diverso e coerente" através do que chama de sua "arquitetura Space-Time U-Net". Isso gera instantaneamente toda a duração do vídeo em uma única passagem pelo modelo.
Google just made an incredible AI video breakthrough with its latest diffusion model, Lumiere.
— Rowan Cheung (@rowancheung) January 25, 2024
2024 is going to be a massive year for AI video, mark my words.
Here's what separates Lumiere from other AI video models: pic.twitter.com/PulSjVZaCp
No artigo, os pesquisadores explicaram:
"Ao implantar tanto a redução quanto o aumento espacial e (importantemente) temporal e aproveitando um modelo de difusão de texto para imagem pré-treinado, nosso modelo aprende a gerar diretamente um vídeo de baixa resolução e taxa de quadros completa processando-o em várias escalas espaço-temporais."
Isso significaria que os usuários podem inserir descrições textuais do que desejam ver como um vídeo ou fazer upload de uma imagem estática com uma solicitação e gerar um vídeo dinâmico.
Os usuários têm feito paralelos entre Lumiere sendo como o ChatGPT, mas para geração, estilização, edição e animação de vídeo a partir de texto e imagem, de acordo com o artigo.
Enquanto outros geradores de vídeo de inteligência artificial já existem, como o Pika e o Runway, os pesquisadores dizem que sua abordagem de passagem única para a dimensão dos dados temporais envolvidos na geração de vídeo é novidade.
Deepfakes de IA enganam eleitores e políticos antes das eleições de 2024 nos EUA – ‘Achei que fosse real’
Hila Chefer, uma pesquisadora estudante que trabalhou no modelo com o Google, postou um exemplo das capacidades do modelo na plataforma de mídia social X:
💡Lumiere's key observation-
— Hila Chefer (@hila_chefer) January 24, 2024
Instead of generating short videos and temporally upsampling them, we perform joint spatial and *temporal* downsampling-- increasing both length and quality of the generated videos pic.twitter.com/vTh6dtwcPD
Usuários no X têm chamado esse desenvolvimento de coisas como "uma descoberta incrível" e "estado-da-arte", e até especulando que a geração de vídeo "vai ficar louca" no próximo ano.
Googles new video model Lumiere can stylize motion by looking at a single image, and it looks pretty good.
— Nick St. Pierre (@nickfloats) January 24, 2024
Generative video is gonna get crazy this year you guys
pic.twitter.com/x1hNxpdHXR
Lumiere foi treinado em um conjunto de dados de 30 milhões de vídeos e legendas de texto e tem a capacidade de gerar 80 quadros a 16 quadros por segundo. No entanto, não houve menção à fonte dos dados que o Google usou para treinar o modelo — um tópico quente no mundo da IA e da lei de direitos autorais.
Desde a explosão de modelos de IA generativa disponíveis para uso público, dezenas de processos por infração de direitos autorais foram abertos contra desenvolvedores pelo suposto uso indevido de conteúdo durante o treinamento.
Um dos casos mais proeminentes foi aberto pelo The New York Times contra a Microsoft e a OpenAI, a criadora do ChatGPT, por supostamente "usar ilegalmente" seu trabalho para fins de treinamento.
Artigos recomendados: IAG e Web3
Fonte:https://br.cointelegraph.com/news/google-launches-lumiere-text-video-ai
Nenhum comentário:
Postar um comentário