30 de mai. de 2024

Modelo orientado por dados gera movimentos humanos naturais para avatares virtuais




TX, 30/05/2024 



Por Ingrid Fadelli



Os humanos podem realizar naturalmente uma ampla variedade de movimentos, o que lhes permite lidar melhor com várias tarefas em seu dia a dia. Reproduzir automaticamente esses movimentos em avatares virtuais e personagens humanóides 3D animados poderia ser altamente vantajoso para muitas aplicações, desde espaços metaverso até entretenimento digital, interfaces de IA e robótica.

Pesquisadores do Instituto Max Planck para Sistemas Inteligentes e ETH Zurich desenvolveram recentemente o WANDR, um novo modelo que pode gerar movimentos humanos naturais para avatares. Este modelo, a ser apresentado em um artigo na Conferência sobre Visão Computacional e Reconhecimento de Padrões (CVPR 2024) em junho, unifica diferentes fontes de dados sob um único modelo para obter movimentos mais realistas em personagens humanóides 3D. O artigo também está disponível no servidor de pré-impressão arXiv.

"Em um nível mais alto, nossa pesquisa visa descobrir o que é necessário para criar humanos virtuais capazes de se comportar como nós", disse Markos Diomataris, primeiro autor do artigo, ao Tech Xplore. "Isso essencialmente significa aprender a raciocinar sobre o mundo, como se mover nele, estabelecer metas e tentar alcançá-las.

"Mas por que buscar esse problema de pesquisa? Fundamentalmente, queremos entender melhor os humanos, assim como um neurocientista faria, e estamos tentando isso seguindo uma filosofia de 'tente construir o que você quer entender'."

O objetivo principal do estudo recente de Diomataris e seus colegas era criar um modelo que gerasse movimentos realistas para avatares 3D. Esses movimentos gerados permitiriam que os avatares eventualmente interagissem com seu ambiente virtual, por exemplo, estendendo a mão para pegar objetos.

"Considere estender a mão para uma xícara de café – pode ser tão simples quanto uma extensão do braço ou pode envolver a ação coordenada de todo o nosso corpo", disse Diomataris. "Ações como se curvar, estender o braço e caminhar precisam se unir para alcançar o objetivo. Em um nível granular, fazemos ajustes sutis continuamente para manter o equilíbrio e seguir em direção ao nosso objetivo."

Fazendo esses ajustes sutis, os humanos podem produzir movimentos fluidos, integrando inúmeros movimentos menores que convergem para um objetivo simples (por exemplo, colocar a mão em uma xícara). Diomataris e seus colegas se propuseram a ensinar a um avatar humano as mesmas habilidades.

Uma abordagem para ensinar a agentes virtuais novas habilidades é a aprendizagem por reforço (RL), enquanto outra é compilar um conjunto de dados contendo demonstrações humanas e, em seguida, usá-lo para treinar um modelo de aprendizado de máquina. Essas duas abordagens têm diferentes pontos fortes e limitações.

"RL, em termos muito simples, é aprender habilidades por meio de experiências obtidas por tentativa e erro", explicou Diomataris. "Para nossa tarefa, o agente teria que experimentar todos os tipos de movimentos aleatórios no início de seu treinamento até conseguir primeiro se posicionar corretamente, depois andar, se orientar em direção ao objetivo, navegar até ele e finalmente alcançá-lo com a mão.

"Essa abordagem não necessariamente precisa de um conjunto de dados, mas pode exigir grandes quantidades de computação, bem como um design tedioso de recompensas para o agente para evitar comportamentos não naturais (por exemplo, preferir engatinhar em vez de andar ao se mover)."

Em contraste com o RL, treinar modelos usando conjuntos de dados fornece a um agente virtual informações mais ricas sobre uma habilidade, em vez de permitir que ele descubra essas informações sozinho. Embora agora existam vários conjuntos de dados grandes contendo demonstrações de movimento humano, muito poucos incluem movimentos de alcance, que a equipe também desejava replicar em avatares.

"Priorizando a realidade do movimento, escolhemos aprender essa habilidade a partir de dados", disse Diomataris. "Apresentamos um método que é capaz de alavancar tanto grandes conjuntos de dados com vários movimentos gerais, quanto conjuntos de dados menores que se especializam em humanos alcançando objetivos."

Diomataris e seus colegas primeiro projetaram um objetivo de treinamento que é agnóstico à existência de rótulos de objetivo. Este passo fundamental permitiu que o WANDR aprendesse habilidades de navegação gerais a partir de conjuntos de dados maiores, enquanto ainda usava os dados rotulados que obteve de conjuntos de dados menores.

"O WANDR é o primeiro modelo de geração de movimento humano orientado por um ciclo de feedback ativo aprendido puramente a partir de dados, sem etapas extras de aprendizado por reforço (RL)", disse Diomataris. "O que é um ciclo de feedback ativo? O WANDR gera movimento autoregressivamente (quadro a quadro). Em cada etapa, ele prevê uma ação que fará o humano avançar para seu próximo estado."

As previsões das ações do avatar pelo WANDR são condicionadas por características dependentes do tempo e do objetivo, que os pesquisadores definem como "intenção". Essas características são recalculadas a cada quadro, atuando como um ciclo de feedback que guia o avatar a alcançar um determinado objetivo usando seu pulso.

"Isso significa que, de forma semelhante a um ser humano, nosso método ajusta constantemente as ações realizadas, tentando orientar o avatar em direção ao objetivo e alcançá-lo," disse Diomataris. "Como resultado, nosso avatar é capaz de se aproximar e alcançar objetivos em movimento ou sequenciais, mesmo que nunca tenha sido treinado para algo assim."

Conjuntos de dados existentes contendo movimentos humanos orientados para objetivos, como o CIRCLE, são escassos e não contêm dados suficientes para permitir que os modelos se generalizem em diferentes tarefas. É por isso que o RL tem sido, até agora, a abordagem mais comum para treinar modelos para reproduzir movimentos humanos em avatares.

"Inspirados pelo paradigma da clonagem comportamental em robótica, propomos uma abordagem puramente baseada em dados, onde, durante o treinamento, uma posição futura escolhida aleatoriamente da mão do avatar é considerada como o objetivo," disse Diomataris.

"Alucinando objetivos dessa maneira, somos capazes de combinar tanto conjuntos de dados menores com anotações de objetivos, como o CIRCLE, quanto grandes escalas, como o AMASS, que não têm etiquetas de objetivo, mas são essenciais para aprender habilidades gerais de navegação, como andar, virar, etc."

WANDR, o modelo desenvolvido por Diomataris e seus colegas, foi treinado com dados de diferentes conjuntos de dados e fontes. Ao misturar apropriadamente dados dessas fontes, o modelo produz movimentos mais naturais, permitindo que um avatar alcance objetivos arbitrários em seu ambiente.

"Até agora, trabalhos que estudam a geração de movimentos utilizam RL ou carecem completamente do elemento de adaptação online de movimento," disse Diomataris. "WANDR demonstra uma maneira de aprender comportamentos adaptativos de avatares a partir de dados. A parte de 'adaptação online' é necessária para qualquer aplicação em tempo real onde avatares interagem com humanos e o mundo real, como, por exemplo, em um jogo de realidade virtual ou na interação humano-avatar."

No futuro, o novo modelo introduzido por essa equipe de pesquisadores poderia ajudar na geração de novos conteúdos para videogames, aplicativos de VR, filmes animados e entretenimento, permitindo que personagens humanoides realizem movimentos corporais mais realistas. Como o WANDR se baseia em várias fontes de dados e conjuntos de dados com movimentos humanos provavelmente crescerão nas próximas décadas, seu desempenho poderá melhorar ainda mais.

"Atualmente, há duas peças principais que estamos planejando pesquisar no futuro," acrescentou Diomataris. "Primeiramente, os avatares precisam ser capazes de aproveitar grandes conjuntos de dados não curados de vídeos para aprender a se mover e interagir com seu mundo virtual, e, além disso, precisam ter a capacidade de explorar seu mundo virtual e aprender com suas próprias experiências.

"Essas duas direções representam os meios fundamentais pelos quais os humanos também adquirem experiência: agindo e aprendendo com suas consequências, mas também observando os outros e aprendendo com suas experiências."

Nota: vídeos podem ser vistos no original.

Artigos recomendados: Avatar e Metaverso


Fonte:https://techxplore.com/news/2024-05-driven-generates-natural-human-motions.html 

Nenhum comentário:

Postar um comentário

Related Posts Plugin for WordPress, Blogger...