SCTD, 05/01/2023
Por Adam Zewe
Um modelo de aprendizado de máquina pode identificar a ação em um videoclipe e rotulá-lo, sem a ajuda de humanos.
Os seres humanos observam o mundo por meio de uma combinação de diferentes modalidades, como visão, audição e nossa compreensão da linguagem. As máquinas, por outro lado, interpretam o mundo por meio de dados que os algoritmos podem processar.
Assim, quando uma máquina “vê” uma foto, ela deve codificar essa foto em dados que podem ser usados para executar uma tarefa como a classificação de imagens. Esse processo se torna mais complicado quando as entradas vêm em vários formatos, como vídeos, clipes de áudio e imagens.
“O principal desafio aqui é como uma máquina pode alinhar essas diferentes modalidades? Como humanos, isso é fácil para nós. Vemos um carro e depois ouvimos o som de um carro passando, e sabemos que são a mesma coisa. Mas para o aprendizado de máquina, não é tão simples”, diz Alexander Liu, aluno de pós-graduação do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) e primeiro autor de um artigo que aborda esse problema.
Liu e seus colaboradores desenvolveram uma técnica de inteligência artificial que aprende a representar dados de forma a capturar conceitos que são compartilhados entre modalidades visuais e de áudio. Por exemplo, seu método pode aprender que a ação de um bebê chorando em um vídeo está relacionada à palavra falada “chorando” em um clipe de áudio.
Usando esse conhecimento, seu modelo de aprendizado de máquina pode identificar onde uma determinada ação está ocorrendo em um vídeo e rotulá-la.
Ele tem um desempenho melhor do que outros métodos de aprendizado de máquina em tarefas de recuperação multimodal, que envolvem a localização de um dado, como um vídeo, que corresponda à consulta de um usuário fornecida de outra forma, como a linguagem falada. Seu modelo também torna mais fácil para os usuários ver por que a máquina acha que o vídeo recuperado corresponde à sua consulta.
Essa técnica poderia algum dia ser utilizada para ajudar os robôs a aprender sobre os conceitos do mundo por meio da percepção, mais como os humanos fazem.
Juntando-se a Liu no papel estão o pós-doutorado CSAIL SouYoung Jin; estudantes de pós-graduação Cheng-I Jeff Lai e Andrew Rouditchenko; Aude Oliva, pesquisadora sênior da CSAIL e diretora do MIT-IBM Watson AI Lab; e o autor sênior James Glass, pesquisador sênior e chefe do Spoken Language Systems Group no CSAIL. A pesquisa será apresentada na Reunião Anual da Associação de Linguística Computacional.
Representações de aprendizagem
Os pesquisadores concentram seu trabalho no aprendizado de representação, que é uma forma de aprendizado de máquina que busca transformar dados de entrada para facilitar a execução de uma tarefa como classificação ou previsão.
O modelo de aprendizado de representação pega dados brutos, como vídeos e suas legendas de texto correspondentes, e os codifica extraindo recursos ou observações sobre objetos e ações no vídeo. Em seguida, mapeia esses pontos de dados em uma grade, conhecida como espaço de incorporação. O modelo agrupa dados semelhantes como pontos únicos na grade. Cada um desses pontos de dados, ou vetores, é representado por uma palavra individual.
Por exemplo, um videoclipe de uma pessoa fazendo malabarismo pode ser mapeado para um vetor denominado “malabarismo”.
Os pesquisadores restringem o modelo para que ele possa usar apenas 1.000 palavras para rotular os vetores. O modelo pode decidir quais ações ou conceitos deseja codificar em um único vetor, mas só pode usar 1.000 vetores. O modelo escolhe as palavras que acha que melhor representam os dados.
Em vez de codificar dados de diferentes modalidades em grades separadas, seu método emprega um espaço de incorporação compartilhado onde duas modalidades podem ser codificadas juntas. Isso permite que o modelo aprenda a relação entre as representações de duas modalidades, como um vídeo que mostra uma pessoa fazendo malabarismo e uma gravação de áudio de alguém dizendo “malabarismo”.
Para ajudar o sistema a processar dados de várias modalidades, eles projetaram um algoritmo que guia a máquina para codificar conceitos semelhantes no mesmo vetor.
“Se houver um vídeo sobre porcos, o modelo pode atribuir a palavra 'porco' a um dos 1.000 vetores. Então, se o modelo ouvir alguém dizendo a palavra 'porco' em um clipe de áudio, ele ainda deve usar o mesmo vetor para codificar isso”, explica Liu.
Um recuperador melhor
Eles testaram o modelo em tarefas de recuperação multimodal usando três conjuntos de dados: um conjunto de dados de vídeo-texto com videoclipes e legendas de texto, um conjunto de dados de vídeo-áudio com videoclipes e legendas de áudio falado e um conjunto de dados de imagem-áudio com imagens e áudio falado com legendas.
Por exemplo, no conjunto de dados de áudio e vídeo, o modelo escolheu 1.000 palavras para representar as ações nos vídeos. Então, quando os pesquisadores forneceram consultas de áudio, o modelo tentou encontrar o clipe que melhor correspondia às palavras faladas.
“Assim como uma pesquisa no Google, você digita algum texto e a máquina tenta lhe dizer as coisas mais relevantes que você está procurando. Só fazemos isso no espaço vetorial”, diz Liu.
A técnica deles não apenas tinha maior probabilidade de encontrar correspondências melhores do que os modelos com os quais eles compararam, mas também era mais fácil de entender.
Como o modelo só pode usar 1.000 palavras no total para rotular vetores, o usuário pode ver com mais facilidade quais palavras a máquina usou para concluir que o vídeo e as palavras faladas são semelhantes. Isso pode tornar o modelo mais fácil de aplicar em situações do mundo real, onde é vital que os usuários entendam como ele toma decisões, diz Liu.
O modelo ainda tem algumas limitações que esperamos abordar em trabalhos futuros. Por um lado, sua pesquisa se concentrou em dados de duas modalidades ao mesmo tempo, mas no mundo real, os humanos encontram muitas modalidades de dados simultaneamente, diz Liu.
“E sabemos que 1.000 palavras funciona com esse tipo de conjunto de dados, mas não sabemos se pode ser generalizado para um problema do mundo real”, acrescenta.
Além disso, as imagens e vídeos em seus conjuntos de dados continham objetos simples ou ações diretas; os dados do mundo real são muito mais confusos. Eles também querem determinar o quão bem seu método aumenta quando há uma diversidade maior de insumos.
Fonte:https://scitechdaily.com/revolutionary-ai-system-learns-concepts-shared-across-video-audio-and-text/
Nenhum comentário:
Postar um comentário