TX, 11/06/2024
Por Rachel Gordon
Mark Hamilton, um estudante de doutorado em engenharia elétrica e ciência da computação do MIT e afiliado ao Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT, quer usar máquinas para entender como os animais se comunicam. Para isso, ele decidiu primeiro criar um sistema que possa aprender a linguagem humana "do zero".
"Curiosamente, o momento chave de inspiração veio do filme 'A Marcha dos Pinguins'. Há uma cena onde um pinguim cai ao atravessar o gelo e solta um gemido enquanto se levanta. Quando você assiste, é quase óbvio que esse gemido está substituindo uma palavra de quatro letras. Esse foi o momento em que pensamos, talvez precisemos usar áudio e vídeo para aprender a linguagem", diz Hamilton. "Será que há uma maneira de deixar um algoritmo assistir TV o dia todo e, a partir disso, descobrir sobre o que estamos falando?"
"Nosso modelo, DenseAV, visa aprender a linguagem prevendo o que está vendo a partir do que está ouvindo, e vice-versa. Por exemplo, se você ouve o som de alguém dizendo 'asse o bolo a 350', é provável que você veja um bolo ou um forno. Para ter sucesso nesse jogo de correspondência áudio-vídeo em milhões de vídeos, o modelo precisa aprender sobre o que as pessoas estão falando", diz Hamilton.
Um artigo descrevendo o trabalho está disponível no servidor de pré-impressão arXiv.
Depois de treinar o DenseAV nesse jogo de correspondência, Hamilton e seus colegas observaram quais pixels o modelo procurava quando ouvia um som. Por exemplo, quando alguém diz "cachorro", o algoritmo imediatamente começa a procurar cães na transmissão de vídeo. Ao ver quais pixels são selecionados pelo algoritmo, pode-se descobrir o que o algoritmo acha que uma palavra significa.
Curiosamente, um processo de busca semelhante acontece quando o DenseAV ouve um cachorro latindo: ele procura um cachorro na transmissão de vídeo.
"Isso despertou nosso interesse. Queríamos ver se o algoritmo sabia a diferença entre a palavra 'cachorro' e o latido de um cachorro", diz Hamilton. A equipe explorou isso dando ao DenseAV um "cérebro de dois lados". Curiosamente, descobriram que um lado do cérebro do DenseAV se focava naturalmente na linguagem, como a palavra "cachorro", e o outro lado se concentrava em sons como latidos. Isso mostrou que o DenseAV não apenas aprendeu o significado das palavras e as localizações dos sons, mas também aprendeu a distinguir entre esses tipos de conexões intermodais, tudo sem intervenção humana ou qualquer conhecimento de linguagem escrita.
Uma das aplicações potenciais é aprender com a enorme quantidade de vídeos publicados na internet todos os dias.
"Queremos sistemas que possam aprender com enormes quantidades de conteúdo em vídeo, como vídeos instrucionais", diz Hamilton. "Outra aplicação emocionante é entender novas línguas, como a comunicação de golfinhos ou baleias, que não têm uma forma escrita de comunicação. Nossa esperança é que o DenseAV possa nos ajudar a entender essas línguas que têm escapado aos esforços de tradução humana desde o início. Finalmente, esperamos que esse método possa ser usado para descobrir padrões entre outros pares de sinais, como os sons sísmicos que a Terra faz e sua geologia."
Um desafio formidável estava à frente da equipe: aprender a linguagem sem nenhuma entrada de texto. O objetivo era redescobrir o significado da linguagem a partir de uma página em branco, evitando o uso de modelos de linguagem pré-treinados. Essa abordagem é inspirada em como as crianças aprendem observando e ouvindo o ambiente para entender a linguagem.
Para alcançar essa façanha, o DenseAV usa dois componentes principais para processar dados de áudio e visuais separadamente. Essa separação tornou impossível para o algoritmo trapacear, deixando o lado visual olhar para o áudio e vice-versa. Isso forçou o algoritmo a reconhecer objetos e criou recursos detalhados e significativos para sinais de áudio e visuais. O DenseAV aprende comparando pares de sinais de áudio e visual para encontrar quais sinais combinam e quais não. Esse método, chamado de aprendizado contrastivo, não requer exemplos rotulados e permite que o DenseAV descubra os padrões preditivos importantes da linguagem por si só.
Uma grande diferença entre o DenseAV e algoritmos anteriores é que os trabalhos anteriores se concentravam em uma única noção de similaridade entre som e imagens. Um clipe de áudio inteiro, como alguém dizendo "o cachorro sentou na grama", era combinado com uma imagem inteira de um cachorro. Isso não permitia que métodos anteriores descobrissem detalhes refinados, como a conexão entre a palavra "grama" e a grama debaixo do cachorro.
O algoritmo da equipe procura e agrega todas as correspondências possíveis entre um clipe de áudio e os pixels de uma imagem. Isso não apenas melhorou o desempenho, mas permitiu à equipe localizar precisamente os sons de uma maneira que os algoritmos anteriores não conseguiam.
"Métodos convencionais usam um único token de classe, mas nossa abordagem compara cada pixel e cada segundo de som. Esse método refinado permite que o DenseAV faça conexões mais detalhadas para uma melhor localização", diz Hamilton.
Os pesquisadores treinaram o DenseAV no AudioSet, que inclui 2 milhões de vídeos do YouTube. Eles também criaram novos conjuntos de dados para testar quão bem o modelo pode ligar sons e imagens. Nesses testes, o DenseAV superou outros modelos de ponta em tarefas como identificar objetos a partir de seus nomes e sons, provando sua eficácia.
"Conjuntos de dados anteriores só suportavam avaliações grosseiras, então criamos um conjunto de dados usando conjuntos de dados de segmentação semântica. Isso ajuda com anotações perfeitas de pixels para uma avaliação precisa do desempenho do nosso modelo. Podemos instigar o algoritmo com sons ou imagens específicos e obter essas localizações detalhadas", diz Hamilton.
Devido à enorme quantidade de dados envolvidos, o projeto levou cerca de um ano para ser concluído. A equipe diz que a transição para uma grande arquitetura de transformador apresentou desafios, pois esses modelos podem facilmente negligenciar detalhes refinados. Incentivar o modelo a focar nesses detalhes foi um grande obstáculo.
Olhando para o futuro, a equipe pretende criar sistemas que possam aprender com enormes quantidades de dados de vídeo ou apenas de áudio. Isso é crucial para novos domínios onde há muitos dados de um modo, mas não juntos. Eles também pretendem escalar isso usando backbones maiores e possivelmente integrar conhecimento de modelos de linguagem para melhorar o desempenho.
"Reconhecer e segmentar objetos visuais em imagens, bem como sons ambientais e palavras faladas em gravações de áudio, são cada um problemas difíceis por si só. Historicamente, os pesquisadores dependeram de anotações caras fornecidas por humanos para treinar modelos de aprendizado de máquina para realizar essas tarefas", diz David Harwath, professor assistente de ciência da computação na Universidade do Texas em Austin, que não esteve envolvido no trabalho.
"O DenseAV faz um progresso significativo no desenvolvimento de métodos que podem aprender a resolver essas tarefas simultaneamente, simplesmente observando o mundo através da visão e do som – baseado na percepção de que as coisas que vemos e com as quais interagimos muitas vezes fazem som, e também usamos linguagem falada para falar sobre elas. Este modelo também não faz suposições sobre a língua específica que está sendo falada e, portanto, em princípio, poderia aprender a partir de dados em qualquer língua. Seria emocionante ver o que o DenseAV poderia aprender escalando-o para milhares ou milhões de horas de dados de vídeo em várias línguas."
Autores adicionais são Andrew Zisserman, professor de engenharia de visão computacional na Universidade de Oxford; John R. Hershey, pesquisador do Google AI Perception; e William T. Freeman, professor de engenharia elétrica e ciência da computação do MIT e investigador principal do CSAIL.
Artigos recomendados: Linguagem e Sentidos
Fonte:https://techxplore.com/news/2024-06-algorithm-language-videos.html
Nenhum comentário:
Postar um comentário