28 de jun. de 2023

Sistema de visão computacional combina reconhecimento e geração de imagens





TX, 28/06/2023 



Por Rachel Gordon 



Os computadores possuem duas capacidades notáveis ​​no que diz respeito às imagens: eles podem identificá-las e gerá-las novamente. Historicamente, essas funções permaneceram separadas, semelhantes aos atos díspares de um chef que é bom em criar pratos (geração) e um conhecedor que é bom em degustar pratos (reconhecimento).

No entanto, não podemos deixar de nos perguntar: o que seria necessário para orquestrar uma união harmoniosa entre essas duas capacidades distintas? Tanto o chef quanto o conhecedor compartilham um entendimento comum no sabor da comida. Da mesma forma, um sistema de visão unificada requer uma compreensão profunda do mundo visual.

Agora, pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT treinaram um sistema para inferir as partes que faltam em uma imagem, uma tarefa que requer compreensão profunda do conteúdo da imagem. Ao preencher com sucesso os espaços em branco, o sistema, conhecido como Masked Generative Encoder (MAGE), atinge dois objetivos ao mesmo tempo: identificar imagens com precisão e criar novas imagens com notável semelhança com a realidade.

Este sistema de dupla finalidade permite inúmeras aplicações potenciais, como identificação e classificação de objetos em imagens, aprendizado rápido a partir de exemplos mínimos, criação de imagens sob condições específicas, como texto ou classe, e aprimoramento de imagens existentes.

Ao contrário de outras técnicas, o MAGE não funciona com pixels brutos. Em vez disso, ele converte imagens no que é chamado de "tokens semânticos", que são versões compactas, porém abstratas, de uma seção de imagem. Pense nesses tokens como pequenas peças de quebra-cabeça, cada uma representando um pedaço de 16x16 da imagem original. Assim como as palavras formam frases, esses tokens criam uma versão abstrata de uma imagem que pode ser usada para tarefas complexas de processamento, preservando as informações da imagem original. Essa etapa de tokenização pode ser treinada em uma estrutura auto-supervisionada, permitindo o pré-treinamento em grandes conjuntos de dados de imagem sem rótulos.

Agora, a mágica começa quando o MAGE usa "modelagem de token mascarado". Ele esconde aleatoriamente alguns desses tokens, criando um quebra-cabeça incompleto e, em seguida, treina uma rede neural para preencher as lacunas. Dessa forma, ele aprende a entender os padrões de uma imagem (reconhecimento de imagem) e a gerar novos padrões (geração de imagem).

"Uma parte notável do MAGE é sua estratégia de mascaramento variável durante o pré-treinamento, permitindo treinar para qualquer tarefa, geração de imagem ou reconhecimento, dentro do mesmo sistema", disse Tianhong Li, Ph.D. estudante de engenharia elétrica e ciência da computação no MIT, afiliado da CSAIL e principal autor de um artigo sobre a pesquisa. "A capacidade do MAGE de trabalhar no 'espaço de token' em vez do 'espaço de pixel' resulta em geração de imagens claras, detalhadas e de alta qualidade, bem como representações de imagens semanticamente ricas. Isso pode abrir o caminho para visão computacional avançada e integrada a modelos".

Além de sua capacidade de gerar imagens realistas a partir do zero, o MAGE também permite a geração de imagens condicionais. Os usuários podem especificar certos critérios para as imagens que desejam que o MAGE gere, e a ferramenta criará a imagem apropriada. Ele também é capaz de realizar tarefas de edição de imagens, como remover elementos de uma imagem enquanto mantém uma aparência realista.

Tarefas de reconhecimento são outro ponto forte do MAGE. Com sua capacidade de pré-treinar em grandes conjuntos de dados não rotulados, ele pode classificar imagens usando apenas as representações aprendidas. Além disso, ele se destaca no aprendizado de poucos quadros, alcançando resultados impressionantes em grandes conjuntos de dados de imagem, como o ImageNet, com apenas alguns exemplos rotulados.

A validação do desempenho do MAGE foi impressionante. Por um lado, estabeleceu novos recordes na geração de novas imagens, superando os modelos anteriores com uma melhoria significativa. Por outro lado, o MAGE superou as tarefas de reconhecimento, alcançando 80,9% de precisão na sondagem linear e 71,9% de precisão de 10 quadros no ImageNet (isso significa que ele identificou corretamente as imagens em 71,9% dos casos em que tinha apenas 10 exemplos rotulados de cada aula).

Apesar de seus pontos fortes, a equipe de pesquisa reconhece que o MAGE é um trabalho em andamento. O processo de conversão de imagens em tokens inevitavelmente leva a alguma perda de informação. Eles estão ansiosos para explorar maneiras de comprimir imagens sem perder detalhes importantes em trabalhos futuros. A equipe também pretende testar o MAGE em conjuntos de dados maiores. A exploração futura pode incluir o treinamento do MAGE em conjuntos de dados não rotulados maiores, potencialmente levando a um desempenho ainda melhor.

"Tem sido um longo sonho alcançar a geração e o reconhecimento de imagens em um único sistema. O MAGE é uma pesquisa inovadora que aproveita com sucesso a sinergia dessas duas tarefas e alcança o estado da arte delas em um único sistema", diz Huisheng Wang, engenheiro de software sênior de humanos e interações na divisão de Pesquisa e Inteligência de Máquinas do Google, que não esteve envolvido no trabalho. "Este sistema inovador tem aplicações abrangentes e tem o potencial de inspirar muitos trabalhos futuros no campo da visão computacional."

Artigos recomendados: IA e Vigilância


Fonte:https://techxplore.com/news/2023-06-vision-image-recognition-generation.html 

Nenhum comentário:

Postar um comentário

Related Posts Plugin for WordPress, Blogger...