Correio Paulista: O ImageBind AI de código aberto da Meta visa imitar a percepção humana

11 de mai. de 2023

O ImageBind AI de código aberto da Meta visa imitar a percepção humana

EDT, 09/05/2023

O ImageBind pode eventualmente levar a saltos na acessibilidade e na criação de ambientes de realidade mista.

A Meta é open-sourcing uma ferramenta de IA chamada ImageBind que prevê conexões entre dados semelhantes a como os humanos percebem ou imaginam um ambiente. Enquanto geradores de imagens como Midjourney, Stable Diffusion e DALL-E 2 emparelham palavras com imagens, permitindo que você gere cenas visuais com base apenas em uma descrição de texto, o ImageBind lança uma rede mais ampla. Ele pode vincular texto, imagens / vídeos, áudio, medições 3D (profundidade), dados de temperatura (térmica) e dados de movimento (de unidades de medição inerciais) - e faz isso sem ter que primeiro treinar em todas as possibilidades. É um estágio inicial de uma estrutura que poderia eventualmente gerar ambientes complexos a partir de uma entrada tão simples quanto um prompt de texto, imagem ou gravação de áudio (ou alguma combinação dos três).

Você pode ver o ImageBind como aproximando o aprendizado de máquina do aprendizado humano. Por exemplo, se você está em um ambiente estimulante como uma rua movimentada da cidade, seu cérebro (em grande parte inconscientemente) absorve as vistas, sons e outras experiências sensoriais para inferir informações sobre carros e pedestres que passam, edifícios altos, clima e muito mais. Humanos e outros animais evoluíram para processar esses dados para nossa vantagem genética: sobrevivência e transmissão de nosso DNA. (Quanto mais consciente você estiver de seu entorno, mais você pode evitar o perigo e se adaptar ao seu ambiente para melhor sobrevivência e prosperidade.) À medida que os computadores se aproximam de imitar as conexões multissensoriais dos animais, eles podem usar esses links para gerar cenas totalmente realizadas com base apenas em pedaços limitados de dados.

Assim, enquanto você pode usar Midjourney para avisar "um basset hound vestindo uma roupa de Gandalf enquanto se equilibra em uma bola de praia" e obter uma foto relativamente realista dessa cena bizarra, uma ferramenta de IA multimodal como o ImageBind pode eventualmente criar um vídeo do cão com sons correspondentes, incluindo uma sala de estar suburbana detalhada, a temperatura da sala e as localizações precisas do cão e de qualquer outra pessoa na cena. "Isso cria oportunidades distintas para criar animações a partir de imagens estáticas, combinando-as com prompts de áudio", disseram os pesquisadores da Meta hoje em um post de blog focado no desenvolvedor: "Por exemplo, um criador pode acoplar uma imagem com um despertador e um galo cortando, e usar um prompt de áudio para segmentar o galo ou o som de um alarme para segmentar o relógio e animar ambos em uma sequência de vídeo."

Quanto ao que mais se poderia fazer com este novo brinquedo, ele aponta claramente para uma das principais ambições da Meta: VR, realidade mista e o metaverso. Por exemplo, imagine um futuro fone de ouvido que possa construir cenas 3D totalmente realizadas (com som, movimento, etc.) em tempo real. Ou, os desenvolvedores de jogos virtuais talvez pudessem eventualmente usá-lo para tirar muito do trabalho de pernas de seu processo de design. Da mesma forma, os criadores de conteúdo podem fazer vídeos imersivos com paisagens sonoras realistas e movimentos baseados apenas em texto, imagem ou entrada de áudio. Também é fácil imaginar uma ferramenta como o ImageBind abrindo novas portas no espaço de acessibilidade, gerando descrições multimídia em tempo real para ajudar as pessoas com deficiência visual ou auditiva a perceber melhor seus ambientes imediatos.

"Em sistemas típicos de IA, há uma incorporação específica (ou seja, vetores de números que podem representar dados e suas relações no aprendizado de máquina) para cada modalidade respectiva", disse Meta. "O ImageBind mostra que é possível criar um espaço de incorporação conjunta em várias modalidades sem precisar treinar dados com cada combinação diferente de modalidades. Isso é importante porque não é viável para os pesquisadores criar conjuntos de dados com amostras que contenham, por exemplo, dados de áudio e dados térmicos de uma rua movimentada da cidade, ou dados de profundidade e uma descrição de texto de um penhasco à beira-mar."

A Meta vê a tecnologia como eventualmente se expandindo além de seus atuais seis "sentidos", por assim dizer. "Embora tenhamos explorado seis modalidades em nossa pesquisa atual, acreditamos que a introdução de novas modalidades que conectam o maior número possível de sentidos - como toque, fala, olfato e sinais de ressonância magnética cerebral - permitirá modelos de IA centrados no ser humano mais ricos." Os desenvolvedores interessados em explorar essa nova sandbox podem começar mergulhando no código-fonte aberto da Meta.

Artigos recomendados: AIG e Tech

Fonte:https://www.engadget.com/metas-open-source-imagebind-ai-aims-to-mimic-human-perception-181500560.html