Correio Paulista: Metaverso: as mais recentes IAs auditivas da (empresa) Meta prometem uma experiência de AR/VR mais imersiva

YNS, 24/06/2022

O Metaverso, como o CEO da Meta, Mark Zuckerberg, o imagina, será uma experiência virtual totalmente imersiva que rivaliza com a realidade, pelo menos da cintura para cima. Mas os visuais são apenas parte da experiência geral do Metaverso.

“Acertar o áudio espacial é a chave para fornecer uma sensação realista de presença no metaverso”, escreveu Zuckerberg em um post no blog de sexta-feira. “Se você estiver em um show, ou apenas conversando com amigos em torno de uma mesa virtual, uma noção realista de onde o som está vindo faz você sentir que está realmente lá.”

Esse concerto, observa o post do blog, soará muito diferente se for realizado em uma sala de concertos de tamanho normal do que em um auditório do ensino médio, devido às diferenças entre seus espaços físicos e acústicos. Como tal, o IA and Reality Lab da Meta (MAIR, anteriormente FAIR) está colaborando com pesquisadores da UT Austin para desenvolver um trio de “tarefas de compreensão” de áudio de código aberto que ajudarão os desenvolvedores a criar experiências de AR e VR mais imersivas com áudio mais realista.

O primeiro é o modelo Visual Acoustic Matching do MAIR, que pode adaptar um clipe de áudio de amostra a qualquer ambiente usando apenas uma imagem do espaço. Quer ouvir o som da Filarmônica de Nova York dentro do Boom Boom Room de São Francisco? Agora você pode. Modelos de simulação anteriores foram capazes de recriar a acústica de uma sala com base em seu layout - mas apenas se a geometria precisa e as propriedades do material já fossem conhecidas - ou de áudio amostrado dentro do espaço, nenhum dos quais produziu resultados particularmente precisos.

A solução do MAIR é o modelo Visual Acoustic Matching, chamado AViTAR, que “aprende a correspondência acústica de vídeos na web, apesar da falta de áudio acusticamente incompatível e dados não rotulados”, de acordo com o post.

“Um caso de uso futuro em que estamos interessados envolve reviver memórias passadas”, escreveu Zuckerberg, apostando na nostalgia. “Imagine poder colocar um par de óculos AR e ver um objeto com a opção de reproduzir uma memória associada a ele, como pegar um tutu e ver um holograma do recital de balé do seu filho. O áudio elimina a reverberação e faz com que a memória soe exatamente como no momento em que você a experimentou, sentado no seu lugar exato na platéia.”

O modo Visually-Informed Dereverberation (VIDA), por outro lado, eliminará o efeito de eco ao tocar um instrumento em um espaço amplo e aberto, como uma estação de metrô ou uma catedral. Você ouvirá apenas o violino, não a reverberação dele ricocheteando em superfícies distantes. Especificamente, ele “aprende a remover a reverberação com base nos sons observados e no fluxo visual, que revela dicas sobre a geometria da sala, materiais e locais dos alto-falantes”, explicou o post. Essa tecnologia pode ser usada para isolar de forma mais eficaz os vocais e os comandos falados, tornando-os mais fáceis de entender tanto para humanos quanto para máquinas.

O VisualVoice faz o mesmo que VIDA, mas para vozes. Ele usa dicas visuais e de áudio para aprender a separar vozes de ruídos de fundo durante suas sessões de treinamento autossupervisionadas. A Meta prevê que este modelo dê muito trabalho nas aplicações de compreensão da máquina e para melhorar a acessibilidade. Pense em legendas mais precisas, a Siri entendendo seu pedido mesmo quando a sala não está em silêncio ou a acústica em uma sala de bate-papo virtual muda à medida que as pessoas falando se movem pela sala digital. Novamente, apenas ignore a falta de pernas (na experiência imersiva).

“Nós vislumbramos um futuro em que as pessoas possam colocar óculos de realidade aumentada e reviver uma memória holográfica que parece e soa exatamente da maneira que eles experimentaram de seu ponto de vista, ou se sentirem imersos não apenas pelos gráficos, mas também pelos sons enquanto jogam em um mundo virtual”, escreveu Zuckerberg, observando que o AViTAR e o VIDA só podem aplicar suas tarefas à imagem para a qual foram treinados e precisarão de muito mais desenvolvimento antes do lançamento público. “Esses modelos estão nos aproximando ainda mais das experiências multimodais e imersivas que queremos construir no futuro.”

Artigos recomendados: Big Tech e ID

Fonte:https://finance.yahoo.com/news/metas-latest-auditory-ai-promise-a-more-immersive-ar-vr-experience-130029625.html

Páginas

26 de jun. de 2022

Metaverso: as mais recentes IAs auditivas da (empresa) Meta prometem uma experiência de AR/VR mais imersiva

Nenhum comentário:

Postar um comentário