22 de mai. de 2023

A IA de fala de código aberto da Meta reconhece mais de 4.000 idiomas falados




EDT, 22/05/2023 



Por Will Shanklin 



Ela também pode produzir conversão de texto em fala em mais de 1.100 idiomas.

A Meta criou um modelo de linguagem de IA que (em uma mudança de ritmo refrescante) não é um clone do ChatGPT. O projeto Massively Multilingual Speech (MMS) da empresa pode reconhecer mais de 4.000 idiomas falados e produzir fala (text-to-speech) em mais de 1.100. Como a maioria de seus outros projetos de IA anunciados publicamente, a Meta está abrindo o MMS hoje para ajudar a preservar a diversidade linguística e incentivar os pesquisadores a construir sobre sua fundação. "Hoje, estamos compartilhando publicamente nossos modelos e código para que outros na comunidade de pesquisa possam desenvolver nosso trabalho", escreveu a empresa. "Através deste trabalho, esperamos fazer uma pequena contribuição para preservar a incrível diversidade linguística do mundo."

Os modelos de reconhecimento de fala e conversão de texto em fala geralmente exigem treinamento em milhares de horas de áudio com rótulos de transcrição que os acompanham. (Os rótulos são cruciais para o aprendizado de máquina, permitindo que os algoritmos categorizem e "entendam" corretamente os dados.) Mas para idiomas que não são amplamente usados em países industrializados - muitos dos quais correm o risco de desaparecer nas próximas décadas - "esses dados simplesmente não existem", como diz a Meta.

A Meta usou uma abordagem não convencional para coletar dados de áudio: explorar gravações de áudio de textos religiosos traduzidos. "Recorremos a textos religiosos, como a Bíblia, que foram traduzidos em muitos idiomas diferentes e cujas traduções foram amplamente estudadas para pesquisa de tradução de linguagem baseada em texto", disse a empresa. "Essas traduções têm gravações de áudio disponíveis publicamente de pessoas lendo esses textos em diferentes idiomas." Incorporando as gravações não rotuladas da Bíblia e textos semelhantes, os pesquisadores da Meta aumentaram os idiomas disponíveis do modelo para mais de 4.000.

Se você é como eu (ateu e esquerdista), essa abordagem pode levantar suas sobrancelhas à primeira vista, pois soa como uma receita para um modelo de IA fortemente tendencioso para visões de mundo cristãs. Mas a Meta diz que esse não é o caso. "Embora o conteúdo das gravações de áudio seja religioso, nossa análise mostra que isso não enviesa o modelo para produzir uma linguagem mais religiosa", escreveu a Meta. "Acreditamos que isso ocorre porque usamos uma abordagem de classificação temporal conexionista (CTC), que é muito mais restrita em comparação com modelos de linguagem grande (LLMs) ou modelos de sequência a sequência para reconhecimento de fala." Além disso, apesar de a maioria das gravações religiosas serem lidas por falantes masculinos, isso também não introduziu um viés masculino – tendo um desempenho igualmente bom em vozes femininas e masculinas.

Depois de treinar um modelo de alinhamento para tornar os dados mais utilizáveis, a Meta usou o wav2vec 2.0, o modelo de "aprendizagem de representação de fala auto-supervisionada" da empresa, que pode treinar dados não rotulados. A combinação de fontes de dados não convencionais e um modelo de fala auto-supervisionado levou a resultados impressionantes. "Nossos resultados mostram que os modelos de Fala Multilíngue em Massa têm um bom desempenho em comparação com os modelos existentes e cobrem 10 vezes mais idiomas." Especificamente, a Meta comparou o MMS com o Whisper da OpenAI, e superou as expectativas. "Descobrimos que os modelos treinados nos dados do Massively Multilingual Speech atingem metade da taxa de erro de palavras, mas o Massively Multilingual Speech cobre 11 vezes mais idiomas."

A Meta alerta que seus novos modelos não são perfeitos. "Por exemplo, há algum risco de que o modelo de fala para texto possa transcrever incorretamente palavras ou frases selecionadas", escreveu a empresa. "Dependendo da saída, isso pode resultar em linguagem ofensiva e/ou imprecisa. Continuamos a acreditar que a colaboração em toda a comunidade de IA é fundamental para o desenvolvimento responsável de tecnologias de IA."

Agora que a Meta lançou o MMS para pesquisa de código aberto, ela espera que possa reverter a tendência de a tecnologia diminuir as linguagens do mundo para as 100 ou menos mais frequentemente suportadas pelas Big Tech. Ela vê um mundo onde a tecnologia assistiva, TTS e até mesmo a tecnologia VR / AR permitem que todos falem e aprendam em suas línguas nativas. "Imaginamos um mundo onde a tecnologia tem o efeito oposto, incentivando as pessoas a manter suas línguas vivas, uma vez que podem acessar informações e usar a tecnologia falando em seu idioma preferido".

Artigos recomendados: Meta e Tech


Fonte:https://www.engadget.com/chatgpt-scams-are-the-new-crypto-scams-meta-warns-120006510.html 

Nenhum comentário:

Postar um comentário

Related Posts Plugin for WordPress, Blogger...