Correio Paulista: Avanços na IA, chips impulsionam o reconhecimento de voz

28 de ago. de 2023

Avanços na IA, chips impulsionam o reconhecimento de voz

Chip AI analógico de 14 nm na mão do pesquisador

TX, 28/08/2023

Por Peter Grad

Desenvolvimentos separados em tecnologia de reconhecimento de fala da IBM, e das universidades da Califórnia em São Francisco e Berkeley, oferecem notícias promissoras para pacientes que sofrem de paralisia vocal e perda de fala.

A IBM relatou a criação de um chip de computador mais rápido e com maior eficiência energética, capaz de turbinar a saída do modelo de reconhecimento de voz.

Com o crescimento explosivo de grandes modelos de linguagem para projetos de IA, vieram à tona limitações de desempenho de hardware que levam a períodos de treinamento mais longos e a um consumo de energia crescente.

Em termos de gastos energéticos, o MIT Technology Review relatou recentemente que treinar um único modelo de IA gera mais de 626.000 libras de dióxido de carbono, quase cinco vezes a quantidade que um carro americano médio emite durante a sua vida.

Um fator-chave por trás do enorme consumo de energia das operações de IA é a troca de dados entre memória e processadores.

Os pesquisadores da IBM que buscam uma solução dizem que seu protótipo incorpora dispositivos de memória de mudança de fase dentro do chip, otimizando processos fundamentais de IA conhecidos como operações multi-acumulação (MAC), que aceleram bastante a atividade do chip. Isso ignora a rotina padrão que consome tempo e energia de transporte de dados entre a memória e o processador.

"Estas são, até onde sabemos, as primeiras demonstrações de níveis de precisão comercialmente relevantes em um modelo comercialmente relevante", disse Stefano Ambrogia, da IBM, em um estudo publicado em 23 de agosto na revista online Nature.

Chip AI analógico de 14 nm na placa de teste

“Nosso trabalho indica que, quando combinado com a implementação eficiente em termos de tempo, área e energia da computação auxiliar no chip, a alta eficiência energética e o rendimento entregue… podem ser estendidos a todo um sistema de IA analógica”, disse ele.

Em operações de reconhecimento de voz com uso intensivo de processador, o protótipo da IBM alcançou 12,4 trilhões de operações por segundo por watt, um nível de eficiência até centenas de vezes melhor do que as CPUs e GPUs mais poderosas atualmente em uso.

Enquanto isso, pesquisadores da UC San Francisco e da UC Berkeley dizem que desenvolveram uma interface cérebro-computador para pessoas que perderam a capacidade de falar, que gera palavras a partir dos pensamentos e esforços de vocalização do usuário.

Edward Chang, presidente de cirurgia neurológica da UC San Francisco, disse: "Nosso objetivo é restaurar uma forma plena e incorporada de comunicação, que é a maneira mais natural de conversarmos com outras pessoas".

Chang e sua equipe implantaram dois pequenos sensores na superfície do cérebro de uma mulher que sofre de esclerose lateral amiotrófica, uma doença neurogenerativa que gradualmente rouba a mobilidade e a fala de suas vítimas.

Embora o sujeito ainda pudesse emitir sons, a ELA restringiu o uso dos lábios, língua e laringe para articular palavras coerentes.

Os sensores foram conectados através de uma interface cérebro-computador a bancos de computadores que abrigavam software de decodificação de linguagem.

Wafer de 300 mm usado para fabricar chips analógicos de IA

A mulher passou por 25 treinamentos com duração de quatro horas cada, nos quais leu conjuntos de 260 a 480 frases. Sua atividade cerebral durante as leituras foi traduzida pelo decodificador, que detectou fonemas e os reuniu em palavras.

Os pesquisadores então sintetizaram seu discurso, com base em uma gravação dela em um casamento anos antes, e criaram um avatar que refletia seus movimentos faciais.

Os resultados foram promissores.

Após quatro meses de treinamento, o modelo foi capaz de rastrear as tentativas de vocalização do sujeito e convertê-las em palavras inteligíveis.

Quando baseado no vocabulário de treinamento de 125.000 palavras, que cobria praticamente qualquer coisa que o sujeito quisesse dizer, a taxa de precisão foi de 76%.

Quando o vocabulário foi limitado a 50 palavras, o sistema de tradução se saiu muito melhor, identificando corretamente a fala dela em 90% das vezes.

Além disso, o sistema foi capaz de traduzir a fala do sujeito a uma velocidade de 62 palavras por minuto. Embora triplique a taxa de reconhecimento de palavras de experiências semelhantes anteriores, os investigadores percebem que serão necessárias melhorias para atingir a taxa de 160 palavras por minuto da fala natural.

“Esta é uma prova científica de conceito, não um dispositivo real que as pessoas possam usar na vida cotidiana”, disse Frank Willett, coautor do estudo publicado em 23 de agosto na Nature. “Mas é um grande avanço para restaurar a comunicação rápida com pessoas com paralisia que não conseguem falar”.

Artigos recomendados: Chip e IA

Fonte:https://techxplore.com/news/2023-08-advances-ai-chips-boost-voice.html

Nenhum comentário:

Postar um comentário

Últimas publicações

Previsão do Tempo

London

9°C

Clear sky

2.6 m/s

76%

756 mmHg