Correio Paulista: Ferramentas de aprendizado de máquina podem prever emoções em vozes em pouco mais de um segundo

20 de mar. de 2024

Ferramentas de aprendizado de máquina podem prever emoções em vozes em pouco mais de um segundo

TX, 20/03/2024

As palavras são importantes para nos expressarmos. No entanto, o que não dizemos pode ser ainda mais instrumental na transmissão de emoções. Os humanos frequentemente conseguem perceber como as pessoas ao seu redor se sentem por meio de pistas não verbais incorporadas em nossa voz.

Agora, pesquisadores na Alemanha buscaram descobrir se ferramentas técnicas também podem prever com precisão nuances emocionais em fragmentos de gravações de voz. Para fazer isso, eles compararam a precisão de três modelos de ML para reconhecer emoções diversas em trechos de áudio. Seus resultados foram publicados na Frontiers in Psychology.

"Aqui mostramos que o aprendizado de máquina pode ser usado para reconhecer emoções em clipes de áudio tão curtos quanto 1,5 segundos", disse o primeiro autor do artigo, Hannes Diemerling, pesquisador do Centro de Psicologia do Ciclo de Vida no Instituto Max Planck para o Desenvolvimento Humano. "Nossos modelos alcançaram uma precisão semelhante à dos humanos ao categorizar frases sem sentido com coloração emocional faladas por atores."

Ouvindo como nos sentimos

Os pesquisadores retiraram frases sem sentido de dois conjuntos de dados - um canadense, outro alemão - o que lhes permitiu investigar se os modelos de ML podem reconhecer com precisão emoções independentemente do idioma, nuances culturais e conteúdo semântico.

Cada clipe foi reduzido a um comprimento de 1,5 segundos, pois é o tempo que os humanos precisam para reconhecer a emoção na fala. Também é o menor comprimento de áudio possível em que a sobreposição de emoções pode ser evitada. As emoções incluídas no estudo foram alegria, raiva, tristeza, medo, nojo e neutro.

Com base nos dados de treinamento, os pesquisadores geraram modelos de ML que funcionavam de três maneiras: Redes neurais profundas (DNNs) são como filtros complexos que analisam componentes sonoros como frequência ou altura - por exemplo, quando uma voz está mais alta porque o falante está com raiva - para identificar emoções subjacentes.

As redes neurais convolucionais (CNNs) procuram padrões na representação visual de trilhas sonoras, assim como identificar emoções pelo ritmo e textura de uma voz. O modelo híbrido (C-DNN) mescla ambas as técnicas, usando tanto áudio quanto seu espectrograma visual para prever emoções. Os modelos foram então testados quanto à eficácia em ambos os conjuntos de dados.

"Descobrimos que DNNs e C-DNNs alcançam uma precisão melhor do que apenas usar espectrogramas em CNNs", disse Diemerling. "Independentemente do modelo, a classificação de emoções estava correta com uma probabilidade maior do que pode ser alcançado por meio de suposições e era comparável à precisão dos humanos."

Tão bom quanto qualquer humano

"Queríamos situar nossos modelos em um contexto realista e usamos as habilidades de previsão humana como referência", explicou Diemerling. "Se os modelos tivessem superado os humanos, poderia significar que poderiam haver padrões que não são reconhecíveis por nós." O fato de que humanos não treinados e modelos tiveram desempenho semelhante pode significar que ambos dependem de padrões de reconhecimento semelhantes, disseram os pesquisadores.

As descobertas atuais também mostram que é possível desenvolver sistemas que podem interpretar instantaneamente pistas emocionais para fornecer feedback imediato, e intuitivo, em uma ampla gama de situações. Isso poderia levar a aplicativos escaláveis e eficientes em termos de custos em vários domínios onde entender o contexto emocional é crucial, como terapia e tecnologia de comunicação interpessoal.

Os pesquisadores também apontaram algumas limitações em seu estudo, por exemplo, que frases de amostra faladas por atores podem não transmitir todo o espectro de emoções reais e espontâneas. Eles também disseram que trabalhos futuros devem investigar segmentos de áudio que durem mais ou menos do que 1.5 segundos, para descobrir qual duração é ótima para o reconhecimento emocional.

Artigos recomendados: ML e Emoções

Fonte:https://techxplore.com/news/2024-03-machine-tools-emotion-voices.html

Páginas

20 de mar. de 2024

Ferramentas de aprendizado de máquina podem prever emoções em vozes em pouco mais de um segundo

Nenhum comentário:

Postar um comentário

Publicações recentes

Páginas

20 de mar. de 2024

Ferramentas de aprendizado de máquina podem prever emoções em vozes em pouco mais de um segundo

Nenhum comentário:

Postar um comentário

Inscrever-se

Publicações recentes