AIT, 08/09/2022
O modelo pode aprender automaticamente padrões linguísticos de alto nível que se aplicam a muitas outras linguagens
Um novo algoritmo de aprendizado de máquina encontra independentemente normas linguísticas que frequentemente coincidem com aquelas desenvolvidas por especialistas humanos.
Devido à notável complexidade das línguas humanas, os linguistas há muito acreditam que uma máquina não pode ser treinada para avaliar os sons da fala e os padrões das palavras da mesma maneira que os investigadores humanos.
No entanto, pesquisadores do MIT, Cornell e McGill Universities já deram passos nessa direção. Eles demonstraram a capacidade de um sistema de IA de ensinar a si mesmo as regras fonológicas e gramaticais de uma língua humana.
Esse modelo de aprendizado de máquina desenvolve regras que ilustram por que as formas dessas palavras variam quando são dadas palavras e instâncias de como essas palavras mudam para comunicar funções gramaticais distintas em um idioma. Por exemplo, pode descobrir que em servio-croata, a forma feminina de uma palavra requer a adição da letra “a” no final.
Para obter melhores resultados, esse modelo de ML também pode aprender automaticamente padrões linguísticos de nível superior que se aplicam a muitos outros idiomas. O modelo foi capaz de produzir o conjunto certo de regras para descrever essas alterações na forma de palavras para 60% dos problemas.
Esse método pode ser usado para investigar hipóteses linguísticas e descobrir diferenças sutis nos significados das palavras entre vários idiomas. É particularmente especial porque o sistema aprende modelos usando pequenos bits de dados, como algumas dezenas de palavras, que são facilmente compreendidos pelas pessoas. Além disso, o sistema faz uso de vários conjuntos de dados minúsculos em vez de um único grande. Isso está mais próximo de como os pesquisadores propõem hipóteses, que é analisar vários conjuntos de dados relacionados e desenvolver modelos para abordar fenômenos nesses conjuntos de dados.
Os pesquisadores escolheram investigar a relação entre fonologia e morfologia em seu esforço para criar um sistema de IA que pudesse treinar automaticamente um modelo a partir de vários conjuntos de dados relacionados.
Como muitas línguas compartilham características básicas semelhantes e os exercícios dos livros didáticos destacam certos fenômenos linguísticos, os dados dos livros didáticos de linguística são um excelente banco de testes. Estudantes universitários também são altamente capazes de lidar com questões de livros didáticos, embora frequentemente se baseiem em conhecimentos anteriores de fonologia de cursos anteriores ao considerar novos desafios.
Os pesquisadores utilizaram um método de aprendizado de máquina chamado Bayesian Program Learning para criar um sistema que pudesse aprender gramática ou um conjunto de regras para juntar palavras. Com essa estratégia, o modelo resolve um problema construindo um programa de software.
O software neste caso é a gramática que o modelo acredita ser o meio mais plausível de explicar as palavras e seus significados em um problema linguístico. Eles criaram o modelo usando o Sketch, um conhecido sintetizador de software criado por Solar-Lezama no MIT.
Além disso, eles criaram o modelo para ensiná-lo as características de programas “excelentes”. Por exemplo, como os dois idiomas são semelhantes, ele pode aprender algumas regras gerais ao resolver problemas russos simples que usaria para resolver um problema polonês mais desafiador. Isso torna a solução do modelo para o problema polonês mais simples.
Quando o sistema foi testado usando 70 problemas de livros didáticos, encontrou uma gramática que correspondia com precisão à maioria das modificações de forma de palavras em 79% das questões e todo o conjunto de palavras em 60% dos casos.
Os pesquisadores então tentaram pré-programar o modelo com algumas informações que ele “deveria” ter aprendido se estivesse matriculado em uma escola de linguística e demonstraram que ele poderia lidar com todos os problemas de forma mais eficaz.
O modelo frequentemente oferecia soluções originais. Em um caso, encontrou a resposta adequada para um problema de idioma polonês que aproveitou um erro de livro didático além da resposta esperada.
O modelo também foi posto à prova para ver se conseguia aprender alguns padrões genéricos de regras fonológicas que pudessem ser aplicados a todos os problemas.
No futuro, os pesquisadores pretendem usar essa ideia para resolver problemas imprevistos em vários domínios diferentes. Eles também podem usar o método em mais circunstâncias em que seja possível aplicar conhecimento avançado em conjuntos de dados relacionados. Eles podem criar um sistema, por exemplo, para deduzir soluções diferenciais de conjuntos de dados sobre o movimento de vários objetos.
Fonte:https://www.analyticsinsight.net/artificial-intelligence-that-can-study-human-language-patterns/
Nenhum comentário:
Postar um comentário