Correio Paulista: Modelo de linguagem alimentado por IA gera sequências de proteínas funcionais

31 de jan. de 2023

Modelo de linguagem alimentado por IA gera sequências de proteínas funcionais

IE, 31/01/2023

A primeira vez que um modelo de linguagem foi usado para sintetizar proteínas humanas.

Ultimamente, os modelos de IA estão realmente flexionando seus músculos. Vimos recentemente como o ChatGPT se tornou um garoto-propaganda para plataformas que compreendem idiomas humanos. Agora, uma equipe de pesquisadores testou um modelo de linguagem para criar sequências de aminoácidos, mostrando habilidades para replicar a biologia e a evolução humana.

O modelo de linguagem, batizado de ProGen, é capaz de gerar sequências de proteínas com certo grau de controle. O resultado foi alcançado treinando o modelo para aprender a composição das proteínas. O experimento marca a primeira vez que um modelo de linguagem foi usado para sintetizar proteínas humanas.

Um estudo sobre a pesquisa foi publicado na revista Nature Biotechnology quinta-feira. O projeto foi um esforço combinado de pesquisadores da University of California-San Francisco e da University of California-Berkeley e da Salesforce Research, que é um braço científico de uma empresa de software com sede em San Fransisco.

A importância de usar um modelo de linguagem

Os pesquisadores dizem que um modelo de linguagem foi usado por sua capacidade de gerar sequências de proteínas com uma função previsível em grandes famílias de proteínas, semelhante à geração de sentenças de linguagem natural gramatical e semanticamente corretas em diversos tópicos.

"Da mesma forma que as palavras são encadeadas uma a uma para formar frases de texto, os aminoácidos são encadeados um a um para formar proteínas", disse Nikhil Naik, diretor de pesquisa de IA da Salesforce Research, ao Motherboard. A equipe aplicou "modelagem de linguagem neural a proteínas para gerar sequências de proteínas realistas, porém novas".

O estudo baseou-se no treinamento do modelo com 280 milhões de sequências de proteínas de mais de 19.000 famílias, que foram "aumentadas com marcadores de controle que especificam as propriedades das proteínas".

De acordo com o Motherboard, o uso de modelos de linguagem condicional pela equipe permite um controle significativamente maior sobre quais tipos de sequências são geradas, tornando-as mais úteis para projetar proteínas com propriedades específicas.

Os cenários de caso de uso de tal desenvolvimento

A flexibilidade de tal modelo para gerar proteínas artificiais funcionais em famílias de proteínas tem aplicações promissoras. De acordo com a equipe, “análises adicionais sugerem que nosso modelo aprendeu uma representação de sequência de proteína flexível que pode ser aplicada a diversas famílias como lisozimas, CM e MDH”.

Uma vez que as proteínas são os blocos de construção do corpo humano, estudos adicionais estão investigando como o ProGen poderia identificar o tratamento para doenças como artrite reumatóide e esclerose múltipla.

Resumo

Os modelos de linguagem de aprendizado profundo mostraram-se promissores em várias aplicações biotecnológicas, incluindo design e engenharia de proteínas. Aqui descrevemos o ProGen, um modelo de linguagem que pode gerar sequências de proteínas com uma função previsível em grandes famílias de proteínas, semelhante à geração de sentenças de linguagem natural gramatical e semanticamente corretas em diversos tópicos. O modelo foi treinado em 280 milhões de sequências de proteínas de mais de 19.000 famílias e é aumentado com tags de controle que especificam as propriedades da proteína. O ProGen pode ser ainda mais ajustado para sequências e tags selecionadas para melhorar o desempenho de geração controlável de proteínas de famílias com amostras homólogas suficientes. Proteínas artificiais ajustadas para cinco famílias distintas de lisozimas mostraram eficiências catalíticas semelhantes às lisozimas naturais, com identidade de sequência com proteínas naturais tão baixa quanto 31,4%. O ProGen é facilmente adaptado a diversas famílias de proteínas, como demonstramos com a corismato mutase e a malato desidrogenase.

Artigos recomendados: Genoma e ML

Fonte:https://interestingengineering.com/science/ai-functional-protein-sequences

Nenhum comentário:

Postar um comentário

Últimas publicações

Previsão do Tempo

Columbus

15°C

Lluvias

5.8 m/s

97%

761 mmHg