Páginas

6 de abr. de 2024

Os modelos de linguagem conseguem ler o genoma? Este aqui decodificou o mRNA para criar vacinas melhores




PHYS, 06/04/2024 



A mesma classe de inteligência artificial que ganhou manchetes codificando software e passando no exame da ordem aprendeu a ler um tipo diferente de texto—o código genético.

Esse código contém instruções para todas as funções da vida e segue regras não muito diferentes das que regem as línguas humanas. Cada sequência no genoma adere a uma gramática e sintaxe intrincadas, as estruturas que dão origem ao significado. Assim como mudar algumas palavras pode alterar radicalmente o impacto de uma frase, pequenas variações em uma sequência biológica podem fazer uma enorme diferença nas formas que essa sequência codifica.

Agora, pesquisadores da Universidade de Princeton liderados pela especialista em aprendizado de máquina, Mengdi Wang, estão usando modelos de linguagem para focar em sequências parciais do genoma e otimizar essas sequências para estudar biologia e melhorar medicamentos. E já estão em andamento.

Em um artigo publicado em 5 de abril no periódico Nature Machine Intelligence, os autores detalham um modelo de linguagem que usou seus poderes de representação semântica para projetar uma vacina de mRNA mais eficaz, como aquelas usadas para proteger contra a COVID-19.

Achado em Tradução

Os cientistas têm uma maneira simples de resumir o fluxo de informações genéticas. Eles o chamam de dogma central da biologia. A informação se move do DNA para o RNA para as proteínas. As proteínas criam as estruturas e funções das células vivas.

O RNA mensageiro, ou mRNA, converte a informação em proteínas nessa etapa final, chamada tradução. Mas o mRNA é interessante. Apenas parte dele contém o código para a proteína. O restante não é traduzido, mas controla aspectos vitais do processo de tradução.

Governar a eficiência da produção de proteínas é um mecanismo-chave pelo qual as vacinas de mRNA funcionam. Os pesquisadores concentraram seu modelo de linguagem lá, na região não traduzida, para ver como poderiam otimizar a eficiência e melhorar as vacinas.

Depois de treinar o modelo em uma pequena variedade de espécies, os pesquisadores geraram centenas de novas sequências otimizadas e validaram esses resultados por meio de experimentos de laboratório. As melhores sequências superaram diversos benchmarks líderes para o desenvolvimento de vacinas, incluindo um aumento de 33% na eficiência geral da produção de proteínas.

Aumentar a eficiência da produção de proteínas mesmo em uma pequena quantidade proporciona um impulso significativo para terapêuticas emergentes, de acordo com os pesquisadores. Além da COVID-19, as vacinas de mRNA prometem proteger contra muitas doenças infecciosas e cânceres.

Wang, professora de engenharia elétrica e computacional e investigadora principal neste estudo, disse que o sucesso do modelo também apontou para uma possibilidade mais fundamental. Treinado no mRNA de algumas espécies, foi capaz de decodificar sequências de nucleotídeos e revelar algo novo sobre a regulação genética. Os cientistas acreditam que a regulação genética, uma das funções mais básicas da vida, guarda a chave para desvendar as origens das doenças e dos distúrbios. Modelos de linguagem como este poderiam fornecer uma nova maneira de investigar.

Os colaboradores de Wang incluem pesquisadores da empresa de biotecnologia RVAC Medicines, bem como da Escola de Medicina da Universidade Stanford.

A linguagem da doença

O novo modelo difere em grau, não em tipo, dos grandes modelos de linguagem que alimentam os chatbots de IA de hoje. Em vez de ser treinado em bilhões de páginas de texto da internet, seu modelo foi treinado em algumas centenas de milhares de sequências. O modelo também foi treinado para incorporar conhecimentos adicionais sobre a produção de proteínas, incluindo informações estruturais e relacionadas à energia.

A equipe de pesquisa usou o modelo treinado para criar uma biblioteca de 211 novas sequências. Cada uma foi otimizada para uma função desejada, principalmente um aumento na eficiência da tradução. Essas proteínas, como a proteína spike visada pelas vacinas COVID-19, impulsionam a resposta imunológica a doenças infecciosas.

Estudos anteriores criaram modelos de linguagem para decodificar várias sequências biológicas, incluindo proteínas e DNA, mas este foi o primeiro modelo de linguagem a se concentrar na região não traduzida do mRNA. Além de um aumento na eficiência geral, ele também foi capaz de prever o quão bem uma sequência se sairia em várias tarefas relacionadas.

Wang disse que o verdadeiro desafio na criação deste modelo de linguagem estava em entender todo o contexto dos dados disponíveis. Treinar um modelo requer não apenas os dados brutos com todas as suas características, mas também as consequências downstream dessas características. Se um programa é projetado para filtrar spam de e-mail, cada e-mail no qual ele é treinado seria rotulado como "spam" ou "não spam". Ao longo do caminho, o modelo desenvolve representações semânticas que permitem determinar quais sequências de palavras indicam um rótulo "spam". Aí reside o significado.

Wang disse que olhar para um conjunto estreito de dados e desenvolver um modelo em torno dele não foi suficiente para ser útil para os cientistas da vida. Ela precisava fazer algo novo. Como este modelo estava trabalhando na vanguarda do entendimento biológico, os dados que ela encontrou estavam por todo lado.

"Parte do meu conjunto de dados vem de um estudo onde há medidas de eficiência," Wang disse. "Outra parte do meu conjunto de dados vem de outro estudo que mediu os níveis de expressão. Também coletamos dados não anotados de múltiplas fontes." Organizar essas partes em um todo coerente e robusto—um conjunto de dados multifacetado que ela poderia usar para treinar um modelo de linguagem sofisticado—foi um desafio enorme.

"Treinar um modelo não se trata apenas de reunir todas essas sequências, mas também de reunir sequências com as etiquetas que foram coletadas até agora. Isso nunca tinha sido feito antes."

Artigos recomendados: IA e mRNA 


Fonte:https://phys.org/news/2024-04-language-genome-decoded-mrna-vaccines.html 

Nenhum comentário:

Postar um comentário