PHYS, 15/05/2024
Dos chatbots inteligentes a aplicativos que podem escrever artigos inteiros, a Inteligência Artificial (IA) está se tornando uma parte cada vez mais ubíqua de nossas vidas. Michael Schon, um associado de pesquisa da Universidade e Pesquisa de Wageningen, está projetando uma ferramenta de IA que pode realizar comparações de RNA não codificadores em genomas de plantas. A ferramenta deve acelerar e simplificar o desenvolvimento futuro de novas variedades de plantas com maior resistência à seca ou doenças, por exemplo.
Proteínas são os blocos de construção para células em organismos. As instruções para fazer essas proteínas são emitidas (codificadas) por RNA de genes. Ao lado desses RNAs codificadores, alguns genes podem produzir RNAs não codificadores: em outras palavras, RNA que não inclui instruções para fazer uma proteína.
Esse tipo de RNA também desempenha um papel importante no desenvolvimento de organismos, diz Michael Schon. "Por exemplo, eles podem ativar genes, ou fazer o oposto e desativá-los. Isso afetará a aparência de uma planta e as propriedades que ela possui. Certos RNAs não codificadores importantes também determinam se uma planta atinge a maturidade."
Parentes dentro da mesma família
O RNA não codificador também pode potencialmente revelar por que uma espécie de planta pertence a uma família específica, mas tem características diferentes. Em pesquisas anteriores, Schon identificou RNAs não codificadores de Arabidopsis thaliana (arabidopsis). Esta planta é usada por cientistas de plantas como organismo modelo.
"Arabidopsis pertence à família Brassicaceae, juntamente com culturas importantes como brócolis, couve-flor e couve-rábano. Esta família também é conhecida como família da mostarda ou crucífera. No entanto, é difícil comparar os RNAs não codificadores de Arabidopsis com o de outras plantas na família da mostarda, porque o trabalho anterior nessas espécies se concentrou principalmente em genes codificadores de proteínas."
Anotação limitada de RNA não codificadores
Isso significa que uma comparação entre plantas requer anotação genética separada para o RNA não codificante para cada cultura. Através de seu projeto Veni, Schon está procurando novas maneiras de identificar RNAs não codificadores usando o conhecimento de espécies relacionadas.
"Existem mais de 200 sequências de genoma disponíveis para plantas dentro da família da mostarda. Cada genoma é armazenado como um grande arquivo de texto consistindo de milhões de letras que representam as bases de uma molécula de DNA (A, C, T e G). Como as partes não codificantes não são catalogadas (anotadas) adequadamente nesses genomas, é impossível comparar todos os genes não codificantes espalhados dentro dessa montanha de dados. Precisamos de novas estratégias e ferramentas para isso. Estou tentando desenvolver essas."
Uma pequena parte de cada genoma
O primeiro problema é saber onde procurar no genoma. Uma das ferramentas que Schon está desenvolvendo é algo que ele chama de GeneSketch. Para encontrar as partes correspondentes de diferentes genomas, ele está usando um método chamado Minimizer Sketch.
"A ideia por trás do Minimizer Sketch é que você só precisa olhar para um pequeno pedaço de DNA - um esboço – em vez de toda a sequência", diz Schon. "Isso significa que você só precisa prestar atenção a alguns milhares de caracteres por genoma para fazer uma comparação, em vez de milhões.
O Minimizer Sketch foi usado anteriormente para construir uma árvore da evolução dos primatas, que inclui humanos e seus parentes mais próximos. Descobriu-se que uma árvore genealógica muito precisa de nossos ancestrais pode ser feita a partir de esboços feitos de menos de 1% de todos os genomas. Portanto, um esboço de minimizador é uma maneira muito eficiente de estimar o quão semelhantes são pedaços de DNA entre si, então também deve ser útil para comparar genomas dentro da família da mostarda."
Mesma tecnologia que o ChatGPT
Depois de saber onde procurar, o próximo passo é entender o que você está vendo. A tecnologia que Schon planeja usar no GeneSketch é a mesma que é atualmente usada em outras ferramentas de IA, como o ChatGPT.
"É algo chamado tecnologia 'transformer'", diz Schon.
"Você pode pedir a um transformer para preencher uma palavra ausente em uma frase, por exemplo. Inicialmente, o transformer lhe dá uma palavra aleatória porque nunca viu palavras antes. Mas se você o treinar em milhões de frases de exemplo, ele gradualmente aprende a adivinhar as palavras certas prestando atenção aos padrões no texto.
"Depois do treinamento, um grande modelo de linguagem como o ChatGPT se torna muito bom em certas tarefas, como responder a perguntas ou traduzir de um idioma para outro. Um transformer pode ser treinado para aprender não apenas idiomas humanos, mas também a linguagem do DNA, que tem seus próprios padrões distintos. Estou trabalhando em um modelo para detectar padrões no DNA de muitas espécies diferentes e traduzir esses padrões para uma linguagem que nós, humanos, podemos entender."
O modelo precisa ser treinado
Schon vai treinar o transformer para o GeneSketch para prestar atenção em como os genes mudam entre diferentes espécies, especialmente genes não codificadores. Mas ele espera enfrentar alguns desafios ao longo do caminho.
"Um problema importante é a confiabilidade. O transformer é uma tecnologia relativamente nova e comete erros. O ChatGPT, por exemplo, foi treinado em muitas fontes diferentes de texto, mas se você perguntar sobre um tópico que ele nunca viu durante o treinamento, ele precisa inventar algo. Você espera que ele invente algo razoável com base nos padrões que viu, mas isso nunca é garantido. Obviamente, você quer evitar saídas sem sentido. Quanto mais você treina um transformer, menos absurdo ele produz, mas o treinamento pode custar muito tempo e dinheiro. É melhor treinar o modelo completamente do zero ou basear-se em modelos existentes? Estou tentando ambas as abordagens."
Potencial do GeneSketch
Schon espera ter um protótipo do GeneSketch após o primeiro ano do projeto, que começou em outubro de 2023. Ele planeja usá-lo para criar anotações genéticas para toda a família da mostarda.
A ferramenta poderia ser útil não apenas para o setor de pesquisa, mas também para a indústria agrícola, diz Schon. "Poderia, por exemplo, fornecer aos melhoradores de sementes uma maneira rápida de entender o DNA de uma cultura e de seus parentes selvagens. Ao aprender mais sobre como as culturas foram capazes de desenvolver características únicas ao longo dos séculos, os melhoradores poderiam tomar decisões mais informadas para melhorar características, como tornar as culturas mais resilientes às mudanças climáticas. Portanto, o impacto potencial poderia ser enorme."
Artigos recomendados: Codificar e DNA
Fonte:https://phys.org/news/2024-05-ai-unravel-secrets-coding-genes.html
Nenhum comentário:
Postar um comentário