TX, 04/05/2023
Os genes constituem apenas uma pequena fração do genoma humano. Entre eles estão amplas sequências de DNA que direcionam as células quando, onde e quanto cada gene deve ser usado. Esses manuais de instrução biológica são conhecidos como motivos regulatórios. Se isso soa complexo, bem, é.
As instruções para a regulação dos genes são escritas em um código complicado, e os cientistas recorreram à inteligência artificial para decifrá-lo. Para aprender as regras da regulação do DNA, eles estão usando redes neurais profundas (DNNs), que se destacam em encontrar padrões em grandes conjuntos de dados. Os DNNs estão no centro de ferramentas populares de IA, como o ChatGPT. Graças a uma nova ferramenta desenvolvida pelo professor assistente do Laboratório Cold Spring Harbor, Peter Koo, os DNNs de análise de genoma agora podem ser treinados com muito mais dados do que os obtidos apenas por meio de experimentos.
"Com DNNs, o mantra é quanto mais dados, melhor", diz Koo. "Nós realmente precisamos desses modelos para ver uma diversidade de genomas para que eles possam aprender sinais robustos de motivos. Mas, em algumas situações, a própria biologia é o fator limitante, porque não podemos gerar mais dados do que os que existem dentro da célula."
Se uma IA aprender com poucos exemplos, ela pode interpretar mal como um motivo regulatório afeta a função do gene. O problema é que alguns motivos são incomuns. Muito poucos exemplos são encontrados na natureza.
Para superar essa limitação, Koo e seus colegas desenvolveram o EvoAug – um novo método de aumentar os dados usados para treinar DNNs. O EvoAug foi inspirado por um conjunto de dados oculto à vista de todos: a evolução. O processo começa gerando sequências artificiais de DNA que quase correspondem às sequências reais encontradas nas células. As sequências são ajustadas da mesma forma que as mutações genéticas alteraram naturalmente o genoma durante a evolução.
Em seguida, os modelos são treinados para reconhecer motivos regulatórios usando as novas sequências, com uma suposição chave. Presume-se que a grande maioria dos ajustes não interrompa a função das sequências. Koo compara o aumento dos dados dessa maneira ao treinamento de um software de reconhecimento de imagem com imagens espelhadas do mesmo gato. O computador aprende que uma foto de gato invertida ainda é uma foto de gato.
A realidade, diz Koo, é que algumas mudanças no DNA atrapalham a função. Assim, o EvoAug inclui uma segunda etapa de treinamento usando apenas dados biológicos reais. Isso orienta o modelo "de volta à realidade biológica do conjunto de dados", explica Koo.
A equipe de Koo descobriu que os modelos treinados com EvoAug têm um desempenho melhor do que aqueles treinados apenas com dados biológicos. Como resultado, os cientistas poderão em breve obter uma melhor leitura do DNA regulador que escreve as regras da própria vida. Em última análise, isso poderia algum dia fornecer uma compreensão totalmente nova da saúde humana.
Artigos recomendados: Genoma e IA
Nenhum comentário:
Postar um comentário