EGT, 01/11/2022
Por A Tarantola
A vida na Terra não existiria como a conhecemos, se não fosse pelas moléculas de proteína que permitem processos críticos desde a fotossíntese e degradação enzimática até a visão e nosso sistema imunológico. E como a maioria das facetas do mundo natural, a humanidade está apenas começando a descobrir as multidões de tipos de proteínas que realmente existem. Mas, em vez de vasculhar as partes mais inóspitas do planeta em busca de novos microrganismos que possam ter um novo sabor de molécula orgânica, os pesquisadores da Meta desenvolveram um banco de dados metagenômico inédito, o ESM Metagenomic Atlas, que poderia acelerar a proteína existente — dobrando o desempenho da IA em 60x.
Metagenômica é apenas coincidentemente nomeada. É uma disciplina científica relativamente nova, mas muito real, que estuda "a estrutura e a função de sequências inteiras de nucleotídeos isoladas e analisadas de todos os organismos (tipicamente micróbios) em uma amostra em massa". Muitas vezes usadas para identificar as comunidades bacterianas que vivem em nossa pele ou no solo, essas técnicas são semelhantes em função da cromatografia gasosa, na qual você tenta identificar o que está presente em um determinado sistema de amostra.
Bancos de dados semelhantes foram lançados pelo NCBI, o Instituto Europeu de Bioinformática e o Joint Genome Institute., e já catalogaram bilhões de formas de proteínas recém-descobertas. O que o Meta está trazendo para a mesa é "uma nova abordagem de dobramento de proteínas que aproveita grandes modelos de linguagem para criar a primeira visão abrangente das estruturas de proteínas em um banco de dados metagenômico na escala de centenas de milhões de proteínas", de acordo com um relatório divulgado na terça-feira, liberado pela empresa. O problema é que, embora os avanços da genômica tenham revelado as sequências para grandes quantidades de novas proteínas, apenas saber quais são essas sequências não nos diz como elas se encaixam em uma molécula funcional, e descobrir experimentalmente leva alguns meses a alguns anos. Por molécula. Ninguém tem tempo para isso.
Como as línguas, as proteínas são compostas de seus átomos constituintes (pensar, palavras) que podem ser todos esmagados como você desejar, mas só farão uma molécula funcional (ou seja, um pensamento coerente) se montados em uma ordem específica (uma sentença molecular). O sistema da Meta acelera drasticamente nossa capacidade de descobrir a sintaxe e a gramática da química orgânica, mas a analogia não é perfeita. “Uma sequência de proteínas descreve a estrutura química de uma molécula, que se dobra em uma forma tridimensional complexa de acordo com as leis da física”, explicou a equipe. "As sequências de proteínas contêm padrões estatísticos que transmitem informações sobre a estrutura dobrada da proteína".
Especificamente, o Evolutionary Scale Modeling AI da Meta trata sequências de genes como um Mad Libs para O-Chem usando um aprendizado autossupervisionado chamado modelagem de linguagem mascarada. "Treinamos um modelo de linguagem nas sequências de milhões de proteínas naturais", escreveu a equipe de pesquisa. "Com essa abordagem, o modelo deve preencher corretamente os espaços em branco em uma passagem de texto, como 'Para __ ou não para __, que é o ________.' Treinamos um modelo de linguagem para preencher os espaços em branco em uma sequência de proteínas, como 'GL_KKE_AHY_G' em milhões de proteínas diversas."
O "modelo de linguagem de proteína" resultante é denominado ESM-2 e opera em 15 bilhões de parâmetros, tornando-o o maior modelo de seu tipo até hoje. A “nova capacidade de previsão de estrutura nos permitiu prever sequências para mais de 600 milhões de proteínas metagenômicas no atlas em apenas duas semanas em um cluster de aproximadamente 2.000 GPUs”. Tanto por meses e anos.
Artigos recomendados: IA e Genoma
Nenhum comentário:
Postar um comentário