7 de jul. de 2023

Cientistas constroem um sistema que pode gerar modelos de IA para pesquisa em biologia




TX, 07/07/2023 



Por Alex Ouyang 



É possível construir modelos de aprendizado de máquina sem experiência em aprendizado de máquina?

Jim Collins, o Termeer Professor de Engenharia Médica e Ciências no Departamento de Engenharia Biológica do MIT, e o corpo docente de ciências biológicas da Abdul Latif Jameel Clinic for Machine Learning in Health (Jameel Clinic), juntamente com vários colegas decidiram abordar este problema ao enfrentar um enigma semelhante. Um artigo de acesso aberto sobre a solução proposta, chamado BioAutoMATED, foi publicado na Cell Systems.

Recrutar pesquisadores de aprendizado de máquina pode ser um processo demorado e financeiramente caro para laboratórios de ciência e engenharia. Mesmo com um especialista em aprendizado de máquina, selecionar o modelo apropriado, formatar o conjunto de dados para o modelo e ajustá-lo pode mudar drasticamente o desempenho do modelo e exige muito trabalho.

"Em seu projeto de aprendizado de máquina, quanto tempo você normalmente gasta na preparação e transformação de dados?" solicita um curso do Google de 2022 sobre os fundamentos do aprendizado de máquina (ML). As duas opções oferecidas são "Menos da metade do tempo do projeto" ou "Mais da metade do tempo do projeto". Se você adivinhou o último, você estaria correto. O Google afirma que leva mais de 80% do tempo do projeto para formatar os dados, e isso nem leva em conta o tempo necessário para enquadrar o problema em termos de aprendizado de máquina.

Levaria muitas semanas de esforço para descobrir o modelo apropriado para o nosso conjunto de dados, e esta é uma etapa realmente proibitiva para muitas pessoas que desejam usar aprendizado de máquina ou biologia”, diz Jacqueline Valeri, PhD. estudante de engenharia biológica no laboratório de Collins, que é o primeiro co-autor do artigo.

O BioAutoMATED é um sistema automatizado de aprendizado de máquina que pode selecionar e construir um modelo apropriado para um determinado conjunto de dados, e até mesmo cuidar da trabalhosa tarefa de pré-processamento de dados, reduzindo um processo de meses a apenas algumas horas. Os sistemas de aprendizado de máquina automatizados (AutoML) ainda estão em um estágio relativamente incipiente de desenvolvimento, com o uso atual focado principalmente no reconhecimento de imagem e texto, mas amplamente não utilizado em subcampos da biologia, aponta o primeiro coautor e pós-doutorado da Jameel Clinic Luis Soenksen PhD.

"A linguagem fundamental da biologia é baseada em sequências", explica Soenksen, que obteve seu doutorado no Departamento de Engenharia Mecânica do MIT. "Sequências biológicas como DNA, RNA, proteínas e glicanos têm a incrível propriedade informativa de serem intrinsecamente padronizadas, como um alfabeto. Muitas ferramentas AutoML são desenvolvidas para texto, então fazia sentido estendê-las para sequências [biológicas]"

Além disso, a maioria das ferramentas AutoML só pode explorar e construir tipos reduzidos de modelos. "Mas você não pode realmente saber desde o início de um projeto qual modelo será melhor para o seu conjunto de dados", diz Valeri. "Ao incorporar várias ferramentas em uma ferramenta abrangente, realmente permitimos um espaço de pesquisa muito maior do que qualquer ferramenta individual do qual AutoML poderia alcançar por conta própria."

O repertório de modelos de ML supervisionados do BioAutoMATED inclui três tipos: modelos de classificação binária (dividindo dados em duas classes), modelos de classificação multiclasse (dividindo dados em várias classes) e modelos de regressão (ajustando valores numéricos contínuos ou medindo a força de relacionamentos-chave entre variáveis). O BioAutoMATED pode até ajudar a determinar quantos dados são necessários para treinar adequadamente o modelo escolhido.

Nossa ferramenta explora modelos que são mais adequados para conjuntos de dados biológicos menores e mais esparsos, bem como redes neurais mais complexas”, diz Valeri. Esta é uma vantagem para grupos de pesquisa com novos dados que podem ou não ser adequados para um problema de aprendizado de máquina.

Realizar experimentos novos e bem-sucedidos na interseção de biologia e aprendizado de máquina pode custar muito dinheiro”, explica Soenksen. "Atualmente, os laboratórios centrados na biologia precisam investir em infraestrutura digital significativa e recursos humanos treinados em AI-ML, antes mesmo de ver se suas ideias estão prestes a dar certo. Queremos diminuir essas barreiras para especialistas em domínio em biologia."

Com o BioAutoMATED, os pesquisadores têm a liberdade de realizar experimentos iniciais para avaliar se vale a pena contratar um especialista em aprendizado de máquina, para construir um modelo diferente para experimentação posterior.

O código-fonte aberto está disponível publicamente e, enfatizam os pesquisadores, é fácil de executar. "Gostaríamos muito de ver as pessoas pegarem nosso código, melhorá-lo e colaborar com comunidades maiores para torná-lo uma ferramenta para todos", diz Soenksen. “Queremos estimular a comunidade de pesquisa biológica e gerar conscientização relacionada às técnicas de AutoML, como um caminho seriamente útil que pode mesclar prática biológica rigorosa com prática AI-ML em ritmo acelerado melhor do que é alcançado hoje”.

Artigos recomendados: Genoma e IA


Fonte:https://techxplore.com/news/2023-07-scientists-generate-ai-biology.html 

Nenhum comentário:

Postar um comentário

Related Posts Plugin for WordPress, Blogger...