Cientistas construíram uma ferramenta de IA capaz de ler o código genético de forma semelhante à maneira como o ChatGPT lê texto - varrendo o ADN à procura de padrões de mutação para recuar no tempo e ligar genes aos seus ancestrais comuns.
Além de ser mais rápida do que as abordagens disponíveis hoje, funciona mesmo quando os dados estão incompletos e pode alterar a forma como os investigadores estudam desde mosquitos transmissores de malária até à história evolutiva humana.
O trabalho foi realizado na University of Oregon (UO). A ferramenta foi criada pelo biólogo computacional Andrew Kern e pela sua equipa.
Genomas como linguagem
A comparação entre ADN e linguagem escrita não é apenas uma figura de estilo. Os genomas são, de facto, construídos como texto: um alfabeto de quatro letras - A, T, C e G - organizado em sequências que formam genes e cromossomas.
O foco principal do laboratório de Kern está nos “erros ortográficos” desse texto: as mutações, isto é, alterações nas sequências de ADN que se acumulam ao longo do tempo e passam de geração em geração, deixando pistas que permitem reconstruir o percurso para trás na história evolutiva.
Os métodos clássicos para o fazer - assentes em matemática e estatística - continuam a ser o padrão-ouro e, na maioria das situações, são difíceis de superar. Ainda assim, têm limitações práticas: são lentos e tendem a ter dificuldades quando os conjuntos de dados são muito grandes ou quando faltam partes da informação.
Na prática, descodificar um único cromossoma de mosquito pode demorar horas ou até dias, o que se torna um estrangulamento sério quando se pretende trabalhar à escala.
A inspiração no ChatGPT
Para contornar esse problema, Kern e a sua equipa adaptaram o GPT-2 - a arquitectura de aprendizagem automática mais antiga que está na base do ChatGPT.
Em vez de o treinarem com grandes volumes de texto em inglês, treinaram-no com simulações de evolução genética em diversas espécies, incluindo bactérias, roedores, mosquitos e primatas.
“Não conseguimos repetir a evolução, por isso um dos fluxos de trabalho-chave que temos é desenvolver simulações”, disse Kevin Korfmann, autor principal do estudo.
“As simulações imitam processos evolutivos e, depois, usamos os resultados como dados de treino para os nossos modelos de aprendizagem profunda.”
Com esse treino, o modelo aprende a identificar padrões de mutação e a usá-los para estimar quando dois genes partilharam pela última vez um ancestral comum - uma métrica a que os geneticistas chamam “tempo de coalescência”. Segmentos de ADN com muitas mutações tendem a apontar para um ancestral comum mais distante.
Já segmentos com menos mutações provavelmente separaram-se há menos tempo. É o mesmo princípio que ajuda a explicar por que razão os chimpanzés são considerados os nossos parentes vivos mais próximos, enquanto as esponjas-do-mar - geneticamente separadas há mais de 700 milhões de anos - estão entre as mais distantes.
Uma ferramenta rápida e eficiente
Quando a equipa comparou a ferramenta com métodos estatísticos de referência, o desempenho foi equivalente - algo que os próprios investigadores não esperavam.
“Nunca se sabe bem o que vai resultar quando, na prática, se estão a pegar em técnicas de um mundo totalmente diferente e a aplicá-las a um problema novo”, disse Kern. “Mas este foi um caso em que as coisas funcionaram mesmo muito bem.”
A diferença real surgiu na velocidade. Onde os métodos tradicionais podem precisar de horas ou dias para processar um único cromossoma de mosquito, a nova ferramenta faz o mesmo em poucos minutos.
Segundo Korfmann, isso acontece porque a parte estatística mais pesada fica concentrada no treino, e não em cada análise individual.
“Ela limita-se a ler os padrões, porque todo o trabalho estatístico caro foi feito antecipadamente, durante o treino, o que evita o estrangulamento”, explicou.
Além disso, a ferramenta lida bem com dados incompletos - um problema frequente em investigação genética - sem se degradar. Para Kern, que trabalha regularmente com bases de dados genéticas de mosquitos com muitas lacunas no contexto da sua investigação sobre malária, isto não é apenas uma conveniência.
Porque é que os mosquitos importam
Durante muito tempo, os insecticidas foram uma das principais armas contra mosquitos que espalham a malária. Mas os mosquitos, tal como todos os organismos, evoluem.
A resistência a insecticidas está agora a surgir em populações de mosquitos por todo o mundo, e perceber como e quando essa resistência apareceu é crucial para conseguir antecipá-la.
“Um grande desafio na prevenção da propagação da malária tem sido compreender a evolução da resistência a insecticidas”, afirmou Kern.
“Agora, podemos recorrer ao nosso modelo de IA, perguntar há quanto tempo estes genes de resistência surgiram na população e aprender sobre a história evolutiva deste vector crítico da malária.”
Direcções futuras de investigação
Neste momento, o modelo reconstrói a ancestralidade entre pares de genes. O próximo passo passa por escalar essa capacidade para reconstruir árvores genealógicas completas, abrangendo várias linhagens em simultâneo.
Alguns métodos tradicionais já conseguem fazê-lo, mas Kern e Korfmann pretendem chegar lá através de uma abordagem de aprendizagem automática.
“Há tanta coisa a acontecer no campo da aprendizagem automática que ainda não aplicámos na nossa área”, disse Korfmann. “Há imenso trabalho de translação a fazer para pôr estes algoritmos novos a funcionar em biologia.”
Por outras palavras, a distância entre a investigação em IA e a aplicação biológica ainda é grande. Mas está a diminuir.
A investigação foi publicada na revista Proceedings of the National Academy of Sciences.
Comentários
Ainda não há comentários. Seja o primeiro!
Deixar um comentário