AlphaFold: Usando a IA para descobertas científicas

Olá novamente! Estamos compartilhando uma publicação, cuja tradução foi preparada especialmente para os alunos do curso "Redes Neurais em Python" .



Hoje falaremos sobre o primeiro evento importante na história do desenvolvimento do DeepMind, para mostrar como pesquisas usando inteligência artificial podem estimular o surgimento de descobertas científicas. Devido à natureza interdisciplinar de nosso trabalho, o DeepMind reuniu especialistas das áreas de biologia estrutural, física e aprendizado de máquina para usar métodos avançados para prever a estrutura tridimensional de uma proteína com base exclusivamente em sua sequência genética.

O sistema AlphaFold em que trabalhamos nos últimos dois anos baseia-se em muitos anos de experiência em pesquisa usando extensos dados do genoma para prever a estrutura da proteína. Os modelos tridimensionais de proteínas gerados pelo AlphaFold são muito mais precisos do que os obtidos anteriormente. Isso marcou um progresso significativo em uma das principais tarefas da biologia.

Qual é o problema da dobragem de proteínas?


As proteínas são moléculas grandes e complexas necessárias para sustentar a vida. Quase todas as funções do nosso corpo, seja contração muscular, percepção da luz ou conversão de alimentos em energia, podem ser atribuídas a uma ou mais proteínas e como elas se movem e mudam. Receitas para essas proteínas, chamadas genes, são codificadas em nosso DNA.

As propriedades de uma proteína dependem de sua estrutura tridimensional única. Por exemplo, as proteínas de anticorpos que compõem nosso sistema imunológico são "em forma de Y" e se parecem com ganchos especiais. Agarrando-se a vírus e bactérias, as proteínas dos anticorpos são capazes de detectar e rotular patógenos para posterior destruição. Da mesma forma, as proteínas de colágeno estão na forma de cordões que transmitem tensão entre cartilagem, ligamentos, ossos e pele. Outros tipos de proteínas incluem o Cas9, que, guiado pelas seqüências do CRISPR, atua como uma tesoura que corta o DNA e insere novos locais. Proteínas anticongelantes, cuja estrutura tridimensional lhes permite se ligar a cristais de gelo e impedir o congelamento de organismos; e ribossomos, que atuam como um transportador programado envolvido na construção de proteínas.

Determinar a estrutura tridimensional de uma proteína exclusivamente a partir de sua sequência genética é uma tarefa difícil com a qual os cientistas lutam há décadas. O problema é que o DNA contém apenas informações sobre a sequência de blocos de construção de uma proteína chamada resíduos de aminoácidos que formam cadeias longas. Prever como essas cadeias formarão uma complexa estrutura de proteínas 3D é conhecido como "problema de dobragem de proteínas".

Quanto maior a proteína, mais difícil é modelar, pois mais ligações são formadas entre os aminoácidos que precisam ser levados em consideração. Como segue o paradoxo levintal , para listar todas as configurações possíveis de uma proteína comum, antes que sua estrutura tridimensional correta seja alcançada, levará mais tempo do que o Universo existe.



Por que a dobragem de proteínas é importante?


A capacidade de prever o formato da proteína é extremamente útil, pois é fundamental para entender o papel da proteína no organismo, bem como para o diagnóstico e tratamento de doenças como a doença de Alzheimer, Parkinson , Huntington e fibrose cística , que os médicos acreditam serem causadas por proteínas mal dobradas.

Estamos especialmente satisfeitos que a capacidade de prever a forma de uma proteína possa melhorar nossa compreensão de como nosso corpo funciona, e isso nos permitirá desenvolver eficientemente novos medicamentos. À medida que obtemos mais informações sobre as formas de proteínas e como elas funcionam através da modelagem, novas oportunidades para a criação de medicamentos estão se abrindo, além de reduzir o custo dos experimentos. Por fim, essas descobertas melhorarão a qualidade de vida de milhões de pacientes em todo o mundo.

Compreender o processo de dobrar proteínas também pode ajudar no desenvolvimento de um tipo de proteína que fará uma contribuição significativa para a realidade circundante. Por exemplo, os avanços no desenvolvimento de proteínas em enzimas biodegradáveis ​​podem ajudar a lidar com contaminantes como plástico e óleo, ajudando a decompor os resíduos sem danificar o meio ambiente. De fato, os pesquisadores já começaram a projetar bactérias que secretam proteínas que tornam o lixo biodegradável e facilitam o manuseio.

Para estimular a pesquisa e avaliar o progresso no campo dos métodos mais recentes para melhorar a precisão da previsão, foi lançada em 1994 uma competição em larga escala de dois anos chamada CASP Community Experiment in Critical Structure of Protein Structure Methods (CASP), que se tornou o padrão-ouro nos métodos de avaliação.

Como a IA fará a diferença?


Nas últimas cinco décadas, os cientistas conseguiram reconhecer as formas de proteínas em laboratório usando métodos experimentais como microscopia crioeletrônica , ressonância magnética nuclear ou difração de raios X , mas cada método foi deduzido por muitas tentativas e erros que levaram anos e custaram dezenas de milhares de dólares. É por isso que agora os biólogos estão recorrendo aos métodos de IA como uma alternativa ao longo e trabalhoso processo de pesquisa de proteínas complexas.

Felizmente, o campo da genômica tem dados suficientes devido à rápida redução no custo do sequenciamento genético. Como resultado, nos últimos anos, abordagens para o problema de previsão usando aprendizado profundo e com base em dados do genoma tornaram-se cada vez mais populares. O trabalho do DeepMind sobre esse assunto levou ao aparecimento do AlphaFold, que apresentamos ao CASP este ano. Estamos orgulhosos de fazer parte do progresso que os especialistas da CASP denominaram "progresso sem precedentes na capacidade dos métodos computacionais de prever a estrutura de uma proteína". Como resultado, conquistamos o primeiro lugar no ranking de equipes (somos A7D).

Nossa equipe concentrou-se precisamente na tarefa de modelar formulários de destino do zero, sem usar proteínas previamente resolvidas como modelos. Alcançamos um alto grau de precisão na previsão das propriedades físicas da estrutura proteica e, em seguida, usamos dois métodos diferentes para prever estruturas proteicas completas.

Usando redes neurais para prever propriedades físicas


Ambos os métodos usaram redes neurais profundas, treinadas para prever as propriedades de uma proteína por sua sequência genética. As propriedades que a rede prevê são: (a) a distância entre pares de aminoácidos e (b) os ângulos entre as ligações químicas que conectam esses aminoácidos. O primeiro desenvolvimento foi um avanço real no uso de métodos populares que determinam se pares de aminoácidos estão próximos um do outro.

Nós treinamos a rede neural para prever uma distribuição separada de distâncias entre cada par de resíduos de proteínas. Essas probabilidades foram então combinadas em uma estimativa que mostra quão bem é a estrutura da proteína projetada. Também treinamos outra rede neural que usa todas as distâncias no total para avaliar a proximidade da estrutura proposta com a resposta correta.





Novos métodos para prever estruturas proteicas


Usando essas funções de avaliação, conseguimos encontrar estruturas que correspondem às nossas previsões. Nosso primeiro método é baseado em métodos amplamente utilizados na biologia estrutural; ele substituiu repetidamente partes da estrutura da proteína por novos fragmentos. Nós treinamos a rede neural generativa-competitiva para propor novos fragmentos que são usados ​​para melhorar continuamente a avaliação da estrutura proteica proposta.



O segundo método otimizou as notas usando a descida gradiente (um método matemático comumente usado no aprendizado de máquina para pequenas melhorias incrementais), o que levou à alta precisão das estruturas. Esse método foi aplicado a cadeias inteiras de proteína e não a peças que devem ser empilhadas separadamente antes da montagem, o que reduz a complexidade do processo de previsão.

O que vem a seguir?


O sucesso de nosso teste com caneta de coagulação de proteínas mostra que os sistemas de aprendizado de máquina podem integrar múltiplas fontes de informação para ajudar os cientistas a desenvolver rapidamente soluções criativas para problemas complexos. Já vimos como a IA ajuda as pessoas a dominar jogos complexos por meio de sistemas como AlphaGo e AlphaZero , também esperamos que, uma vez que o avanço da IA ​​ajude a humanidade a resolver problemas científicos fundamentais.

É interessante ver o primeiro progresso no dobramento de proteínas, demonstrando a utilidade da IA ​​em fazer descobertas científicas. Embora ainda tenhamos muito a fazer, entendemos claramente que poderemos contribuir para a busca de tratamento de várias doenças, ajudar o meio ambiente e muito mais, porque, de fato, o potencial é enorme. Com uma equipe dedicada focada em explorar como o aprendizado de máquina pode avançar no mundo da ciência, exploraremos as várias maneiras e métodos pelos quais nossa tecnologia pode influenciar o mundo ao nosso redor.

Source: https://habr.com/ru/post/pt453848/


All Articles