"Isso também é análise de dados." Fale sobre bioinformática com Mikhail Gelfand

A bioinformática é uma área extremamente curiosa do conhecimento científico, pois combina tarefas formuladas em termos e métodos biológicos familiares aos especialistas em algoritmos, processamento de big data e aprendizado de máquina. Assim, a bioinformática é um exemplo em que a TI pode ajudar a explorar o mundo real.


Recentemente, visitei Mikhail Sergeyevich Gelfand no Instituto de Problemas de Transmissão de Informações. Falamos sobre o que é bioinformática, sobre suas aplicações interessantes, sobre como os especialistas em TI em bioinformática podem ser úteis e o que eles precisam aprender para isso.


Abaixo deste artigo, você encontrará uma transcrição completa da nossa conversa, e o vídeo pode ser visto no YouTube .




O que é bioinformática


Alexey Shagraev: Bioinformática - que tipo de ciência é essa, o que faz?


Mikhail Gelfand : A bioinformática é uma maneira de estudar biologia usando um computador. Em geral, isso não é uma ciência, mas apenas um conjunto de técnicas. No mesmo sentido, por exemplo, a microscopia eletrônica não é uma ciência.


A primeira parte da bioinformática é algorítmica. Ele descreve como arrastar dados de um dispositivo para um computador. Para determinar a sequência de nucleotídeos que formam o genoma (para sequenciá-lo), por razões técnicas, esse genoma precisa ser cortado em um grande número de pequenos fragmentos, que precisam ser colados em uma linha grande. Nesse caso, é necessário levar em consideração o ruído nos dados, várias irregularidades de tudo no mundo. Essa é uma tarefa bastante típica: outros problemas algorítmicos surgem na análise de dados espectrométricos de massa.


A segunda parte da bioinformática é clássica, biológica. Ela está muito mais perto do que eu faço. Mais precisamente, pode ser chamado de biologia molecular. Aqui você tem a proteína. O que ele esta fazendo? Ou você tem um gene. Quando liga, quando desliga? Ou, inversamente, você sabe que algo na célula tem uma função específica. Qual proteína faz? Estes são exemplos de problemas clássicos da biologia molecular, e acontece que um computador é um dispositivo bastante eficaz para resolver tais problemas. Os pesquisadores não precisam mais testar todas as funções proteicas possíveis; em vez disso, eles podem verificar se a proteína desempenha a função que o modelo previu. Se realmente cumpre - viva! Assim, o computador economiza o tempo do experimentador, estreitando o espaço de pesquisa. Esta é uma biologia molecular clássica, feita em um computador antes do tubo de ensaio.


Finalmente, a terceira parte recentemente emergida da bioinformática é a análise de big data. Os métodos experimentais que os biólogos se mostraram tão eficazes que muitos dados já estão sendo produzidos. A astronomia seguiu o mesmo caminho da astrofísica - telescópios colossais agora produzem gigabytes de dados a cada minuto. Uma coisa semelhante aconteceu com a física de alta energia. A primeira tarefa que surge é simplesmente salvar os dados e extrair deles biologia interessante. Devido ao grande volume, é possível descrever o trabalho de uma célula como um todo - não o trabalho de um gene, mas o trabalho de todos os genes dessa célula.


Além disso, eu lhe disse desde o início uma mentira. Certamente, há bioinformática científica, mas é chamada diferentemente - biologia evolutiva. Muitos métodos computacionais já descrevem padrões evolutivos - como a seleção ocorreu, o que mudou. A questão mais natural e básica é quem está relacionado a quem. E então começa: como é a biologia do desenvolvimento de diferentes animais? ... Uma pessoa é diferente dos ratos não porque nossos genes são diferentes, mas porque funcionam de maneira diferente. Além disso, as principais diferenças são colocadas na embriogênese.


Quando e como as pessoas entenderam pela primeira vez que nessas áreas um computador pode trazer benefícios tangíveis?



Francis Creek


O primeiro a entender tudo foi Francis Crick, que, aparentemente, era um homem completamente brilhante. Em 1958, ele percebeu que seqüências - então, na minha opinião, ele pensava em proteínas - poderiam ser usadas para determinar o parentesco. As próprias sequências não estavam lá. Ele primeiro expressou essa idéia em um artigo dedicado a um completamente diferente, inserindo duas frases de uma história diferente.


Francis Crick é um dos maiores biólogos do século XX, um Prêmio Nobel de 1962 em Fisiologia ou Medicina. Ele propôs (juntamente com James Watson) a estrutura da dupla hélice do DNA, formulou o chamado dogma central da biologia molecular , que afirma a natureza unidirecional da transferência de informações genéticas na célula: do DNA via RNA para as proteínas. Um dos autores do trabalho clássico que descreve a estrutura do código genético. - nota de Alexey Shagraev


Então, no início dos anos 60, as primeiras sequências realmente apareceram, as pessoas começaram a construir árvores. Nesta ciência, eles são chamados filogenéticos, e o significado que eles têm é quem está relacionado a quem.


Árvore filogenética - uma árvore que reflete as relações evolutivas entre diferentes grupos de organismos. As idéias modernas consistem no fato de que todos os organismos vivos são divididos em três domínios ou suprastatos: arquéias , bactérias e eucariotos . - nota de Alexey Shagraev


Então, os métodos de análise apareceram e mais seqüências se tornaram disponíveis. Depois de algum tempo, ficou claro que as mãos não podem mais funcionar, você precisa escrever um programa.


A bioinformática como ciência começou a tomar forma no início dos anos 80. Nesse sentido, tive muita sorte - quando cheguei a ele em 1985, era um Oeste Selvagem, uma fronteira. Foi possível elaborar e executar uma tarefa que, com alta probabilidade, ninguém o fez. Não havia necessidade de aprender nada - era necessário fazer. Raramente alguém é tão sortudo.


A princípio, os biólogos consideravam isso um jogo na caixa de areia. Mas havia coisas úteis. Uma vez que ficou claro que era impossível seguir as seqüências simplesmente por publicações de periódicos. Os bancos de dados começaram a aparecer onde essas seqüências foram colocadas na máquina - antes de publicar artigos editoriais, eles exigiam que a sequência fosse colocada no banco de dados. Consequentemente, as pessoas começaram a escrever programas para procurar sequências semelhantes nos bancos de dados. Isso já era uma ciência séria, pois essas bases estão crescendo muito rapidamente e os algoritmos devem ser incrivelmente eficientes.


Há uma história de horror bem conhecida de que o desempenho dos sequenciadores - dispositivos de sequenciamento - cresce com um expoente que é mais rápido que a lei de Moore . Ou seja, eles fogem dos computadores. Há também uma lei sobre capacidade de memória, também exponencial. Esqueceu o que é chamado. Uma questão separada é se eles se apoiam em limites físicos. Mas sequenciadores e incrementos de dados exponenciais com taxas mais altas do que a energia do computador são um pesadelo.


E então surgiram métodos de sequenciamento muito rápido, e a bioinformática já funciona desde o início. Agora, ao planejar um experimento, um bom biólogo entende (ou consulta com alguém) como ele processará o resultado. O design do experimento em si já leva amplamente em conta o processamento do que acontece.


Agora, as pessoas começaram a colocar tudo isso em redes neurais profundas. Temos projetos sobre o fato de que, se você fizer a rede resolver o problema certo, ela terá que aprender toda a biologia ao longo do caminho. E há exemplos.


Existem dois tipos de problemas.


Em algumas tarefas, apenas o reconhecimento de alta qualidade é necessário. Por exemplo, um diagnóstico diferencial de câncer ou algum prognóstico. Você tem duas coortes de pacientes: uma ajuda essas drogas, a outra não. Seria bom descobrir não quando você iniciou o tratamento, mas com antecedência. Você pode estudar as características dessas mutações que aconteceram com esse câncer, observar como os genes no tumor começam a funcionar.


Ou você pode prever a estrutura espacial da proteína - essa também é uma tarefa clássica. Temos uma sequência, mas queremos descobrir como a molécula é dobrada no espaço. Uma tarefa antiga, provavelmente começou nos anos 70. As pessoas estão simplesmente perseguindo a qualidade da previsão. Existem muitos métodos diferentes. Redes ganham alguém, alguém não. Que ciência.


Redes neurais e bioinformática . Por exemplo, consulte a publicação do blog DeepMind no algoritmo de dobra de proteínas da rede neural AlphaFold e a palestra de Mohammed AlQuraishi . - nota de Alexey Shagraev


E há algo que, na minha opinião, é ainda mais legal. Você define uma tarefa que não tem significado prático, mas, para resolvê-la, precisa entender algo sobre a estrutura da biologia. E então a grade parece sobrecarregar, é uma merda, porque a qualidade de reconhecimento dela é provavelmente muito ruim. Mas então podemos entrar nos neurônios dela e ver o que ela aprendeu, tentando resolver esse problema.


Não há pioneiros no desenvolvimento de arquiteturas de rede em biologia. Em vez disso, há pessoas que estão simplesmente tentando aplicar arquiteturas prontas da maneira certa. Este é um hype dos últimos tempos, existem obras realmente bonitas.


imagem
Ilustração de um artigo de DeepMind


Bioinformática moderna


Quais organismos são agora os mais populares para estudo nesta área e por quê?


Cara, é claro, porque queremos beneficiar a todos e aprender toda a medicina.


Existem organismos modelo tradicionais. Homem - porque remédio. Ratos - porque são mamíferos, mas não sentem muito. Drosophila - porque geralmente é um clássico. Escherichia coli - por ser uma bactéria, cresce rapidamente e também é um clássico (como mais algumas bactérias). Nemátodo C. Elegans - porque ela possui um número fixo de células em cada instância, a genealogia dessas células é estritamente conhecida, elas possuem um esquema padrão da rede nervosa, são absolutamente idênticas, mas podem ser geneticamente diferentes.


Como existem métodos produtivos de seqüenciamento, podemos nos permitir estudar não apenas organismos-modelo para os quais muito já foi feito, mas também alguns outros interessantes. Meu projeto favorito da última vez - não entendemos algo completamente banal sobre a evolução dos polvos, e ninguém mais o entendeu. Quando os alunos me perguntam, sugiro procurar alguns bichinhos legais.


Protozoários unicelulares são organismos cujas células possuem um núcleo, como o nosso. As bactérias não têm núcleo, são simples. Em bactérias, você pode fazer coisas muito profundas. Podemos dizer bastante sobre como a bactéria vive, o que come, o que sintetiza, o que precisa receber do ambiente externo - sem fazer nenhum experimento, apenas assistindo a um filme. E pequenos animais, cujas células têm um núcleo, por exemplo, você e eu, somos mais complicados. Mas existem núcleos unicelulares maravilhosos e eles têm a biologia mais diversa. Em ciliados, em amebas. O zoológico mais legal está lá.


E os vírus?


Os vírus são principalmente interessantes do ponto de vista médico. Eu me pergunto como a evolução dos vírus funciona, porque existem muitas proteínas que aparentemente são inventadas por vírus.


Ainda existem vírus gigantes, cujo genoma já é maior que o de uma pequena bactéria. Ninguém entende de onde veio essa porcaria. Eu só sei pior essa ciência viral. Existem bons desafios evolutivos.


Que direções interessantes existem agora, onde os resultados visíveis ao público em geral relacionados à bioinformática e ao estudo de genomas são possíveis?


Do que pode ser explicado ao público em geral, o mais interessante é a história dos genomas antigos . Eles são extraídos de achados arqueológicos e mudam visivelmente - de qualquer forma, enriquecem - nossa idéia da história da humanidade. As opiniões sobre a origem do homem foram bastante modificadas. Novamente, existem bons pedaços computacionais, mas os principais companheiros são experimentadores que simplesmente aprenderam como isolar e determinar essa sequência de DNA. Os experimentos foram muito difíceis.


Cada um de nós tem um par de por cento dos fragmentos de Neandertal. É fácil dizer ao público o que faço periodicamente.


Sobre genes antigos. Em 2006, foi lançado um projeto para ler o genoma completo dos neandertais , um dos resultados foi a conclusão de que os povos antigos foram cruzados com neandertais, veja o artigo na Science . Um relato completo dessa história de Elena Naimark pode ser encontrado nos Elementos . - nota de Alexey Shagraev


Bioinformática pura ... Novamente, como isso faz parte da biologia, para nós o consumidor é um biólogo. Em um bom trabalho biológico, quando tratamos nem mesmo um câncer abstrato de um tipo específico, ou seja, um tumor de um paciente em particular, esse é um medicamento personalizado. Existem bons exemplos quando isso funciona. Mas quão massivas elas são e se sua economia será puxada não está muito claro. Em princípio, sim, existem exemplos de medicamentos, antes da nomeação dos quais eles fazem a análise de mutações em um tumor específico. A bioinformática fica embaixo de tudo isso "no porão". Sem o desenvolvimento de métodos bioinformáticos, isso teria sido impossível. Mas basicamente o consumidor para nós não é uma pessoa, mas outro biólogo.


Imagine um desenvolvedor: talvez um experiente; possivelmente um especialista em análise de dados; ou vice-versa, outro aluno. Que tarefa pode inspirá-lo agora a entrar nessa ciência e ajudar alguma coisa?


Você pode ir a algum laboratório onde há muitos dados e apenas processá-los. Os dados podem ser maravilhosos. Pode ser uma estrutura espacial - como o DNA é empacotado em uma célula e como isso afeta seu trabalho. Existem muitas experiências heterogêneas, realmente muitos dados. E existe um amplo campo: da física dos polímeros a algum tipo de análise de correlação e algo estatístico. Você pode fazer coisas realmente bonitas. Os dados são muito diferentes, eles podem ser comparados de maneiras diferentes. Em geral, muito de bom.


Além disso, há esta canoa com grades. E aqui novamente é necessário se apegar a bons biólogos, para que você possa resolver bons problemas biológicos com boas redes. Ou ganhe o campeonato mundial de previsões, que é uma honra em si, ou tente tirar alguma biologia. Conversamos um pouco sobre isso.


Ou você pode realmente ingressar em uma empresa que está tentando criar métodos para diagnósticos diferenciados - principalmente diagnósticos de câncer - e fazer algo de bom. Isso também é análise de dados, mas há muito de tudo.


Qual é a situação mais típica e a tarefa típica? Existe um paradoxo: temos o mesmo genoma em todas as células, e as células funcionam de maneira diferente - e, a propósito, também são organizadas de maneira diferente, porque genes diferentes nelas funcionam de maneira diferente. Em um tumor cancerígeno, os genomas já são diferentes; ocorreram mutações lá. Mas, novamente, a célula renasce, não porque algo mudou no DNA, mas porque os genes começaram a funcionar de maneira diferente. E podemos tentar prever o efeito dos medicamentos, fazer previsões ou simplesmente fazer diagnósticos diferenciais com base em como as células funcionam em diferentes tipos de tumores.


Mas, ao fazer essa análise, pegamos um pedaço de tecido e há muitas células diferentes. São células tumorais, células saudáveis ​​e algum tipo de linfócito se arrasta por lá - muito de tudo. Você precisa decompor o trabalho médio dos genes, que você pode medir em um experimento, sobre como os genes funcionam em cada tipo de célula. Você pode estimar a proporção dessas células. Esta é a tarefa da decomposição. Em um cenário ingênuo, todo mundo pensa que pode ser resolvido simplesmente como um problema de álgebra linear, como um grande sistema de equações lineares. Acontece que o ruído nos dados e outras dificuldades fazem girar muito. Isso não pode ser reduzido a álgebra linear simples. Eu já vi isso muitas vezes: um aluno vem, diz - vamos escrever a equação aqui, e é isso. Mas figos. Mas é um benefício direto para a humanidade - procurar assinaturas de câncer.


Haverá uma ciência muito boa, já está acontecendo - desenvolvimento inicial. Agora estamos determinando como os genes funcionam em uma mistura de células, em uma amostra em que existem milhões de células. Mas você precisa ser capaz de fazer a mesma coisa em uma única célula e, para isso - ganhar muito barulho. Então podemos olhar, por exemplo, embriologia, olhar para as trajetórias do desenvolvimento das células nos estágios iniciais, quando ainda são poucas. Você pode observar como ocorre a diferenciação precoce das células, e a embriologia se tornará completamente diferente com essas histórias em um futuro próximo; um bom trabalho será feito. Isso é embriologia evolucionária. Não apenas olhando como a anatomia difere em primatas e roedores (este é um clássico do século XIX), mas observando como essas diferenças são estabelecidas em um estágio muito inicial devido a quais genes trabalham onde. Isso será.


Como é o especialista ideal e que agora chegaria a essa área e traria muitos benefícios? O que ele deveria ser capaz? Onde ele faz isso?


Ele deve conhecer biologia. Primeiro de tudo, existe um programa de mestrado em ciências da vida na Skoltech. Uma pessoa sem educação biológica também pode ir para lá. Vai ser difícil para ele, mas existem exemplos.


Existe um programa para analisar dados de biologia e medicina na Escola Superior de Economia da Faculdade de Ciências da Computação. Lá você pode, pelo contrário, prescindir da educação em informática. Os biólogos também estão lá, mas haverá menos biologia e mais bioinformática. Isto é para mestres. E para alunos de 11 anos, existe uma faculdade de bioengenharia e bioinformática na Universidade Estadual de Moscou. Isto é se falamos de Moscou.


Em São Petersburgo, existem programas de bioinformática na Universidade de São Petersburgo e na ITMO, na minha opinião, mas eu sei menos sobre eles.


Sobre Mikhail Gelfand



Como você chegou a essa ciência?


Incapacidade de fazer contas. Quando o mehmat terminou, percebi que não sou bom em provar teoremas, para não mencionar inventá-los. E tive muita sorte, porque a bioinformática estava apenas começando, então você poderia simplesmente chegar lá, e é isso.


Eu sempre amei a biologia: peguei borboletas, insetos atormentados, só isso. Para mim, ir para a biologia era bastante natural. Além disso, eu estava interessado em linguística, fui ao círculo, nas Olimpíadas. E a bioinformática, nesse sentido, é uma ciência bastante lingüística, se for tratada adequadamente. Então foi uma escolha muito natural, pelo menos para mim.


O que você está fazendo agora?


Pessoalmente, trato principalmente da tarefa de editar transcrições de polvos, sobre de onde vieram as pupas de borboletas, besouros, formigas, abelhas e todos os insetos que possuem pupas. Eu tenho uma certa teoria.


Baratas não têm pupas. É pequeno, preto e não se parece com uma barata, depois muda várias vezes e se torna cada vez mais uma barata. Mas existem insetos que têm estágio de pupa, e parece que descobrimos de onde veio. Se conseguirmos mostrar com cuidado, será legal.


Estou analisando quais bactérias vivem em pulgões, corais e a mina de petróleo. Isso aconteceu historicamente. Com os pulgões, temos bons colaboradores na Bielorrússia, com corais - colaboradores em Moscou que escolhem pedaços desses corais. E sobre os poços de petróleo, tenho um estudante de pós-graduação insanamente ativo que apenas bate nas empresas de petróleo e as incumbe dessa tarefa. Ou seja, essas são tarefas oportunistas, de fato.


Lido com o dobramento do DNA em uma célula e como esse dobramento afeta o funcionamento dos genes.


Estou desenvolvendo bastante - ou melhor, estudantes de pós-graduação - na evolução de bactérias, porque essa coisa é pouco descrita, você pode ver de forma diferente. E, em geral, uma compreensão de como as bactérias evoluem, de onde vêm as espécies bacterianas, como elas são divididas em espécies. Não é que tenha sido bem feito. Esta não é uma área muito elegante, mas você também pode fazer muitas coisas legais por lá.


Faço como os genes são regulados, principalmente em bactérias, e como essas redes reguladoras evoluem. Você pode comparar espécies próximas, ver como elas diferem, entender (ou não entender) como essas mudanças ocorrem.




Mikhail Gelfand é um dos oradores da conferência YaTalks, que ocorrerá em 30 de novembro na sala de conferências Paveletsky Space , em Moscou. As inscrições estão abertas e disponíveis aqui .

Source: https://habr.com/ru/post/pt476164/


All Articles