«C'est aussi une analyse de données.» Parlez de bioinformatique avec Mikhail Gelfand

La bioinformatique est un domaine de connaissances scientifiques extrêmement curieux, car il combine des tâches formulées en termes biologiques et des méthodes familières aux spécialistes des algorithmes, du traitement des mégadonnées et de l'apprentissage automatique. Ainsi, la bioinformatique est un exemple où l'informatique peut venir à la rescousse pour explorer le monde réel.


Récemment, j'ai rendu visite à Mikhail Sergeyevich Gelfand à l'Institut des problèmes de transmission de l'information. Nous avons parlé de ce qu'est la bioinformatique, de ses applications intéressantes, de la façon dont les informaticiens en bioinformatique peuvent être utiles et de ce qu'ils doivent apprendre pour cela.


Sous la coupe de cet article, vous trouverez une transcription complète de notre conversation, et la vidéo peut être visionnée sur YouTube .




Qu'est-ce que la bioinformatique


Alexey Shagraev: Bioinformatique - quel genre de science est-ce, que fait-il?


Mikhail Gelfand : La bioinformatique est un moyen d'Ă©tudier la biologie Ă  l'aide d'un ordinateur. Dans l'ensemble, ce n'est pas une science, mais juste un ensemble de techniques. Dans le mĂŞme sens, par exemple, la microscopie Ă©lectronique n'est pas une science.


La première partie de la bioinformatique est algorithmique. Il décrit comment faire glisser des données d'un appareil vers un ordinateur. Pour déterminer la séquence de nucléotides formant le génome (pour le séquencer), pour des raisons techniques, ce génome doit être découpé en un grand nombre de petits fragments, qui doivent ensuite être collés en une seule grande ligne. Dans ce cas, il est nécessaire de prendre en compte le bruit dans les données, diverses irrégularités de tout dans le monde. Il s'agit d'une tâche assez typique; d'autres problèmes algorithmiques se posent dans l'analyse des données de spectrométrie de masse.


La deuxième partie de la bioinformatique est classique, biologique. Elle est beaucoup plus proche de ce que je fais. Plus précisément, on peut l'appeler biologie moléculaire. Ici, vous avez la protéine. Que fait-il? Ou vous avez un gène. Quand s'allume-t-il, quand s'éteint-il? Ou, inversement, vous savez que quelque chose dans la cellule a une fonction spécifique. Quelle protéine fait-il? Ce sont des exemples de problèmes classiques de biologie moléculaire, et il s'avère qu'un ordinateur est un appareil plutôt efficace pour résoudre de tels problèmes. Les chercheurs n'ont plus besoin de tester toutes les fonctions protéiques possibles; ils peuvent plutôt vérifier que la protéine remplit la fonction prévue par le modèle. Si vraiment remplit - hourra! Ainsi, l'ordinateur fait gagner du temps à l'expérimentateur en rétrécissant l'espace de recherche. Il s'agit d'une biologie moléculaire classique, elle se fait sur un ordinateur avant le tube à essai.


Enfin, la troisième partie récemment émergée de la bioinformatique est l'analyse des mégadonnées. Les méthodes expérimentales utilisées par les biologistes se sont avérées si efficaces que de nombreuses données sont déjà produites. L'astronomie a suivi la même voie que l'astrophysique - des télescopes colossaux produisent désormais des gigaoctets de données chaque minute. Une chose similaire s'est produite avec la physique des hautes énergies. La première tâche qui se pose est simplement de sauvegarder les données et d'en extraire une biologie intéressante. En raison du grand volume, il est possible de décrire le travail d'une cellule dans son ensemble - pas le travail d'un gène, mais le travail de tous les gènes de cette cellule.


De plus, je vous ai dit au tout début un mensonge. Bien sûr, il y a la bioinformatique scientifique, seulement elle est appelée différemment - la biologie évolutive. Beaucoup de méthodes informatiques décrivent déjà des modèles évolutifs - comment la sélection s'est produite, ce qui a changé. La question fondamentale la plus naturelle est de savoir qui est lié à qui. Et alors commence: quelle est la biologie du développement de différents animaux? .. Une personne est différente des souris non pas parce que nos gènes sont différents, mais parce qu'ils fonctionnent différemment. De plus, les principales différences résident dans l'embryogenèse.


Quand et comment les gens ont-ils compris pour la première fois que dans ces domaines, un ordinateur peut apporter des avantages tangibles?



Francis Creek


Le premier à tout comprendre fut Francis Crick, qui, apparemment, était un homme tout à fait brillant. En 1958, il a réalisé que les séquences - alors, à mon avis, il pensait aux protéines - pouvaient être utilisées pour déterminer la parenté. Les séquences elles-mêmes n'étaient pas là. Il a d'abord exprimé cette idée dans un article consacré à un tout autre, inséré deux phrases d'une histoire différente.


Francis Crick est l'un des plus grands biologistes du XXe siècle, prix Nobel de physiologie ou médecine de 1962. Il a proposé (avec James Watson) la structure de la double hélice d'ADN, a formulé le soi-disant dogme central de la biologie moléculaire , qui énonce la nature à sens unique du transfert d'informations génétiques dans la cellule: de l'ADN via l'ARN aux protéines. L'un des auteurs de l' ouvrage classique décrivant la structure du code génétique. - note d'Alexey Shagraev


Puis, au début des années 60, les premières séquences sont vraiment apparues, les gens ont commencé à construire des arbres. Dans cette science, ils sont appelés phylogénétiques, et le sens qu'ils ont est de savoir qui est lié à qui.


Arbre phylogénétique - un arbre qui reflète les relations évolutives entre différents groupes d'organismes. Les idées modernes consistent dans le fait que tous les organismes vivants sont divisés en trois domaines ou suprastats: les archées , les bactéries et les eucaryotes . - note d'Alexey Shagraev


Puis des méthodes d'analyse sont apparues et d'autres séquences sont devenues disponibles. Après un certain temps, il est devenu clair que les mains ne peuvent plus fonctionner, vous devez écrire un programme.


La bioinformatique en tant que science a commencé à prendre forme au début des années 80. En ce sens, j'ai eu beaucoup de chance - quand j'y suis arrivé en 1985, c'était un Far West, une frontière. Il était possible de trouver et d'accomplir une tâche qui, avec une forte probabilité, personne ne l'a fait. Il n'était pas nécessaire d'apprendre quoi que ce soit - il fallait le faire. Il est rare que quelqu'un soit aussi chanceux.


Au début, les biologistes considéraient cela comme des jeux dans le bac à sable. Mais il y avait des choses utiles. Une fois qu'il est devenu clair qu'il était impossible de suivre les séquences simplement par des publications de journaux. Les bases de données ont commencé à apparaître là où ces séquences étaient déposées sur la machine - avant de publier des articles éditoriaux, elles ont demandé que la séquence soit placée dans la base de données. En conséquence, les gens ont commencé à écrire des programmes pour rechercher des séquences similaires dans des bases de données. C'était déjà une science sérieuse, car ces bases se développent très rapidement et les algorithmes doivent être incroyablement efficaces.


Il y a une histoire d'horreur bien connue selon laquelle les performances des séquenceurs - dispositifs de séquençage - augmentent avec un exposant plus rapide que la loi de Moore . Autrement dit, ils fuient les ordinateurs. Il existe également une loi sur la capacité de mémoire, également exponentielle. J'ai oublié comment ça s'appelle. Une autre question est de savoir si elles reposent sur des limites physiques. Mais les séquenceurs et les incréments de données exponentiels avec des taux plus élevés que la puissance de l'ordinateur sont un tel cauchemar.


Et puis des méthodes de séquençage très rapide sont apparues, et la bioinformatique fonctionne déjà depuis le tout début. Maintenant, lors de la planification d'une expérience, un bon biologiste comprend (ou consulte quelqu'un) comment il traitera le résultat. La conception de l'expérience elle-même tient déjà largement compte du traitement de ce qui se passe.


Maintenant, les gens ont commencé à tout pousser dans les réseaux neuronaux profonds. Nous avons des projets sur le fait que si vous faites en sorte que le réseau résolve le bon problème, il devra apprendre toute la biologie en cours de route. Et il y a des exemples.


Il existe deux types de problèmes.


Dans certaines tâches, seule une reconnaissance de haute qualité est requise. Par exemple, un diagnostic différentiel de cancer ou un pronostic. Vous avez deux cohortes de patients: l'un aide ces médicaments, l'autre non. Ce serait bien de savoir non pas quand vous avez commencé le traitement, mais à l'avance. Vous pouvez étudier les caractéristiques de ces mutations qui se sont produites à partir de ce cancer, regardez comment les gènes de la tumeur commencent à fonctionner.


Ou vous pouvez prédire la structure spatiale de la protéine - c'est aussi une tâche classique. Nous avons une séquence, mais nous voulons savoir comment la molécule est repliée dans l'espace. Ancienne tâche, elle a probablement commencé dans les années 70. Les gens recherchent simplement la qualité de la prédiction. Il existe de nombreuses méthodes différentes. Les filets gagnent quelqu'un, pas quelqu'un. Une telle science.


Réseaux de neurones et bioinformatique . Par exemple, consultez l'article de blog DeepMind sur l' algorithme de repliement des protéines du réseau neuronal AlphaFold et la conférence de Mohammed AlQuraishi . - note d'Alexey Shagraev


Et il y a quelque chose qui, à mon avis, est encore plus cool. Vous définissez une tâche qui n'a pas de sens pratique, mais pour la résoudre, vous devez comprendre quelque chose sur la structure de la biologie. Et puis la grille semble se tendre, elle est très merdique car sa qualité de reconnaissance est très probablement très mauvaise. Mais alors nous pouvons entrer dans ses neurones et voir ce qu'elle a appris, en essayant de résoudre ce problème.


Il n'y a pas de pionniers dans le développement d'architectures de réseaux en biologie. Il y a plutôt des gens qui essaient simplement d'appliquer les architectures toutes faites de la bonne manière. C'est un tel battage médiatique ces derniers temps, il y a de très belles œuvres.


image
Illustration tirée d'un article de DeepMind


Bioinformatique moderne


Quels organismes sont maintenant les plus populaires pour l'Ă©tude dans ce domaine et pourquoi?


L'homme, bien sûr, parce que nous voulons profiter à tous et apprendre toute la médecine.


Il existe des organismes modèles traditionnels. Homme - parce que la médecine. Souris - parce que ce sont des mammifères, mais ils ne sont pas désolés. Drosophile - parce que c'est généralement un classique. Escherichia coli - parce que c'est une bactérie, elle se développe rapidement et est également un classique (comme quelques autres bactéries). Nematode C. Elegans - parce qu'elle a un nombre fixe de cellules dans chaque cas, la généalogie de ces cellules est strictement connue, elles ont un schéma standard du réseau nerveux, elles sont absolument identiques, mais peuvent être génétiquement différentes.


Puisqu'il existe des méthodes de séquençage productives, nous pouvons nous permettre d'étudier non seulement des organismes modèles pour lesquels beaucoup a déjà été fait, mais quelques autres cool. Mon projet préféré de la dernière fois - nous n'avions pas compris quelque chose de complètement banal à propos de l'évolution des poulpes, et personne d'autre ne l'a. Lorsque les élèves me le demandent, je suggère plutôt de chercher de petits animaux sympas.


Les protozoaires unicellulaires sont des organismes dont les cellules ont un noyau, comme le nôtre. Les bactéries n'ont pas de noyau, elles sont simples. Sur les bactéries, vous pouvez faire des choses très profondes. Nous pouvons en dire beaucoup sur la façon dont la bactérie vit, ce qu'elle mange, ce qu'elle synthétise, ce qu'elle doit recevoir de l'environnement extérieur - sans faire aucune expérience du tout, juste regarder un film. Et les petits animaux, dont les cellules ont un noyau, par exemple, vous et moi, sont plus compliqués. Mais il existe de merveilleux noyaux unicellulaires, et ils ont la biologie la plus diversifiée. En ciliés, en amibes. Le zoo le plus cool est là.


Et les virus?


Les virus sont principalement intéressants d'un point de vue médical. Je me demande comment fonctionne l'évolution des virus, car il y a pas mal de protéines qui sont apparemment inventées par les virus.


Il existe encore des virus géants, dont le génome est déjà plus gros que celui d'une petite bactérie. Personne ne comprend d'où vient cette merde. Je connais juste pire cette science virale. Il y a de bons défis évolutifs.


Quelles directions intéressantes existe-t-il actuellement, où des résultats notables au grand public liés à la bioinformatique et à l'étude des génomes sont possibles?


D'après ce qui peut être expliqué au grand public, le plus intéressant est l'histoire des génomes anciens . Elles sont extraites de découvertes archéologiques et changent sensiblement - en tout cas, enrichissent - notre idée de l'histoire de l'humanité. Les vues sur l'origine de l'homme ont été assez modifiées. Encore une fois, il existe de bons morceaux de calcul, mais les principaux boursiers sont des expérimentateurs qui ont simplement appris à isoler et à déterminer cette séquence d'ADN. Les expériences ont été très difficiles.


Chacun de nous possède quelques pour cent de fragments néandertaliens. Il est facile de dire au public ce que je fais périodiquement.


À propos des gènes anciens. En 2006, un projet a été lancé pour lire le génome complet des Néandertaliens , dont l'un des résultats a été la conclusion que des personnes anciennes ont été croisées avec des Néandertaliens, voir l' article dans Science . Un compte rendu complet de cette histoire d'Elena Naimark peut être trouvé sur les éléments . - note d'Alexey Shagraev


Bioinformatique pure ... Encore une fois, puisque cela fait partie de la biologie, pour nous, le consommateur est un biologiste. Dans un bon travail biologique, lorsque nous ne traitons même pas un cancer abstrait d'un type particulier, à savoir une tumeur d'un patient particulier, il s'agit d'une médecine personnalisée. Il existe de bons exemples lorsque cela fonctionne. Mais combien ils sont massifs et si leur économie sera tirée n'est pas très clair. En principe, oui, il existe des exemples de médicaments, avant la nomination dont ils font l'analyse des mutations dans une tumeur particulière. La bioinformatique se trouve sous tout cela "au sous-sol". Sans le développement de méthodes bioinformatiques, cela aurait été impossible. Mais fondamentalement, le consommateur pour nous n'est pas une personne, mais un autre biologiste.


Imaginez un développeur: peut-être un développeur expérimenté; éventuellement un spécialiste de l'analyse des données; ou vice versa, un autre étudiant. Quelle tâche peut l'inspirer en ce moment pour entrer dans cette science et aider quelque chose?


Vous pouvez vous rendre dans un laboratoire où il y a beaucoup de données et simplement les traiter. Les données peuvent être merveilleuses. Il peut s'agir d'une structure spatiale - comment l'ADN est emballé dans une cellule et comment il affecte son travail. Il y a beaucoup d'expériences hétérogènes, vraiment beaucoup de données. Et il y a un large champ: de la physique des polymères à une sorte d'analyse de corrélation et quelque chose de statistique. Vous pouvez faire de très belles choses. Les données sont très différentes, elles peuvent être comparées de différentes manières. En général, beaucoup de tout le bien.


De plus, il y a ce canoë avec des grilles. Et là encore il faut s'accrocher à de bons biologistes, alors on peut résoudre de bons problèmes biologiques avec de bonnes grilles. Soit gagner les championnats du monde de pronostics, ce qui est un honneur en soi, soit essayer de sortir un peu de biologie. Nous en avons parlé un peu.


Ou vous pouvez vraiment rejoindre une entreprise qui essaie de créer des méthodes de diagnostic différencié - principalement le diagnostic du cancer - et faire quelque chose de bien. C'est aussi une analyse de données, mais il y a beaucoup de tout.


Quelle est la situation et la tâche les plus typiques? Il y a un paradoxe: nous avons le même génome dans toutes les cellules, et les cellules fonctionnent différemment - et, soit dit en passant, sont également disposées différemment, car différents gènes en leur sein fonctionnent différemment. Dans une tumeur cancéreuse, les génomes sont déjà différents; des mutations s'y sont produites. Mais encore une fois, la cellule renaît, non pas parce que quelque chose a changé dans l'ADN, mais parce que les gènes ont commencé à fonctionner différemment. Et nous pouvons essayer de prédire l'effet des médicaments, faire des prédictions ou simplement faire un diagnostic différentiel en fonction du fonctionnement des cellules dans différents types de tumeurs.


Mais en faisant cette analyse, nous prenons un morceau de tissu et il y a beaucoup de cellules différentes. Ce sont des cellules tumorales et des cellules saines, et une sorte de lymphocytes s'y glissent - beaucoup de tout. Vous devez décomposer le travail moyen des gènes, que vous pouvez mesurer dans une expérience, sur le fonctionnement des gènes dans chaque type de cellule. Vous pouvez estimer la proportion de ces cellules. C'est la tâche de la décomposition. Dans un contexte naïf, tout le monde pense qu'il peut être résolu simplement comme un problème d'algèbre linéaire, comme un grand système d'équations linéaires. Il s'avère que le bruit dans les données et d'autres difficultés le font beaucoup tourner. Cela ne peut pas être réduit à une simple algèbre linéaire. J'ai vu cela plusieurs fois: un étudiant vient, dit - ici, nous allons écrire l'équation maintenant, et c'est tout. Mais les figues. Mais c’est un avantage direct pour l’humanité: rechercher des signatures sur le cancer.


Il y aura une très bonne science, elle se produit déjà - un développement précoce. Nous déterminons maintenant le fonctionnement des gènes dans un mélange de cellules, dans un échantillon où il y a des millions de cellules. Mais vous devez pouvoir faire la même chose dans une seule cellule, et pour cela - gagner un gros bruit. Ensuite, nous pouvons regarder, par exemple, l'embryologie, regarder les trajectoires de développement des cellules aux tout premiers stades, quand elles sont encore peu nombreuses. Vous pouvez voir comment la différenciation précoce des cellules se produit, et l'embryologie deviendra complètement différente avec ces histoires dans un avenir proche, un bon travail sera fait. C'est de l'embryologie évolutive. Non seulement en regardant comment l'anatomie diffère chez les primates et les rongeurs (c'est un classique du XIXe siècle), mais en observant comment ces différences sont établies à un stade très précoce en raison des gènes qui fonctionnent où. Ce sera.


À quoi ressemble le spécialiste idéal qui viendrait maintenant dans ce domaine et apporterait de nombreux avantages? Que devrait-il pouvoir? Où le fait-il?


Il doit connaître la biologie. Tout d'abord, il existe un programme de maîtrise en sciences de la vie à Skoltech. Une personne sans éducation biologique peut également s'y rendre. Ce sera difficile pour lui, mais il existe de tels exemples.


Il existe un programme d'analyse des données de biologie et de médecine à l'École supérieure d'économie de la Faculté d'informatique. Là, vous pouvez, au contraire, vous passer de l'enseignement de l'informatique. Les biologistes sont également là, mais il y aura moins de biologie et plus de bioinformatique. C'est pour les maîtres. Et pour les élèves de 11 ans, il y a une faculté de bioingénierie et de bioinformatique à l'Université d'État de Moscou. C'est si nous parlons de Moscou.


À Saint-Pétersbourg, il y a des programmes de bioinformatique à l'Université de Saint-Pétersbourg et à l'ITMO, à mon avis, mais j'en sais moins sur eux.


Ă€ propos de Mikhail Gelfand



Comment en êtes-vous arrivée à cette science?


Incapacité à faire des mathématiques. Au moment où le mehmat a fini, j'ai réalisé que je ne suis pas bon pour prouver des théorèmes, sans parler de les inventer. Et j’ai eu beaucoup de chance, car la bioinformatique ne faisait que commencer, alors vous pouviez simplement y venir, et c’est tout.


J'ai toujours aimé la biologie: j'ai attrapé des papillons, des insectes tourmentés, c'est tout. Pour moi, aller à la biologie était tout à fait naturel. De plus, je m'intéressais à la linguistique, je suis allé au cercle, aux JO. Et la bioinformatique dans ce sens est une science plutôt linguistique, si elle est correctement traitée. C'était donc un choix très naturel, du moins pour moi.


Que fais-tu en ce moment?


Personnellement, je m'occupe principalement de l'édition des transcriptions des poulpes, d'où proviennent les pupes des papillons, des coléoptères, des fourmis, des abeilles et de tous les insectes qui ont des pupes. J'ai une certaine théorie.


Les cafards n'ont pas de pupes. Il est petit, noir et ne ressemble pas Ă  un cafard, puis il mue plusieurs fois et devient de plus en plus comme un cafard Ă  chaque fois. Mais il y a des insectes qui ont un stade nymphal, et nous semblons avoir compris d'oĂą il vient. Si nous parvenons Ă  le montrer soigneusement, ce sera cool.


J'analyse quelles bactéries vivent dans les pucerons, les coraux et la mine de pétrole. C'est arrivé historiquement. Avec les pucerons, nous avons de bons collaborateurs en Biélorussie, avec des coraux - des collaborateurs à Moscou qui ramassent des morceaux de ces coraux. Et en ce qui concerne les puits de pétrole, j'ai un étudiant diplômé incroyablement actif qui donne simplement un coup de fouet aux compagnies pétrolières et leur confie cette tâche. Autrement dit, ce sont des tâches opportunistes, en fait.


Je m'occupe du repliement de l'ADN dans une cellule et de la façon dont ce repliement affecte le fonctionnement des gènes.


Je fais beaucoup - ou plutôt, des étudiants diplômés - dans l'évolution des bactéries, parce que cette chose est assez mal décrite, vous pouvez la voir différemment. Et en général, comprendre comment les bactéries évoluent, d'où viennent les espèces bactériennes, comment elles sont divisées en espèces. Ce n'est pas que c'était bien fait. Ce n'est pas un domaine très à la mode, mais vous pouvez également y faire beaucoup de choses sympas.


Je fais comment les gènes sont régulés, principalement chez les bactéries, et comment ces réseaux régulateurs évoluent. Vous pouvez comparer des espèces proches, voir comment elles diffèrent, comprendre (ou ne pas comprendre) comment ces changements se produisent.




Mikhail Gelfand est l'un des orateurs de la conférence YaTalks, qui aura lieu le 30 novembre dans la salle de conférence Paveletsky Space à Moscou. L'inscription est ouverte et disponible ici .

Source: https://habr.com/ru/post/fr476164/


All Articles