Il y a prÚs d'un an, à l'été 2017, une école d'été traditionnelle de l'Institut de bioinformatique s'est tenue au MIPT. Le thÚme principal de l'école cette année était
l'exploration de donnĂ©es . Pourquoi? La quantitĂ© de donnĂ©es obtenues en biologie et en mĂ©decine augmente Ă un rythme incroyable. Dans le mĂȘme temps, il est physiquement impossible de dĂ©tecter manuellement des choses auparavant inconnues dans un tel volume d'informations (et avec les algorithmes classiques est Ă©galement difficile), vous devez donc utiliser des statistiques et complĂ©ter l'intelligence naturelle avec artificielle.
C'est ce que les participants de l'école d'été faisaient activement.
Cet article contient 22 vidĂ©os de confĂ©rences avec des diapositives et des descriptions pour tous ceux qui s'intĂ©ressent au sujet de l'analyse des donnĂ©es en bioinformatique. Les confĂ©rences qui peuvent ĂȘtre visionnĂ©es sans prĂ©paration supplĂ©mentaire sont marquĂ©es d'un astĂ©risque «*» (la moitiĂ© d'entre elles).
1 *. Introduction à la bioinformatique (Alexander Predeus, Institut de bioinformatique)Vidéo |
DiapositivesLa conférence discute des principaux domaines dans lesquels la bioinformatique dans la science et l'industrie travaillent, en particulier la bioinformatique et les raisons de sa popularité aujourd'hui.
2 *. Introduction à l'apprentissage automatique (Grigory Sapunov, Intento)Vidéo |
DiapositivesL'augmentation constante de la quantité de données contribue au développement de processus de plus en plus complexes de traitement, de recherche et de récupération d'informations. Une façon de résoudre ces problÚmes est d'utiliser l'intelligence artificielle. Cette conférence est consacrée à une brÚve introduction aux bases de l'apprentissage automatique. Gregory a expliqué la terminologie générale dans ce domaine et a également décrit les types de tùches résolues par l'apprentissage automatique. En outre, la conférence présente les principales étapes de l'apprentissage automatique, les types de modÚles et les mesures de qualité des données reçues.
3 *. Introduction au Deep Learning (Grigory Sapunov, Intento)Vidéo |
DiapositivesL'apprentissage en profondeur (ou apprentissage en profondeur) gagne actuellement en popularité en raison de la capacité de ne pas prescrire d'algorithmes spécifiques pour résoudre le problÚme, mais d'utiliser la formation dans les représentations. Le développement de ces méthodes est également facilité par une augmentation de la puissance de traitement des processeurs. La conférence est consacrée aux bases des réseaux de neurones: leurs types (réseaux de neurones entiÚrement connectés, auto-encodeurs, convolutionnels, récurrents) et les tùches qu'ils résolvent. Séparément, Gregory a décrit l'état actuel et les tendances.
4 *. Introduction à l'oncogénomique et à l'analyse des données omix en oncologie (Mikhail Pyatnitsky, VN Orekhovich Research Institute of Biomedical Chemistry)Vidéo |
DiapositivesSéquençage du génome humain, étude des variations génétiques humaines, séquençage du métagénome humain, analyse transcriptionnelle des tissus humains - toutes ces méthodes biologiques dans l'application au «Big Data» ont donné aux scientifiques de nombreuses informations précieuses sur ce qui rend les humains différents des autres animaux. Cette conférence est consacrée à l'omique et à son utilisation pratique. Par ailleurs, Michael a évoqué l'utilisation de ces données en oncologie.
5. Multiomique en biologie: intégration technologique (Konstantin Okonechnikov, Centre allemand de recherche sur le cancer)Vidéo |
DiapositivesLe dĂ©veloppement rapide des technologies expĂ©rimentales en biologie molĂ©culaire, comme par exemple le sĂ©quençage, a permis de combiner l'Ă©tude d'un large Ă©ventail de processus fonctionnels se produisant dans les cellules, les organes ou mĂȘme le corps entier. La confĂ©rence explique comment combiner correctement les donnĂ©es expĂ©rimentales massives obtenues Ă partir de la gĂ©nomique, de la transcriptomique et de l'Ă©pigĂ©nomique pour Ă©tablir des relations entre les composants des processus biologiques en cours. Des exemples illustratifs de l'utilisation de la multiomique sont sĂ©lectionnĂ©s dans le domaine trĂšs recherchĂ© de la recherche sur le cancer, en mettant l'accent sur l'oncologie pĂ©diatrique.
6. Génétique quantitative: histoire et perspectives (Yuri Aulchenko, Laboratoire de génomique fonctionnelle théorique et appliquée, FEN NSU, groupe de méthodes d'analyse génétique, ICG SB RAS)Vidéo |
DiapositivesLa génétique quantitative est une science exacte, qui est basée sur un petit nombre d'observations clés et de modÚles de base qui permettent une description quantitative des phénomÚnes (micro) évolutifs naturels et prédisent les résultats des expériences génétiques. Elle utilise un puissant appareil mathématique. De nombreuses méthodes statistiques modernes ont été initialement développées pour résoudre les problÚmes de génétique quantitative. Le développement révolutionnaire des technologies de biologie moléculaire au cours de la derniÚre décennie a permis de caractériser des centaines de milliers d'organismes vivants par des millions de paramÚtres génomiques et autres «omix». Le nombre total d'expériences et de données déjà accumulées est énorme. La tùche urgente de la génétique quantitative moderne est le développement de modÚles qui décriront l'héritage de la haute dimension phénotypique à plusieurs niveaux. Dans sa conférence, Yuri a donné un bref aperçu de l'histoire de la génétique quantitative et des problÚmes auxquels cette science est confrontée.
7 *. Technologies de séquençage (Kirill Grigoriev, Caribbean Genome Center, Université de Puerto Rico)Vidéo |
DiapositivesLe développement et l'évolution des processus de séquençage sont inextricablement liés à l'évolution des capacités technologiques. La conférence montre l'histoire et le processus de développement des technologies de séquençage de Sanger à nos jours. Par ailleurs, Cyril a évoqué les avantages et les inconvénients de chacune des méthodes actuellement existantes, ainsi que la nature des données obtenues et leur application dans différents domaines.
8. Transcriptomique: méthodes pratiques et algorithmes appliqués (Alexander Predeus, Institut de bioinformatique)Vidéo |
DiapositivesLa transcriptomique a en toute confiance pris une place dans la liste des tùches les plus populaires auxquelles la NGS-bioinformatique est confrontée. L'analyse différentielle de l'expression des gÚnes, le regroupement des données d'expression et l'interprétation des données en termes de cascades métaboliques et de signalisation fournissent des informations riches sur presque tous les systÚmes. La conférence couvre les meilleures disciplines, les principaux problÚmes rencontrés dans la conception des expériences et du traitement, ainsi que des cas pratiques d'application réussie des approches de transcriptome.
9. Analyse des donnĂ©es NGS en gĂ©nĂ©tique mĂ©dicale: dĂ©finition, annotation et interprĂ©tation des variantes gĂ©nĂ©tiques (Yuri Barbitov, UniversitĂ© d'Ătat de Saint-PĂ©tersbourg, Alexander Predeus, Institut de bioinformatique)VidĂ©o |
DiapositivesL'utilisation du séquençage d'une nouvelle génération a longtemps dépassé les limites de la science classique et a été appliquée avec succÚs dans de nombreux autres domaines, y compris les soins de santé. La conférence est consacrée aux aspects clés de l'analyse des données de séquençage d'une nouvelle génération en génétique médicale. Yuri a montré tout le chemin de l'obtention des lectures brutes au diagnostic, en mentionnant les difficultés rencontrées pour déterminer, annoter et interpréter les variantes génétiques. Par ailleurs, il a évoqué les erreurs courantes commises à chaque étape du traitement des données. En conclusion, un bref aperçu des domaines de recherche prometteurs qui peuvent améliorer la précision du diagnostic en utilisant des méthodes de séquençage hautes performances est donné.
10. Application pratique de ChIP-Seq et des méthodes connexes (Alexander Predeus, Institute of Bioinformatics)Vidéo |
DiapositivesLes méthodes ChIP-Seq, ainsi que «l'empreinte génomique» (ATAC-Seq, FAIRE-Seq, DNase-Seq) sont largement utilisées pour trouver des mécanismes de régulation des processus biologiques, en particulier, pour la régulation transcriptionnelle. L'espace potentiel des facteurs étudiés est trÚs multidimensionnel, mais l'approche sélective permet d'obtenir des informations riches sur la régulation dans le systÚme à partir de quelques expériences. En utilisant l'exemple des théories modernes contradictoires, Alexander a montré les principales difficultés d'interprétation des informations réglementaires et la maniÚre de consolider les résultats.
11 *. Que puis-je faire avec les données iScan (Tatyana Tatarinova, Université de La Verne)Vidéo |
DiapositivesLa société Illumina produit un grand nombre d'appareils pour différents besoins. L'écaillage vous permet de détecter rapidement les polymorphismes d'un seul nucléotide (SNP) pour un grand nombre d'échantillons. La conférence est consacrée à l'examen des données des puces iScan et à leur application dans le diagnostic clinique.
12. Deep Learning in Computational Biology (Dmitry Fishman, Université de Tartu)Vidéo |
DiapositivesL'apprentissage en profondeur est activement utilisé non seulement pour améliorer la traduction automatique ou la reconnaissance vocale, mais vous permet également de résoudre de nombreux problÚmes dans le domaine de la biologie computationnelle. La conférence est consacrée à l'application de méthodes d'apprentissage en profondeur sur des exemples biologiques spécifiques. Dmitry a parlé des nouveautés de la biologie et de la médecine en utilisant l'apprentissage en profondeur, et est-il possible de dire que les machines révolutionnent la médecine et la biologie.
13 *. Application de mĂ©thodes d'apprentissage automatique pour rechercher des mutations pathogĂšnes potentielles dans le gĂ©nome humain (Anna Ershova, Institut de physique et de technologie de Moscou, Institut de recherche en biologie physique et chimique, UniversitĂ© d'Ătat de Moscou nommĂ©e d'aprĂšs MV Lomonosov, Centre fĂ©dĂ©ral de recherche en Ă©pidĂ©miologie et en microbiologie nommĂ© d'aprĂšs N.F. Gamalei)VidĂ©o |
DiapositivesLa recherche de mutations pathogÚnes est devenue pertinente dans le cadre du séquençage du génome humain. Cependant, la résolution manuelle d'un tel problÚme est tout simplement impossible. La conférence explique comment l'apprentissage automatique peut vous y aider.
14 *. Immunoinformatique (Vadim Nazarov, HSE, IBCh RAS)Vidéo |
DiapositivesL'apprentissage automatique a longtemps été activement utilisé dans divers domaines de la vie, mais en immunologie, il a récemment trouvé sa place. Dans cette conférence, Vadim a parlé de plusieurs exemples d'utilisation de la machine et de l'apprentissage en profondeur en immunologie, y compris la tùche de prédire la liaison des complexes CMH-peptide et l'analyse des répertoires des récepteurs des cellules T.
15 *. Ătude de l'adaptation de l'hĂŽte et du dĂ©veloppement de la rĂ©sistance aux virus du VIH et de l'hĂ©patite C Ă l'aide de mĂ©thodes de bioinformatique structurelle (Olga Kalinina, Max Planck Institute for Informatics)VidĂ©o |
DiapositivesLe virus de l'immunodéficience humaine (VIH) et le virus de l'hépatite C provoquent des maladies graves qui sont difficiles à traiter. Comme de nombreux autres virus rétro et ARN, ces virus évoluent rapidement et peuvent donc s'adapter à la fois aux effets de médicaments antiviraux spécifiques et à la réponse immunitaire adaptative de l'organisme hÎte. Dans cette conférence, Olga a montré comment, en combinant l'analyse des séquences de protéines virales avec une analyse de leur structure spatiale, on peut faire des prédictions sur le développement de mécanismes de résistance et l'interaction des virus avec le systÚme immunitaire de l'hÎte.
16. Prédiction de l'effet des mutations (Vasily Ramensky, MIPT)Vidéo |
DiapositivesLes méthodes de séquençage modernes fournissent une énorme quantité d'informations sur le polymorphisme du génome, c'est-à -dire les différences entre les génomes individuels les uns des autres. Ces différences (variantes) résultent de mutations au cours de la réplication de l'ADN et sont partiellement fixées dans la population. La prévalence, la localisation et l'effet fonctionnel des variantes génomiques varient considérablement - de la mortalité complÚte à l'absence d'effet sur un phénotype individuel. La conférence discute des approches modernes pour prédire l'effet fonctionnel des options utilisées en médecine personnalisée, médicale et génétique des populations.
17. ModĂ©lisation et conception multi-Ă©chelles de molĂ©cules biologiques (Nikolai Dokholyan, UniversitĂ© de Caroline du Nord Ă Chapel Hill)VidĂ©oLa vie des molĂ©cules biologiques couvre des Ă©chelles de temps et de longueur correspondant aux Ă©chelles de temps et aux longueurs de l'atome au cellulaire. Par consĂ©quent, les nouvelles approches de la modĂ©lisation molĂ©culaire devraient ĂȘtre intrinsĂšquement multi-Ă©chelles. Dans sa confĂ©rence, Nikolai a dĂ©crit plusieurs mĂ©thodologies dĂ©veloppĂ©es dans son laboratoire: un algorithme pour la modĂ©lisation dynamique dynamique discrĂšte rapide, la conception de protĂ©ines et des outils de raffinement structurel. En utilisant ces mĂ©thodologies, plusieurs applications peuvent ĂȘtre dĂ©crites qui Ă©clairent l'Ă©tiologie molĂ©culaire de la fibrose kystique et trouvent de nouvelles stratĂ©gies pharmaceutiques pour lutter contre cette maladie, modĂ©liser la structure de l'ARN tridimensionnel et dĂ©velopper de nouvelles approches pour contrĂŽler les protĂ©ines dans les cellules et les organismes vivants.
18. Pliage homologue de protĂ©ines (Pavel Yakovlev, BIOCAD)VidĂ©oEn biologie structurale moderne, il existe un certain nombre de mĂ©thodes de calcul qui permettent de caractĂ©riser des molĂ©cules biologiques avec une grande fiabilitĂ©, leur similitude et leurs diffĂ©rences, des mĂ©thodes d'interaction et des fonctions. Pour construire de tels calculs, le paramĂštre spatial de la protĂ©ine agit toujours comme un paramĂštre d'entrĂ©e, cependant, sa prĂ©paration peut ĂȘtre difficile, malgrĂ© un demi-siĂšcle de progrĂšs dans le domaine de la cristallographie. La confĂ©rence est consacrĂ©e Ă la rĂ©solution de ce problĂšme Ă l'aide d'une modĂ©lisation homologue des structures protĂ©iques - la construction de structures tridimensionnelles Ă partir de fragments similaires. Par exemple, nous considĂ©rons les domaines variables des anticorps - protĂ©ines avec une diversitĂ© structurelle unique de boucles variables.
19. Comment arrĂȘter de mĂ©diter et commencer Ă modeler (Arthur Zalevsky, UniversitĂ© d'Ătat de Moscou du nom de MV Lomonosov)VidĂ©o |
DiapositivesUne grande quantité de données obtenues par la méthode NGS permet non seulement d'en tirer des conclusions biologiques, mais aussi de les utiliser pour la modélisation. Les modÚles construits permettent de mieux comprendre les données biologiques et d'obtenir encore plus de sens biologique de l'expérience. La conférence est consacrée à la modélisation et aux étapes initiales de ce processus.
20 *. Debout sur les épaules de géants, ou pourquoi avons-nous besoin de consortiums (Demidov allemand, Centre de régulation génomique, Institut des sciences et technologies de Barcelone, Universitat Pompeu Fabra)Vidéo |
DiapositivesAu cours des derniĂšres dĂ©cennies, le dĂ©veloppement de la biologie a Ă©tĂ© associĂ© Ă l'accumulation de tableaux de donnĂ©es, si Ă©norme que les groupes de recherche individuels ne pouvaient plus faire face Ă leur analyse bioinformatique. Afin de rĂ©soudre ce problĂšme, des consortiums ont commencĂ© Ă ĂȘtre créés Ă partir de dizaines de laboratoires, tels que le projet du gĂ©nome humain, 1000GP, ENCODE et d'autres. GrĂące Ă de telles collaborations, il existe diffĂ©rents types de donnĂ©es dans le domaine public, obtenues Ă l'aide de diffĂ©rentes technologies. Par consĂ©quent, la comparaison de nouvelles donnĂ©es expĂ©rimentales avec celles existantes est devenue un Ă©lĂ©ment standard de toute Ă©tude. Les consortiums produisent non seulement des donnĂ©es, mais aussi des pipelines bioinformatiques pour leur traitement, des formats standard et des procĂ©dures d'Ă©valuation de la qualitĂ©. Cette confĂ©rence explique comment les consortiums fonctionnent, comment utiliser les rĂ©sultats de leur travail et que faire si vous vous retrouvez soudainement membre d'un tel consortium et que vous devez traiter des tĂ©raoctets de donnĂ©es, puis partager les rĂ©sultats avec tous les autres participants.
21 *. Aperçu des entreprises de bioinformatique en Russie et dans le monde (Andrey Afanasyev, yRisk)Vidéo |
DiapositivesDans le monde moderne, la science et les affaires sont de plus en plus étroitement liées. Cette tendance et le domaine de la bioinformatique n'ont pas été contournés. Andrey a parlé des attentes et de la réalité du marché, des réussites et des échecs, des personnes et des lieux liés à la bioinformatique.
22. Analyse avancée des variations (SNV, InDel, SV) à l'aide du navigateur génomique NGB (Gennady Zakharov, EPAM, IP Pavlov Institute of Physiology, RAS)Vidéo |
DiapositivesLa conférence couvre le processus d'analyse visuelle des variations simples (SNV, InDel) et structurelles dans le navigateur génomique. Tous les exemples sont illustrés à l'aide du navigateur NGB, qui répond à la plupart des exigences et recommandations de l'analyse des variations structurelles, y compris divers types de visualisations et l'obtention d'annotations à partir de bases de données externes. Dans une conférence sur des exemples réels, des scénarios de validation et d'analyse des conséquences de variations simples et structurelles sont présentés.
Postface
Pour ceux qui
ne comprennent rien, ils veulent se développer dans le domaine de la bioinformatique - jusqu'au 27 mai, l'acceptation des candidatures pour une
école d'été en cette
année 2018
est toujours ouverte. L'Ă©cole elle-mĂȘme se tiendra du 23 au 28 juillet prĂšs de Saint-PĂ©tersbourg. Il est possible de sauter dans la derniĂšre voiture et de montrer fiĂšrement Ă tout le monde un message avec un aperçu des confĂ©rences de l'annĂ©e prochaine, en disant qu'ils l'ont vu personnellement.
En 2017, l'école s'est tenue avec le soutien de nos partenaires réguliers -
JetBrains ,
BIOCAD et
EPAM Systems , pour lesquels un
grand merci Ă eux.
Par ailleurs, un
poste avec des conférences de l'année avant les derniÚres écoles .
Toute la bioinformatique!