Vorlesungen zur Bioinformatik: Datenanalyse, neuronale Netze und ihre Anwendung in Biologie und Medizin

Vor fast einem Jahr, im Sommer 2017, fand am MIPT eine traditionelle Sommerschule des Instituts für Bioinformatik statt. Das Hauptthema der Schule in diesem Jahr war Data Mining . Warum? Die Datenmenge in Biologie und Medizin wächst mit unglaublicher Geschwindigkeit. Gleichzeitig ist es physikalisch unmöglich, bisher unbekannte Dinge in einem solchen Informationsvolumen manuell zu erkennen (und mit klassischen Algorithmen ist dies ebenfalls schwierig). Daher müssen Sie Statistiken verwenden und die natürliche Intelligenz durch künstliche ergänzen.

Dies taten die Teilnehmer der Sommerschule aktiv. Dieser Beitrag enthält 22 Vorlesungsvideos mit Folien und Beschreibungen für alle, die sich für das Thema Datenanalyse in der Bioinformatik interessieren. Vorlesungen, die ohne zusätzliche Vorbereitung angesehen werden können, sind mit einem Sternchen „*“ gekennzeichnet (die Hälfte davon).

Bild

1 *. Einführung in die Bioinformatik (Alexander Predeus, Institut für Bioinformatik)

Video | Folien

In der Vorlesung werden die Hauptbereiche der Bioinformatik in Wissenschaft und Industrie, insbesondere die Bioinformatik, und die Gründe für ihre heutige Popularität erörtert.


Bild

2 *. Einführung in das maschinelle Lernen (Grigory Sapunov, Intento)

Video | Folien

Die stetig wachsende Datenmenge trägt zur Entwicklung immer komplexerer Prozesse der Verarbeitung, Suche und des Abrufs von Informationen bei. Eine Möglichkeit, solche Probleme zu lösen, ist die Verwendung künstlicher Intelligenz. Diese Vorlesung widmet sich einer kurzen Einführung in die Grundlagen des maschinellen Lernens. Gregory erklärte die allgemeine Terminologie in diesem Bereich und beschrieb auch die Arten von Aufgaben, die durch maschinelles Lernen gelöst wurden. Darüber hinaus werden in der Vorlesung die Hauptphasen des maschinellen Lernens, Modelltypen und Qualitätsmetriken der empfangenen Daten vorgestellt.

3 *. Einführung in Deep Learning (Grigory Sapunov, Intento)

Video | Folien

Deep Learning (oder Deep Learning) gewinnt derzeit an Popularität, da keine spezifischen Algorithmen zur Lösung des Problems vorgeschrieben werden können, sondern Training in Repräsentationen verwendet werden kann. Die Entwicklung dieser Methoden wird auch durch eine Erhöhung der Verarbeitungsleistung von Prozessoren erleichtert. Die Vorlesung widmet sich den Grundlagen neuronaler Netze: ihren Typen (vollständig verbundene neuronale Netze, Auto-Encoder, Faltung, wiederkehrende) und den Aufgaben, die sie lösen. Unabhängig davon skizzierte Gregory den aktuellen Stand und die Trends.


Bild

4 *. Einführung in die Onkogenomik und Analyse von Omix-Daten in der Onkologie (Mikhail Pyatnitsky, VN Orekhovich Research Institute of Biomedical Chemistry)

Video | Folien

Sequenzierung des menschlichen Genoms, Untersuchung genetischer Variationen beim Menschen, Sequenzierung des menschlichen Metagenoms, Transkriptionsanalyse von menschlichem Gewebe - all diese biologischen Methoden in der Anwendung auf „Big Data“ gaben Wissenschaftlern viele wertvolle Informationen darüber, was Menschen von anderen Tieren unterscheidet. Diese Vorlesung widmet sich den Omics und ihrer praktischen Anwendung. Unabhängig davon ging Michael auf die Verwendung dieser Daten in der Onkologie ein.


Bild

5. Multiomik in der Biologie: Technologieintegration (Konstantin Okonechnikov, Deutsches Krebsforschungszentrum)

Video | Folien

Die schnelle Entwicklung experimenteller Technologien in der Molekularbiologie, wie zum Beispiel die Sequenzierung, ermöglichte es, die Untersuchung einer Vielzahl von Funktionsprozessen in Zellen, Organen oder sogar im gesamten Körper zu kombinieren. In der Vorlesung wird diskutiert, wie massive experimentelle Daten aus Genomik, Transkriptomik und Epigenomik korrekt kombiniert werden können, um Beziehungen zwischen Komponenten laufender biologischer Prozesse herzustellen. Illustrative Beispiele für den Einsatz von Multiomics werden aus dem stark nachgefragten Bereich der Krebsforschung mit Schwerpunkt auf pädiatrischer Onkologie ausgewählt.


Bild

6. Quantitative Genetik: Geschichte und Perspektiven (Yuri Aulchenko, Labor für Theoretische und Angewandte Funktionelle Genomik, FEN NSU, Gruppe von Methoden der genetischen Analyse, ICG SB RAS)

Video | Folien

Quantitative Genetik ist eine exakte Wissenschaft, die auf einer kleinen Anzahl von Schlüsselbeobachtungen und Grundmodellen basiert, die eine quantitative Beschreibung natürlicher (Mikro-) Evolutionsphänomene ermöglichen und die Ergebnisse genetischer Experimente vorhersagen. Sie benutzt einen mächtigen mathematischen Apparat. Viele moderne statistische Methoden wurden ursprünglich entwickelt, um die Probleme der quantitativen Genetik zu lösen. Die bahnbrechende Entwicklung molekularbiologischer Technologien im letzten Jahrzehnt hat es ermöglicht, Hunderttausende lebender Organismen anhand von Millionen genomischer und anderer "Omix" -Parameter zu charakterisieren. Die Gesamtzahl der bereits gesammelten Experimente und Daten ist enorm. Die dringende Aufgabe der modernen quantitativen Genetik ist die Entwicklung von Modellen, die die Vererbung einer mehrstufigen phänotypischen Hochdimension beschreiben. In seinem Vortrag gab Yuri einen kurzen Überblick über die Geschichte der quantitativen Genetik und die Probleme, mit denen diese Wissenschaft konfrontiert ist.


Bild

7 *. Sequenzierungstechnologien (Kirill Grigoriev, Karibisches Genomzentrum, Universität von Puerto Rico)

Video | Folien

Die Entwicklung und Entwicklung von Sequenzierungsprozessen ist untrennbar mit der Entwicklung technologischer Fähigkeiten verbunden. Die Vorlesung zeigt die Geschichte und den Entwicklungsprozess von Sequenzierungstechnologien von Sanger bis heute. Unabhängig davon sprach Cyril über die Vor- und Nachteile der derzeit vorhandenen Methoden sowie über die Art der erhaltenen Daten und ihre Anwendung in verschiedenen Bereichen.



8. Transkriptomik: praktische Methoden und angewandte Algorithmen (Alexander Predeus, Institut für Bioinformatik)

Video | Folien

Die Transkriptomik nahm sicher einen Platz in der Liste der beliebtesten Aufgaben der NGS-Bioinformatik ein. Die differenzielle Analyse der Genexpression, die Clusterbildung von Expressionsdaten und die Interpretation der Daten in Bezug auf Stoffwechsel- und Signalkaskaden liefern umfassende Informationen zu nahezu jedem System. Die Vorlesung behandelt die besten Piplinen, die Hauptproblembereiche bei der Gestaltung von Experimenten und der Verarbeitung sowie praktische Fälle für die erfolgreiche Anwendung von Transkriptomansätzen.


Bild

9. Analyse von NGS-Daten in der medizinischen Genetik: Definition, Annotation und Interpretation genetischer Varianten (Yuri Barbitov, Staatliche Universität St. Petersburg, Alexander Predeus, Institut für Bioinformatik)

Video | Folien

Die Verwendung der Sequenzierung einer neuen Generation hat die Grenzen der klassischen Wissenschaft längst überschritten und wurde in vielen anderen Bereichen, einschließlich des Gesundheitswesens, erfolgreich angewendet. Die Vorlesung widmet sich Schlüsselaspekten der Analyse von Sequenzierungsdaten einer neuen Generation in der medizinischen Genetik. Yuri zeigte den gesamten Weg vom Erhalten von Rohdaten bis zur Diagnose auf und erwähnte die Schwierigkeiten bei der Bestimmung, Annotation und Interpretation genetischer Varianten. Separat ging er auf die häufigen Fehler ein, die in jeder Phase der Datenverarbeitung gemacht wurden. Abschließend wird ein kurzer Überblick über vielversprechende Forschungsbereiche gegeben, die die Genauigkeit der Diagnose mithilfe von Hochleistungs-Sequenzierungsmethoden verbessern können.


10. Praktische Anwendung von ChIP-Seq und verwandten Methoden (Alexander Predeus, Institut für Bioinformatik)

Video | Folien

ChIP-Seq-Methoden sowie das „genomische Footprinting“ (ATAC-Seq, FAIRE-Seq, DNase-Seq) werden häufig verwendet, um Mechanismen der Regulation biologischer Prozesse zu finden, insbesondere für die Transkriptionsregulation. Der potenzielle Raum der untersuchten Faktoren ist sehr mehrdimensional, aber der selektive Ansatz ermöglicht es, anhand weniger Experimente umfassende Informationen über die Regulation im System zu erhalten. Am Beispiel widersprüchlicher moderner Theorien zeigte Alexander die Hauptschwierigkeiten bei der Interpretation regulatorischer Informationen und bei der Konsolidierung der Ergebnisse.


Bild

11 *. Was kann ich mit iScan-Daten tun (Tatyana Tatarinova, Universität La Verne)

Video | Folien

Das Unternehmen Illumina produziert eine Vielzahl von Geräten für unterschiedliche Anforderungen. Durch Chipping können Sie schnell Einzelnukleotidpolymorphismen (SNPs) für eine große Anzahl von Proben erkennen. Die Vorlesung widmet sich der Überprüfung von Daten aus iScan-Chips und deren Anwendung in der klinischen Diagnostik.


Bild

12. Deep Learning in Computational Biology (Dmitry Fishman, Universität Tartu)

Video | Folien

Deep Learning wird nicht nur aktiv zur Verbesserung der maschinellen Übersetzung oder Spracherkennung eingesetzt, sondern ermöglicht es Ihnen auch, viele Probleme auf dem Gebiet der Computerbiologie zu lösen. Die Vorlesung widmet sich der Anwendung von Deep-Learning-Methoden auf bestimmte biologische Beispiele. Dmitry sprach mit Deep Learning über die Neuerungen in Biologie und Medizin, und man kann sagen, dass Maschinen Medizin und Biologie revolutionieren.


Bild

13 *. Anwendung maschineller Lernmethoden zur Suche nach potenziellen pathogenen Mutationen im menschlichen Genom (Anna Ershova, Moskauer Institut für Physik und Technologie, Forschungsinstitut für physikalische und chemische Biologie, Moskauer Staatliche Universität, benannt nach MV Lomonosov, Bundesforschungszentrum für Epidemiologie und Mikrobiologie, benannt nach N. F. Gamalei)

Video | Folien

Die Suche nach pathogenen Mutationen ist im Zusammenhang mit der Sequenzierung des menschlichen Genoms relevant geworden. Es ist jedoch einfach unmöglich, ein solches Problem manuell zu lösen. In der Vorlesung geht es darum, wie Ihnen maschinelles Lernen dabei helfen kann.


Bild

14 *. Immunoinformatik (Vadim Nazarov, HSE, IBCh RAS)

Video | Folien

Maschinelles Lernen wird seit langem in verschiedenen Lebensbereichen aktiv eingesetzt, aber in der Immunologie haben sie kürzlich einen Platz dafür gefunden. In diesem Vortrag sprach Vadim über mehrere Beispiele für den Einsatz von maschinellem und tiefem Lernen in der Immunologie, einschließlich der Aufgabe, die Bindung von MHC-Peptid-Komplexen vorherzusagen und das Repertoire von T-Zell-Rezeptoren zu analysieren.


Bild

15 *. Untersuchung der Anpassung des Wirts und der Resistenzentwicklung bei HIV- und Hepatitis-C-Viren mithilfe struktureller Bioinformatik-Methoden (Olga Kalinina, Max-Planck-Institut für Informatik)

Video | Folien

Das Human Immunodeficiency Virus (HIV) und das Hepatitis C-Virus verursachen schwere Krankheiten, die schwer zu behandeln sind. Wie viele andere Retro- und RNA-Viren entwickeln sich diese Viren schnell und können sich daher sowohl an die Wirkungen spezifischer antiviraler Arzneimittel als auch an die adaptive Immunantwort des Wirtsorganismus anpassen. In dieser Vorlesung zeigte Olga, wie man durch die Kombination der Analyse viraler Proteinsequenzen mit einer Analyse ihrer räumlichen Struktur Vorhersagen über die Entwicklung von Resistenzmechanismen und die Interaktion von Viren mit dem Immunsystem des Wirts treffen kann.


Bild

16. Vorhersage der Wirkung von Mutationen (Vasily Ramensky, MIPT)

Video | Folien

Moderne Sequenzierungsmethoden liefern eine große Menge an Informationen über den Polymorphismus des Genoms, dh die Unterschiede zwischen einzelnen Genomen. Diese Unterschiede (Varianten) entstehen durch Mutationen während der DNA-Replikation und sind teilweise in der Population fixiert. Die Prävalenz, Lokalisation und funktionelle Wirkung genomischer Varianten ist sehr unterschiedlich - von der vollständigen Mortalität bis zum Fehlen jeglicher Auswirkungen auf einen einzelnen Phänotyp. Die Vorlesung diskutiert moderne Ansätze zur Vorhersage der funktionellen Wirkung von Optionen, die in der personalisierten Medizin, Medizin und Populationsgenetik verwendet werden.


Bild

17. Multiskalenmodellierung und Design biologischer Moleküle (Nikolai Dokholyan, Universität von North Carolina, Chapel Hill)

Video

Das Leben biologischer Moleküle umfasst Zeit- und Längenskalen, die Zeitskalen und Längen von atomar bis zellulär entsprechen. Folglich sollten neue Ansätze zur molekularen Modellierung von Natur aus mehrskalig sein. In seinem Vortrag beschrieb Nikolai verschiedene in seinem Labor entwickelte Methoden: einen Algorithmus für schnelle diskrete molekulardynamische Modellierung, Proteindesign und strukturelle Verfeinerungswerkzeuge. Mit diesen Methoden können verschiedene Anwendungen beschrieben werden, die Aufschluss über die molekulare Ätiologie der Mukoviszidose geben und neue pharmazeutische Strategien zur Bekämpfung dieser Krankheit finden, die Struktur dreidimensionaler RNA modellieren und neue Ansätze zur Kontrolle von Proteinen in lebenden Zellen und Organismen entwickeln.


Bild

18. Homologe Faltung von Proteinen (Pavel Yakovlev, BIOCAD)

Video

In der modernen Strukturbiologie gibt es eine Reihe von Berechnungsmethoden, die es ermöglichen, biologische Moleküle mit hoher Zuverlässigkeit, ihrer Ähnlichkeit und ihren Unterschieden, Interaktionsmethoden und Funktionen zu charakterisieren. Um solche Berechnungen zu erstellen, fungiert der räumliche Parameter des Proteins immer als Eingabeparameter, seine Herstellung kann jedoch trotz eines halben Jahrhunderts Fortschritt auf dem Gebiet der Kristallographie schwierig sein. Die Vorlesung widmet sich der Lösung dieses Problems mit Hilfe der homologen Modellierung von Proteinstrukturen - der Konstruktion dreidimensionaler Strukturen aus ähnlichen Fragmenten. Zum Beispiel betrachten wir die variablen Domänen von Antikörpern - Proteine ​​mit einer einzigartigen strukturellen Vielfalt variabler Schleifen.


Bild

19. Wie man aufhört zu meditieren und mit dem Modellieren beginnt (Arthur Zalevsky, Moskauer Staatliche Universität, benannt nach MV Lomonosov)

Video | Folien

Eine große Menge von Daten, die mit der NGS-Methode erhalten wurden, ermöglicht es, nicht nur biologische Schlussfolgerungen daraus zu ziehen, sondern diese auch zur Modellierung zu verwenden. Die konstruierten Modelle ermöglichen es, biologische Daten besser zu verstehen und dem Experiment noch mehr biologische Bedeutung zu verleihen. Die Vorlesung widmet sich der Modellierung und den ersten Phasen dieses Prozesses.


Bild

20 *. Auf den Schultern von Riesen stehen oder warum brauchen wir Konsortien (German Demidov, Zentrum für Genomregulation, Barcelona Institut für Wissenschaft und Technologie, Universitat Pompeu Fabra)

Video | Folien

In den letzten Jahrzehnten war die Entwicklung der Biologie mit der Anhäufung von Datenfeldern verbunden, die so groß waren, dass einzelne Forschungsgruppen ihre bioinformatische Analyse nicht mehr bewältigen konnten. Um dieses Problem zu lösen, wurden aus Dutzenden von Labors wie dem Humangenomprojekt, 1000GP, ENCODE und anderen Konsortien gegründet. Dank solcher Kooperationen gibt es verschiedene Arten von Daten im öffentlichen Bereich, die mit verschiedenen Technologien abgerufen werden. Infolgedessen ist der Vergleich neuer experimenteller Daten mit vorhandenen zu einem Standardbestandteil jeder Studie geworden. Konsortien erstellen nicht nur Daten, sondern auch bioinformatische Pipelines für ihre Verarbeitung, Standardformate und Qualitätsbewertungsverfahren. In dieser Vorlesung wird erläutert, wie Konsortien arbeiten, wie die Ergebnisse ihrer Arbeit verwendet werden und was zu tun ist, wenn Sie plötzlich Mitglied eines solchen Konsortiums sind und Terabyte an Daten verarbeiten und die Ergebnisse dann mit allen anderen Teilnehmern teilen müssen.


Bild

21 *. Überblick über Bioinformatikunternehmen in Russland und der Welt (Andrey Afanasyev, yRisk)

Video | Folien

In der modernen Welt sind Wissenschaft und Wirtschaft immer mehr miteinander verflochten. Dieser Trend und das Gebiet der Bioinformatik haben nicht umgangen. Andrey sprach über die Erwartungen und die Realität des Marktes, Erfolgsgeschichten und Misserfolge, über Menschen und Orte im Zusammenhang mit Bioinformatik.




22. Erweiterte Analyse von Variationen (SNV, InDel, SV) unter Verwendung des genomischen NGB-Browsers (Gennady Zakharov, EPAM, IP Pavlov Institut für Physiologie, RAS)

Video | Folien

Die Vorlesung behandelt den Prozess der visuellen Analyse einfacher (SNV, InDel) und struktureller Variationen im genomischen Browser. Alle Beispiele werden mit dem NGB-Browser demonstriert, der die meisten Anforderungen und Empfehlungen für die Analyse struktureller Variationen erfüllt, einschließlich verschiedener Arten von Visualisierungen und des Abrufs von Anmerkungen aus externen Datenbanken. In einer Vorlesung an realen Beispielen werden Szenarien zur Validierung und Analyse der Folgen einfacher und struktureller Variationen gezeigt.



Nachwort


Für diejenigen, die nichts verstehen, wollen sie sich im Bereich der Bioinformatik weiterentwickeln - bis zum 27. Mai ist die Annahme von Bewerbungen für eine Sommerschule in diesem Jahr 2018 noch offen. Die Schule selbst findet vom 23. bis 28. Juli in der Nähe von St. Petersburg statt. Es besteht die Möglichkeit, in das letzte Auto zu springen und allen stolz einen Beitrag mit einem Überblick über die Vorträge des nächsten Jahres zu zeigen, in dem sie sagen, dass sie ihn persönlich gesehen haben.

2017 wurde die Schule mit Unterstützung unserer regelmäßigen Partner - JetBrains , BIOCAD und EPAM Systems - abgehalten , wofür wir uns sehr bedanken .

Übrigens ein Beitrag mit Vorträgen aus dem Jahr vor den letzten Schulen .

Alle Bioinformatik!

Bild

Source: https://habr.com/ru/post/de412453/


All Articles