Kuliah tentang bioinformatika: analisis data, jaringan saraf, dan aplikasinya dalam biologi dan kedokteran

Hampir setahun yang lalu, pada musim panas 2017, sebuah sekolah musim panas tradisional dari Institute of Bioinformatics diadakan di MIPT. Topik utama sekolah tahun ini adalah data mining . Mengapa Jumlah data yang diperoleh dalam biologi dan kedokteran tumbuh pada tingkat yang luar biasa. Pada saat yang sama, secara fisik tidak mungkin untuk mendeteksi hal-hal yang sebelumnya tidak diketahui dalam volume informasi secara manual (dan dengan algoritma klasik juga sulit), jadi Anda harus menggunakan statistik dan melengkapi kecerdasan alami dengan buatan.

Inilah yang dilakukan oleh para peserta sekolah musim panas secara aktif. Posting ini berisi 22 video ceramah dengan slide dan deskripsi untuk semua orang yang tertarik dengan topik analisis data dalam bioinformatika. Ceramah yang dapat ditonton tanpa persiapan tambahan ditandai dengan tanda bintang "*" (setengah dari mereka).

gambar

1 *. Pengantar Bioinformatika (Alexander Predeus, Institute of Bioinformatics)

Video | Slide

Ceramah ini membahas bidang utama di mana bioinformatika dalam sains dan industri bekerja, terutama bioinformatika dan alasan popularitasnya saat ini.


gambar

2 *. Pengantar Pembelajaran Mesin (Grigory Sapunov, Intento)

Video | Slide

Peningkatan konstan dalam jumlah data berkontribusi pada pengembangan proses pemrosesan, pencarian, dan pengambilan informasi yang semakin kompleks. Salah satu cara untuk memecahkan masalah tersebut adalah dengan menggunakan kecerdasan buatan. Kuliah ini dikhususkan untuk pengantar singkat tentang dasar-dasar pembelajaran mesin. Gregory memberi tahu terminologi umum di bidang ini, dan juga menjelaskan jenis tugas yang diselesaikan dengan pembelajaran mesin. Selain itu, kuliah ini memperkenalkan tahapan utama pembelajaran mesin, jenis model, dan metrik kualitas dari data yang diterima.

3 *. Pengantar Pembelajaran Jauh (Grigory Sapunov, Intento)

Video | Slide

Pembelajaran mendalam (atau pembelajaran dalam) saat ini mendapatkan popularitas karena kemampuannya untuk tidak meresepkan algoritma spesifik untuk memecahkan masalah, tetapi untuk menggunakan pelatihan dalam representasi. Pengembangan metode ini juga difasilitasi oleh peningkatan kekuatan pemrosesan prosesor. Kuliah ini dikhususkan untuk dasar-dasar jaringan saraf: jenis mereka (jaringan saraf yang terhubung penuh, auto-encoders, convolutional, berulang) dan tugas-tugas yang mereka selesaikan. Secara terpisah, Gregory menjabarkan keadaan dan tren saat ini.


gambar

4 *. Pengantar onkogenomik dan analisis data omix dalam onkologi (Mikhail Pyatnitsky, VN Orekhovich Research Institute of Biomedical Chemistry)

Video | Slide

Mengurutkan genom manusia, mempelajari variasi genetik manusia, mengurutkan metagenom manusia, analisis transkripsi jaringan manusia - semua metode biologis ini dalam aplikasi "Big Data" memberi para ilmuwan banyak informasi berharga tentang apa yang membuat manusia berbeda dari hewan lain. Kuliah ini dikhususkan untuk omics dan penggunaan praktisnya. Secara terpisah, Michael menyentuh penggunaan data ini dalam onkologi.


gambar

5. Multiomik dalam biologi: integrasi teknologi (Konstantin Okonechnikov, Pusat Penelitian Kanker Jerman)

Video | Slide

Pesatnya perkembangan teknologi eksperimental dalam biologi molekuler, seperti, misalnya, sekuensing, memungkinkan untuk menggabungkan studi berbagai proses fungsional yang terjadi dalam sel, organ, atau bahkan seluruh tubuh. Kuliah ini membahas bagaimana cara menggabungkan data eksperimen masif yang benar yang diperoleh dari genomik, transkriptomik, dan epigenomik untuk membangun hubungan antar komponen proses biologis yang sedang berlangsung. Contoh ilustrasi penggunaan multiomik dipilih dari bidang penelitian kanker yang sangat dituntut dengan fokus pada onkologi pediatrik.


gambar

6. Genetika kuantitatif: sejarah dan prospek (Yuri Aulchenko, Laboratorium Genomik Fungsional Teoritis dan Terapan, FEN NSU, kelompok metode analisis genetik, ICG SB RAS)

Video | Slide

Genetika kuantitatif adalah ilmu pasti, yang didasarkan pada sejumlah kecil pengamatan kunci dan model dasar yang memungkinkan deskripsi kuantitatif fenomena evolusi alami (mikro) dan memprediksi hasil eksperimen genetik. Dia menggunakan alat matematika yang kuat. Banyak metode statistik modern pada awalnya dikembangkan untuk memecahkan masalah genetika kuantitatif. Perkembangan terobosan teknologi biologi molekuler selama dekade terakhir telah memungkinkan untuk mengkarakterisasi ratusan ribu organisme hidup dengan jutaan parameter genomik dan "omix" lainnya. Jumlah percobaan dan data yang sudah terakumulasi sangat besar. Tugas mendesak genetika kuantitatif modern adalah pengembangan model yang akan menggambarkan pewarisan multi-level fenotipik dimensi tinggi. Dalam ceramahnya, Yuri memberikan tinjauan singkat tentang sejarah genetika kuantitatif dan masalah yang dihadapi ilmu ini.


gambar

7 *. Teknologi Sequencing (Kirill Grigoriev, Pusat Genome Karibia, Universitas Puerto Riko)

Video | Slide

Pengembangan dan evolusi proses pengurutan terkait erat dengan evolusi kemampuan teknologi. Kuliah ini menunjukkan sejarah dan proses pengembangan teknologi sequencing dari Sanger hingga saat ini. Secara terpisah, Cyril berbicara tentang kelebihan dan kekurangan masing-masing metode yang ada saat ini, serta sifat data yang diperoleh dan penerapannya di berbagai bidang.



8. Transkriptomik: metode praktis dan algoritma terapan (Alexander Predeus, Institute of Bioinformatics)

Video | Slide

Transcriptomik dengan percaya diri mengambil tempat dalam daftar tugas paling populer yang dihadapi NGS-bioinformatika. Analisis diferensial ekspresi gen, pengelompokan data ekspresi, dan interpretasi data dalam hal kaskade metabolisme dan pensinyalan memberikan banyak informasi tentang hampir semua sistem. Kuliah ini mencakup jalur pipa terbaik, bidang masalah utama dalam desain eksperimen dan pemrosesan, serta kasus-kasus praktis penerapan pendekatan transkripom yang sukses.


gambar

9. Analisis data NGS dalam genetika medis: definisi, anotasi, dan interpretasi varian genetik (Yuri Barbitov, Universitas Negeri St. Petersburg, Alexander Predeus, Institut Bioinformatika)

Video | Slide

Penggunaan sekuensing generasi baru telah lama melampaui batas-batas ilmu klasik dan telah berhasil diterapkan di banyak bidang lain, termasuk perawatan kesehatan. Kuliah ini dikhususkan untuk aspek-aspek kunci dari analisis data sekuensing generasi baru dalam genetika medis. Yuri menunjukkan seluruh jalan dari memperoleh bacaan mentah untuk membuat diagnosis, menyebutkan kesulitan yang dihadapi dalam menentukan, mencatat dan menafsirkan varian genetik. Secara terpisah, ia menyentuh kesalahan umum yang dilakukan pada setiap tahap pemrosesan data. Sebagai kesimpulan, tinjauan singkat tentang bidang penelitian yang menjanjikan yang dapat meningkatkan akurasi diagnosis menggunakan metode sequencing kinerja tinggi diberikan.


10. Aplikasi praktis ChIP-Seq dan metode terkait (Alexander Predeus, Institute of Bioinformatics)

Video | Slide

Metode ChIP-Seq, serta "genomic footprinting" (ATAC-Seq, FAIRE-Seq, DNase-Seq) banyak digunakan untuk menemukan mekanisme pengaturan proses biologis, khususnya, untuk regulasi transkripsi. Ruang potensial dari faktor-faktor yang dipelajari sangat multidimensi, tetapi pendekatan selektif memungkinkan seseorang untuk mendapatkan informasi yang kaya tentang regulasi dalam sistem berdasarkan pada hanya beberapa percobaan. Dengan menggunakan contoh teori modern yang saling bertentangan, Alexander menunjukkan kesulitan utama dalam menginterpretasikan informasi peraturan, dan bagaimana cara mengkonsolidasikan hasilnya.


gambar

11 *. Apa yang dapat saya lakukan dengan data iScan (Tatyana Tatarinova, University of La Verne)

Video | Slide

Perusahaan Illumina memproduksi sejumlah besar perangkat untuk berbagai kebutuhan. Chipping memungkinkan Anda untuk dengan cepat mendeteksi polimorfisme nukleotida tunggal (SNP) untuk sejumlah besar sampel. Kuliah ini dikhususkan untuk tinjauan data dari chip iScan dan aplikasinya dalam diagnostik klinis.


gambar

12. Pembelajaran mendalam dalam Biologi Komputasi (Dmitry Fishman, University of Tartu)

Video | Slide

Pembelajaran mendalam digunakan secara aktif tidak hanya untuk meningkatkan terjemahan mesin atau pengenalan ucapan, tetapi juga memungkinkan Anda untuk memecahkan banyak masalah di bidang biologi komputasi. Kuliah ini dikhususkan untuk penerapan metode pembelajaran mendalam pada contoh-contoh biologis spesifik. Dmitry berbicara tentang apa yang baru dalam biologi dan kedokteran menggunakan pembelajaran mendalam, dan apakah mungkin mengatakan bahwa mesin merevolusi kedokteran dan biologi.


gambar

13 *. Penerapan metode pembelajaran mesin untuk mencari mutasi patogen potensial pada genom manusia (Anna Ershova, Institut Fisika dan Teknologi Moskow, Institut Penelitian Fisika dan Kimia, Universitas Negeri Moskow dinamai MV Lomonosov, Pusat Penelitian Federal untuk Epidemiologi dan Mikrobiologi yang dinamai N.F. Gamalei)

Video | Slide

Pencarian untuk mutasi patogen menjadi relevan sehubungan dengan pengurutan genom manusia. Namun, tidak mungkin untuk memecahkan masalah seperti itu secara manual. Ceramahnya adalah tentang bagaimana pembelajaran mesin dapat membantu Anda melakukan ini.


gambar

14 *. Immunoinformatika (Vadim Nazarov, HSE, IBCh RAS)

Video | Slide

Pembelajaran mesin telah lama digunakan secara aktif di berbagai bidang kehidupan, tetapi dalam imunologi mereka menemukan tempat untuk itu baru-baru ini. Dalam kuliah ini, Vadim berbicara tentang beberapa contoh penggunaan mesin dan pembelajaran mendalam dalam imunologi, termasuk tugas memprediksi pengikatan kompleks MHC-peptida dan analisis repertoar reseptor sel-T.


gambar

15 *. Studi adaptasi inang dan pengembangan resistensi pada virus HIV dan hepatitis C menggunakan metode bioinformatika struktural (Olga Kalinina, Institut Max Planck untuk Informatika)

Video | Slide

Human Immunodeficiency Virus (HIV) dan virus Hepatitis C menyebabkan penyakit serius yang sulit diobati. Seperti banyak virus retro dan RNA lainnya, virus ini berevolusi dengan cepat dan, dengan demikian, dapat beradaptasi baik dengan efek obat antivirus tertentu dan terhadap respon imun adaptif dari organisme inang. Dalam kuliah ini, Olga menunjukkan bagaimana, dengan menggabungkan analisis urutan protein virus dengan analisis struktur spasial mereka, orang dapat membuat prediksi tentang pengembangan mekanisme resistensi dan interaksi virus dengan sistem kekebalan tubuh inang.


gambar

16. Prediksi efek mutasi (Vasily Ramensky, MIPT)

Video | Slide

Metode pengurutan modern memberikan sejumlah besar informasi tentang polimorfisme genom, yaitu, perbedaan antara genom individu dari satu sama lain. Perbedaan-perbedaan ini (varian) muncul sebagai hasil mutasi selama replikasi DNA dan sebagian tetap dalam populasi. Prevalensi, lokalisasi, dan efek fungsional dari varian genom sangat bervariasi - dari kematian lengkap hingga tidak adanya efek pada fenotip individu. Kuliah ini membahas pendekatan modern untuk memprediksi efek fungsional dari opsi yang digunakan dalam kedokteran pribadi, medis, dan genetika populasi.


gambar

17. Pemodelan dan desain multiskala molekul biologis (Nikolai Dokholyan, Universitas North Carolina di Chapel Hill)

Video

Kehidupan molekul biologis mencakup skala waktu dan panjang yang sesuai dengan skala waktu dan panjang dari atom ke seluler. Akibatnya, pendekatan baru untuk pemodelan molekuler harus inheren multiskala. Dalam ceramahnya, Nikolai menjelaskan beberapa metodologi yang dikembangkan di laboratoriumnya: sebuah algoritma untuk pemodelan dinamis molekul diskrit cepat, desain protein, dan alat penyempurnaan struktural. Dengan menggunakan metodologi ini, beberapa aplikasi dapat dijelaskan yang menjelaskan etiologi molekuler dari cystic fibrosis dan menemukan strategi farmasi baru untuk melawan penyakit ini, memodelkan struktur RNA tiga dimensi, dan mengembangkan pendekatan baru untuk mengendalikan protein dalam sel dan organisme hidup.


gambar

18. Pelipatan protein secara homolog (Pavel Yakovlev, BIOCAD)

Video

Dalam biologi struktural modern, ada sejumlah metode komputasi yang memungkinkan untuk mengkarakterisasi molekul biologis dengan keandalan tinggi, persamaan dan perbedaannya, metode interaksi dan fungsi. Untuk membangun perhitungan seperti itu, parameter spasial dari protein selalu bertindak sebagai parameter input, namun persiapannya bisa sulit, meskipun setengah abad kemajuan dalam bidang kristalografi. Kuliah ini didedikasikan untuk memecahkan masalah ini dengan bantuan pemodelan homolog struktur protein - konstruksi struktur tiga dimensi dari fragmen yang serupa. Sebagai contoh, kami mempertimbangkan domain variabel antibodi - protein dengan keragaman struktural unik dari loop variabel.


gambar

19. Bagaimana cara berhenti bermeditasi dan memulai pemodelan (Arthur Zalevsky, Moscow State University dinamai MV Lomonosov)

Video | Slide

Sejumlah besar data yang diperoleh dengan metode NGS memungkinkan tidak hanya untuk mendapatkan kesimpulan biologis dari ini, tetapi juga menggunakannya untuk pemodelan. Model yang dibangun memungkinkan untuk lebih memahami data biologis dan mendapatkan lebih banyak makna biologis dari percobaan. Kuliah ini dikhususkan untuk pemodelan dan tahap awal dari proses ini.


gambar

20 *. Berdiri di atas bahu raksasa, atau mengapa kita membutuhkan konsorsium (German Demidov, Pusat Regulasi Genomik, Institut Sains dan Teknologi Barcelona, ​​Universitat Pompeu Fabra)

Video | Slide

Selama beberapa dekade terakhir, perkembangan biologi telah dikaitkan dengan akumulasi array data, begitu besar sehingga kelompok-kelompok penelitian individu tidak lagi dapat mengatasi analisis bioinformatik mereka. Untuk mengatasi masalah ini, konsorsium mulai dibuat dari puluhan laboratorium, seperti Proyek Genom Manusia, 1000GP, ENCODE, dan lainnya. Berkat kolaborasi semacam itu, ada berbagai jenis data dalam domain publik, yang diperoleh dengan menggunakan berbagai teknologi. Akibatnya, membandingkan data eksperimental baru dengan yang ada telah menjadi bagian standar dari setiap penelitian. Konsorsium tidak hanya menghasilkan data, tetapi juga jaringan pipa bioinformatik untuk pemrosesan, dan format standar, serta prosedur penilaian kualitas. Kuliah ini membahas bagaimana konsorsium bekerja, bagaimana menggunakan hasil pekerjaan mereka dan apa yang harus dilakukan jika Anda tiba-tiba menemukan diri Anda anggota konsorsium tersebut dan Anda perlu memproses terabyte data, dan kemudian membagikan hasilnya dengan semua peserta lainnya.


gambar

21 *. Gambaran umum perusahaan bioinformatika di Rusia dan dunia (Andrey Afanasyev, yRisk)

Video | Slide

Di dunia modern, sains dan bisnis semakin terjalin. Tren ini dan bidang bioinformatika belum dilewati. Andrey berbicara tentang harapan dan realitas pasar, kisah sukses dan kisah kegagalan, tentang orang-orang dan tempat-tempat yang berkaitan dengan bioinformatika.




22. Analisis variasi lanjutan (SNV, InDel, SV) menggunakan browser genom NGB (Gennady Zakharov, EPAM, Institut Fisiologi IP Pavlov, RAS)

Video | Slide

Kuliah ini mencakup proses analisis visual variasi sederhana (SNV, InDel) dan struktural dalam browser genomik. Semua contoh diperlihatkan menggunakan browser NGB, yang memenuhi sebagian besar persyaratan dan rekomendasi analisis variasi struktural, termasuk berbagai jenis visualisasi dan memperoleh anotasi dari basis data eksternal. Dalam ceramah tentang contoh nyata, skenario validasi dan analisis konsekuensi variasi sederhana dan struktural ditampilkan.



Kata penutup


Bagi mereka yang tidak mengerti apa-apa, mereka ingin mengembangkan di bidang bioinformatika - hingga 27 Mei, aplikasi untuk sekolah musim panas di tahun 2018 ini masih terbuka. Sekolah itu sendiri akan diadakan 23-28 Juli di dekat St. Petersburg. Ada kesempatan untuk melompat ke mobil terakhir dan dengan bangga menunjukkan kepada semua orang sebuah posting dengan ikhtisar kuliah tahun depan, mengatakan bahwa mereka melihatnya secara pribadi.

Pada 2017, sekolah diadakan dengan dukungan dari mitra reguler kami - JetBrains , BIOCAD , dan Sistem EPAM , yang karenanya banyak terima kasih kepada mereka.

By the way, posting dengan kuliah dari tahun sebelum sekolah terakhir .

Semua bioinformatika!

gambar

Source: https://habr.com/ru/post/id412453/


All Articles