"Ini juga analisis data." Bicara tentang bioinformatika dengan Mikhail Gelfand

Bioinformatika adalah bidang yang sangat aneh dari pengetahuan ilmiah, karena menggabungkan tugas yang dirumuskan dalam istilah biologis dan metode yang akrab bagi spesialis dalam algoritma, pemrosesan data besar, dan pembelajaran mesin. Dengan demikian, bioinformatika adalah salah satu contoh di mana TI dapat menjadi penyelamat dalam menjelajahi dunia nyata.


Baru-baru ini saya mengunjungi Mikhail Sergeyevich Gelfand di Institut untuk Masalah Transmisi Informasi. Kami berbicara tentang apa itu bioinformatika, tentang aplikasinya yang menarik, tentang bagaimana spesialis IT dalam bioinformatika dapat berguna, dan apa yang perlu mereka pelajari untuk ini.


Di bawah potongan artikel ini, Anda akan menemukan transkrip lengkap percakapan kami, dan video dapat dilihat di YouTube .




Apa itu bioinformatika


Alexey Shagraev: Bioinformatika - ilmu seperti apa ini, apa fungsinya?


Mikhail Gelfand : Bioinformatika adalah cara untuk mempelajari biologi menggunakan komputer. Pada umumnya, ini bukan ilmu, tetapi hanya seperangkat teknik. Dalam pengertian yang sama, misalnya, mikroskop elektron bukanlah ilmu.


Bagian pertama dari bioinformatika adalah algoritmik. Ini menjelaskan cara menyeret data dari perangkat ke komputer. Untuk menentukan urutan nukleotida yang membentuk genom (untuk mengurutkannya), karena alasan teknis, genom ini perlu dipotong menjadi sejumlah besar fragmen kecil, yang kemudian perlu direkatkan menjadi satu garis besar. Dalam hal ini, perlu diperhitungkan kebisingan dalam data, berbagai penyimpangan dari segala sesuatu di dunia. Ini adalah tugas yang cukup khas, masalah algoritmik lain muncul dalam analisis data spektrometri massa.


Bagian kedua dari bioinformatika adalah klasik, biologis. Dia jauh lebih dekat dengan apa yang saya lakukan. Lebih tepatnya, itu bisa disebut biologi molekuler. Di sini Anda memiliki protein. Apa yang dia lakukan Atau Anda memiliki gen. Kapan hidup, kapan dimatikan? Atau, sebaliknya, Anda tahu bahwa sesuatu di dalam sel memiliki fungsi tertentu. Protein mana yang melakukannya? Ini adalah contoh masalah klasik biologi molekuler, dan ternyata komputer adalah perangkat yang agak efektif untuk memecahkan masalah tersebut. Para peneliti tidak perlu lagi menguji semua fungsi protein yang mungkin; sebagai gantinya, mereka dapat memverifikasi bahwa protein melakukan fungsi yang diprediksi model. Jika benar-benar memenuhi - hore! Dengan demikian, komputer menghemat waktu eksperimen dengan mempersempit ruang pencarian. Ini adalah biologi molekuler klasik, ini dilakukan pada komputer sebelum tabung reaksi.


Akhirnya, bagian ketiga, baru-baru ini muncul dari bioinformatika adalah analisis data besar. Metode eksperimental yang dilakukan ahli biologi ternyata sangat efektif sehingga banyak data sudah diproduksi. Astronomi memiliki cara yang sama dengan astrofisika - teleskop kolosal sekarang menghasilkan gigabytes data setiap menit. Hal serupa terjadi dengan fisika energi tinggi. Tugas pertama yang muncul adalah hanya menyimpan data dan mengekstrak biologi yang menarik darinya. Karena volume yang besar, adalah mungkin untuk menggambarkan kerja sel secara keseluruhan - bukan karya satu gen, tetapi karya semua gen sel ini.


Selain itu, saya katakan di awal sebuah kebohongan. Tentu saja, ada bioinformatika ilmiah, hanya saja disebut berbeda - biologi evolusi. Cukup banyak metode komputer sudah menggambarkan pola evolusi - bagaimana seleksi terjadi, apa yang berubah. Pertanyaan paling alami dan mendasar adalah siapa yang terkait dengan siapa. Dan kemudian dimulai: bagaimana biologi perkembangan hewan yang berbeda? ... Seseorang berbeda dari tikus bukan karena gen kita berbeda, tetapi karena mereka bekerja secara berbeda. Selain itu, perbedaan utama diletakkan pada embriogenesis.


Kapan dan bagaimana orang pertama kali memahami bahwa di area ini komputer dapat membawa manfaat nyata?



Francis Creek


Yang pertama memahami segalanya adalah Francis Crick, yang, tampaknya, adalah pria yang sangat cerdas. Pada tahun 1958, ia menyadari bahwa sekuens - kemudian, menurut pendapat saya, ia memikirkan protein - dapat digunakan untuk menentukan kekerabatan. Urutannya sendiri tidak ada. Dia pertama kali mengekspresikan ide ini dalam sebuah artikel yang ditujukan untuk yang sama sekali berbeda, memasukkan dua kalimat dari cerita yang berbeda.


Francis Crick adalah salah satu ahli biologi terbesar abad ke-20, Hadiah Nobel Fisiologi atau Kedokteran tahun 1962. Dia mengusulkan (bersama dengan James Watson) struktur double helix DNA, merumuskan apa yang disebut dogma sentral biologi molekuler , yang menyatakan sifat satu arah transfer informasi genetik dalam sel: dari DNA melalui RNA ke protein. Salah satu penulis karya klasik yang menggambarkan struktur kode genetik. - catatan oleh Alexey Shagraev


Kemudian, pada awal 60-an, urutan pertama benar-benar muncul, orang mulai membangun pohon. Dalam ilmu ini mereka disebut filogenetik, dan makna yang mereka miliki adalah siapa yang terkait dengan siapa.


Pohon filogenetik - pohon yang mencerminkan hubungan evolusi antara berbagai kelompok organisme. Ide-ide modern terdiri dari kenyataan bahwa semua organisme hidup dibagi menjadi tiga domain atau suprastate: archaea , bakteri dan eukariota . - catatan oleh Alexey Shagraev


Kemudian metode analisis muncul, dan lebih banyak urutan tersedia. Setelah beberapa waktu, menjadi jelas bahwa tangan tidak dapat lagi bekerja, Anda perlu menulis sebuah program.


Bioinformatika sebagai ilmu mulai terbentuk pada awal 80-an. Dalam hal ini, saya sangat beruntung - ketika saya sampai pada tahun 1985, itu adalah Wild West, sebuah perbatasan. Itu mungkin untuk datang dan melakukan tugas yang, dengan probabilitas tinggi, tidak ada yang melakukannya. Tidak perlu belajar apa pun - itu perlu dilakukan. Jarang ada seseorang yang beruntung.


Pada awalnya, ahli biologi menganggap ini sebagai permainan di kotak pasir. Tetapi ada hal-hal yang bermanfaat. Setelah menjadi jelas bahwa tidak mungkin untuk mengikuti urutan hanya dengan publikasi jurnal. Database mulai muncul di mana urutan ini diletakkan di mesin - sebelum menerbitkan artikel editorial mereka menuntut agar urutan dimasukkan ke dalam database. Oleh karena itu, orang-orang mulai menulis program untuk mencari urutan yang sama dalam database. Ini sudah merupakan ilmu yang serius, karena pangkalan-pangkalan ini tumbuh sangat cepat dan algoritme harus sangat efisien.


Ada cerita horor yang terkenal bahwa kinerja sequencer - perangkat sequencing - tumbuh dengan eksponen yang lebih cepat dari hukum Moore . Artinya, mereka lari dari komputer. Ada juga undang-undang tentang kapasitas memori, juga eksponensial. Lupa apa namanya. Pertanyaan terpisah adalah apakah mereka bersandar pada batasan fisik. Tetapi sequencer dan peningkatan data eksponensial dengan kecepatan lebih tinggi dari daya komputer adalah mimpi buruk.


Dan kemudian metode pengurutan yang sangat cepat muncul, dan bioinformatika sudah berfungsi sejak awal. Sekarang, ketika merencanakan eksperimen, ahli biologi yang baik memahami (atau berkonsultasi dengan seseorang) bagaimana dia akan memproses hasilnya. Desain percobaan itu sendiri sebagian besar sudah memperhitungkan pemrosesan apa yang terjadi.


Sekarang orang sudah mulai mendorong semuanya ke jaringan saraf yang dalam. Kami memiliki proyek tentang fakta bahwa jika Anda membuat jaringan menyelesaikan masalah yang tepat, itu harus mempelajari semua biologi di sepanjang jalan. Dan ada beberapa contoh.


Ada dua macam masalah.


Dalam beberapa tugas, hanya pengakuan berkualitas tinggi yang diperlukan. Misalnya, diagnosis banding kanker atau prognosis. Anda memiliki dua kelompok pasien: satu membantu obat-obatan ini, yang lain tidak. Akan menyenangkan untuk mengetahuinya bukan ketika Anda memulai perawatan, tetapi di muka. Anda dapat mempelajari ciri-ciri mutasi yang terjadi dari kanker ini, perhatikan bagaimana gen dalam tumor mulai bekerja.


Atau Anda dapat memprediksi struktur spasial protein - ini juga merupakan tugas klasik. Kami memiliki urutan, tetapi kami ingin mencari tahu bagaimana molekul dilipat di ruang angkasa. Tugas lama, mungkin dimulai pada tahun 70-an. Orang-orang hanya mengejar kualitas prediksi. Ada banyak metode berbeda. Jaring memenangkan seseorang, seseorang tidak. Ilmu seperti itu.


Jaringan saraf dan bioinformatika . Sebagai contoh, lihat posting blog DeepMind pada algoritma lipatan protein jaringan saraf AlphaFold dan kuliah Mohammed AlQuraishi . - catatan oleh Alexey Shagraev


Dan ada sesuatu yang, menurut saya, lebih keren. Anda menetapkan tugas yang tidak memiliki arti praktis, tetapi untuk menyelesaikannya, Anda perlu memahami sesuatu tentang struktur biologi. Dan kemudian kisi-kisi itu tampak tegang, sangat menyebalkan karena kualitas pengakuannya kemungkinan besar sangat buruk. Tapi kemudian kita bisa masuk ke neuronnya dan melihat apa yang dia pelajari, mencoba menyelesaikan masalah ini.


Tidak ada pelopor dalam pengembangan arsitektur jaringan dalam biologi. Sebaliknya, ada orang yang hanya mencoba menerapkan arsitektur yang sudah jadi dengan cara yang benar. Ini adalah sensasi baru-baru ini, ada karya yang sangat indah.


gambar
Ilustrasi dari sebuah artikel oleh DeepMind


Bioinformatika modern


Organisme mana yang sekarang paling populer untuk dipelajari di bidang ini dan mengapa?


Manusia, tentu saja, karena kami ingin memberi manfaat bagi semua orang dan mempelajari semua obat.


Ada organisme model tradisional. Man - karena obat. Tikus - karena mereka adalah mamalia, tetapi mereka tidak menyesal. Drosophila - karena umumnya klasik. Escherichia coli - karena merupakan bakteri, ia tumbuh dengan cepat dan juga klasik (seperti beberapa bakteri lagi). Nematoda C. Elegans - karena dia memiliki jumlah sel yang tetap dalam setiap contoh, silsilah sel-sel ini sangat dikenal, mereka memiliki skema standar jaringan saraf, mereka benar-benar identik, tetapi dapat berbeda secara genetik.


Karena ada metode urutan yang produktif, kita dapat membiarkan diri kita untuk mempelajari tidak hanya model organisme yang sudah banyak dilakukan, tetapi beberapa yang keren lainnya. Proyek favorit saya terakhir kali - kami tidak memahami sesuatu yang sepenuhnya dangkal tentang evolusi gurita, dan tidak ada orang lain yang memilikinya. Ketika siswa bertanya kepada saya, saya lebih suka mencari beberapa hewan kecil yang keren.


Protozoa uniseluler adalah organisme yang selnya memiliki nukleus, seperti sel kita. Bakteri tidak memiliki inti, mereka sederhana. Pada bakteri, Anda dapat melakukan hal-hal yang sangat dalam. Kita dapat mengatakan cukup banyak tentang bagaimana bakteri hidup, apa yang dimakannya, apa yang disintesisnya, apa yang perlu diterimanya dari lingkungan luar - tanpa melakukan eksperimen sama sekali, hanya menonton film. Dan hewan kecil, yang sel-selnya memiliki nukleus, misalnya, Anda dan saya, lebih rumit. Tetapi ada inti uniseluler yang indah, dan mereka memiliki biologi yang paling beragam. Dalam ciliates, dalam amuba. Kebun binatang paling keren ada di sana.


Bagaimana dengan virus?


Virus terutama menarik dari sudut pandang medis. Saya bertanya-tanya bagaimana evolusi virus bekerja, karena ada beberapa protein yang tampaknya diciptakan oleh virus.


Masih ada virus raksasa, genom yang sudah lebih besar dari bakteri kecil. Tidak ada yang mengerti dari mana sampah ini berasal. Saya hanya tahu lebih buruk ilmu virus ini. Ada tantangan evolusi yang bagus.


Arahan menarik apa yang ada sekarang, di mana hasil yang terlihat oleh masyarakat umum terkait dengan bioinformatika dan studi genom dimungkinkan?


Dari apa yang bisa dijelaskan kepada masyarakat umum, yang paling menarik adalah kisah genom kuno . Mereka diekstraksi dari penemuan-penemuan arkeologis dan secara nyata berubah - dalam hal apa pun, memperkaya - gagasan kita tentang sejarah umat manusia. Pandangan tentang asal usul manusia sudah cukup dimodifikasi. Sekali lagi, ada potongan komputasi yang bagus, tetapi rekan utamanya adalah para peneliti yang hanya belajar bagaimana mengisolasi dan menentukan urutan DNA ini. Eksperimennya sangat sulit.


Kita masing-masing memiliki beberapa persen fragmen Neanderthal. Mudah untuk memberi tahu publik apa yang saya lakukan secara berkala.


Tentang gen purba. Pada tahun 2006, sebuah proyek diluncurkan untuk membaca genom lengkap Neanderthal , salah satu hasilnya adalah kesimpulan bahwa orang-orang kuno disilangkan dengan Neanderthal, lihat artikel di Science . Akun lengkap dari cerita ini oleh Elena Naimark dapat ditemukan di Elements . - catatan oleh Alexey Shagraev


Bioinformatika murni ... Sekali lagi, karena ini adalah bagian dari biologi, bagi kami konsumen adalah ahli biologi. Dalam pekerjaan biologis yang baik, ketika kita bahkan tidak mengobati kanker abstrak dari jenis tertentu, yaitu tumor pasien tertentu, ini adalah obat pribadi. Ada contoh bagus saat ini berhasil. Tetapi seberapa besar mereka dan apakah ekonomi mereka akan ditarik tidak terlalu jelas. Pada prinsipnya, ya, ada contoh obat, sebelum pengangkatan yang mereka lakukan analisis mutasi pada tumor tertentu. Bioinformatika berada di bawah semua ini "di ruang bawah tanah." Tanpa pengembangan metode bioinformatik, ini tidak mungkin terjadi. Tetapi pada dasarnya konsumen bagi kita bukanlah manusia, tetapi ahli biologi lain.


Bayangkan seorang pengembang: mungkin yang berpengalaman; mungkin seorang spesialis analisis data; atau sebaliknya, siswa lain. Tugas apa yang dapat menginspirasi dia sekarang untuk datang ke ilmu ini dan membantu sesuatu?


Anda dapat pergi ke laboratorium di mana ada banyak data, dan hanya memprosesnya. Data bisa luar biasa. Ini bisa menjadi struktur spasial - bagaimana DNA dikemas dalam sel dan bagaimana hal itu memengaruhi kerjanya. Ada banyak eksperimen heterogen, benar-benar banyak data. Dan ada bidang yang luas: dari fisika polimer hingga semacam analisis korelasi dan sesuatu yang statistik. Anda dapat melakukan hal-hal yang sangat indah. Data sangat berbeda, mereka dapat dibandingkan dengan cara yang berbeda. Secara umum, banyak yang baik.


Selanjutnya ada kano ini dengan kisi-kisi. Dan di sini lagi perlu untuk berpegang teguh pada ahli biologi yang baik, maka Anda dapat memecahkan masalah biologis yang baik dengan jaringan yang baik. Entah memenangkan kejuaraan dunia prediksi, yang merupakan suatu kehormatan dalam dirinya sendiri, atau mencoba untuk mengambil beberapa biologi. Kami membicarakan hal ini sedikit.


Atau Anda dapat benar-benar bergabung dengan perusahaan yang mencoba membangun metode untuk diagnosa yang berbeda - terutama diagnosa kanker - dan melakukan sesuatu yang baik. Ini juga analisis data, tetapi ada banyak segalanya.


Apa situasi dan tugas yang paling khas? Ada sebuah paradoks: kita memiliki genom yang sama di semua sel, dan sel bekerja secara berbeda - dan, omong-omong, juga diatur secara berbeda, karena gen yang berbeda di dalamnya bekerja secara berbeda. Pada tumor kanker, genomnya sudah berbeda, mutasi telah terjadi di sana. Tetapi sekali lagi, sel terlahir kembali, bukan karena sesuatu telah berubah dalam DNA, tetapi karena gen mulai bekerja secara berbeda. Dan kita dapat mencoba untuk memprediksi efek obat, membuat prediksi, atau hanya melakukan diagnosa diferensial berdasarkan bagaimana sel bekerja di berbagai jenis tumor.


Tetapi melakukan analisis ini, kami mengambil sepotong jaringan, dan ada banyak sel yang berbeda. Ini adalah sel-sel tumor, dan sel-sel sehat, dan beberapa jenis limfosit merayap di sana - banyak dari semuanya. Anda perlu menguraikan kerja rata-rata gen, yang dapat Anda ukur dalam percobaan, tentang cara kerja gen di setiap jenis sel. Anda dapat memperkirakan proporsi sel tersebut. Ini adalah tugas pembusukan. Dalam pengaturan yang naif, semua orang berpikir bahwa itu dapat diselesaikan hanya sebagai masalah aljabar linier, sebagai sistem besar persamaan linear. Ternyata suara dalam data dan kesulitan lainnya membuatnya berputar sangat banyak. Ini tidak dapat direduksi menjadi aljabar linier sederhana. Saya telah melihat ini berkali-kali: seorang siswa datang, mengatakan - di sini kita akan menulis persamaannya sekarang, dan hanya itu. Tapi buah ara. Tapi itu manfaat langsung bagi umat manusia - untuk mencari tanda tangan kanker.


Akan ada ilmu yang sangat bagus, itu sudah terjadi - pengembangan awal. Kami sekarang menentukan bagaimana gen bekerja dalam campuran sel, dalam sampel di mana ada jutaan sel. Tetapi Anda harus dapat melakukan hal yang sama dalam satu sel, dan untuk ini - untuk memenangkan suara besar. Kemudian kita dapat melihat, misalnya, embriologi, melihat lintasan perkembangan sel pada tahap yang sangat awal, ketika mereka masih sedikit. Anda dapat menyaksikan bagaimana diferensiasi awal sel terjadi, dan embriologi akan menjadi sangat berbeda dengan kisah-kisah ini dalam waktu dekat, pekerjaan yang baik akan dilakukan. Ini adalah embriologi evolusioner. Tidak hanya melihat bagaimana anatomi berbeda pada primata dan tikus (ini adalah klasik, abad XIX), tetapi mengamati bagaimana perbedaan-perbedaan ini terbentuk pada tahap yang sangat awal karena gen bekerja di mana. Itu akan terjadi.


Seperti apa spesialis yang terlihat sekarang yang datang ke daerah ini dan membawa banyak manfaat? Apa yang harus dia mampu? Di mana dia melakukannya?


Dia harus tahu biologi. Pertama-tama, ada program master dalam ilmu kehidupan di Skoltech. Seseorang tanpa pendidikan biologi juga bisa pergi ke sana. Akan sulit baginya, tetapi ada contoh seperti itu.


Ada program untuk menganalisis data biologi dan kedokteran di Sekolah Tinggi Ekonomi di Fakultas Ilmu Komputer. Di sana Anda dapat, sebaliknya, melakukannya tanpa pendidikan komputer. Ahli biologi juga ada di sana, tetapi akan ada lebih sedikit biologi, dan lebih banyak bioinformatika. Ini untuk tuan. Dan untuk siswa kelas 11 ada fakultas bioteknologi dan bioinformatika di Moscow State University. Ini jika kita berbicara tentang Moskow.


Di St. Petersburg ada program bioinformatika di Universitas St. Petersburg dan ITMO, menurut pendapat saya, tetapi saya kurang tahu tentang mereka.


Tentang Mikhail Gelfand



Bagaimana Anda sampai pada ilmu ini?


Ketidakmampuan melakukan matematika. Pada saat mehmat selesai, saya menyadari bahwa saya tidak pandai membuktikan teorema, belum lagi menciptakannya. Dan saya sangat beruntung, karena bioinformatika baru saja dimulai, maka Anda bisa datang ke sana, dan hanya itu.


Saya selalu menyukai biologi: Saya menangkap kupu-kupu, serangga tersiksa, itu saja. Bagi saya, kuliah biologi adalah hal yang wajar. Selain itu, saya tertarik pada linguistik, pergi ke lingkaran, di Olimpiade. Dan bioinformatika dalam pengertian ini adalah ilmu yang agak linguistik, jika ditangani dengan tepat. Jadi itu adalah pilihan yang sangat alami, setidaknya bagi saya.


Apa yang sedang kamu lakukan sekarang?


Secara pribadi, saya terutama berurusan dengan tugas mengedit transkrip dari gurita, tentang di mana kepompong dari kupu-kupu, kumbang, semut, lebah, dan semua serangga yang memiliki kepompong berasal. Saya punya teori tertentu.


Kecoak tidak memiliki pupa. Itu kecil, hitam dan tidak terlihat seperti kecoak, kemudian berganti kulit beberapa kali dan menjadi lebih dan lebih seperti kecoa setiap kali. Tetapi ada serangga yang memiliki tahap kepompong, dan kita tampaknya sudah tahu dari mana asalnya. Jika kita berhasil menunjukkannya dengan hati-hati, itu akan keren.


Saya menganalisis bakteri mana yang hidup di kutu daun, karang dan tambang minyak. Itu terjadi secara historis. Dengan kutu daun, kami memiliki kolaborator yang baik di Belarus, dengan karang - kolaborator di Moskow yang memilih potongan-potongan karang ini. Dan tentang sumur minyak, saya memiliki seorang mahasiswa pascasarjana yang aktif gila-gilaan yang hanya mendorong perusahaan-perusahaan minyak dan memberi mereka tugas ini. Artinya, ini adalah tugas oportunistik, pada kenyataannya.


Saya berurusan dengan lipatan DNA dalam sel dan bagaimana lipatan ini memengaruhi fungsi gen.


Saya melakukan cukup banyak - atau lebih tepatnya, mahasiswa pascasarjana - dalam evolusi bakteri, karena hal ini dijelaskan dengan buruk, Anda dapat melihatnya secara berbeda. Dan secara umum, pemahaman tentang bagaimana bakteri berevolusi, dari mana spesies bakteri berasal, bagaimana mereka dibagi menjadi spesies. Bukannya itu dilakukan dengan baik. Ini bukan area yang sangat modis, tetapi Anda juga dapat melakukan banyak hal keren di sana.


Saya melakukan bagaimana gen diatur, terutama pada bakteri, dan bagaimana jaringan pengatur ini berkembang. Anda dapat membandingkan spesies yang dekat, melihat perbedaannya, memahami (atau tidak mengerti) bagaimana perubahan ini terjadi.




Mikhail Gelfand adalah salah satu pembicara di konferensi YaTalks, yang akan berlangsung pada 30 November di ruang konferensi Ruang Paveletsky di Moskow. Pendaftaran terbuka dan tersedia di sini .

Source: https://habr.com/ru/post/id476164/


All Articles