Halo lagi! Kami berbagi publikasi, yang terjemahannya disiapkan khusus untuk siswa dari kursus
"Jaringan Saraf dengan Python" .

Hari ini kita akan berbicara tentang peristiwa penting pertama dalam sejarah pengembangan DeepMind, untuk menunjukkan bagaimana penelitian menggunakan kecerdasan buatan dapat merangsang munculnya penemuan-penemuan ilmiah. Karena sifat interdisipliner dari pekerjaan kami, DeepMind menyatukan para ahli dari bidang biologi struktural, fisika dan pembelajaran mesin untuk menggunakan metode canggih untuk memprediksi struktur tiga dimensi protein berdasarkan hanya pada urutan genetiknya.
Sistem AlphaFold yang telah kami kerjakan selama dua tahun terakhir didasarkan pada pengalaman penelitian bertahun-tahun menggunakan data genom yang luas untuk memprediksi struktur protein. Model protein tiga dimensi yang dihasilkan AlphaFold jauh lebih akurat daripada yang diperoleh sebelumnya. Ini menandai kemajuan yang signifikan dalam salah satu tugas utama biologi.
Apa masalah pelipatan protein?
Protein adalah molekul besar dan kompleks yang dibutuhkan untuk mempertahankan kehidupan. Hampir semua fungsi tubuh kita, apakah itu kontraksi otot, persepsi cahaya, atau konversi makanan menjadi energi, dapat ditelusuri ke satu atau lebih protein dan bagaimana mereka bergerak dan berubah. Resep untuk protein ini, yang disebut gen, dikodekan dalam DNA kita.
Sifat-sifat protein tergantung pada struktur tiga dimensi yang unik. Sebagai contoh, protein antibodi yang membentuk sistem kekebalan tubuh kita "berbentuk Y" dan terlihat seperti kait khusus. Berpegang teguh pada virus dan bakteri, protein antibodi dapat mendeteksi dan memberi label patogen untuk kerusakan selanjutnya. Demikian pula, protein kolagen dalam bentuk tali yang mentransmisikan ketegangan antara tulang rawan, ligamen, tulang dan kulit. Jenis protein lain termasuk Cas9, yang, dipandu oleh urutan CRISPR, bertindak sebagai gunting yang memotong DNA dan memasukkan situs baru. Protein antibeku, yang struktur tiga dimensinya memungkinkannya mengikat kristal es dan mencegah pembekuan organisme; dan ribosom, yang bertindak sebagai konveyor terprogram yang terlibat dalam pembangunan protein.
Menentukan struktur tiga dimensi protein hanya dari urutan genetiknya adalah tugas yang sulit yang telah diperjuangkan para ilmuwan selama beberapa dekade. Masalahnya adalah bahwa DNA hanya berisi informasi tentang urutan blok bangunan protein yang disebut residu asam amino yang membentuk rantai panjang. Memprediksi bagaimana rantai ini akan membentuk struktur protein 3D yang kompleks dikenal sebagai "masalah pelipatan protein."
Semakin besar protein, semakin sulit untuk dimodelkan, karena lebih banyak ikatan terbentuk antara asam amino yang perlu diperhitungkan. Sebagai berikut dari
paradoks Levintal , untuk membuat daftar semua konfigurasi yang mungkin dari protein biasa, sebelum struktur tiga dimensi yang benar tercapai, itu akan memakan waktu lebih banyak daripada yang ada di alam semesta.

Mengapa protein lipat penting?
Kemampuan untuk memprediksi bentuk protein sangat berguna karena sangat mendasar untuk memahami peran protein dalam tubuh, serta diagnosis dan pengobatan penyakit seperti Alzheimer,
Parkinson ,
penyakit Huntington dan
cystic fibrosis , yang diyakini dokter disebabkan oleh protein terlipat yang tidak tepat.
Kami sangat senang bahwa kemampuan untuk memprediksi bentuk protein dapat meningkatkan pemahaman kita tentang cara kerja tubuh kita, dan ini akan memungkinkan kita untuk mengembangkan obat baru secara efisien. Ketika kami mendapatkan informasi lebih lanjut tentang bentuk-bentuk protein dan bagaimana mereka bekerja melalui pemodelan, peluang baru untuk membuat obat terbuka, serta menurunkan biaya percobaan. Pada akhirnya, penemuan ini akan meningkatkan kualitas hidup jutaan pasien di seluruh dunia.
Memahami proses pelipatan protein juga dapat membantu dalam mengembangkan jenis protein yang akan memberikan kontribusi signifikan terhadap realitas di sekitarnya. Misalnya, kemajuan yang dibuat melalui pengembangan protein dalam enzim yang dapat terbiodegradasi dapat membantu mengatasi kontaminan seperti plastik dan minyak, membantu memecah limbah tanpa merusak lingkungan. Faktanya, para peneliti telah mulai
merancang bakteri yang mengeluarkan protein yang membuat limbah tersebut dapat terurai secara hayati dan membuatnya lebih mudah untuk ditangani.
Untuk merangsang penelitian dan mengevaluasi kemajuan di bidang metode terbaru untuk meningkatkan akurasi perkiraan, kompetisi dua tahun skala besar
diluncurkan pada tahun 1994 yang disebut
Percobaan Komunitas CASP
dalam Evaluasi Kritis Metode Struktur Protein (CASP), yang telah menjadi standar emas dalam metode evaluasi.
Bagaimana AI akan membuat perbedaan?
Selama lima dekade terakhir, para ilmuwan telah dapat mengenali bentuk-bentuk protein di laboratorium menggunakan metode eksperimental seperti
mikroskopi cryoelectron ,
resonansi magnetik nuklir, atau
difraksi sinar-X , tetapi masing-masing metode telah disimpulkan oleh banyak percobaan dan kesalahan yang memakan waktu bertahun-tahun dan menghabiskan biaya puluhan ribu dolar. Itu sebabnya para ahli biologi kini beralih ke metode AI sebagai alternatif untuk proses panjang dan melelahkan dalam meneliti protein kompleks.
Untungnya, bidang genomik memiliki data yang cukup karena pengurangan cepat dalam biaya sekuensing genetik. Akibatnya, dalam beberapa tahun terakhir,
pendekatan terhadap masalah peramalan menggunakan pembelajaran mendalam dan berdasarkan data genom menjadi semakin populer. Pekerjaan DeepMind pada masalah ini menyebabkan munculnya AlphaFold, yang kami perkenalkan ke CASP tahun ini. Kami bangga menjadi bagian dari kemajuan yang oleh para ahli CASP disebut "kemajuan yang belum pernah terjadi sebelumnya dalam kemampuan metode komputasi untuk memprediksi struktur protein." Sebagai hasilnya, kami
menempati posisi pertama di peringkat tim (kami adalah A7D).
Tim kami berfokus pada tugas memodelkan bentuk target dari awal, tanpa menggunakan protein yang telah dipecahkan sebelumnya sebagai templat. Kami mencapai tingkat akurasi yang tinggi dalam memprediksi sifat fisik struktur protein, dan kemudian menggunakan dua metode berbeda untuk memprediksi struktur protein lengkap.
Menggunakan jaringan saraf untuk memprediksi sifat fisik
Kedua metode ini menggunakan jaringan saraf dalam yang dilatih untuk memprediksi sifat-sifat protein berdasarkan urutan genetiknya. Sifat-sifat yang diprediksi jaringan adalah: (a) jarak antara pasangan asam amino dan (b) sudut antara ikatan kimia yang menghubungkan asam amino ini. Perkembangan pertama adalah kemajuan nyata dalam penggunaan metode populer yang menentukan apakah pasangan asam amino bersebelahan.
Kami melatih jaringan saraf untuk memprediksi distribusi jarak yang terpisah antara setiap pasangan residu protein. Probabilitas ini kemudian digabungkan ke dalam perkiraan yang menunjukkan seberapa baik struktur protein yang dirancang. Kami juga melatih jaringan saraf lain yang menggunakan semua jarak secara total untuk mengevaluasi seberapa dekat struktur yang diusulkan dengan jawaban yang benar.


Metode baru untuk memprediksi struktur protein
Dengan menggunakan fungsi penilaian ini, kami dapat menemukan struktur yang sesuai dengan perkiraan kami. Metode pertama kami didasarkan pada metode yang banyak digunakan dalam biologi struktural, telah berulang kali mengganti bagian struktur protein dengan fragmen baru. Kami melatih jaringan saraf kompetitif-generatif untuk mengusulkan fragmen baru yang digunakan untuk terus meningkatkan penilaian struktur protein yang diusulkan.

Metode kedua dioptimalkan nilai menggunakan gradient descent, (metode matematika yang umum digunakan dalam pembelajaran mesin untuk peningkatan bertahap kecil), yang menyebabkan akurasi tinggi dari struktur. Metode ini diterapkan pada seluruh rantai protein, dan bukan pada potongan yang harus ditumpuk secara terpisah sebelum perakitan, yang mengurangi kompleksitas proses prediksi.
Apa selanjutnya
Keberhasilan uji pena koagulasi protein kami menunjukkan bahwa sistem pembelajaran mesin dapat mengintegrasikan berbagai sumber informasi untuk membantu para ilmuwan dengan cepat mengembangkan solusi kreatif untuk masalah kompleks. Kami telah melihat bagaimana AI membantu orang menguasai permainan kompleks melalui sistem seperti
AlphaGo dan
AlphaZero , kami juga berharap bahwa begitu terobosan AI membantu umat manusia memecahkan masalah ilmiah mendasar.
Sangat menarik untuk melihat kemajuan pertama dalam pelipatan protein, menunjukkan kegunaan AI dalam membuat penemuan ilmiah. Meskipun masih banyak yang harus kita lakukan, kita jelas mengerti bahwa kita akan dapat berkontribusi dalam pencarian pengobatan berbagai penyakit, membantu lingkungan dan banyak lagi, karena sebenarnya potensinya sangat besar. Dengan tim yang berdedikasi berfokus pada mengeksplorasi bagaimana pembelajaran mesin dapat memajukan dunia sains, kami akan mengeksplorasi berbagai cara dan metode yang dengannya teknologi kami dapat mempengaruhi dunia di sekitar kita.