Highload ++ sangat dekat! Pada 7-8 November, lebih dari 3.000 pengembang sistem yang sangat dimuat akan berkumpul di Skolkovo untuk ketiga belas kalinya. Acara ini bertujuan untuk bertukar pengetahuan tentang teknologi yang secara bersamaan melayani ribuan dan jutaan pengguna.
Program ini mencakup aspek-aspek pengembangan web seperti arsitektur proyek besar, basis data dan sistem penyimpanan, administrasi sistem, pengujian beban, pengoperasian proyek besar dan area lain yang terkait dengan sistem yang sangat dimuat.
Kami secara aktif terlibat dalam Highload ++ 2019 dan hari ini kami akan memberi tahu Anda laporan apa yang disiapkan karyawan kami untuk peserta konferensi.
7 November

Waktu: 12:00
Tempat: Balai MoskowThe Count of Friends adalah salah satu layanan yang paling penting dan dimuat di Odnoklassniki. Ini diperlukan untuk hampir semua fungsi situs: membentuk umpan, mencari teman baru, memeriksa izin saat melihat foto, dan banyak lagi. Semua ini menciptakan hingga 700.000 permintaan per detik hingga 300.000.000.000 koneksi antara pengguna.
Beban seperti itu tidak hanya persyaratan ketat untuk kinerja, tetapi juga untuk toleransi kesalahan, karena masalah dengan grafik dapat melumpuhkan pekerjaan seluruh situs. Untuk waktu yang lama, kami hidup dengan skema klasik dari basis dan cache yang dapat ditelusuri. Tapi dia punya banyak masalah dengan konsistensi data dan toleransi kesalahan.
Dalam laporan tersebut, kami akan berbicara secara rinci tentang transisi ke arsitektur grafik baru, mulai dengan cerita tentang versi lama dan masalah yang muncul selama penggunaannya, kemudian masuk ke arsitektur grafik baru dan kejutan yang menunggu kami selama migrasi.

Waktu: 5 malam
Lokasi: Singapore HallDi Odnoklassniki, permintaan pengguna dilayani oleh lebih dari 200 jenis jenis layanan unik. Banyak dari layanan ini menggunakan teknik menggabungkan logika bisnis JVM dan database Cassandra toleran kesalahan didistribusikan. Ini memungkinkan kami untuk membangun layanan dengan muatan sangat tinggi yang mengelola ratusan miliar catatan dengan jutaan operasi per detik.
Dalam laporan ini, kita akan berbicara tentang keuntungan apa yang muncul ketika menggabungkan logika bisnis dan database; membahas bagaimana kondisi mempengaruhi keandalan dan ketersediaan layanan; dan juga membahas bagaimana teknik ini telah secara signifikan meningkatkan kinerja layanan kami.
Tetapi tidak semua database cocok untuk ini. Kami akan memeriksa secara terperinci basis data mana yang cocok untuk disematkan dalam layanan Microsoft Anda berikutnya, dan mana yang tidak.
8 November
Bangkitnya Mesin adalah OK . Leonid Talalaev, pengembang utama dalam tim platform

Waktu: 10:00
Lokasi: Balai Kota CapeTeman sekelas terdiri dari lebih dari 6.000 server yang berlokasi di beberapa pusat data. Hampir setengah dari mereka adalah bagian dari cloud kami, one-cloud, yang sudah kami bicarakan dua tahun lalu di HighLoad ++.
Ketika mengelola lebih dari 10.000 kontainer, tugas-tugas khas muncul, implementasi yang secara manual akan memakan waktu terlalu banyak dan pasti akan menyebabkan kesalahan manusia. Oleh karena itu, kami berusaha untuk mengotomatisasi semua proses di cloud untuk meminimalkan partisipasi manusia. Kami menyebut otomatisasi lengkap ini "Bangkitnya Mesin".
Dalam laporan tersebut, kami akan mempertimbangkan topik-topik seperti:
- Layout patch keamanan pada semua kontainer. Pada saat yang sama, kita akan belajar cara mengganti lapisan gambar buruh pelabuhan dalam 1 detik;
- memastikan ketersediaan layanan statefull terdistribusi selama operasi di cloud;
- Masalah fragmentasi di cloud. Kami akan memberi tahu Anda cara menghemat satu juta dolar dengan mengubah algoritma penempatan.

Waktu: 2 malam
Lokasi: Aula Utama (Aula Kongres)Alexander akan memberi tahu:
- karena Odnoklassniki mentransplantasikan jutaan pengguna dari TCP ke UDP, 3/4 OK pengguna Android sudah menggunakan UDP untuk komunikasi jaringan
- bagaimana mereka mempercepat hingga 30% pengiriman konten ke pengguna sesuai dengan statistik klien produk
- tentang pendekatan untuk membangun protokol jaringan dan metode untuk menguji dan memodelkan jaringan
Selain itu, OKE tidak hanya akan membagikan hasil pengujian TCP dan QUIC pada jaringan yang berbeda, tetapi juga kode sumber emulator jaringan tempat pengujian tersebut dilakukan.

Waktu: 4 malam
Lokasi: Aula Utama (Aula Kongres)Tujuan laporan: untuk berbicara tentang perangkap dan arsitektur cluster Elasticsearch untuk menyimpan log dalam volume yang sangat besar.
Dalam laporan itu, saya akan berbicara tentang bagaimana kami mengatur penyimpanan dan akses ke log untuk pengembang sebagai bagian dari proyek Odnoklassniki.
Awalnya, tuntutan tinggi diberikan pada layanan. Semua orang mengerti bahwa volume data yang diproses akan besar, toleransi kesalahan juga diperlukan, dan beban puncak dapat meningkat menjadi 2 juta baris per detik. Karena alasan ini, tugas tersebut ternyata sama sekali tidak trivial, dengan konten "jebakan" yang tinggi dan fitur yang menarik.
Saya akan menjelaskan sejarah jalan "berliku" kami untuk menyelesaikan masalah ini, dan saya juga akan memberi tahu Anda arsitektur cluster mana yang akhirnya kami tuju dan keputusan mana yang kelihatannya benar pada pandangan pertama "shot in the foot" pada saat yang paling tak terduga.
Kami memiliki 4 pusat data, 500 instance untuk elastis, 200TB + data, hingga 2 juta baris per detik pada puncaknya dan 100% persyaratan layanan uptime di semua biaya.
Bagaimana kami berhasil menyadari hal ini, Anda akan mengetahui di laporan kami!