Kehidupan sehari-hari MT_FREE: beberapa cerita tentang pengaruh layanan pihak ketiga pada pekerjaan Wi-Fi publik



Internet adalah lingkungan yang besar dan dinamis di mana semuanya terhubung satu sama lain dalam satu atau lain cara dan dapat saling mempengaruhi. Hubungan seperti itu, ketika perubahan kecil di satu bagian sistem dapat menyebabkan perubahan lengkap di bagian lain, secara populer disebut "efek kupu-kupu". Efeknya menggambarkan dengan sempurna bagaimana satu "sepatu bot usang" dapat menurunkan layanan utama dan pada saat yang sama beberapa orang asing ... Kita akan membicarakan hal ini.

Lima tahun lalu, ketika Wi-Fi di kereta bawah tanah baru saja muncul ...


... itu adalah fenomena yang membagi kehidupan Moskow menjadi "sebelum" dan "setelah". Pada saat itu, proyek itu adalah satu-satunya di dunia, dan semua yang ada di dalamnya sama uniknya: struktur jaringan, model monetisasi, layanan pengguna, pendekatan konstruksi dan operasi.

Hampir dari peluncuran segmen pertama Wi-Fi di metro, kami mendapatkan otorisasi dan portal media kami sendiri. Kami dengan murah hati bereksperimen dengan portal dalam hal integrasi dengan layanan pihak ketiga, pada kenyataannya, mengeksplorasi kemampuan model bisnis kami ("bagaimana jika kami menjual kopi di kereta bawah tanah dengan pengiriman ke pintu masuk dari lobi?!").

Pada awalnya, kami secara aktif melibatkan mitra dari berbagai bidang dalam pekerjaan kami. Tetapi hampir setiap publikasi layanan afiliasi baru menyebabkan jatuhnya yang kedua di bawah beban dan kebutuhan untuk kembalikan darurat perubahan. Hanya sedikit orang yang dapat bertahan hidup dari ribuan permintaan baru per menit, dan beberapa di antaranya pada dasarnya tidak mampu karena arsitektur yang tidak dapat diskalakan. Kehadiran masalah seperti itu membuat kami memantau kinerja layanan afiliasi, di mana pengalaman pengguna secara langsung tergantung. Dan juga mengembangkan mekanisme untuk mengurangi ketergantungan ini (proxy, cache).

Suatu kali seruan nyaring di kantor "Lima Ratus" menggerakkan seluruh perusahaan - sekarang situasi seperti itu praktis tidak terjadi. Di layar mulai Juli 2015, hasil peluncuran layanan penjualan bunga dengan pengiriman di sub-domain kami.

Tetapi evolusi tidak pernah berjalan cepat. Sebelum kami membangun sistem saat ini, kami harus "mengisi kerucut" dan mengalami serangkaian kecelakaan berdasarkan pengalaman kami sendiri. Selain itu, prosesnya tidak berhenti: semakin dalam kita mempelajari masalah, semakin kita mengidentifikasi ketergantungan yang paling tak terduga. Melihat ke belakang, kami memahami betapa pentingnya terkadang memiliki contoh tentang bagaimana hal itu terjadi. Itulah yang ingin kami bagikan.

IOS baru menurunkan traffic sebesar 20%


MaximaTelecom berspesialisasi dalam membangun jaringan dalam transportasi. Sebagian besar perangkat pelanggan yang menggunakan jaringan kami adalah seluler, telepon pintar, dan tablet berbasis Android dan iOS. Kedua vendor, Google dan Apple, memiliki peta jalan untuk merilis pembaruan ke sistem operasi mereka. Dalam versi baru, modul yang bertanggung jawab untuk menghubungkan ke Wi-Fi sering berubah. Dalam kasus terbaik, pada hari pembaruan dilepaskan, lalu lintas bertambah karena fakta bahwa perangkat mengunduh pembaruan melalui Wi-Fi. Tetapi ada beberapa kasus bencana.

Baru tahun lalu, Apple merilis versi baru iOS 10.3.1, setelah itu lalu lintas jaringan macet hampir 20%. Ternyata dalam versi baru Apple "mematahkan" proses menghubungkan ke jaringan: mekanisme otorisasi di Captive berhenti bekerja dan perangkat tidak dapat masuk ke MT_FREE. Saya harus melepaskan perbaikan dalam mode darurat dan memperbaiki situasi. Masalahnya diperbaiki setelah tiga pembaruan kecil, setelah kami membuka kasing di Apple bugtracker.




Jumlah panggilan ke halaman auth.wi-fi.ru otorisasi per menit. Grafik dengan jelas menunjukkan kelambatan yang signifikan dari indikator untuk periode sebelumnya.

Situasi ini diperburuk oleh fakta bahwa Wi-Fi adalah teknologi yang agak lama dan sangat luas, penciptaannya tidak seharusnya digunakan pada skala seperti yang kita miliki di Metro Moskow. Jadi, kita harus berurusan dengan "salad" seluruh berbagai perangkat, yang masing-masing berperilaku dalam jaringan dengan caranya sendiri. Metrik datar dari jumlah megabita abstrak atau "pelanggan bulat pada jaringan" tidak berlaku bagi kami. Setiap layanan, apakah itu akses dasar ke Internet, portal media atau aplikasi seluler, harus dipertimbangkan dalam konteks perangkat tertentu dan / atau sistem operasi, karena masalahnya mungkin menyangkut kelompok yang spesifik dan cukup sempit.


... dan beberapa lusin opsi paling eksotis.

Ini bukan DDOS: kecelakaan dari operator seluler menyebabkan lonjakan lalu lintas hampir sepertiga


Dua tahun lalu, salah satu operator seluler mengalami kecelakaan besar. Dalam kasus seperti itu, pengguna mencari alternatif untuk layanan komunikasi. Jika kita berbicara tentang metro, maka tidak ada cara komunikasi alternatif di kereta sama sekali.

Klarifikasi
Dan sekarang, hanya beberapa operator yang menyediakan layanan di daerah yang dilengkapi dengan kabel yang memancar. Tetapi teknologi ini sangat terbatas dalam kapasitas dan tidak dapat memberikan tingkat layanan yang sebanding untuk sebagian besar pengguna. Belum lagi biaya lalu lintas pada batas tarif rencana.

Tetapi di stasiun, komunikasi seluler telah berkembang cukup kuat, belum lagi segmen terestrial, di mana Wi-Fi bersaing secara langsung dengannya.

Kami mengetahui tentang kecelakaan di jaringan operator seluler dari layanan operator kami, yang mengumumkan bahwa mereka menyerang kami. Pertumbuhan jumlah pengguna dan lalu lintas sedemikian rupa sehingga pada awalnya kami berpikir bahwa kami berbasis DDOS. Kami belajar tentang alasan sebenarnya peningkatan lalu lintas, mengetahui bahwa sepertiga karyawan tidak memiliki telepon seluler.


Begini tampilannya pengguna Wi-Fi kami di atas tanah.

Kekhasan situasi kami secara khusus adalah bahwa kami memiliki jaringan Wi-Fi, yang berarti tidak masalah bagi kami kartu SIM mana dari operator telekomunikasi yang dipasang di perangkat pengguna.

Perlu disebutkan bahwa kecelakaan yang terjadi memengaruhi layanan kami sebagian dan negatif. Beberapa segmen jaringan MT_FREE, khususnya, jaringan dalam bus kota dan kereta komuter, menggunakan komunikasi seluler sebagai jaringan tulang punggung, yang berarti kecelakaan pada jaringan seluler mengarah pada degradasi layanan di segmen ini.

Wi-Fi di kereta bawah tanah tanpa iklan? Ya!


Periklanan adalah dasar dari akses gratis ke jaringan MT_FREE, karena itu berkat layanan itu ada dan terbayar. Sebagai AdServer dasar, kami telah menggunakan AdFox selama bertahun-tahun. Sangat menarik bahwa AdServer sendiri tidak mengalami perubahan signifikan selama kami bekerja dengannya. Salah satu spesifiknya adalah sistem pengumpulan statistik tayangan, yang dibentuk oleh interval per jam. Hal ini menyebabkan puncak berirama dalam waktu respons dari layanan (setiap jam, tepat di perbatasan jam, "twist" mulai "bermain iseng" dan memikirkan setiap jawaban). Kami tidak segera menangkap nuansa ini!


Garis waktu respons AdFox untuk permintaan iklan. Semburan dan kemiringan di perbatasan jam terlihat jelas.

Faktanya, kami mengamati karakteristik “puncak” per jam yang sama dalam jumlah tayangan untuk alat pemantauan lainnya, untuk Metrik yang sama. Tetapi saya ingin berbicara tentang situasi yang lebih ekstrem. Musim dingin lalu, AdFox mengalami kecelakaan serius: layanan tidak merespons untuk waktu yang lama. Pada metrik kami, ini memanifestasikan dirinya sebagai kurangnya otorisasi pengguna dan penurunan tajam dalam kinerja portal. Pada saat yang sama, antarmuka manajemen AdFox dengan kesalahan sertifikat tidak tersedia.


Ilustrasi kesalahan sertifikat adfox.ru.

Setelah melakukan beberapa tes dan memanggil AdFox sendiri, kami mengetahui tentang kecelakaan itu, dan kami tidak punya pilihan selain membiarkan semua pengguna yang teridentifikasi masuk ke jaringan tanpa iklan.


Dan ini adalah kecelakaan pada metrik Yandex di portal kami.

Unduhan yang lebih cepat terkadang menghasilkan hasil yang tidak terduga


Kualitas layanan yang dipersepsikan tergantung tidak hanya pada pekerjaan infrastruktur orang lain, pembaruan OS, dan kerusakan pada sumber daya massal, tetapi juga pada perilaku browser tertentu pada perangkat tertentu. Dalam hal ini, kami memiliki lebih banyak peluang untuk dipengaruhi, jadi kami terus berupaya meningkatkan produk. Rata-rata, kami menerbitkan satu pembaruan per hari. Tetapi kadang-kadang pembaruan yang tampaknya sederhana, yang harus mengarah pada peningkatan pengalaman pengguna, mengarah pada konsekuensi yang tidak terduga.

Karena kami memiliki kesempatan untuk mempengaruhi operasi layanan di tingkat jaringan (misalnya, dengan mengubah prioritas satu jenis lalu lintas relatif ke yang lain), muncul ide untuk mempercepat otorisasi dengan memprioritaskan lalu lintas. Kami menerbitkan perubahan terkait dan, dengan takjub, mulai mengamati banyak kesalahan dan penurunan 20% dalam pendapatan iklan. Tes teknis menunjukkan bahwa rangkaian berfungsi dengan benar dari sudut pandang jaringan. Kembalinya perubahan, bagaimanapun, mengkonfirmasi bahwa alasannya justru di pengaturan baru.

Hasilnya, kami menemukan bahwa dengan meningkatkan prioritas beberapa skrip di atas yang lain, kami mengubah urutan pelaksanaan fungsi pada tingkat pemuatan halaman otorisasi itu sendiri di browser. Ini secara signifikan mempengaruhi pengalaman pengguna. Bahkan, skrip otorisasi mulai memuat dan berjalan lebih cepat dari skrip iklan. Karena hubungan yang ada di antara mereka, situasi muncul ketika satu fungsi menunggu hasil yang lain, file yang bahkan belum diunduh ke perangkat.

Jaringan sosial vs. Media


Perilaku pengguna di Internet sesuai dengan pola standar. Orang terbiasa berkomunikasi melalui kurir, mencari konten di portal media, membaca berita melalui jejaring sosial dan agregator berita. Cukup jelas, tetapi masih fokus pada kenyataan bahwa jejaring sosial adalah alternatif untuk berita, dan sebaliknya. Ketika sesuatu tiba-tiba terjadi dengan salah satu sumber informasi, perhatian pengguna didistribusikan kembali ke yang tersisa, biasanya yang paling mudah diakses. Jadi pada 2017 ada kesalahan global pada VKontakte. Bagi kami, acara ini tampak seperti peningkatan tajam dalam pengguna dan waktu di portal berita kami wi-fi.ru. Bahkan, pengguna, menyadari bahwa jaringan sosial favorit mereka tidak berfungsi, pergi untuk membacakan berita kepada kami.

Momen keruntuhan VK ditandai oleh peningkatan 30% pada beban di portal wi-fi.ru.

Kasus ini menggambarkan betapa pentingnya bagi layanan massal untuk memiliki batas keselamatan untuk "mencerna" konsekuensi dari kecelakaan "tetangga" yang bersifat informasi.

Hijau - tidak ada kecelakaan


Situasi yang dijelaskan terus-menerus mendorong kami untuk meningkatkan pemantauan layanan pihak ketiga di MT_FREE. Inilah tampilan dasbor untuk mengoperasikan jaringan kami.

Operasi jaringan dasbor di St. Petersburg.

Dasbor terdiri dari banyak indikator jenis "lampu lalu lintas": kondisi hijau - semuanya normal, warna merah - alarm. Warna indikator bervariasi sesuai waktu. Ini bisa berupa perilaku normal atau tanda kelainan. Tetapi jika Anda "menarik" semua indikator dengan garis dan meletakkan setiap langkah pengukuran sedemikian rupa di papan tulis, Anda mendapatkan gambar dua dimensi yang terus berkembang yang menggambarkan evolusi jaringan secara keseluruhan. Gambar ini dapat dengan mudah "diumpankan" dengan algoritma pembelajaran mesin standar yang dirancang untuk mengenali pola grafik (semacam FindFace, hanya untuk pola sensor).

Bagan warna indikator berdasarkan waktu tidak lebih dari gambar yang menggambarkan evolusi jaringan.

Selanjutnya, algoritma belajar mandiri (seperti AI) ditambahkan yang dapat secara otomatis mengklasifikasikan pola dan mengidentifikasi penyebab penyimpangan atau data yang tidak lengkap. Semuanya terlihat sederhana, tetapi bagaimana menurut Anda, berapa banyak operator telekomunikasi yang benar-benar menggunakannya?

Sedikit, dan kita tidak ada di antara mereka


Dalam keadilan, penerapan teknologi ini dalam kerangka kerja MaximTelecom sendiri berada pada tahap yang cukup awal, sebagian besar karena tidak jelas di mana garis antara apa yang harus diterima dari luar jaringan dan apa yang bisa diperoleh dari dalam. Keuntungan kami di sini adalah bahwa kami mulai mengembangkan basis algoritmik yang diperlukan sejak awal sebagai bagian dari platform kami untuk monetisasi jaringan periklanan.

Maxima adalah operator, pertama-tama, dari layanan akses Wi-Fi gratis. Selain itu, tidak seperti Wi-Fi "sosial" dalam jumlah yang cukup besar, kami adalah operator komunikasi komersial yang lengkap. Sebenarnya, ini adalah ide perusahaan kami: kami berusaha untuk membuat komunikasi gratis dan menguntungkan pada saat yang sama, dan kami telah membuktikan bahwa ini mungkin. Hampir tidak ada operator telekomunikasi di dunia yang dapat (atau tidak) menginginkan ini, dan karena itu tidak mengembangkan teknologi untuk ini. Ini memberi harapan bahwa di masa depan kami akan dapat membawa teknologi kami ke titik di mana pengalaman pengguna MT_FREE tidak akan berbeda dari yang disediakan oleh operator berbayar tradisional. Pada saat yang sama, tingkat keandalan akan lebih tinggi karena kontrol cerdas dan sistem operasi yang lebih maju.

Namun, sayangnya, tidak semua masalah dapat diselesaikan dalam kemampuan satu perusahaan, jika hanya karena ada banyak produsen peralatan pelanggan dan jaringan Wi-Fi, dan tingkat unifikasi secara signifikan lebih rendah daripada yang ada di jaringan seluler. Kami memecahkan masalah dengan berbagai perangkat saat menghubungkan ke jaringan sejak saat peluncuran. "Akar kejahatan" di sini adalah tidak adanya standar dan, sebagai akibatnya, masing-masing produsen menciptakan sesuatu miliknya sendiri.

Untuk mengatasi masalah industri seperti itu, ada asosiasi internasional. Misalnya, sekarang kami memimpin proyek dalam menstandarisasi pengalaman pengguna saat menghubungkan ke jaringan Wi-Fi menggunakan monetisasi iklan. Tapi ini topik untuk artikel lain.

Omong-omong, kami terus memperluas staf pengembangan, lowongan yang relevan dapat ditemukan di halaman karir kami.

Source: https://habr.com/ru/post/id457958/


All Articles