Pemantauan + pengujian stres = perkiraan dan tidak ada kegagalan

Departemen TI VTB harus menghadapi situasi darurat dalam sistem beberapa kali, ketika bebannya meningkat berkali-kali. Oleh karena itu, menjadi penting untuk mengembangkan dan menguji model yang akan memprediksi beban puncak pada sistem kritis. Untuk ini, spesialis TI bank mengatur pemantauan, menganalisis data, dan belajar cara mengotomatisasi perkiraan. Alat apa yang membantu memprediksi beban dan apakah mungkin untuk mengoptimalkan pekerjaan dengan bantuan mereka, kami akan katakan dalam artikel singkat.



Masalah dengan layanan yang sangat dimuat muncul di hampir semua sektor, tetapi mereka sangat penting untuk sektor keuangan. Pada jam X, semua unit tempur harus siap, dan karena itu perlu untuk mengetahui terlebih dahulu apa yang bisa terjadi dan bahkan menentukan hari kapan muatan akan melonjak, dan sistem mana yang akan menghadapinya. Kegagalan perlu diperangi dan dicegah, sehingga kebutuhan untuk menerapkan sistem analitik prediktif bahkan belum dibahas. Itu perlu untuk meningkatkan sistem berdasarkan data pemantauan.

Analisis pada lutut


Proyek penggajian adalah salah satu yang paling sensitif jika terjadi kegagalan. Ini paling dapat dimengerti untuk perkiraan, jadi kami memutuskan untuk memulainya. Karena konektivitas tinggi pada saat beban puncak, subsistem lain, termasuk layanan perbankan jarak jauh (RBS), dapat mengalami masalah. Misalnya, pelanggan, senang dengan SMS tentang penerimaan uang, mulai secara aktif menggunakannya. Beban bisa melonjak lebih dari satu urutan besarnya.

Model prakiraan pertama dibuat secara manual. Kami mengambil bongkar muat untuk tahun lalu dan menghitung pada hari mana puncak maksimum diharapkan: misalnya, pada tanggal 1, 15 dan 25, serta pada hari-hari terakhir bulan itu. Model ini membutuhkan kerja serius dan tidak memberikan perkiraan yang akurat. Namun demikian, ia mengidentifikasi kemacetan di mana perlu untuk menambah perangkat keras, dan memungkinkan untuk mengoptimalkan proses transfer uang dengan menyetujui dengan klien jangkar: agar tidak memberikan gaji dalam satu tegukan, transaksi dari berbagai daerah tersebar dalam waktu. Sekarang kami memprosesnya di bagian yang dapat dikunyah oleh infrastruktur TI bank.

Setelah menerima hasil positif pertama, kami beralih ke peramalan otomatisasi. Selusin bagian yang lebih kritis sedang menunggu giliran kami.

Pendekatan terintegrasi


Di VTB, mereka memperkenalkan sistem pemantauan MicroFocus. Dari sana kami mengambil pengumpulan data perkiraan, sistem penyimpanan, dan sistem pelaporan. Bahkan, sudah ada pemantauan, hanya tinggal menambahkan metrik, modul prediksi dan membuat laporan baru. Keputusan ini didukung oleh kontraktor eksternal, Technoserv, sehingga pekerjaan utama pada proyek dilakukan oleh spesialisnya, tetapi kami membangun model sendiri. Sistem peramalan dibuat berdasarkan pada Nabi - produk sumber terbuka ini dikembangkan di Facebook. Mudah digunakan dan mudah diintegrasikan dengan alat pemantauan dan Vertica kami yang komprehensif. Secara kasar, sistem menganalisis jadwal pemuatan dan, berdasarkan seri Fourier, memperkirakannya. Dimungkinkan juga untuk menambahkan koefisien tertentu berdasarkan hari, yang diambil dari model kami. Metrik diambil tanpa campur tangan manusia, sekali seminggu ramalan itu secara otomatis dihitung ulang, laporan baru dikirim ke penerima.

Pendekatan ini mengungkapkan siklus utama, misalnya, tahunan, bulanan, triwulanan, dan mingguan. Pembayaran gaji dan uang muka, masa liburan, liburan dan penjualan - semua ini mempengaruhi jumlah panggilan ke sistem. Ternyata, misalnya, bahwa beberapa siklus saling tumpang tindih, dan Distrik Federal Pusat memberikan beban utama (75%) ke sistem. Badan hukum dan individu berperilaku berbeda. Jika beban kerja "fisikawan" relatif merata di hari-hari dalam seminggu (ini adalah banyak transaksi kecil), maka perusahaan memiliki 99,9% dari waktu mereka, sementara transaksi dapat pendek, atau dapat diproses dalam hitungan menit atau bahkan jam.



Berdasarkan data yang diperoleh, tren jangka panjang ditentukan. Sistem baru telah mengungkapkan bahwa orang-orang secara besar-besaran berangkat ke BPR. Ini diketahui oleh semua orang, tetapi kami tidak mengharapkan skala seperti itu dan pada awalnya tidak percaya pada mereka: jumlah panggilan ke kantor bank menurun sangat cepat, dan jumlah transaksi jarak jauh tumbuh dengan jumlah yang persis sama. Dengan demikian, beban pada sistem juga bertambah dan akan terus bertambah. Sekarang kami memperkirakan beban hingga Februari 2020. Hari normal dapat diprediksi dengan kesalahan 3%, dan hari-hari puncak dengan kesalahan 10%. Ini hasil yang bagus.

Perangkap


Seperti biasa, ada beberapa kesulitan. Mekanisme ekstrapolasi menggunakan seri Fourier berjalan buruk sampai nol - kita tahu bahwa pada akhir pekan badan hukum menghasilkan beberapa transaksi, tetapi modul prediksi menghasilkan nilai yang jauh dari nol. Mungkin untuk memperbaikinya dengan paksa, tetapi kruk bukan metode kami. Selain itu, perlu untuk memecahkan masalah pengumpulan data tanpa rasa sakit dari sistem sumber. Pengumpulan informasi reguler membutuhkan sumber daya komputasi yang serius, jadi kami membuat cache cepat menggunakan replikasi, kami sudah mendapatkan data bisnis dari replika. Tidak adanya beban tambahan pada sistem master dalam kasus tersebut merupakan persyaratan pemblokiran.

Tantangan baru


Tugas dahi untuk memprediksi puncak diselesaikan: tidak ada kegagalan bank terkait kelebihan muatan sejak Mei tahun ini, dan sistem peramalan baru memainkan peran penting dalam hal ini. Ya, itu tidak cukup, dan sekarang bank ingin memahami betapa berbahayanya puncak itu. Kami membutuhkan prakiraan menggunakan metrik dari pengujian beban, dan untuk sekitar 30% dari sistem kritis ini sudah berfungsi, sisanya sedang dalam proses mendapatkan prakiraan. Pada tahap selanjutnya, kita akan memprediksi beban pada sistem bukan dalam transaksi bisnis, tetapi dalam hal infrastruktur TI, yaitu, kita akan turun lapisan di bawah ini. Selain itu, kita perlu mengotomatiskan secara penuh kumpulan metrik dan membuat prakiraan berdasarkannya, agar tidak terlibat dalam pembongkaran. Tidak ada yang luar biasa dalam hal ini - kami hanya melakukan cross-monitor dan stress testing sesuai dengan praktik terbaik dunia.

Source: https://habr.com/ru/post/id472062/


All Articles