Tentang pemantauan

intro


Pemantauan adalah bagian terpenting dari infrastruktur Anda. Pemantauan adalah dasar-dasar insinyur sistem. Namun, setiap orang memiliki caranya sendiri untuk memahaminya. Cara saya terdiri dari penyangkalan. kemarahan & penerimaan.


Bantahan


Bantahan


Sulit dipercaya, tapi ada ruang server di foto itu.


Itu tahun 2007. Saya belajar di CSU (Chelyabinsk State University) di departemen keamanan informasi sebagai mahasiswa tahun kedua. Saya memutuskan untuk melamar CSU sebagai asisten di lab keamanan informasi. Itu adalah pekerjaan paruh waktu sementara. Setelah itu pada 2009, saya mendapat satu lagi pekerjaan tetap paruh waktu di sebuah organisasi produksi perdagangan sebagai administrator sistem. Saat itu, saya tidak terbiasa untuk mengetahui tentang pemantauan, saya basah di belakang telinga dan berpikir bahwa mungkin menjadi pahlawan yang memecahkan masalah yang dihadapi. Mudah-mudahan, itu adalah periode singkat dalam hidupku, aku merasa itu salah.


Amarah


Amarah


2010 adalah salah satu tahun yang paling melelahkan. Saya bekerja untuk 2 majikan; kursus yang dilakukan; sedang mempersiapkan tesis master; selain itu, saya adalah prefek. Di bawah tekanan pengalaman, visi saya tentang pemantauan berubah. Proses itu berbenturan dengan pengunduran diri saya. Sebelum lulus ujian, saya memutuskan untuk mengundurkan diri dan mencari pekerjaan baru. Sebagian besar pewawancara bingung karena saya seorang mahasiswa. Namun, salah satu dari mereka telah setuju untuk mempekerjakan saya, saya memiliki pekerjaan tetap penuh waktu untuk sebuah perusahaan multinasional internasional. Saya lulus; Saya meningkatkan keterampilan & pengalaman saya, saya bekerja untuk perusahaan outstaffing. Sebagian besar proyek kami adalah startup yang luar biasa & menarik. Saya sangat meningkatkan kualifikasi saya, karena tidak ada cara lain dalam hal 400 server untuk satu orang. Saya telah bekerja sebagai seorang DevOps sebelum menjadi arus utama. Saya kelelahan di tempat kerja & memutuskan untuk berganti pekerjaan.


Waktu itu, saya pikir, bahwa kami harus memantau semuanya. Itu sangat penting. Setiap orang harus menerima pemberitahuan pemantauan. Juga, toolset pemantauan berubah & membaik. Salah satu implementasi pertama adalah skrip bash / PowerShell (ruang kosong, jumlah pembaruan yang tersedia, status cadangan, dll.) & Layanan eksternal Red Alert, petani malas (alat in-house untuk pengecekan situs). Itu cukup baik pada 2010-2011, namun, kami menghadapi banyak masalah berbeda:


  • Email sih.
  • Penundaan yang tidak dapat diprediksi.
  • Pemanfaatan sumber daya tidak dikenal.

Kami telah memutuskan untuk melakukan hidup kami sedikit lebih mudah dan memilih Zabbix. Kami memantau semuanya:


  • Hitungan pengguna yang terhubung ke wifi.
  • Hitungan halaman yang dicetak.
  • Hitung terowongan VPN yang ada.
  • Suhu server.
  • Beban jaringan.
  • dll ...

Juga, saya ingin berbagi beberapa masalah yang dihadapi:


  1. Ada infrastruktur lintas DC yang didistribusikan dan banyak metrik. Kami menghadapi bahwa terkadang metrik tidak ada. Kami memperbaikinya melalui Zabbix proxy.
  2. Jika terowongan VPN gagal, kami akan menerima banyak pesan. Kami mengkonfigurasi dependensi infrastruktur.
  3. Kami mengotomatiskan tugas berulang. yaitu dalam hal ruang kosong rendah, kami mencoba membersihkannya secara otomatis.
  4. Kami memahami bahwa itu adalah ide yang buruk untuk memberi tahu seseorang jika metrik rata-rata beban CPU akan lebih dari 95% selama 30 detik, sebagai hasilnya, kami menambahkan sesuatu seperti periode ambang batas.
  5. Kami memeriksa skenario kritis bisnis (mis. Login web, pencarian, dll.)
  6. Kami menambahkan Zabbix ke integrasi skype, karena obrolan-ops.
  7. Quis custodiet ipsos custodes?
  8. dll ...

Penerimaan


Penerimaan


Beberapa saat kemudian, saya mengerti bahwa di satu sisi, para pebisnis tidak peduli dengan RAM / CPU / IOPS. Ketertarikan mereka pada TTM (waktu ke pasar) & metrik bisnis, tetapi di sisi lain, usus TI harus dapat melacak segala jenis masalah.


Takeaway


  • Bantahan . Anda tidak boleh memantau apa pun, karena, pengguna Anda menandai Anda jika sesuatu yang aneh akan terjadi.
  • Amarah Anda harus memonitor semuanya. Anda diizinkan memberi tahu CTO / CEO jika metrik rata-rata beban CPU akan lebih dari 95% selama 30 detik.
  • Penerimaan Para pelaku bisnis tidak peduli dengan RAM / CPU / IOPS. Ketertarikan mereka pada TTM (waktu ke pasar) & metrik bisnis.

Zabbix sudah cukup baik, tetapi dunia berubah. Ada banyak pendekatan modern untuk pemantauan.


  • Dimungkinkan untuk membagi aplikasi pemantauan monolit ke tingkat yang berbeda: kumpulkan, simpan, hadir.
  • Bisnis & TI harus mengoperasikan data yang persis sama, tetapi mereka harus melihat data dari sudut pandang yang berbeda.
  • Tidak ada peluru perak, berarti Anda harus menyesuaikan solusi Anda.

PS


Source: https://habr.com/ru/post/id437190/


All Articles