9 pendekatan untuk mendeteksi anomali

Dalam artikel sebelumnya, kami berbicara tentang perkiraan rentang waktu. Kelanjutan logis akan menjadi artikel tentang identifikasi anomali.

Aplikasi


Deteksi anomali digunakan di berbagai bidang seperti:

1) Prediksi kerusakan peralatan


Jadi, pada 2010, sentrifugal Iran diserang oleh virus Stuxnet, yang mengatur peralatan ke mode optimal dan menonaktifkan bagian peralatan karena akselerasi pemakaian.

Jika algoritma pencarian anomali digunakan pada peralatan, situasi kegagalan dapat dihindari.



Pencarian anomali dalam pengoperasian peralatan digunakan tidak hanya dalam industri nuklir, tetapi juga dalam metalurgi dan pengoperasian turbin pesawat. Dan di area lain di mana penggunaan diagnostik prediktif lebih murah daripada kemungkinan kerugian jika terjadi kerusakan yang tidak terduga.

2) Prediksi penipuan


Jika kartu yang Anda gunakan di Podolsk ditarik di Albania, ada kemungkinan bahwa transaksi harus diperiksa lebih lanjut.

3) Identifikasi pola konsumen yang abnormal


Jika beberapa pelanggan menunjukkan perilaku abnormal, mungkin ada masalah yang tidak Anda sadari.

4) Identifikasi permintaan dan muatan abnormal


Jika penjualan di toko FMCG telah jatuh di bawah batas interval kepercayaan perkiraan, Anda harus menemukan alasan untuk apa yang terjadi.

Pendekatan Deteksi Anomali


1) Metode vektor dukungan dengan satu kelas SVM Satu Kelas


Cocok ketika data dalam set pelatihan mematuhi distribusi normal, sedangkan set tes berisi anomali.

Metode vektor dukungan kelas tunggal membangun permukaan non-linear di sekitar titik asal. Dimungkinkan untuk mengatur batas cutoff, yang datanya dianggap abnormal.

Berdasarkan pengalaman tim DATA4 kami, One-Class SVM adalah algoritma yang paling sering digunakan untuk memecahkan masalah pencarian anomali.



2) Mengisolasi metode hutan - mengisolasi hutan


Dengan metode “acak” membangun pohon, emisi akan jatuh ke daun pada tahap awal (pada kedalaman dangkal pohon), yaitu emisi lebih mudah untuk "diisolasi". Nilai anomali diekstraksi pada iterasi pertama dari algoritma.



3) Metode elips amplop dan statistik


Digunakan saat data terdistribusi normal. Semakin dekat pengukuran dengan ekor campuran distribusi, semakin nilainya anomali.

Metode statistik lainnya dapat dikaitkan dengan kelas ini.




Gambar dari dyakonov.org

4) Metode metrik


Metode termasuk algoritma seperti k tetangga terdekat, tetangga terdekat k-th, ABOD (deteksi outlier berbasis sudut) atau LOF (faktor outlier lokal).

Cocok jika jarak antara nilai-nilai dalam tanda-tanda itu setara atau dinormalisasi (agar tidak mengukur boa di burung beo).

Algoritma k tetangga terdekat menunjukkan bahwa nilai normal terletak di wilayah ruang multidimensi tertentu, dan jarak ke anomali akan lebih besar daripada ke hyperplane pemisah.



5) Metode cluster


Inti dari metode cluster adalah bahwa jika nilainya lebih dari jarak tertentu dari pusat cluster, nilainya dapat dianggap anomali.

Hal utama adalah menggunakan algoritma yang secara benar mengelompokkan data, yang tergantung pada tugas tertentu.



6) Metode komponen utama


Cocok di mana bidang variasi terbesar dalam varian disorot.

7) Algoritma berdasarkan perkiraan deret waktu


Idenya adalah bahwa jika suatu nilai dihilangkan dari interval kepercayaan prediksi, nilainya dianggap abnormal. Algoritma seperti triple anti-aliasing, S (ARIMA), boosting, dll. Digunakan untuk memprediksi deret waktu.

Algoritma peramalan seri waktu dibahas dalam artikel sebelumnya.



8) Pelatihan dengan seorang guru (regresi, klasifikasi)


Jika data memungkinkan, kami menggunakan algoritma dari regresi linier ke jaringan berulang. Kami mengukur perbedaan antara prediksi dan nilai aktual, dan menyimpulkan seberapa banyak data yang dihilangkan dari norma. Penting bahwa algoritma memiliki kemampuan generalisasi yang cukup, dan sampel pelatihan tidak mengandung nilai abnormal.

9) Tes model


Kami mendekati masalah mencari anomali sebagai tugas mencari rekomendasi. Kami menguraikan matriks fitur kami menggunakan SVD atau mesin faktorisasi, dan nilai-nilai dalam matriks baru, secara signifikan berbeda dari yang asli, dianggap abnormal.



Gambar dari dyakonov.org

Kesimpulan


Dalam artikel ini, kami menguji pendekatan dasar untuk mendeteksi anomali.

Pencarian anomali bisa disebut seni dalam banyak hal. Tidak ada algoritma atau pendekatan yang ideal yang aplikasinya menyelesaikan semua masalah. Paling sering, seperangkat metode digunakan untuk menyelesaikan kasus tertentu. Anomali dicari menggunakan metode vektor pendukung kelas tunggal, mengisolasi hutan, metrik dan metode kluster, serta menggunakan komponen utama dan peramalan deret waktu.

Jika Anda tahu metode lain, tulis tentang mereka di bagian komentar artikel.

Source: https://habr.com/ru/post/id477450/


All Articles