⏭️ 🕯️ 🕺 Prediksi dari ahli matematika. Kami menganalisis metode utama untuk mendeteksi anomali 🍏 👉 🛃

Penggunaan kecerdasan buatan dalam industri untuk pemeliharaan prediktif berbagai sistem semakin populer di luar negeri. Tujuan metodologi ini adalah untuk mengidentifikasi malfungsi dalam pengoperasian sistem selama fase operasi hingga kegagalannya untuk respons yang tepat waktu.

Seberapa relevankah pendekatan ini di negara kita dan di Barat? Kesimpulannya dapat dibuat, misalnya, pada artikel tentang Habré dan dalam Medium. Hampir tidak ada artikel tentang Habré tentang pemecahan masalah pemeliharaan prediktif. Pada Medium ada satu set lengkap. Di sini , di sini dan di sini dijelaskan dengan baik apa tujuan dan keuntungan dari pendekatan ini.

Dari artikel ini Anda akan belajar:

mengapa teknik ini dibutuhkan
pendekatan pembelajaran mesin yang lebih umum digunakan untuk pemeliharaan prediktif,
bagaimana saya mencoba salah satu trik dengan contoh sederhana.

Sumber

Fitur apa saja yang disediakan layanan prediksi?

proses pekerjaan perbaikan yang terkontrol, yang dilakukan seperlunya, sehingga menghemat uang, dan tanpa terburu-buru, yang meningkatkan kualitas pekerjaan ini;
identifikasi kerusakan tertentu dalam pengoperasian peralatan (kemampuan untuk membeli bagian tertentu untuk penggantian ketika peralatan beroperasi memberikan keuntungan besar);
optimalisasi operasi peralatan, beban, dll.;
pengurangan biaya untuk pemadaman peralatan secara rutin.

Artikel berikutnya tentang Media menjelaskan dengan baik pertanyaan yang perlu dijawab untuk memahami bagaimana cara mendekati masalah ini dalam kasus tertentu.

Saat mengumpulkan data atau ketika memilih data untuk membangun model, penting untuk menjawab tiga kelompok pertanyaan:

Bisakah semua masalah sistem diprediksi? Prediksi mana yang sangat penting?
Apa itu proses kegagalan? Apakah seluruh sistem berhenti bekerja atau apakah mode operasi hanya berubah? Apakah ini proses cepat, degradasi instan atau bertahap?
Apakah kinerja sistem cukup mencerminkan kinerjanya? Apakah mereka berhubungan dengan bagian-bagian individual dari sistem atau ke sistem secara keseluruhan?

Penting juga untuk memahami terlebih dahulu apa yang ingin Anda prediksi, dan apa yang mungkin untuk diprediksi dan apa yang tidak.

Artikel pada Medium juga mencantumkan pertanyaan yang akan membantu menentukan tujuan spesifik Anda:

Apa yang perlu diprediksi? Sisa waktu hidup, perilaku abnormal atau tidak, probabilitas kegagalan dalam N jam / hari / minggu berikutnya?
Apakah ada cukup data historis?
Apakah diketahui kapan sistem melakukan pembacaan yang tidak normal, dan kapan tidak. Apakah mungkin untuk menandai indikasi seperti itu?
Seberapa jauh model harus melihat? Seberapa independen pembacaan yang mencerminkan operasi sistem dalam interval satu jam / hari / minggu
Apa yang Anda butuhkan untuk mengoptimalkan? Haruskah model menangkap pelanggaran sebanyak mungkin, sambil memberikan alarm palsu, atau cukup menangkap beberapa peristiwa tanpa positif palsu.

Diharapkan bahwa situasi akan membaik di masa depan. Sejauh ini, ada kesulitan di bidang pemeliharaan prediktif: ada beberapa contoh kerusakan sistem, atau saat-saat kegagalan fungsi sistem sudah cukup, tetapi tidak ditandai; proses kegagalan tidak diketahui.

Cara utama untuk mengatasi kesulitan dalam pemeliharaan prediktif adalah dengan menggunakan metode pencarian anomali . Algoritma semacam itu tidak memerlukan markup untuk pelatihan. Untuk algoritma pengujian dan debugging, markup dalam satu bentuk atau lainnya diperlukan. Metode tersebut terbatas karena mereka tidak akan memprediksi kegagalan tertentu, tetapi hanya menandakan kelainan indikator.

Tapi ini sudah tidak buruk.

Sumber

Metode

Sekarang saya ingin berbicara tentang beberapa fitur dari pendekatan deteksi anomali, dan kemudian bersama-sama kita akan menguji kemampuan beberapa algoritma sederhana dalam praktiknya.

Meskipun situasi tertentu akan memerlukan pengujian beberapa algoritma untuk mencari anomali dan memilih yang terbaik, adalah mungkin untuk menentukan beberapa kelebihan dan kekurangan dari teknik utama yang digunakan di area ini.

Pertama-tama, penting untuk memahami terlebih dahulu berapa persentase anomali dalam data.

Jika kita berbicara tentang variasi dari pendekatan semi-diawasi (kita belajar hanya pada data "normal", dan kita bekerja (menguji) kemudian pada data dengan anomali), maka pilihan yang paling optimal adalah metode vektor dukungan dengan satu kelas ( SVM Satu Kelas ) . Saat menggunakan fungsi basis radial sebagai kernel, algoritma ini membangun permukaan nonlinear di sekitar titik asal. Semakin bersih data pelatihan, semakin baik kerjanya.

Dalam kasus lain, kebutuhan untuk mengetahui rasio poin abnormal dan "normal" juga tetap - untuk menentukan ambang batas cutoff.

Jika jumlah anomali dalam data lebih dari 5%, dan mereka cukup baik dipisahkan dari sampel utama, metode pencarian anomali standar dapat digunakan.

Dalam hal ini, metode hutan isolasi adalah yang paling stabil dalam hal kualitas: hutan isolasi adalah data acak. Indikasi yang lebih khas cenderung lebih dalam, sementara indikator yang tidak biasa akan terpisah dari sisa sampel di iterasi pertama.

Algoritme lain berfungsi lebih baik jika "sesuai" dengan spesifikasi data tertentu.

Ketika data memiliki distribusi normal, metode amplop Elliptic cocok, mendekati data dengan distribusi normal multidimensi. Semakin kecil kemungkinan bahwa titik tersebut termasuk dalam distribusi, semakin besar probabilitas bahwa anomali.

Jika data disajikan sedemikian rupa sehingga posisi relatif dari titik yang berbeda mencerminkan perbedaan mereka dengan baik, maka metode metrik tampaknya menjadi pilihan yang baik: misalnya, k tetangga terdekat, tetangga terdekat k-th, ABOD (deteksi berbasis berbasis sudut) atau LOF (faktor pencilan lokal) )

Semua metode ini menunjukkan bahwa indikator "benar" terkonsentrasi di satu area ruang multidimensi. Jika di antara k (atau k-th) tetangga terdekat semuanya jauh dari target, maka intinya adalah anomali. Untuk ABOD, alasannya serupa: jika semua titik terdekat k berada di sektor ruang yang sama relatif terhadap yang dianggap, maka titik tersebut adalah anomali. Untuk LOF: jika kepadatan lokal (ditentukan sebelumnya untuk setiap titik oleh k tetangga terdekat) lebih rendah dari k tetangga terdekat, maka titik tersebut adalah anomali.

Jika data terkelompok dengan baik, metode berdasarkan analisis kelompok adalah pilihan yang baik. Jika titik tersebut sama jauhnya dari pusat beberapa cluster, maka itu adalah anomali.

Jika arah variasi terbesar dalam varian dibedakan dengan baik dalam data, maka itu tampaknya menjadi pilihan yang baik untuk mencari anomali berdasarkan metode komponen utama . Dalam hal ini, penyimpangan dari nilai rata-rata untuk n1 (komponen paling "utama") dan n2 (paling sedikit "utama") dianggap sebagai ukuran anomali.

Sebagai contoh, disarankan untuk melihat kumpulan data dari The Prognostics and Health Management Society (PHM Society) . Organisasi nirlaba ini mengatur kompetisi setiap tahun. Pada tahun 2018, misalnya, diperlukan untuk memprediksi kesalahan dalam operasi dan waktu sebelum kegagalan pabrik etsa balok ion . Kami akan mengambil kumpulan data untuk tahun 2015 . Ini berisi pembacaan beberapa sensor selama 30 instalasi (sampel pelatihan), dan diperlukan untuk memprediksi kapan dan kesalahan apa yang akan terjadi.

Saya tidak menemukan jawaban untuk sampel uji di jaringan, jadi kami hanya akan bermain dengan yang pelatihan.

Secara umum, semua pengaturan serupa, tetapi berbeda, misalnya, dalam jumlah komponen, jumlah anomali, dll. Oleh karena itu, belajar di 20 pertama, dan menguji pada orang lain tidak masuk akal.

Jadi, kita akan memilih salah satu instalasi, memuatnya dan melihat data ini. Artikel ini tidak akan membahas tentang rekayasa fitur , jadi kami tidak akan mengintip banyak hal.

import pandas as pd import matplotlib.pyplot as plt %matplotlib inline import seaborn as sns from sklearn.covariance import EllipticEnvelope from sklearn.neighbors import LocalOutlierFactor from sklearn.ensemble import IsolationForest from sklearn.svm import OneClassSVM dfa=pd.read_csv('plant_12a.csv',names=['Component number','Time','S1','S2','S3','S4','S1ref','S2ref','S3ref','S4ref']) dfa.head(10)

Seperti yang Anda lihat, ada tujuh komponen untuk masing-masing yang ada pembacaan empat sensor yang diambil setiap 15 menit. S1ref-S4ref dalam deskripsi kompetisi terdaftar sebagai nilai referensi, tetapi nilainya sangat berbeda dari pembacaan sensor. Agar tidak membuang waktu memikirkan apa artinya, kami menghapusnya. Jika Anda melihat distribusi nilai untuk setiap karakteristik (S1-S4), ternyata distribusi tersebut berkelanjutan untuk S1, S2 dan S4, dan diskrit untuk S3. Selain itu, jika Anda melihat distribusi gabungan S2 dan S4, ternyata keduanya berbanding terbalik.

Meskipun penyimpangan dari ketergantungan langsung dapat mengindikasikan kesalahan, kami tidak akan memeriksa ini, tetapi cukup menghapus S4.

Sekali lagi, kami memproses kumpulan data. Tinggalkan S1, S2 dan S3. Skala S1 dan S2 dengan StandardScaler (kita kurangi rata-rata dan bagi dengan deviasi standar), terjemahkan S3 ke OHE (One Hot Encoding). Kami menjahit bacaan dari semua komponen instalasi dalam satu baris. Total 89 fitur. 2 * 7 = 14 - bacaan S1 dan S2 untuk 7 komponen dan 75 nilai unik R3. Hanya 56 ribu garis seperti itu.

Unggah file dengan kesalahan.

 dfc=pd.read_csv('plant_12c.csv',names=['Start Time', 'End Time','Type']) dfc.head()

Sebelum mencoba algoritme ini pada kumpulan data kami, saya akan membiarkan saya menyimpang sedikit. Anda perlu diuji. Untuk ini, diusulkan untuk mengambil waktu mulai dari kesalahan dan waktu akhir. Dan semua indikasi di dalam interval ini dianggap abnormal, dan di luar normal. Pendekatan ini memiliki banyak kelemahan. Tetapi terutama satu - perilaku abnormal kemungkinan besar terjadi sebelum kesalahan diperbaiki. Untuk kesetiaan, marilah kita menggeser jendela anomali setengah jam yang lalu dalam waktu. Kami akan mengevaluasi ukuran-F1, presisi, dan penarikan kembali.

Kode untuk membedakan fitur dan menentukan kualitas model:

 def load_and_preprocess(plant_num):   #      ,       dfa=pd.read_csv('plant_{}a.csv'.format(plant_num),names=['Component number','Time','S1','S2','S3','S4','S1ref','S2ref','S3ref','S4ref'])   dfc=pd.read_csv('plant_{}c.csv'.format(plant_num),names=['Start Time','End Time','Type']).drop(0,axis=0)   N_comp=len(dfa['Component number'].unique())   #  15    dfa['Time']=pd.to_datetime(dfa['Time']).dt.round('15min')   #  6    (  ,    )   dfc=dfc[dfc['Type']!=6]   dfc['Start Time']=pd.to_datetime(dfc['Start Time'])   dfc['End Time']=pd.to_datetime(dfc['End Time'])   #      ,       OHE  3-    dfa=pd.concat([dfa.groupby('Time').nth(i)[['S1','S2','S3']].rename(columns={"S1":"S1_{}".format(i),"S2":"S2_{}".format(i),"S3":"S3_{}".format(i)}) for i in range(N_comp)],axis=1).dropna().reset_index()   for k in range(N_comp):       dfa=pd.concat([dfa.drop('S3_'+str(k),axis=1),pd.get_dummies(dfa['S3_'+str(k)],prefix='S3_'+str(k))],axis=1).reset_index(drop=True)   #          df_train,df_test=train_test_split(dfa,test_size=0.25,shuffle=False)   cols_to_scale=df_train.filter(regex='S[1,2]').columns   scaler=preprocessing.StandardScaler().fit(df_train[cols_to_scale])   df_train[cols_to_scale]=scaler.transform(df_train[cols_to_scale])   df_test[cols_to_scale]=scaler.transform(df_test[cols_to_scale])   return df_train,df_test,dfc #       def get_true_labels(measure_times,dfc,shift_delta):   idxSet=set()   dfc['Start Time']-=pd.Timedelta(minutes=shift_delta)   dfc['End Time']-=pd.Timedelta(minutes=shift_delta)   for idx,mes_time in tqdm_notebook(enumerate(measure_times),total=measure_times.shape[0]):       intersect=np.array(dfc['Start Time']<mes_time).astype(int)*np.array(dfc['End Time']>mes_time).astype(int)       idxs=np.where(intersect)[0]       if idxs.shape[0]:           idxSet.add(idx)   dfc['Start Time']+=pd.Timedelta(minutes=shift_delta)   dfc['End Time']+=pd.Timedelta(minutes=shift_delta)   true_labels=pd.Series(index=measure_times.index)   true_labels.iloc[list(idxSet)]=1   true_labels.fillna(0,inplace=True)   return true_labels #          def check_model(model,df_train,df_test,filt='S[123]'):   model.fit(df_train.drop('Time',axis=1).filter(regex=(filt)))   y_preds = pd.Series(model.predict(df_test.drop(['Time','Label'],axis=1).filter(regex=(filt)))).map({-1:1,1:0})   print('F1 score: {:.3f}'.format(f1_score(df_test['Label'],y_preds)))   print('Precision score: {:.3f}'.format(precision_score(df_test['Label'],y_preds)))   print('Recall score: {:.3f}'.format(recall_score(df_test['Label'],y_preds)))   score = model.decision_function(df_test.drop(['Time','Label'],axis=1).filter(regex=(filt)))   sns.distplot(score[df_test['Label']==0])   sns.distplot(score[df_test['Label']==1]) df_train,df_test,anomaly_times=load_and_preprocess(12) df_test['Label']=get_true_labels(df_test['Time'],dfc,30)

Hasil tes untuk algoritma pencarian anomali sederhana pada dataset Tantangan Data PHM 2015

Kembali ke algoritme. Mari kita coba One Class SVM (OCSVM), IsolationForest (IF), EllipticEnvelope (EE) dan LocalOutlierFactor (LOF) pada data kami. Untuk memulainya, kami tidak akan menetapkan parameter apa pun. Saya perhatikan bahwa LOF dapat bekerja dalam dua mode. Jika novelty = False dapat mencari anomali hanya di set pelatihan (hanya ada fit_predict), jika Benar, maka itu ditujukan untuk mencari anomali di luar set pelatihan (dapat cocok dan memprediksi secara terpisah). JIKA memiliki mode perilaku lama dan baru. Kami menggunakan yang baru. Dia memberikan hasil yang lebih baik.

OCSVM mendeteksi anomali dengan baik, tetapi ada terlalu banyak kesalahan positif. Untuk metode lain, hasilnya bahkan lebih buruk.

Tapi anggaplah kita tahu persentase anomali dalam data. Dalam kasus kami, 27%. OCSVM memiliki nu - estimasi atas untuk persentase kesalahan dan yang lebih rendah untuk persentase vektor dukungan. Metode kontaminasi lainnya memiliki persentase kesalahan data. Dalam metode IF dan LOF, ditentukan secara otomatis, sedangkan untuk OCSVM dan EE diatur ke 0,1 secara default. Mari kita coba atur kontaminasi (nu) menjadi 0,27. Sekarang hasil teratas untuk EE.

Kode untuk memeriksa model:

 def check_model(model,df_train,df_test,filt='S[123]'):   model_type,model = model   model.fit(df_train.drop('Time',axis=1).filter(regex=(filt)))   y_preds = pd.Series(model.predict(df_test.drop(['Time','Label'],axis=1).filter(regex=(filt)))).map({-1:1,1:0})   print('F1 score for {}: {:.3f}'.format(model_type,f1_score(df_test['Label'],y_preds)))   print('Precision score for {}: {:.3f}'.format(model_type,precision_score(df_test['Label'],y_preds)))   print('Recall score for {}: {:.3f}'.format(model_type,recall_score(df_test['Label'],y_preds)))   score = model.decision_function(df_test.drop(['Time','Label'],axis=1).filter(regex=(filt)))   sns.distplot(score[df_test['Label']==0])   sns.distplot(score[df_test['Label']==1])   plt.title('Decision score distribution for {}'.format(model_type))   plt.show()

Sangat menarik untuk melihat distribusi indikator anomali untuk berbagai metode. Dapat dilihat bahwa LOF tidak berfungsi dengan baik untuk data ini. EE memiliki poin yang algoritma anggap sangat abnormal. Namun, poin normal jatuh di sana. IsoFor dan OCSVM menunjukkan bahwa pilihan ambang batas (kontaminasi / nu) penting, yang akan mengubah trade-off antara akurasi dan kelengkapan.

Adalah logis bahwa pembacaan sensor memiliki distribusi mendekati normal, dekat dengan nilai stasioner. Jika kita benar-benar memiliki sampel uji berlabel, dan lebih disukai sampel validasi, maka nilai kontaminasi dapat diwarnai. Pertanyaan selanjutnya adalah, kesalahan mana yang lebih berorientasi: false positive atau false negative?

Hasil LOF sangat rendah. Tidak terlalu mengesankan. Tapi ingat bahwa variabel OHE pergi ke input bersama dengan variabel yang diubah oleh StandardScaler. Dan jarak standar adalah Euclidean. Tetapi jika Anda hanya menghitung variabel sesuai dengan S1 dan S2, maka situasinya diperbaiki dan hasilnya sebanding dengan metode lain. Namun, penting untuk dipahami bahwa salah satu parameter utama dari pengklasifikasi metrik yang terdaftar adalah jumlah tetangga. Ini secara signifikan mempengaruhi kualitas, dan itu harus disetel. Metrik jarak itu sendiri juga akan bagus untuk diambil.

Sekarang coba kombinasikan kedua model. Di awal satu, kami menghapus anomali dari set pelatihan. Dan kemudian kita akan melatih OCSVM pada set pelatihan "bersih". Menurut hasil sebelumnya, kami mengamati kelengkapan terbesar dalam EE. Kami menghapus sampel pelatihan melalui EE, melatih OCSVM di atasnya dan mendapatkan F1 = 0,50, Akurasi = 0,34, kelengkapan = 0,95. Tidak mengesankan. Tapi kami hanya bertanya nu = 0,27. Dan data yang kami miliki kurang lebih "bersih." Jika kita mengasumsikan bahwa kepenuhan EE pada sampel pelatihan adalah sama, maka 5% kesalahan akan tetap ada. Kami mengatur sendiri nu tersebut dan mendapatkan F1 = 0,69, Akurasi = 0,59, kelengkapan = 0,82. Bagus Penting untuk dicatat bahwa dalam metode lain kombinasi seperti itu tidak akan bekerja, karena mereka menyiratkan bahwa jumlah anomali dalam set pelatihan dan jumlah tes adalah sama. Saat melatih metode ini pada kumpulan data pelatihan murni, Anda harus menetapkan lebih sedikit kontaminasi daripada dalam data nyata dan tidak mendekati nol, tetapi lebih baik memilihnya untuk validasi silang.

Sangat menarik untuk melihat hasil pencarian pada urutan indikasi:

Gambar tersebut menunjukkan segmen pembacaan sensor pertama dan kedua untuk 7 komponen. Dalam legenda, warna kesalahan yang sesuai (awal dan akhir ditunjukkan oleh garis-garis vertikal dengan warna yang sama). Titik menunjukkan prediksi: prediksi hijau - benar, merah - positif palsu, ungu - negatif negatif. Dapat dilihat dari gambar bahwa sulit untuk menentukan waktu kesalahan secara visual, dan algoritma mengatasi tugas ini dengan cukup baik. Meskipun penting untuk dipahami bahwa pembacaan sensor ketiga tidak diberikan di sini. Selain itu, ada pembacaan positif palsu setelah akhir kesalahan. Yaitu Algoritma melihat bahwa ada juga nilai yang salah, dan kami menandai area ini sebagai bebas kesalahan. Sisi kanan gambar menunjukkan area sebelum kesalahan, yang kami tandai sebagai salah (setengah jam sebelum kesalahan), yang dikenali sebagai bebas kesalahan, yang mengarah ke kesalahan model negatif palsu. Di tengah-tengah gambar, sepotong yang koheren diakui, diakui sebagai kesalahan. Kesimpulannya dapat ditarik sebagai berikut: ketika memecahkan masalah mencari anomali, Anda perlu berinteraksi secara dekat dengan insinyur yang memahami esensi sistem yang outputnya perlu Anda prediksi, karena memeriksa algoritma yang digunakan pada markup tidak sepenuhnya mencerminkan kenyataan dan tidak mensimulasikan kondisi di mana algoritma tersebut bisa digunakan.

Kode untuk merencanakan grafik:

 def plot_time_course(df_test,dfc,y_preds,start,end,vert_shift=4):   plt.figure(figsize=(15,10))   cols=df_train.filter(regex=('S[12]')).columns   add=0   preds_idx=y_preds.iloc[start:end][y_preds[0]==1].index   true_idx=df_test.iloc[start:end,:][df_test['Label']==1].index   tp_idx=set(true_idx.values).intersection(set(preds_idx.values))   fn_idx=set(true_idx.values).difference(set(preds_idx.values))   fp_idx=set(preds_idx.values).difference(set(true_idx.values))   xtime=df_test['Time'].iloc[start:end]   for col in cols:       plt.plot(xtime,df_test[col].iloc[start:end]+add)       plt.scatter(xtime.loc[tp_idx].values,df_test.loc[tp_idx,col]+add,color='green')       plt.scatter(xtime.loc[fn_idx].values,df_test.loc[fn_idx,col]+add,color='violet')       plt.scatter(xtime.loc[fp_idx].values,df_test.loc[fp_idx,col]+add,color='red')       add+=vert_shift   failures=dfc[(dfc['Start Time']>xtime.iloc[0])&(dfc['Start Time']<xtime.iloc[-1])]   unique_fails=np.sort(failures['Type'].unique())   colors=np.array([np.random.rand(3) for fail in unique_fails])   for fail_idx in failures.index:       c=colors[np.where(unique_fails==failures.loc[fail_idx,'Type'])[0]][0]       plt.axvline(failures.loc[fail_idx,'Start Time'],color=c)       plt.axvline(failures.loc[fail_idx,'End Time'],color=c)   leg=plt.legend(unique_fails)   for i in range(len(unique_fails)):       leg.legendHandles[i].set_color(colors[i])

Jika persentase anomali di bawah 5% dan / atau mereka dipisahkan dengan buruk dari indikator "normal", metode di atas bekerja dengan buruk dan layak menggunakan algoritma berdasarkan jaringan saraf. Dalam kasus paling sederhana, ini adalah:

auto encoders (kesalahan tinggi dari auto encoder terlatih akan menandakan kelainan dalam pembacaan);
jaringan berulang (belajar dengan urutan untuk memprediksi bacaan terakhir. Jika perbedaannya besar - intinya tidak normal).

Secara terpisah, perlu dicatat spesifikasi bekerja dengan deret waktu. Penting untuk dipahami bahwa sebagian besar algoritma di atas (kecuali autoencoder dan mengisolasi hutan) kemungkinan besar akan memberikan kualitas yang lebih buruk ketika menambahkan fitur jeda (pembacaan dari titik sebelumnya dalam waktu).

Mari kita coba tambahkan fitur lag pada contoh kita. Deskripsi kompetisi mengatakan bahwa nilai 3 jam sebelum kesalahan tidak terhubung dengan kesalahan dengan cara apa pun. Kemudian tambahkan tanda-tanda dalam 3 jam. Total 259 tanda.

Akibatnya, hasil untuk OCSVM dan IsolationForest tetap hampir tidak berubah, sedangkan untuk Elliptic Envelope dan LOF turun.

Untuk menggunakan informasi tentang dinamika sistem, auto-encoders dengan jaringan saraf berulang atau convolutional harus digunakan. Atau, misalnya, kombinasi auto-encoders, mengompresi informasi, dan pendekatan konvensional untuk mencari anomali berdasarkan informasi terkompresi. Pendekatan sebaliknya juga tampak menjanjikan. Penapisan primer dari poin yang paling tidak biasa dengan algoritma standar, dan kemudian melatih autode-encoder pada data yang lebih bersih.

Sumber

Ada serangkaian teknik untuk bekerja dengan deret waktu satu dimensi. Semuanya ditujukan untuk memprediksi pembacaan di masa depan, dan poin yang menyimpang dari prediksi dianggap anomali.

Model Holt-Winters

Triple smoothing eksponensial, membagi seri menjadi 3 komponen: level, tren, dan musiman. Dengan demikian, jika seri disajikan dalam bentuk ini, metode ini berfungsi dengan baik. Facebook Prophet beroperasi dengan prinsip yang sama, tetapi mengevaluasi komponen itu sendiri dengan cara yang berbeda. Lebih detail dapat dibaca, misalnya, di sini .

S (ARIMA)

Dalam metode ini, model prediktif didasarkan pada autoregresi dan moving average. Jika kita berbicara tentang perluasan S (ARIMA), maka itu memungkinkan kita untuk mengevaluasi musiman. Baca lebih lanjut tentang pendekatan di sini , di sini dan di sini .

Pendekatan layanan prediktif lainnya

Ketika datang ke seri waktu dan ada informasi tentang waktu terjadinya kesalahan, Anda dapat menerapkan metode pengajaran dengan seorang guru. Selain perlunya data yang ditandai, dalam hal ini penting untuk memahami bahwa prediksi kesalahan akan tergantung pada sifat kesalahan. Jika ada banyak kesalahan dan sifat yang berbeda, kemungkinan besar akan perlu untuk memprediksi masing-masing secara terpisah, yang akan membutuhkan lebih banyak data yang ditandai, tetapi prospeknya akan lebih menarik.

Ada cara alternatif untuk menggunakan pembelajaran mesin dalam pemeliharaan prediktif. Misalnya, memprediksi kegagalan sistem dalam N hari berikutnya (tugas klasifikasi). Penting untuk dipahami bahwa pendekatan semacam itu mensyaratkan terjadinya kesalahan dalam pengoperasian sistem didahului oleh periode degradasi (tidak harus bertahap). Dalam hal ini, pendekatan yang paling berhasil tampaknya adalah penggunaan jaringan saraf dengan lapisan konvolusional dan / atau berulang. Secara terpisah, perlu dicatat metode untuk menambah deret waktu. Menurut saya dua pendekatan yang paling menarik dan sekaligus sederhana:

bagian kontinu dari baris dipilih (misalnya, 70%, dan sisanya dihilangkan) dan direntangkan ke ukuran aslinya
sebagian baris terus menerus (mis., 20%) dipilih dan diregangkan atau dikompresi. Setelah itu, seluruh baris dikompresi atau direntangkan sesuai dengan ukuran aslinya.

Ada juga pilihan untuk memprediksi masa pakai sistem yang tersisa (tugas regresi). Di sini kita dapat membedakan pendekatan yang terpisah: prediksi bukanlah masa pakai, tetapi dari parameter distribusi Weibull.

Anda dapat membaca tentang distribusi itu sendiri di sini , dan di sini tentang penggunaannya dalam hubungannya dengan jerat berulang. Distribusi ini memiliki dua parameter α dan β. α menunjukkan kapan acara akan terjadi, dan β menunjukkan seberapa percaya diri algoritma tersebut. Meskipun penerapan pendekatan ini menjanjikan, kesulitan muncul dalam melatih jaringan saraf dalam kasus ini, karena lebih mudah untuk algoritma menjadi tidak aman pada awalnya daripada memprediksi masa hidup yang memadai.

Secara terpisah, perlu dicatat regresi Cox . Ini memungkinkan Anda untuk memprediksi toleransi kesalahan sistem untuk setiap titik waktu setelah diagnosis, menyajikannya sebagai produk dari dua fungsi. Salah satu fungsinya adalah degradasi sistem, terlepas dari parameternya, mis. umum untuk sistem semacam itu. Dan yang kedua adalah ketergantungan eksponensial pada parameter sistem tertentu. Jadi bagi seseorang ada fungsi umum yang terkait dengan penuaan, kurang lebih sama untuk semua orang. Tetapi penurunan kesehatan juga terkait dengan keadaan organ dalam, yang berbeda untuk semua orang.

Saya harap Anda sekarang tahu lebih banyak tentang pemeliharaan prediktif. Saya yakin Anda akan memiliki pertanyaan mengenai metode pembelajaran mesin yang paling sering digunakan untuk teknologi ini. Saya akan dengan senang hati menjawab masing-masing dalam komentar. Jika Anda tertarik untuk tidak hanya bertanya tentang apa yang ditulis, tetapi ingin melakukan hal serupa, tim CleverDATA kami selalu senang dengan profesional yang berbakat dan antusias.

Apakah ada lowongan? Tentu saja!

Pengembang Java (Big Data)

Prediksi dari ahli matematika. Kami menganalisis metode utama untuk mendeteksi anomali

Metode

Model Holt-Winters

S (ARIMA)

Pendekatan layanan prediktif lainnya

More articles: