🎟️ 🔷 🤪 توقعات من علماء الرياضيات. نحن نحلل الطرق الرئيسية لاكتشاف الحالات الشاذة 💝 🚻 🤾🏽

يكتسب استخدام الذكاء الاصطناعي في الصناعة من أجل الصيانة التنبؤية للأنظمة المختلفة شعبية متزايدة في الخارج. الغرض من هذه المنهجية هو تحديد الأعطال في تشغيل النظام أثناء مرحلة التشغيل حتى فشلها في الاستجابة في الوقت المناسب.

ما مدى أهمية هذا النهج في بلدنا وفي الغرب؟ يمكن التوصل إلى استنتاج ، على سبيل المثال ، حول مقالات حول Habré و Medium. لا توجد مقالات تقريبًا عن حبري حول حل مشكلات الصيانة التنبؤية. على المتوسط هناك مجموعة كاملة. هنا ، هنا وهنا يتم وصفه جيدًا ما هي أهداف ومزايا هذا النهج.

من هذه المقالة سوف تتعلم:

لماذا هذه التقنية مطلوبة
ما هي أساليب التعلم الآلي الأكثر استخدامًا للصيانة التنبؤية ،
كيف حاولت واحدة من الحيل مع مثال بسيط.

مصدر

ما الميزات التي توفرها الخدمة التنبؤية؟

عملية إصلاح محكومة لأعمال الإصلاح ، يتم تنفيذها عند الضرورة ، وبالتالي توفير المال ، وبدون الاندفاع ، مما يحسن من جودة هذه الأعمال ؛
تحديد خلل معين في تشغيل المعدات (توفر القدرة على شراء جزء محدد للاستبدال عند تشغيل الجهاز مزايا هائلة) ؛
تعظيم تشغيل المعدات والأحمال وما إلى ذلك ؛
تخفيض تكاليف الإغلاق المنتظم للمعدات.

تصف المقالة التالية على "المتوسط" جيدًا الأسئلة التي يجب الإجابة عليها لفهم كيفية التعامل مع هذه المشكلة في حالة معينة.

عند جمع البيانات أو عند اختيار البيانات لإنشاء نموذج ، من المهم الإجابة على ثلاث مجموعات من الأسئلة:

هل يمكن التنبؤ بجميع مشاكل النظام؟ الذي التنبؤ مهم بشكل خاص؟
ما هي عملية الفشل؟ هل يتوقف النظام بأكمله عن العمل أم أن وضع التشغيل يتغير فقط؟ هل هي عملية سريعة أم تدهور فوري أم تدريجي؟
هل يعكس أداء النظام أداءه بشكل كاف؟ هل تتعلق بأجزاء فردية من النظام أم بالنظام ككل؟

من المهم أيضًا أن تفهم مسبقًا ما تريد التنبؤ به ، وما هو الممكن التنبؤ به وما هو غير المتوقع.

يسرد مقال "متوسط" أيضًا الأسئلة التي ستساعد في تحديد هدفك المحدد:

ما الذي يجب التنبؤ به؟ ما تبقى من الوقت ، والسلوك غير طبيعي أم لا ، واحتمال الفشل في N ساعات / أيام / أسابيع القادمة؟
هل هناك بيانات تاريخية كافية؟
هل هو معروف عندما أعطى النظام قراءات شاذة ، وعندما لا. هل من الممكن وضع علامة على هذه المؤشرات؟
إلى أي مدى يجب أن يرى النموذج؟ ما مدى استقلالية القراءات التي تعكس تشغيل النظام خلال فترة ساعة / يوم / أسبوع
ماذا تحتاج لتحسين؟ هل يجب على النموذج التقاط أكبر عدد ممكن من الانتهاكات ، مع إعطاء إنذار خاطئ ، أم أنه يكفي للقبض على العديد من الأحداث دون إيجابيات خاطئة.

ومن المأمول أن يتحسن الوضع في المستقبل. حتى الآن ، هناك صعوبات في مجال الصيانة التنبؤية: هناك القليل من الأمثلة على خلل في النظام ، أو لحظات من خلل في النظام كافية ، لكنها غير محددة ؛ عملية الفشل غير معروفة.

الطريقة الرئيسية للتغلب على الصعوبات في الصيانة التنبؤية هي استخدام طرق البحث الشاذة . هذه الخوارزميات لا تتطلب ترميز للتدريب. لاختبار خوارزميات التصحيح وتصحيحها ، يلزم وضع علامة في شكل أو آخر. تقتصر هذه الطرق على أنها لن تتنبأ بحدوث فشل محدد ، ولكن تشير فقط إلى خلل في المؤشرات.

ولكن هذا ليس سيئا بالفعل.

مصدر

طرق

الآن أريد أن أتحدث عن بعض ميزات طرق الكشف عن الحالات الشاذة ، وبعد ذلك سنقوم باختبار قدرات بعض الخوارزميات البسيطة في الممارسة العملية.

على الرغم من أن موقفًا معينًا سيتطلب اختبار عدة خوارزميات للبحث عن الحالات الشاذة واختيار الأفضل ، فمن الممكن تحديد بعض مزايا وعيوب التقنيات الرئيسية المستخدمة في هذا المجال.

بادئ ذي بدء ، من المهم أن نفهم مقدما ما هي نسبة الشذوذ في البيانات.

إذا كنا نتحدث عن تباين في النهج شبه الخاضع للإشراف (ندرس فقط على البيانات "العادية" ، ونعمل (اختبار) ، ثم على البيانات ذات الحالات الشاذة) ، فإن الخيار الأمثل هو طريقة متجه الدعم مع فئة واحدة ( SVM من فئة واحدة ) . عند استخدام وظائف الأساس الشعاعي كنواة ، تبني هذه الخوارزمية سطحًا غير خطي حول الأصل. نظافة بيانات التدريب ، كان ذلك أفضل.

في حالات أخرى ، تظل الحاجة إلى معرفة نسبة النقاط غير الطبيعية و "الطبيعية" أيضًا - لتحديد حد القطع.

إذا كان عدد الحالات الشاذة في البيانات أكثر من 5٪ ، ويمكن فصلها تمامًا عن العينة الرئيسية ، فيمكن استخدام طرق البحث الشاذة القياسية.

في هذه الحالة ، تكون طريقة غابة العزل هي الأكثر ثباتًا من حيث الجودة: غابة العزل هي بيانات عشوائية. من المرجح أن تتعمق الإشارة الأكثر تميزًا ، بينما تنفصل المؤشرات غير المعتادة عن بقية العينة في التكرارات الأولى.

خوارزميات أخرى تعمل بشكل أفضل إذا كانت "مناسبة" تحت تفاصيل البيانات.

عندما يكون للبيانات توزيع طبيعي ، تكون طريقة الإهليلجيه مغلف مناسبة ، وتقريب البيانات بتوزيع طبيعي متعدد الأبعاد. كلما قل احتمال انتماء النقطة للتوزيع ، كلما زاد احتمال حدوثها.

إذا تم تقديم البيانات بطريقة تجعل الموضع النسبي للنقاط المختلفة يعكس اختلافاتهم جيدًا ، فيبدو أن الأساليب المترية هي اختيار جيد: على سبيل المثال ، k الأقرب إلى الجيران ، أو الأقرب إلى الجار ، أو ABOD (الكشف عن الزوايا المستندة إلى الزاوية) أو LOF (العامل الخارجي المحلي) ).

تشير جميع هذه الأساليب إلى أن المؤشرات "الصحيحة" تتركز في منطقة واحدة من الفضاء متعدد الأبعاد. إذا كان كل شيء قريبًا من الهدف بين k (أو k-th) الأقرب من الهدف ، فستكون النقطة شاذة. بالنسبة إلى ABOD ، يكون المنطق مشابهاً: إذا كانت جميع النقاط k الأقرب في نفس قطاع الفضاء بالنسبة للنقطة المعتبرة ، تكون النقطة شاذة. بالنسبة إلى LOF: إذا كانت الكثافة المحلية (المحددة مسبقًا لكل نقطة بواسطة k أقرب جيران) أقل من كثافة k أقرب الجيران ، فإن النقطة تكون شذوذًا.

إذا تم تجميع البيانات جيدًا ، فإن الطرق المعتمدة على تحليل الكتلة هي اختيار جيد. إذا كانت النقطة متساوية المقاومة من مراكز عدة مجموعات ، فهذا أمر شاذ.

إذا كانت اتجاهات التباين الأكبر في التباين مميزة بشكل جيد في البيانات ، فيبدو أنه اختيار جيد للبحث عن الحالات الشاذة استنادًا إلى طريقة المكون الرئيسي . في هذه الحالة ، يتم اعتبار الانحرافات من متوسط قيمة n1 (أكثر المكونات "الرئيسية" و n2 (الأقل "الرئيسي") كتدبير شاذ.

على سبيل المثال ، يُقترح إلقاء نظرة على مجموعة البيانات من جمعية Prognostics و Health Management Society (PHM Society) . هذه المنظمة غير الهادفة للربح تنظم المنافسة كل عام. في عام 2018 ، على سبيل المثال ، كان من الضروري التنبؤ بالأخطاء في التشغيل والوقت قبل فشل مصنع حفر الشعاع الأيوني . سنتخذ مجموعة البيانات لعام 2015 . أنه يحتوي على قراءات عدة أجهزة استشعار لمدة 30 المنشآت (عينة التدريب) ، وهناك حاجة للتنبؤ متى وما الخطأ سيحدث.

لم أجد إجابات عينة الاختبار على الشبكة ، لذلك سنلعب فقط مع التدريب.

بشكل عام ، جميع الإعدادات متشابهة ، ولكنها تختلف ، على سبيل المثال ، في عدد المكونات ، في عدد الحالات الشاذة ، إلخ. لذلك ، التعلم في الـ 20 الأولى ، والاختبار في الآخرين لا معنى له.

لذلك ، سوف نختار إحدى التركيبات ، سنقوم بتحميلها ونلقي نظرة على هذه البيانات. لن تكون المقالة حول هندسة الميزات ، لذلك لن نظير كثيرًا.

import pandas as pd import matplotlib.pyplot as plt %matplotlib inline import seaborn as sns from sklearn.covariance import EllipticEnvelope from sklearn.neighbors import LocalOutlierFactor from sklearn.ensemble import IsolationForest from sklearn.svm import OneClassSVM dfa=pd.read_csv('plant_12a.csv',names=['Component number','Time','S1','S2','S3','S4','S1ref','S2ref','S3ref','S4ref']) dfa.head(10)

كما ترون ، هناك سبعة مكونات لكل منها قراءات لأربعة أجهزة استشعار يتم أخذها كل 15 دقيقة. S1ref-S4ref في وصف المسابقة تظهر كقيم مرجعية ، لكن القيم مختلفة تمامًا عن قراءات المستشعرات. حتى لا نضيع الوقت في التفكير فيما يعنيه ، فإننا نزيلها. إذا نظرت إلى توزيع القيم لكل ميزة (S1-S4) ، اتضح أن التوزيعات مستمرة لـ S1 و S2 و S4 ، وهي منفصلة عن S3. بالإضافة إلى ذلك ، إذا نظرت إلى التوزيع المشترك لـ S2 و S4 ، اتضح أنها متناسبة عكسياً.

على الرغم من أن الانحراف عن الاعتماد المباشر قد يشير إلى وجود خطأ ، إلا أننا لن نتحقق من ذلك ، ولكننا سنزيل S4 ببساطة.

مرة أخرى ، نقوم بمعالجة مجموعة البيانات. اترك S1 و S2 و S3. مقياس S1 و S2 مع StandardScaler (نطرح المتوسط ونقسم على الانحراف المعياري) ، وترجمة S3 إلى OHE (One Hot Encoding). نحن خياطة قراءات من جميع مكونات التثبيت في سطر واحد. مجموع 89 الميزات. 2 * 7 = 14 - قراءات S1 و S2 لمدة 7 مكونات و 75 قيم فريدة من R3. فقط 56 ألف من هذه الخطوط.

قم بتحميل الملف مع وجود أخطاء.

 dfc=pd.read_csv('plant_12c.csv',names=['Start Time', 'End Time','Type']) dfc.head()

قبل تجربة هذه الخوارزميات على مجموعة البيانات الخاصة بنا ، سوف أسمح لنفسي باستطراد صغير آخر. تحتاج إلى اختبار. لهذا الغرض ، يُقترح أخذ وقت بدء الخطأ ووقت الانتهاء. وجميع المؤشرات داخل هذا الفاصل تعتبر غير طبيعية ، وخارجها - طبيعية. هذا النهج له العديد من العيوب. ولكن على وجه الخصوص يحدث سلوك غير طبيعي على الأرجح قبل إصلاح الخطأ. من أجل الإخلاص ، دعونا نغير نافذة الحالات الشاذة قبل نصف ساعة من الزمن. سنقوم بتقييم مقياس F1 والدقة والتذكر.

رمز التمييز بين الميزات وتحديد جودة النموذج:

 def load_and_preprocess(plant_num):   #      ,       dfa=pd.read_csv('plant_{}a.csv'.format(plant_num),names=['Component number','Time','S1','S2','S3','S4','S1ref','S2ref','S3ref','S4ref'])   dfc=pd.read_csv('plant_{}c.csv'.format(plant_num),names=['Start Time','End Time','Type']).drop(0,axis=0)   N_comp=len(dfa['Component number'].unique())   #  15    dfa['Time']=pd.to_datetime(dfa['Time']).dt.round('15min')   #  6    (  ,    )   dfc=dfc[dfc['Type']!=6]   dfc['Start Time']=pd.to_datetime(dfc['Start Time'])   dfc['End Time']=pd.to_datetime(dfc['End Time'])   #      ,       OHE  3-    dfa=pd.concat([dfa.groupby('Time').nth(i)[['S1','S2','S3']].rename(columns={"S1":"S1_{}".format(i),"S2":"S2_{}".format(i),"S3":"S3_{}".format(i)}) for i in range(N_comp)],axis=1).dropna().reset_index()   for k in range(N_comp):       dfa=pd.concat([dfa.drop('S3_'+str(k),axis=1),pd.get_dummies(dfa['S3_'+str(k)],prefix='S3_'+str(k))],axis=1).reset_index(drop=True)   #          df_train,df_test=train_test_split(dfa,test_size=0.25,shuffle=False)   cols_to_scale=df_train.filter(regex='S[1,2]').columns   scaler=preprocessing.StandardScaler().fit(df_train[cols_to_scale])   df_train[cols_to_scale]=scaler.transform(df_train[cols_to_scale])   df_test[cols_to_scale]=scaler.transform(df_test[cols_to_scale])   return df_train,df_test,dfc #       def get_true_labels(measure_times,dfc,shift_delta):   idxSet=set()   dfc['Start Time']-=pd.Timedelta(minutes=shift_delta)   dfc['End Time']-=pd.Timedelta(minutes=shift_delta)   for idx,mes_time in tqdm_notebook(enumerate(measure_times),total=measure_times.shape[0]):       intersect=np.array(dfc['Start Time']<mes_time).astype(int)*np.array(dfc['End Time']>mes_time).astype(int)       idxs=np.where(intersect)[0]       if idxs.shape[0]:           idxSet.add(idx)   dfc['Start Time']+=pd.Timedelta(minutes=shift_delta)   dfc['End Time']+=pd.Timedelta(minutes=shift_delta)   true_labels=pd.Series(index=measure_times.index)   true_labels.iloc[list(idxSet)]=1   true_labels.fillna(0,inplace=True)   return true_labels #          def check_model(model,df_train,df_test,filt='S[123]'):   model.fit(df_train.drop('Time',axis=1).filter(regex=(filt)))   y_preds = pd.Series(model.predict(df_test.drop(['Time','Label'],axis=1).filter(regex=(filt)))).map({-1:1,1:0})   print('F1 score: {:.3f}'.format(f1_score(df_test['Label'],y_preds)))   print('Precision score: {:.3f}'.format(precision_score(df_test['Label'],y_preds)))   print('Recall score: {:.3f}'.format(recall_score(df_test['Label'],y_preds)))   score = model.decision_function(df_test.drop(['Time','Label'],axis=1).filter(regex=(filt)))   sns.distplot(score[df_test['Label']==0])   sns.distplot(score[df_test['Label']==1]) df_train,df_test,anomaly_times=load_and_preprocess(12) df_test['Label']=get_true_labels(df_test['Time'],dfc,30)

نتائج الاختبار لخوارزميات البحث الشاذة بسيطة على مجموعة بيانات تحدي بيانات PHM 2015

العودة إلى الخوارزميات. دعنا نجرب SVM (OCSVM) و IsolationForest (IF) و EllipticEnvelope (EE) و LocalOutlierFactor (LOF) على فئة بياناتنا. بادئ ذي بدء ، لن نقوم بتعيين أي معلمات. ألاحظ أن LOF يمكن أن تعمل في وضعين. إذا كانت الجدة = False قادرة على البحث عن الحالات الشاذة في مجموعة التدريب فقط (لا يوجد سوى fit_predict) ، إذا كانت True ، فهذا يهدف إلى البحث عن الحالات الشاذة خارج مجموعة التدريب (يمكن احتوائها والتنبؤ بها بشكل منفصل). إذا كان لديه وضع السلوك القديم والجديد. نحن نستخدم جديد. انه يعطي نتائج أفضل.

يكتشف OCSVM الحالات الشاذة بشكل جيد ، ولكن هناك الكثير من الإيجابيات الخاطئة. بالنسبة للطرق الأخرى ، تكون النتيجة أسوأ.

لكن لنفترض أننا نعرف نسبة الشذوذ في البيانات. في حالتنا ، 27 ٪. يحتوي OCSVM على nu - التقدير العلوي للنسبة المئوية للأخطاء والنسبة المئوية للمتجهات الداعمة. طرق التلوث الأخرى لديها نسبة مئوية من أخطاء البيانات. في أساليب IF و LOF ، يتم تحديدها تلقائيًا ، في حين يتم ضبط OCSVM و EE على 0.1 افتراضيًا. دعنا نحاول ضبط التلوث (نو) على 0.27. الآن النتيجة العليا ل EE.

رمز لفحص النماذج:

 def check_model(model,df_train,df_test,filt='S[123]'):   model_type,model = model   model.fit(df_train.drop('Time',axis=1).filter(regex=(filt)))   y_preds = pd.Series(model.predict(df_test.drop(['Time','Label'],axis=1).filter(regex=(filt)))).map({-1:1,1:0})   print('F1 score for {}: {:.3f}'.format(model_type,f1_score(df_test['Label'],y_preds)))   print('Precision score for {}: {:.3f}'.format(model_type,precision_score(df_test['Label'],y_preds)))   print('Recall score for {}: {:.3f}'.format(model_type,recall_score(df_test['Label'],y_preds)))   score = model.decision_function(df_test.drop(['Time','Label'],axis=1).filter(regex=(filt)))   sns.distplot(score[df_test['Label']==0])   sns.distplot(score[df_test['Label']==1])   plt.title('Decision score distribution for {}'.format(model_type))   plt.show()

ومن المثير للاهتمام أن ننظر إلى توزيع مؤشرات الشذوذ لطرق مختلفة. يمكن أن نرى أن LOF لا يعمل بشكل جيد لهذه البيانات. EE لديه نقاط تعتبرها الخوارزمية غير طبيعية للغاية. ومع ذلك ، النقاط العادية تقع هناك. يوضح IsoFor و OCSVM أن اختيار الحد الفاصل (التلوث / nu) أمر مهم ، مما سيغير المفاضلة بين الدقة والاكتمال.

من المنطقي أن تكون قراءات المستشعرات قريبة من التوزيع الطبيعي ، بالقرب من القيم الثابتة. إذا كان لدينا بالفعل عينة اختبار معنونة ، ويفضل أن تكون واحدة من عينات التحقق من الصحة أيضًا ، يمكن أن تكون قيمة التلوث ملوثة. والسؤال التالي هو ، ما هي الأخطاء الأكثر توجهاً: كاذبة إيجابية أم سلبية كاذبة؟

نتيجة LOF منخفضة جدا. ليست مؤثرة جدا. لكن تذكر أن متغيرات OHE تنتقل إلى المدخلات جنبًا إلى جنب مع المتغيرات المحولة بواسطة StandardScaler. والمسافات الافتراضية هي الإقليدية. ولكن إذا قمت بحساب المتغيرات وفقًا S1 و S2 ، فسيتم تصحيح الموقف وتكون النتيجة قابلة للمقارنة مع الطرق الأخرى. ومع ذلك ، من المهم أن نفهم أن أحد المعلمات الرئيسية لمصنفات المقاييس المترية المدرجة هو عدد الجيران. إنه يؤثر بشكل كبير على الجودة ، ويجب ضبطه. سيكون من المفيد أيضًا قياس المسافة نفسها.

الآن حاول الجمع بين النموذجين. في بداية واحدة ، نزيل الشذوذ من مجموعة التدريب. ثم سنقوم بتدريب OCSVM على مجموعة تدريب "أنظف". وفقا للنتائج السابقة ، لاحظنا أعظم اكتمال في EE. نقوم بتصفية عينة التدريب من خلال EE ، ندرب OCSVM عليها ونحصل على F1 = 0.50 ، الدقة = 0.34 ، الاكتمال = 0.95. ليس رائعا ولكن سألنا فقط نو = 0.27. والبيانات الموجودة لدينا "نظيفة" إلى حد ما. إذا افترضنا أن امتلاء EE في عينة التدريب هو نفسه ، فسيبقى 5 ٪ من الأخطاء. وضعنا أنفسنا في هذا المجال وحصلنا على F1 = 0.69 ، الدقة = 0.59 ، الاكتمال = 0.82. ممتاز. من المهم ملاحظة أنه في طرق أخرى ، لن ينجح هذا المزيج ، حيث يشير إلى أن عدد الحالات الشاذة في مجموعة التدريب ورقم الاختبار هو نفسه. عند تدريب هذه الطرق على مجموعة بيانات تدريب خالصة ، سيكون عليك تحديد تلوث أقل من البيانات الحقيقية وليس بالقرب من الصفر ، ولكن من الأفضل تحديده للتحقق من الصحة.

من المثير للاهتمام أن ننظر إلى نتيجة البحث على تسلسل المؤشرات:

يوضح الشكل جزءًا من قراءات المستشعرين الأول والثاني لـ 7 مكونات. في وسيلة الإيضاح ، يظهر لون الأخطاء المقابلة (البداية والنهاية بخطين رأسيين بنفس اللون). تشير النقاط إلى التنبؤات: تنبؤات حقيقية - خضراء ، حمراء - إيجابية خاطئة ، أرجوانية - سلبية خاطئة يمكن أن يتضح من الشكل أنه من الصعب تحديد وقت الخطأ بصريًا وأن الخوارزمية تتواءم مع هذه المهمة جيدًا. على الرغم من أنه من المهم أن نفهم أن قراءات المستشعر الثالث لا ترد هنا. بالإضافة إلى ذلك ، هناك قراءات إيجابية خاطئة بعد نهاية الخطأ. أي ترى الخوارزمية أن هناك أيضًا قيمًا خاطئة ، وقمنا بتمييز هذه المنطقة على أنها خالية من الأخطاء. يُظهر الجانب الأيمن من الشكل المنطقة قبل الخطأ ، والتي حددناها بأنها خاطئة (نصف ساعة قبل الخطأ) ، والتي تم التعرف عليها على أنها خالية من الأخطاء ، مما يؤدي إلى أخطاء نموذج سلبية خاطئة. في وسط الشكل ، يتم التعرف على قطعة متماسكة ، معترف بها كخطأ. يمكن استخلاص الاستنتاج على النحو التالي: عند حل مشكلة البحث عن الحالات الشاذة ، تحتاج إلى التفاعل عن كثب مع المهندسين الذين يفهمون جوهر الأنظمة التي تحتاج إلى التنبؤ بمخرجاتها ، نظرًا لأن التحقق من الخوارزميات المستخدمة في الترميز لا يعكس الواقع تمامًا ولا يحاكي الظروف التي يمكن فيها لهذه الخوارزميات أن تستخدم.

رمز للتخطيط المخطط:

 def plot_time_course(df_test,dfc,y_preds,start,end,vert_shift=4):   plt.figure(figsize=(15,10))   cols=df_train.filter(regex=('S[12]')).columns   add=0   preds_idx=y_preds.iloc[start:end][y_preds[0]==1].index   true_idx=df_test.iloc[start:end,:][df_test['Label']==1].index   tp_idx=set(true_idx.values).intersection(set(preds_idx.values))   fn_idx=set(true_idx.values).difference(set(preds_idx.values))   fp_idx=set(preds_idx.values).difference(set(true_idx.values))   xtime=df_test['Time'].iloc[start:end]   for col in cols:       plt.plot(xtime,df_test[col].iloc[start:end]+add)       plt.scatter(xtime.loc[tp_idx].values,df_test.loc[tp_idx,col]+add,color='green')       plt.scatter(xtime.loc[fn_idx].values,df_test.loc[fn_idx,col]+add,color='violet')       plt.scatter(xtime.loc[fp_idx].values,df_test.loc[fp_idx,col]+add,color='red')       add+=vert_shift   failures=dfc[(dfc['Start Time']>xtime.iloc[0])&(dfc['Start Time']<xtime.iloc[-1])]   unique_fails=np.sort(failures['Type'].unique())   colors=np.array([np.random.rand(3) for fail in unique_fails])   for fail_idx in failures.index:       c=colors[np.where(unique_fails==failures.loc[fail_idx,'Type'])[0]][0]       plt.axvline(failures.loc[fail_idx,'Start Time'],color=c)       plt.axvline(failures.loc[fail_idx,'End Time'],color=c)   leg=plt.legend(unique_fails)   for i in range(len(unique_fails)):       leg.legendHandles[i].set_color(colors[i])

إذا كانت النسبة المئوية للحالات الشاذة أقل من 5٪ و / أو تم فصلها بشكل سيء عن المؤشرات "الطبيعية" ، فإن الطرق المذكورة أعلاه تعمل بشكل سيئ ومن المفيد استخدام الخوارزميات القائمة على الشبكات العصبية. في أبسط الحالات ، ستكون هذه:

تشفير تلقائي (خطأ كبير في تشفير تلقائي مُدرَّب سيشير إلى وجود خلل في القراءة) ؛
شبكات متكررة (التعلم بالتسلسل للتنبؤ بالقراءة الأخيرة. إذا كان الفرق كبيرًا - تكون النقطة غير طبيعية).

بشكل منفصل ، تجدر الإشارة إلى تفاصيل العمل مع السلاسل الزمنية. من المهم أن نفهم أن معظم الخوارزميات المذكورة أعلاه (باستثناء أجهزة التشفير التلقائي وعزل الغابات) من المرجح أن تعطي جودة أسوأ عند إضافة ميزات التأخر (قراءات من النقاط السابقة في الوقت المناسب).

دعونا نحاول إضافة ميزات تأخر في مثالنا. يوضح وصف المسابقة أن القيم قبل 3 ساعات من الخطأ غير مرتبطة بالخطأ بأي شكل من الأشكال. ثم تضاف علامات في 3 ساعات. مجموع 259 علامات.

نتيجة لذلك ، بقيت نتائج OCSVM و IsolationForest على حالها تقريبًا ، في حين انخفضت نتائج Elliptic Envelope و LOF.

لاستخدام معلومات حول ديناميات النظام ، يجب استخدام الترميز التلقائي مع الشبكات العصبية المتكررة أو التلافيفية. أو ، على سبيل المثال ، مزيج من أجهزة الترميز التلقائي ، وضغط المعلومات ، والأساليب التقليدية للبحث عن الحالات الشاذة بناءً على المعلومات المضغوطة. النهج العكسي يبدو واعدا أيضا. الفحص الأولي للنقاط الأكثر غرابةً عن طريق الخوارزميات القياسية ، ثم تدريب المشفر التلقائي بالفعل على بيانات أنظف.

مصدر

هناك مجموعة من التقنيات للعمل مع سلسلة زمنية أحادية البعد. تهدف جميعها إلى التنبؤ بالقراءات المستقبلية ، والنقاط التي تتباعد عن التنبؤ تعتبر حالات شاذة.

نموذج هولت وينترز

تجانس الأسي الثلاثي ، يقسم السلسلة إلى 3 مكونات: المستوى والاتجاه والموسمية. وفقًا لذلك ، إذا تم تقديم السلسلة في هذا النموذج ، فإن الطريقة تعمل جيدًا. يعمل Facebook Prophet وفقًا لمبدأ مماثل ، ولكنه يقيّم المكونات نفسها بطريقة مختلفة. يمكن قراءة المزيد من التفاصيل ، على سبيل المثال ، هنا .

S (ARIMA)

في هذه الطريقة ، يعتمد النموذج التنبئي على الانتهاك التلقائي والمتوسط المتحرك. إذا كنا نتحدث عن التوسع في S (ARIMA) ، فإنه يتيح لنا تقييم الموسمية. اقرأ المزيد عن النهج هنا ، هنا وهنا .

أساليب الخدمة التنبؤية الأخرى

عندما يتعلق الأمر بالسلاسل الزمنية ، وهناك معلومات حول أوقات حدوث الأخطاء ، يمكنك تطبيق أساليب التدريس مع المعلم. بالإضافة إلى الحاجة إلى البيانات المميزة ، في هذه الحالة ، من المهم أن نفهم أن التنبؤ بالأخطاء سيعتمد على طبيعة الخطأ. إذا كان هناك الكثير من الأخطاء وذات طبيعة مختلفة ، فعلى الأرجح سيكون من الضروري التنبؤ بكل منها على حدة ، الأمر الذي سيتطلب المزيد من البيانات المصنفة ، ولكن الاحتمالات ستكون أكثر جاذبية.

هناك طرق بديلة لاستخدام التعلم الآلي في الصيانة التنبؤية. على سبيل المثال ، توقع فشل النظام في الأيام N التالية (مهمة التصنيف). من المهم أن نفهم أن مثل هذا النهج يتطلب أن يسبق الخطأ في تشغيل النظام فترة تدهور (ليست تدريجية بالضرورة). في هذه الحالة ، يبدو أن النهج الأكثر نجاحًا هو استخدام الشبكات العصبية ذات الطبقات التلافيفية و / أو المتكررة. بشكل منفصل ، تجدر الإشارة إلى طرق لزيادة السلاسل الزمنية. يبدو لي نهجين أكثر إثارة للاهتمام وفي نفس الوقت بسيط:

يتم تحديد الجزء المستمر من الصف (على سبيل المثال ، 70 ٪ ، ويتم إزالة الباقي) وتمتد إلى الحجم الأصلي
يتم تحديد جزء مستمر من الصف (على سبيل المثال ، 20٪) وتمديده أو ضغطه. بعد ذلك ، يتم ضغط الصف بأكمله أو تمديده وفقًا لحجمه الأصلي.

هناك أيضًا خيار للتنبؤ بعمر النظام المتبقي (مهمة الانحدار). هنا يمكننا أن نفرد نهجا منفصلا: ألا نتوقع مدى الحياة ، ولكن معاملات توزيع Weibull.

يمكنك أن تقرأ عن التوزيع نفسه هنا ، وهنا عن استخدامه بالاقتران مع الشبكات المتكررة. يحتوي هذا التوزيع على معلمتين α و β. تشير α إلى وقت حدوث الحدث ، وتشير how إلى مدى ثقتها في الخوارزمية. على الرغم من أن تطبيق هذا النهج واعد ، تنشأ صعوبات في تدريب الشبكة العصبية في هذه الحالة ، لأنه من الأسهل بالنسبة للخوارزمية أن تكون غير آمنة في البداية بدلاً من التنبؤ بعمر مناسب.

بشكل منفصل ، تجدر الإشارة إلى انحدار كوكس . يسمح لك هذا بالتنبؤ بتسامح العيوب في النظام لكل نقطة زمنية بعد التشخيص ، وتقديمه كمنتج من وظيفتين. تتمثل إحدى وظائفه في تدهور النظام ، بغض النظر عن معالمه ، أي مشترك في أي من هذه النظم. والثاني هو الاعتماد الأسي على معلمات نظام معين. لذلك بالنسبة إلى الشخص ، هناك وظيفة شائعة مرتبطة بالشيخوخة ، وهي نفس الشيء بالنسبة للجميع. لكن التدهور في الصحة يرتبط أيضًا بحالة الأعضاء الداخلية ، والتي تختلف للجميع.

أتمنى أن تعرف الآن المزيد عن الصيانة التنبؤية. أنا متأكد من أنه سيكون لديك أسئلة بخصوص طرق التعلم الآلي التي تستخدم في الغالب لهذه التكنولوجيا. سأكون سعيدًا بالإجابة على كل منهم في التعليقات. إذا كنت مهتمًا ليس فقط بالسؤال عن ما هو مكتوب ، ولكنك تريد أن تفعل شيئًا مماثلاً ، فإن فريق CleverDATA يسعد دائمًا بالمحترفين الموهوبين والمتحمسين.

هل هناك أي شواغر؟ بالطبع!

مطور جافا (البيانات الكبيرة)

توقعات من علماء الرياضيات. نحن نحلل الطرق الرئيسية لاكتشاف الحالات الشاذة

طرق

نموذج هولت وينترز

S (ARIMA)

أساليب الخدمة التنبؤية الأخرى

More articles: