في
مقال سابق ، تحدثنا عن التنبؤ بالسلاسل الزمنية. سيكون استمرار منطقي مقالة حول تحديد الحالات الشاذة.
تطبيق
يستخدم الكشف عن الشذوذ في مجالات مثل:
1) التنبؤ بانهيار المعدات
لذلك ، في عام 2010 ، تعرضت أجهزة الطرد المركزي الإيرانية للهجوم من قبل فيروس Stuxnet ، الذي وضع الجهاز في الوضع الأمثل وتعطيل جزء من المعدات بسبب التآكل المتسارع.
إذا تم استخدام خوارزميات البحث الشاذ على المعدات ، يمكن تجنب حالات الفشل.

يتم استخدام البحث عن الحالات الشاذة في تشغيل المعدات ليس فقط في الصناعة النووية ، ولكن أيضًا في المعادن وتشغيل توربينات الطائرات. وفي المناطق الأخرى التي يكون فيها استخدام التشخيص التنبئي أرخص من الخسائر المحتملة في حالة حدوث انهيار غير متوقع.
2) توقع الاحتيال
إذا تم سحب البطاقة التي تستخدمها في Podolsk في ألبانيا ، فمن الممكن أن يتم التحقق من المعاملة مرة أخرى.
3) تحديد أنماط المستهلك غير طبيعية
إذا أظهر بعض العملاء سلوكًا غير طبيعي ، فقد تكون هناك مشكلة لا تعرفونها.
4) تحديد الطلب غير طبيعي والتحميل
إذا انخفضت المبيعات في متجر سلع استهلاكية تحت الحد الفاصل الزمني لثقة الثقة ، فيجب أن تجد سبب حدوث ذلك.
نهج الكشف عن الشذوذ
1) طريقة ناقلات الدعم مع فئة واحدة SVM من فئة واحدة
مناسب عندما تطيع البيانات الموجودة في مجموعة التدريب التوزيع الطبيعي ، بينما تحتوي مجموعة الاختبار على حالات شاذة.
تقوم طريقة متجه الدعم من الطبقة الواحدة بإنشاء سطح غير خطي حول الأصل. من الممكن تعيين حد القطع ، والتي تعتبر البيانات غير طبيعية.
بناءً على تجربة فريق DATA4 الخاص بنا ، تعد One-Class SVM الخوارزمية الأكثر استخدامًا لحل مشكلة البحث الشاذ.

2) عزل طريقة الغابات - عزل الغابات
باستخدام الطريقة "العشوائية" لبناء الأشجار ، ستسقط الانبعاثات في الأوراق في المراحل المبكرة (على عمق ضحل من الشجرة) ، أي الانبعاثات أسهل في "عزل". يتم استخراج القيم الشاذة في التكرارات الأولى من الخوارزمية.

3) مظروف بيضاوي وطرق إحصائية
تستخدم عندما يتم توزيع البيانات بشكل طبيعي. كلما اقتربت القياس من ذيل خليط التوزيعات ، زادت القيمة غير العادية.
يمكن أن تنسب الأساليب الإحصائية الأخرى إلى هذه الفئة.

صورة من dyakonov.org4) طرق متري
تشتمل الطرق على خوارزميات مثل k أقرب الجيران ، أو أقرب جار لـ k ، أو ABOD (الكشف الخارجي القائم على الزاوية) أو LOF (عامل خارجي خارجي).
مناسب إذا كانت المسافة بين القيم في العلامات مكافئة أو طبيعية (حتى لا تقيس البواء في الببغاوات).
تشير خوارزمية k أقرب الجيران إلى أن القيم الطبيعية تقع في منطقة معينة من الفضاء متعدد الأبعاد ، وستكون المسافة إلى الحالات الشاذة أكبر من الطائرة الفاصلة الفاصلة.

5) طرق الكتلة
جوهر أساليب الكتلة هو أنه إذا كانت القيمة أكثر من مسافة معينة من مراكز المجموعات ، يمكن اعتبار القيمة غير طبيعية.
الشيء الرئيسي هو استخدام خوارزمية تقوم بتجميع البيانات بشكل صحيح ، والتي تعتمد على المهمة المحددة.

6) طريقة المكون الرئيسي
مناسب حيث يتم تمييز المناطق ذات التباين الأكبر في التباين.
7) الخوارزميات على أساس التنبؤ السلاسل الزمنية
والفكرة هي أنه إذا تم إخراج قيمة من فاصل الثقة التنبؤ ، تعتبر القيمة غير طبيعية. تُستخدم الخوارزميات مثل الحواف الثلاثية ، S (ARIMA) ، التعزيز ، وما إلى ذلك للتنبؤ بالسلسلة الزمنية.
نوقشت خوارزميات التنبؤ بالسلاسل الزمنية في مقال سابق.

8) التدريب مع المعلم (الانحدار ، التصنيف)
إذا سمحت البيانات ، فإننا نستخدم الخوارزميات من الانحدار الخطي إلى الشبكات المتكررة. نقيس الفرق بين التنبؤ والقيمة الفعلية ، ونستنتج مقدار البيانات التي تم استبعادها من المعيار. من المهم أن تتمتع الخوارزمية بقدرة تعميم كافية ، وأن عينة التدريب لا تحتوي على قيم غير طبيعية.
9) اختبارات النموذج
نحن نعالج مشكلة البحث عن الحالات الشاذة كمهمة البحث عن التوصيات. نحن نحلل مصفوفة الميزات الخاصة بنا باستخدام SVD أو آلات المعالجة ، والقيم في المصفوفة الجديدة ، والتي تختلف اختلافًا كبيرًا عن تلك الأصلية ، تعتبر غير طبيعية.
صورة من dyakonov.orgاستنتاج
في هذه المقالة ، درسنا الأساليب الأساسية لاكتشاف الحالات الشاذة.
البحث عن الحالات الشاذة يمكن أن يسمى الفن في نواح كثيرة. لا توجد خوارزمية مثالية أو نهج تطبيقه يحل جميع المشاكل. في معظم الأحيان ، يتم استخدام مجموعة من الطرق لحل حالة معينة. يتم البحث في الحالات الشاذة باستخدام طريقة أحادية الطبقة لمتجهات الدعم ، وعزل الغابات ، وطرق القياس المتري والكتل ، بالإضافة إلى استخدام المكونات الرئيسية والسلاسل الزمنية للتنبؤ.
إذا كنت تعرف طرقًا أخرى ، فاكتب عنها في قسم التعليقات في المقالة.