نهج الجهاز التوليفي للكشف عن هجمات شبكة DDoS. الجزء 2

مرحبا مرة اخرى نواصل اليوم تبادل المواد المخصصة لإطلاق الدورة التدريبية "مهندس الشبكات" ، والتي تبدأ بالفعل في أوائل مارس. نرى أن الكثيرين كانوا مهتمين بالجزء الأول من المقالة "النهج التوليفي الآلي للكشف عن هجمات شبكة DDoS" واليوم نريد أن نطلعكم على الجزء الثاني - الجزء الأخير.

3.2 تصنيف الصورة في مشكلة كشف الشذوذ

والخطوة التالية هي حل مشكلة تصنيف الصورة الناتجة. بشكل عام ، يتمثل حل مشكلة اكتشاف الفئات (الكائنات) في صورة ما في استخدام خوارزميات التعلم الآلي لإنشاء نماذج للفئة ، ثم الخوارزميات للبحث عن الفئات (الكائنات) في صورة ما.



يتكون بناء نموذج من مرحلتين:

أ) استخراج الميزة لفئة: متجهات ميزة المخطط لأعضاء الفصل.


شكل 1

ب) التدريب على ميزات النموذج التي تم الحصول عليها لمهام الاعتراف اللاحقة.

يوصف كائن الفئة باستخدام متجهات المعالم. تتشكل المتجهات من:

أ) معلومات اللون (الرسم البياني التدرج المنحى) ؛
ب) المعلومات السياقية ؛
ج) بيانات عن الترتيب الهندسي لأجزاء الجسم.

يمكن تقسيم خوارزمية التصنيف (التنبؤ) إلى مرحلتين:

أ) استخراج الميزات من الصورة. في هذه المرحلة ، يتم تنفيذ مهمتين:

  • نظرًا لأن الصورة قد تحتوي على كائنات للعديد من الفئات ، نحتاج إلى العثور على جميع الممثلين. للقيام بذلك ، يمكنك استخدام نافذة منزلقة تمر عبر الصورة من أعلى اليسار إلى أسفل اليمين.
  • يتم تغيير حجم الصورة لأن حجم الكائنات في الصورة يمكن أن يتغير.

ب) ربط صورة بفئة معينة. يتم استخدام وصف رسمي للفئة ، أي مجموعة من الميزات التي يتم تمييزها بواسطة صور الاختبار الخاصة بها ، كمدخلات. بناءً على هذه المعلومات ، يقرر المصنف ما إذا كانت الصورة تنتمي إلى الفصل ويقيم درجة اليقين بالنسبة للنتيجة.

طرق التصنيف. تتراوح طرق التصنيف من المقاربات الإرشادية في الغالب إلى الإجراءات الرسمية القائمة على طرق الإحصاء الرياضي. لا يوجد تصنيف مقبول بشكل عام ، ولكن يمكن تمييز عدة طرق لتصنيف الصور:

  • طرق نمذجة الكائنات بناءً على التفاصيل ؛
  • طرق "حقيبة الكلمات" ؛
  • طرق مطابقة الاهرامات المكانية.

للتنفيذ المقدم في هذه المقالة ، اختار المؤلفون خوارزمية "حقيبة الكلمة" ، بالنظر إلى الأسباب التالية:

  • خوارزميات النمذجة المستندة إلى التفاصيل والمطابقة للأهرامات المكانية حساسة لموضع الواصفات في الفضاء وموضعها النسبي. هذه الفئات من الطرق فعالة في مهام اكتشاف الكائنات في صورة ما ؛ ومع ذلك ، نظرًا للخصائص المميزة لبيانات المدخلات ، فإنها لا تنطبق بشكل جيد على مشكلة تصنيف الصور.
  • تم اختبار خوارزمية "حقيبة الكلمات" على نطاق واسع في مجالات المعرفة الأخرى ، وهي تظهر نتائج جيدة وبسيطة للغاية في التنفيذ.

لتحليل دفق الفيديو المتوقع من حركة المرور ، استخدمنا مصنف بايز الساذج [25]. وغالبا ما يستخدم لتصنيف النصوص باستخدام نموذج حقيبة الكلمة. في هذه الحالة ، يشبه النهج تحليل النص ، بدلاً من الكلمات يتم استخدام الواصفات فقط. يمكن تقسيم عمل هذا المصنف إلى قسمين: مرحلة التدريب ومرحلة التنبؤ.

مرحلة التعلم . يتم تغذية كل إطار (صورة) لإدخال خوارزمية البحث في الواصف ، وفي هذه الحالة ، يتم تحويل ميزة تغيير المقياس (SIFT) [26]. بعد ذلك ، يتم تنفيذ مهمة الارتباط بين النقاط الفردية بين الإطارات. نقطة معينة في صورة كائن هي نقطة من المحتمل أن تظهر على صور أخرى لهذا الكائن.

لحل مشكلة مقارنة النقاط الخاصة لكائن ما في صور مختلفة ، يتم استخدام واصف. واصف هو بنية البيانات ، معرف لنقطة المفرد الذي يميزها عن بقية. قد يكون أو لا يكون ثابتًا فيما يتعلق بتحولات صورة الكائن. في حالتنا ، يكون الواصف ثابتًا فيما يتعلق بتحولات المنظور ، أي التحجيم. يسمح لك المقبض بمقارنة نقطة ميزة كائن ما في صورة ما بنقطة الميزة نفسها في صورة أخرى لهذا الكائن.

بعد ذلك ، يتم فرز مجموعة الواصفات التي تم الحصول عليها من جميع الصور في مجموعات حسب التشابه باستخدام طريقة التجميع k-الوسائل [26 ، 27]. يتم ذلك من أجل تدريب المصنف ، والذي سيعطي استنتاجًا بشأن ما إذا كانت الصورة تمثل سلوكًا غير طبيعي.

فيما يلي خوارزمية خطوة بخطوة لتدريب مصنف واصف الصور:

الخطوة 1 استخراج جميع الواصفات من مجموعات مع وبدون هجوم.
الخطوة 2 تجميع كل الواصفات باستخدام طريقة k في مجموعات n.
الخطوة 3 حساب المصفوفة A (m، k) ، حيث m هو عدد الصور و k هو عدد الكتل. سيقوم العنصر (i؛ j) بتخزين قيمة عدد المرات التي تظهر بها الواصفات من المجموعة j على الصورة i. ستسمى هذه المصفوفة مصفوفة تكرار الحدوث.
الخطوة 4 حساب أوزان الواصفات حسب الصيغة tf idf [28]:



هنا tf ("مصطلح المدى") هو تردد ظهور الواصف في هذه الصورة ويتم تعريفه على أنه



حيث t هو الواصف ، k هو عدد الواصفات في الصورة ، nt هو عدد الواصفات t في الصورة. بالإضافة إلى ذلك ، فإن idf ("تردد الوثيقة العكسية") هو تردد الصورة العكسية مع واصف معين في العينة ويتم تعريفه على أنه



حيث D هي عدد الصور مع واصف معين في العينة ، {di ∈ D، t ∈ di} هو عدد الصور في D ، حيث t في nt! = 0.
الخطوة 5 استبدال الأوزان المقابلة بدلاً من الواصفات في المصفوفة A.
الخطوة 6 التصنيف. نستخدم تضخيم المصنفات بايز الساذجة (adaboost).
الخطوة 7 حفظ النموذج المدربين في ملف.
الخطوة 8 بهذا تنتهي مرحلة التدريب.

مرحلة التنبؤ . الاختلافات بين مرحلة التدريب ومرحلة التنبؤ صغيرة: يتم استخراج الواصفات من الصورة وترتبط بالمجموعات الموجودة. بناءً على هذه النسبة ، يتم إنشاء ناقل. كل عنصر من عناصر هذا المتجه هو تواتر ظهور الواصفات من هذه المجموعة في الصورة. من خلال تحليل هذا المتجه ، يستطيع المصنف إجراء تنبؤ بالهجوم باحتمال معين.

فيما يلي خوارزمية تنبؤ عامة تستند إلى زوج من المصنفات.

الخطوة 1 استخراج جميع الواصفات من الصورة ؛
الخطوة 2 تجميع المجموعة الناتجة من الواصفات.
الخطوة 3 حساب المتجه [1 ، ك] ؛
الخطوة 4 حساب الوزن لكل واصف وفقًا لمعادلة tf idf الواردة أعلاه ؛
الخطوة 5 استبدال تواتر حدوث في ناقلات مع وزنهم ؛
الخطوة 6 تصنيف المتجه الناتج وفقًا لمصنف تم تدريبه مسبقًا ؛
الخطوة 7 استنتاج حول وجود الحالات الشاذة في الشبكة المرصودة بناءً على توقعات المصنف.

4. تقييم كفاءة الكشف

تم حل مهمة تقييم فعالية الطريقة المقترحة بشكل تجريبي. في التجربة ، تم استخدام عدد من المعلمات المنشأة تجريبيا. لتجميع ، تم استخدام 1000 مجموعات. الصور التي تم إنشاؤها كانت 1000 × 1000 بكسل.

4.1 مجموعة البيانات التجريبية

للتجارب ، تم تجميع التثبيت. يتكون من ثلاثة أجهزة متصلة بواسطة قناة اتصال. يظهر مخطط كتلة التثبيت في الشكل 2.


الشكل 1

يعمل جهاز SRV كخادم مهاجم (يشار إليه فيما يلي باسم الخادم الهدف). تم استخدام الأجهزة المدرجة في الجدول 1 مع رمز SRV بالتتابع كخادم الهدف. والثاني هو جهاز الشبكة المصممة لنقل حزم الشبكة. يتم عرض خصائص الجهاز في الجدول 1 تحت الرمز ND-1.

جدول 1. مواصفات جهاز الشبكة



على الخوادم الهدف ، تمت كتابة حزم الشبكة إلى ملف PCAP لاستخدامها لاحقًا في خوارزميات الاكتشاف. تم استخدام الأداة المساعدة tcpdump لهذه المهمة. ويرد وصف مجموعات البيانات في الجدول 2.

جدول 2. مجموعات من حزم الشبكة التي تم اعتراضها



تم استخدام البرنامج التالي على الخوادم الهدف: توزيع Linux ، خادم ويب nginx 1.10.3 ، postgresql 9.6 DBMS. تمت كتابة تطبيق ويب خاص لمحاكاة تمهيد النظام. يطلب التطبيق قاعدة بيانات تحتوي على كمية كبيرة من البيانات. تم تصميم الطلب لتقليل استخدام التخزين المؤقت المختلفة. أثناء التجارب ، تم إنشاء طلبات لتطبيق الويب هذا.
تم الهجوم من جهاز العميل الثالث (الجدول 1) باستخدام الأداة المساعدة Apache Benchmark. يتم عرض بنية حركة الخلفية أثناء الهجوم وبقية الوقت في الجدول 3.

جدول 3. وظائف حركة المرور في الخلفية



كاعتداء ، نقوم بتطبيق إصدار DoS الموزع من تدفق HTTP GET. مثل هذا الهجوم ، في الواقع ، هو توليد دفق مستمر من طلبات GET ، في هذه الحالة من جهاز CD-1. لإنشاء ذلك ، استخدمنا الأداة المساعدة ab من حزمة apache-utils. نتيجة لذلك ، تم استلام الملفات التي تحتوي على معلومات حول حالة الشبكة. يتم عرض الخصائص الرئيسية لهذه الملفات في الجدول 2. وترد المعلمات الرئيسية لسيناريو الهجوم في الجدول 4.
من تفريغ حركة مرور الشبكة المستلمة ، تم الحصول على مجموعات من الصور التي تم إنشاؤها TD # 1 و TD # 2 ، والتي تم استخدامها في مرحلة التدريب. تم استخدام عينة TD # 3 لمرحلة التنبؤ. ويرد موجز لمجموعات بيانات الاختبار في الجدول 5.

4.2 معايير الأداء

المعالم الرئيسية التي تم تقييمها خلال هذه الدراسة هي:

الجدول 4. ملامح هجوم DDoS



الجدول 5. اختبار صورة مجموعات



أ) DR (معدل الكشف) - هو عدد الهجمات التي تم اكتشافها بالنسبة إلى إجمالي عدد الهجمات. كلما زادت هذه المعلمة ، زادت كفاءة وجودة الإعلانات.

ب) FPR (معدل إيجابي كاذب) - عدد الكائنات "العادية" ، المصنفة خطأً على أنها هجوم ، بالنسبة إلى إجمالي عدد الكائنات "الطبيعية". كلما قلت هذه المعلمة ، زادت كفاءة وجودة نظام الكشف عن الحالات الشاذة.

ج) CR (معدل مركب) هو مؤشر معقد يأخذ في الاعتبار الجمع بين المعلمتين DR و FPR. منذ أن تم أخذ المعلمتين DR و FPR على قدم المساواة في الأهمية في الدراسة ، تم حساب المؤشر المركب على النحو التالي: CR = (DR + FPR) / 2.
تم إرسال 1000 صورة تحمل علامة "غير طبيعية" إلى المصنف. بناءً على نتائج الاعتراف ، تم حساب DR اعتمادًا على حجم عينة التدريب. تم الحصول على القيم التالية: TD = 1 DR = 9.5٪ و TD # 2 DR = 98.4٪. علاوة على ذلك ، تم تصنيف النصف الثاني من الصور ("طبيعية"). بناءً على النتيجة ، تم حساب FPR (في TD # 1 FPR = 3.2٪ و TD # 2 FPR = 4.3٪). وبالتالي ، تم الحصول على مؤشرات الأداء الشاملة التالية: من أجل TD # 1 CR = 53.15٪ و TD # 2 CR = 97.05٪.

5. الاستنتاجات والبحوث المستقبلية

من النتائج التجريبية ، يتبين أن الطريقة المقترحة للكشف عن الحالات الشاذة تظهر نتائج عالية في اكتشاف الهجمات. على سبيل المثال ، في عينة كبيرة ، تصل قيمة مؤشر الأداء الشامل إلى 97٪. ومع ذلك ، تحتوي هذه الطريقة على بعض القيود في التطبيق:

1. تُظهر قيم DR و FPR حساسية الخوارزمية لحجم مجموعة التدريب ، وهي مشكلة مفاهيمية لخوارزميات التعلم الآلي. زيادة العينة يحسن أداء الكشف. ومع ذلك ، لا يمكن دائمًا تنفيذ مجموعة تدريب كبيرة بما يكفي لشبكة معينة.

2. الخوارزمية المطورة حتمية ، يتم تصنيف نفس الصورة في كل مرة بنفس النتيجة.

3. مؤشرات فعالية النهج جيدة بما يكفي لتأكيد هذا المفهوم ، ولكن عدد الإيجابيات الخاطئة كبير أيضًا ، مما قد يؤدي إلى صعوبات في التنفيذ العملي.

للتغلب على القيد الموضح أعلاه (النقطة 3) ، من المفترض تغيير المصنف البايزي الساذج إلى شبكة عصبية تلافيفية ، والتي وفقًا للمؤلفين ، يجب أن تزيد من دقة خوارزمية اكتشاف الشذوذ.

المراجع
1. محي الدين أ. ، عبدون ن. م. ، جيانكون ه.: دراسة استقصائية لتقنيات الكشف عن الشذوذ في الشبكة. في: مجلة الشبكة وتطبيقات الكمبيوتر. المجلد 60 ، ص. 21 (2016)
2. Afontsev E: شذوذات الشبكة ، 2006 nag.ru/articles/reviews/15588 setevyie-anomalii.html
3. Berestov AA: هندسة العوامل الذكية القائمة على نظام الإنتاج للحماية من هجمات الفيروسات على الإنترنت. In: XV All-Russian Scientific Problems of Information Information in the High School System "، pp. 180؟ 276 (2008)
4. Galtsev AV: نظام تحليل حركة المرور لتحديد ظروف الشبكة الشاذة: أطروحة للحصول على درجة المرشح للعلوم التقنية. سمارة (2013)
5. Kornienko AA ، Slyusarenko IM: أنظمة كشف التسلل وطرقه : الحالة الراهنة واتجاه التحسين ، 2008 citforum.ru/security internet / ids overview /
6. Kussul N. ، Sokolov A.: كشف الشذوذ التكيفي في سلوك مستخدمي أنظمة الكمبيوتر باستخدام سلاسل Markov ذات الترتيب المتغير. الجزء 2: طرق الكشف عن الحالات الشاذة ونتائج التجارب. في: المعلوماتية ومشاكل التحكم. العدد 4 ، ص. 83 - 88 (2003)
7. Mirkes EM: Neurocomputer: مسودة قياسية. العلم ، نوفوسيبيرسك ، ص. 150-176 (1999)
8. Tsvirko DA التنبؤ بطريق هجوم الشبكة باستخدام أساليب نموذج الإنتاج ، 2012 academy.kaspersky.com/downloads/academycup المشاركين / cvirko d. باور بوينت
9. Somayaji A.: استجابة تلقائية باستخدام تأخير استدعاء النظام. In: USENIX Security Symposium 2000، pp. 185-197 ، 2000
10. Ilgun K: USTAT: نظام لكشف التسلل في الوقت الفعلي لـ UNIX. في: ندوة IEEE حول البحث في الأمن والخصوصية ، جامعة كاليفورنيا (1992)
11. Eskin E. و Lee W. و Stolfo SJ: يدعو نظام النمذجة إلى اكتشاف التسلل بأحجام نافذة ديناميكية. In: DARPA Conference and Survivability Conference and Exposition (DISCEX II)، June 2001
12. Ye N. و Xu M. و Emran SM: شبكات احتمالية مع روابط غير موجهة للكشف عن الشذوذ. في: 2000 ورشة عمل IEEE حول ضمان المعلومات والأمن ، ويست بوينت ، نيويورك (2000)
13. Michael CC و Ghosh A: طريقتان تعتمدان على الدولة لاكتشاف الحالات الشاذة القائمة على البرامج. في: معاملات ACM على أمن المعلومات والنظام. رقم 5 (2) ، 2002
14. Garvey TD ، Lunt TF: كشف التسلل القائم على النموذج. في: 14th Nation أمان الكمبيوتر المؤتمر ، بالتيمور ، MD (1991)
15. Theus M. و Schonlau M: كشف التسلل على أساس الأصفار الهيكلية. في: الحوسبة الإحصائية والرسومات الإخبارية. رقم 9 (1) ، ص. 12 - 17 (1998)
16. تان ك: تطبيق الشبكات العصبية على يونكس أمن الكمبيوتر. في: IEEE المؤتمر الدولي حول الشبكات العصبية. المجلد 1 ، ص. 476؟ 481 ، بيرث ، أستراليا (1995)
17. Ilgun K.، Kemmerer RA، Porras PA: State Transition Analysis: A-Based Intrusion Detection System. في: IEEE Trans. مهندس برمجيات المجلد 21 ، لا. 3 ، (1995)
18. Eskin E: الكشف عن الشذوذ على البيانات صاخبة باستخدام توزيعات الاحتمالات المستفادة. في: المؤتمر الدولي السابع عشر على تعلم الآلة ، ص. 255؟ 262. مورجان كوفمان ، سان فرانسيسكو ، كاليفورنيا (2000)
19. Ghosh K. و Schwartzbard A. و Schatz M: تعلم ملفات تعريف سلوك البرنامج لاكتشاف التسلل. In: 1st USENIX Workshop on Intrusion Detection and Network Monitoring، pp. 51 - 62 ، سانتا كلارا ، كاليفورنيا (1999)
20. يي N.: نموذج سلسلة markov للسلوك الزمني للكشف عن الشذوذ. في: 2000 ورشة عمل IEEE Systems ، الإنسان ، وعلم التحكم الآلي ، ضمان المعلومات والأمن (2000)
21. أكسلسون إس: مغالطة في معدل الأساس وآثارها على صعوبة اكتشاف التسلل. In: ACM Conference on Computer and Communications Security، pp. 1 - 7 (1999)
22. Chikalov I ، Moshkov M ، Zielosko B.: تعظيم الاستفادة من قواعد القرار على أساس أساليب البرمجة الديناميكية. في Vestnik of Lobachevsky State University of Nizhni Novgorod، no. 6 ، ص. 195-200
23. تشن CH: دليل التعرف على الأنماط ورؤية الكمبيوتر. جامعة ماساتشوستس دارتموث ، الولايات المتحدة الأمريكية (2015)
24. جانتماشر الاب: نظرية المصفوفات ، ص. 227. العلوم ، موسكو (1968)
25. Murty MN ، Devi VS: التعرف على الأنماط: خوارزمية. ص. 93-94 (2011)

تقليديًا ، ننتظر تعليقاتك وندعو الجميع إلى يوم مفتوح ، والذي سيعقد الاثنين المقبل.

Source: https://habr.com/ru/post/ar441182/


All Articles