
في الآونة الأخيرة ، كان التصيد الاحتيالي أسهل طريقة وأكثرها شيوعًا لمجرمي الإنترنت لسرقة الأموال أو المعلومات. على سبيل المثال ، لا تحتاج للذهاب بعيدا. في العام الماضي ، واجهت الشركات الروسية الرائدة هجومًا غير مسبوق - حيث سجل المهاجمون موارد وهمية بشكل كبير ، ونسخًا دقيقة لمواقع مصنعي الأسمدة والبتروكيماويات لإبرام العقود نيابة عنهم. متوسط الضرر من مثل هذا الهجوم هو 1.5 مليون روبل ، ناهيك عن الضرر الذي لحق بالشركة التي عانت منها الشركة. في هذه المقالة ، سنتحدث عن كيفية اكتشاف مواقع التصيد الاحتيالي بشكل فعال باستخدام تحليل الموارد (CSS ، صور JS ، وما إلى ذلك) بدلاً من HTML ، وكيف يمكن لأخصائي علوم البيانات حل هذه المشاكل.
بافيل سليبنشوك ، مهندس نظم التعلم الآلي ، Group-IB
وباء التصيد
وفقًا لـ Group-IB ، يصبح أكثر من 900 عميل من مختلف البنوك ضحايا للتصيد المالي وحده في روسيا كل يوم - هذا الرقم هو 3 أضعاف العدد اليومي لضحايا البرامج الضارة. يتفاوت الضرر الناتج عن هجوم التصيد الاحتيالي على المستخدم من 2000 إلى 50000 روبل. لا يقوم المحتالون بنسخ موقع الويب الخاص بشركة أو بنك فقط ، وشعاراتهم وألوان الشركة ، والمحتوى ، وتفاصيل الاتصال ، وتسجيل اسم نطاق مشابه ، ولا يزالون يعلنون بنشاط عن مواردهم في الشبكات الاجتماعية ومحركات البحث. على سبيل المثال ، يحاولون جلب روابط لمواقع التصيد الخاصة بهم إلى أعلى نتائج البحث لطلب "تحويل الأموال إلى بطاقة". في أغلب الأحيان ، يتم إنشاء المواقع المزيفة بدقة لسرقة الأموال عند التحويل من بطاقة إلى أخرى أو بالدفع الفوري مقابل خدمات مشغلي الهاتف المحمول.
التصيد (المهندس. التصيد ، من الصيد - الصيد ، الصيد) هو شكل من أشكال الاحتيال عبر الإنترنت ، والغرض منه هو خداع الضحية لتقديم معلومات سرية إلى المحتال. في معظم الأحيان ، يسرقون كلمات مرور الوصول إلى الحساب المصرفي لسرقة الأموال ، وحسابات وسائل التواصل الاجتماعي (لابتزاز الأموال أو إرسال رسائل غير مرغوب فيها نيابة عن الضحية) ، والاشتراك في الخدمات المدفوعة ، أو إرسال بريد أو إصابة جهاز كمبيوتر ، مما يجعله رابطًا في الروبوت.
باستخدام طرق الهجوم ، هناك نوعان من التصيد الاحتيالي يستهدف المستخدمين والشركات:
- مواقع التصيّد الاحتيالي التي تنسخ المورد الأصلي للضحية (البنوك وشركات الطيران والمتاجر عبر الإنترنت والمؤسسات والوكالات الحكومية وما إلى ذلك).
- رسائل التصيد الاحتيالي ورسائل البريد الإلكتروني والرسائل القصيرة والرسائل في الشبكات الاجتماعية وما إلى ذلك.
غالبًا ما يتعرض الأفراد للهجوم من قبل المستخدمين ، ويكون الحد الأدنى لدخول هذا الجزء من الأعمال الإجرامية منخفضًا جدًا بحيث يكون الحد الأدنى من "الاستثمار" والمعرفة الأساسية كافية لتنفيذها. يتم تسهيل انتشار هذا النوع من الاحتيال أيضًا عن طريق مجموعات التصيد ، وبرامج إنشاء مواقع التصيد التي يمكن شراؤها بحرية في Darknet على منتديات القراصنة.
تختلف الهجمات على الشركات أو البنوك. يتم تنفيذها من قبل مهاجمين أكثر ذكاء من الناحية الفنية. كقاعدة ، يتم اختيار الشركات الصناعية الكبيرة ، والمتاجر عبر الإنترنت ، وشركات الطيران ، وفي الغالب البنوك ، كضحايا. في معظم الحالات ، يأتي التصيد الاحتيالي لإرسال بريد إلكتروني مرفق به ملف مصاب. لكي ينجح مثل هذا الهجوم ، يجب أن يكون لدى "موظفي" المجموعة متخصصين في كتابة التعليمات البرمجية الخبيثة ، والمبرمجين لأتمتة أنشطتهم ، والأشخاص الذين يمكنهم إجراء الاستطلاع الأولي للضحية وإيجاد نقاط ضعف فيها.
في روسيا ، وفقًا لتقديراتنا ، هناك 15 مجموعة إجرامية متورطة في عمليات تصيد احتيالي تستهدف المؤسسات المالية. دائمًا ما يكون مقدار الضرر صغيرًا (عشر مرات أقل من أحصنة طروادة المصرفية) ، ولكن عدد الضحايا الذين يجتذبونهم إلى مواقعهم يُقدر بالآلاف كل يوم. حوالي 10-15٪ من زوار مواقع التصيد المالي يدخلون بياناتهم بأنفسهم.
عندما تظهر صفحة تصيّد ، يتم دفع الفاتورة لساعات ، وأحيانًا حتى دقائق ، لأن المستخدمين يتحملون خسائر مالية كبيرة ، وفي حالة الشركات ، فإن هناك ضررًا في السمعة أيضًا. على سبيل المثال ، كانت بعض صفحات التصيّد الناجحة متاحة لمدة تقل عن يوم واحد ، لكنها كانت قادرة على إلحاق الضرر بمبالغ من 1،000،000 روبل.
في هذه المقالة ، سوف نتحدث عن النوع الأول من التصيد: مواقع التصيد. يمكن اكتشاف الموارد "المشتبه بها" للتصيد الاحتيالي بسهولة باستخدام وسائل فنية مختلفة: مصائد مخترقي الويب ، برامج الزحف ، وما إلى ذلك ، للتأكد من أنها تصيد احتيالي حقًا وتحديد العلامة التجارية التي تعرضت للهجوم يمثل مشكلة. دعنا نكتشف كيفية حل هذه المشكلة.
صيد السمك
إذا كانت العلامة التجارية لا تراقب سمعتها ، فإنها تصبح هدفًا سهلاً. من الضروري الاستيلاء على المبادرة من المجرمين فور تسجيل مواقعهم المزيفة. من الناحية العملية ، ينقسم البحث عن صفحة تصيد إلى 4 مراحل:
- تشكيل العديد من العناوين المشبوهة (عناوين URL) لمسح التصيد الاحتيالي (الزاحف ، المصائد ، إلخ).
- تشكيل العديد من عناوين التصيد.
- تصنيف عناوين التصيد المكتشفة بالفعل حسب مجال النشاط والتكنولوجيا المهاجمة ، على سبيل المثال ، "RBS :: Sberbank Online" أو "RBS :: Alfa-Bank".
- ابحث عن صفحة متبرع.
يقع تنفيذ الفقرتين 2 و 3 على أكتاف المتخصصين في علوم البيانات.
بعد ذلك ، يمكنك بالفعل اتخاذ خطوات نشطة لحظر صفحة التصيد. على وجه الخصوص:
- القائمة السوداء لمنتجات ومنتجات Group-IB لشركائنا ؛
- إرسال رسائل تلقائيًا أو يدويًا إلى مالك منطقة النطاق مع طلب إزالة عنوان URL الخاص بالتصيد الاحتيالي ؛
- إرسال رسائل إلى خدمة الأمن للعلامة التجارية التي تمت مهاجمتها ؛
- الخ.

طرق تحليل HTML
الحل الكلاسيكي لمهام التحقق من عناوين التصيد المشبوهة والكشف تلقائيًا عن العلامة التجارية المتأثرة هي طرق مختلفة لتحليل صفحات مصدر HTML. أبسط شيء هو كتابة التعابير العادية. إنه أمر مضحك ، ولكن هذه الحيلة لا تزال تعمل. واليوم ، يقوم معظم المحتالين المبتدئين بنسخ المحتوى من الموقع الأصلي.
أيضا ، يمكن تطوير أنظمة فعالة جدا لمكافحة التصيد من قبل الباحثين في مجموعات التصيد. ولكن في هذه الحالة ، تحتاج إلى فحص صفحة HTML. بالإضافة إلى ذلك ، هذه الحلول ليست عالمية - يتطلب تطويرها قاعدة من "الحيتان" نفسها. قد لا يعرف الباحث بعض مجموعات التصيد الاحتيالي. وبالطبع ، فإن تحليل كل "حوت" جديد هو عملية شاقة ومكلفة إلى حد ما.
تتوقف جميع أنظمة كشف التصيد القائمة على تحليل صفحة HTML عن العمل بعد التعتيم على HTML. ويكفي في كثير من الحالات تغيير إطار صفحة HTML.
وفقًا لـ Group-IB ، في الوقت الحالي لا يوجد أكثر من 10 ٪ من مواقع التصيد ، ولكن حتى أحد المواقع المفقودة يمكن أن يكلف الضحية الكثير.
وبالتالي ، لكي يتجاوز الصياد القفل ، يكفي ببساطة تغيير إطار HTML ، في كثير من الأحيان - لإخفاء صفحة HTML (الخلط بين الترميز و / أو تحميل المحتوى عبر JS).
بيان المشكلة. الطريقة القائمة على الموارد
تعتبر الأساليب المستندة إلى تحليل الموارد المستخدمة أكثر فاعلية وعالمية للكشف عن صفحات التصيد. المورد هو أي ملف يتم تحميله عند عرض صفحة ويب (جميع الصور وأوراق الأنماط المتتالية (CSS) وملفات JS والخطوط وما إلى ذلك).
في هذه الحالة ، يمكنك إنشاء رسم بياني ثنائي الأجزاء ، حيث ستتناول بعض القمم عناوين مشبوهة من التصيد الاحتيالي ، في حين أن البعض الآخر سيكون موارد مرتبطة بها.

تنشأ مهمة التجميع - للعثور على مجموعة من هذه الموارد التي تمتلك عددًا كبيرًا إلى حد ما من عناوين URL المختلفة. من خلال إنشاء مثل هذه الخوارزمية ، يمكننا تحليل أي رسم بياني ثنائي إلى مجموعات.
الفرضية هي أنه بناءً على البيانات الحقيقية ، مع درجة عالية إلى حد ما من الاحتمال ، يمكن القول أن المجموعة تحتوي على مجموعة من عناوين URL التي تنتمي إلى نفس العلامة التجارية ويتم إنشاؤها بواسطة مجموعات تصيد واحدة. بعد ذلك ، لاختبار هذه الفرضية ، يمكن إرسال كل مجموعة من هذه المجموعات للتحقق اليدوي إلى CERT (مركز الاستجابة لحوادث أمن المعلومات). المحلل بدوره سيعطي حالة الكتلة: +1 ("موافق عليه") أو –1 (مرفوض). سيقوم المحلل أيضًا بتعيين علامة تجارية مهاجمة لجميع المجموعات المعتمدة. ينتهي هذا "العمل اليدوي" - تتم بقية العملية تلقائيًا. في المتوسط ، تمثل مجموعة واحدة معتمدة 152 عنوانًا للتصيد الاحتيالي (البيانات اعتبارًا من يونيو 2018) ، وأحيانًا تظهر مجموعات من 500-1000 عنوان! يقضي المحلل حوالي دقيقة واحدة للموافقة أو دحض الكتلة.
بعد ذلك ، تتم إزالة جميع المجموعات المرفوضة من النظام ، وبعد فترة يتم تغذية جميع عناوينها ومواردها مرة أخرى لإدخال خوارزمية التجميع. نتيجة لذلك ، نحصل على مجموعات جديدة. ومرة أخرى نرسل لهم للتحقق ، وما إلى ذلك.
وبالتالي ، بالنسبة لكل عنوان تم استلامه حديثًا ، يجب على النظام القيام بما يلي:
- استخرج العديد من الموارد للموقع.
- تحقق من وجود مجموعة واحدة على الأقل معتمدة مسبقًا.
- إذا كان عنوان URL ينتمي إلى أي مجموعة ، فاستخرج اسم العلامة التجارية تلقائيًا وقم بتنفيذ إجراء من أجله (قم بإخطار العميل وحذف المورد وما إلى ذلك).
- إذا لم يكن من الممكن تعيين مجموعة للموارد ، فأضف العنوان والموارد إلى الرسم البياني الثنائي. في المستقبل ، سيشارك عنوان URL هذا والموارد في تشكيل مجموعات جديدة.

خوارزمية تجميع الموارد البسيطة
واحدة من أهم الفروق الدقيقة التي يجب أن يأخذها أخصائي علوم البيانات في أمن المعلومات هي حقيقة أن الشخص هو خصمه. لهذا السبب ، تتغير الظروف والبيانات للتحليل بسرعة كبيرة! الحل الذي يصلح المشكلة بشكل ملحوظ الآن ، بعد 2-3 أشهر ، قد يتوقف عن العمل من حيث المبدأ. لذلك ، من المهم إنشاء آليات عالمية (خرقاء) ، إن أمكن ، أو أكثر الأنظمة مرونة التي يمكن تطويرها بسرعة. لا يستطيع أخصائي علوم البيانات في أمن المعلومات حل المشكلة نهائياً.
لا تعمل طرق التجميع القياسية بسبب العدد الكبير من الميزات. يمكن تمثيل كل مورد كسمة منطقية. ومع ذلك ، من الناحية العملية ، نحصل على 5000 عنوان موقع ويب يوميًا ، ويحتوي كل منها على متوسط 17.2 موارد (بيانات يونيو 2018). لعنة الأبعاد لا تسمح حتى بتحميل البيانات في الذاكرة ، ناهيك عن بناء أي خوارزميات عنقودية.
فكرة أخرى هي محاولة التجمع في مجموعات باستخدام خوارزميات تصفية تعاونية مختلفة. في هذه الحالة ، كان من الضروري إنشاء ميزة أخرى - تنتمي إلى علامة تجارية معينة. سيتم تقليل المهمة إلى حقيقة أنه يجب على النظام التنبؤ بوجود أو عدم وجود هذه العلامة لعناوين URL المتبقية. أعطت الطريقة نتائج إيجابية ، ولكن كان لها سلبيان:
- لكل علامة تجارية ، كان من الضروري إنشاء خصائصها الخاصة للتصفية التعاونية ؛
- بحاجة إلى عينة تدريبية.
في الآونة الأخيرة ، ترغب المزيد والمزيد من الشركات في حماية علامتها التجارية على الإنترنت وتطلب أتمتة الكشف عن مواقع التصيد. ستضيف كل علامة تجارية جديدة يتم أخذها تحت الحماية سمة جديدة. وإنشاء عينة تدريبية لكل علامة تجارية جديدة هو عمل يدوي ووقت إضافي.
بدأنا في البحث عن حل لهذه المشكلة. ووجدوا طريقة بسيطة وفعالة للغاية.
للبدء ، سنقوم ببناء أزواج الموارد باستخدام الخوارزمية التالية:
- خذ جميع أنواع الموارد (التي نشير إليها على أنها أ) التي تحتوي على عناوين N1 على الأقل ، ونشير إلى هذه العلاقة بالرقم # (أ) ≥ N1.
- نقوم ببناء جميع أنواع أزواج الموارد (a1 و a2) ونختار فقط تلك التي سيكون لها على الأقل عناوين N2 ، أي # (a1، a2) ≥ N2.
ثم ننظر بالمثل في أزواج تتكون من أزواج تم الحصول عليها في الفقرة السابقة. ونتيجة لذلك ، نحصل على أربع: (a1، a2) + (a3، a4) → (a1، a2، a3، a4). علاوة على ذلك ، إذا كان هناك عنصر واحد على الأقل في أحد الأزواج ، فبدلاً من أربع نحصل على ثلاث مرات: (a1، a2) + (a2، a3) → (a1، a2، a3). من المجموعة الناتجة ، نترك فقط تلك الأربع وثلاثيات تتوافق مع عناوين N3 على الأقل. وهكذا ...

يمكنك الحصول على موارد متعددة ذات طول تعسفي. حدد عدد الخطوات إلى U. ثم N1، N2 ... NU هي معلمات النظام.
القيم N1 ، N2 ... NU هي معلمات الخوارزمية ، يتم تعيينها يدويًا. في الحالة العامة ، لدينا أزواج مختلفة من CL2 ، حيث L هو عدد الموارد ، أي ستكون صعوبة بناء أزواج O (L2). ثم يتم إنشاء رباعية من كل زوج. ومن الناحية النظرية ، ربما نحصل على O (L4). ومع ذلك ، في الممارسة العملية ، هذه الأزواج أصغر بكثير ، ومع عدد كبير من العناوين ، تم الحصول على اعتماد O (L2log L) تجريبيًا. علاوة على ذلك ، فإن الخطوات اللاحقة (تحويل التوأم إلى أربع ، وأربعة أضعاف إلى ثمان ، وما إلى ذلك) لا تذكر.
وتجدر الإشارة إلى أن L هو عدد عناوين URL غير المجمعة. لا تقع جميع عناوين URL التي يمكن أن تُنسب بالفعل إلى أي مجموعة معتمدة مسبقًا في التحديد للتجميع.
عند الإخراج ، يمكنك إنشاء العديد من المجموعات التي تتكون من أكبر مجموعات ممكنة من الموارد. على سبيل المثال ، إذا كان هناك (a1 ، a2 ، a3 ، a4 ، a5) يستوفي حدود Ni ، فيجب إزالة المرء من مجموعة العناقيد (a1 ، a2 ، a3) و (a4 ، a5).
بعد ذلك ، يتم إرسال كل مجموعة مستلمة للتحقق اليدوي ، حيث يعينها محلل CERT الحالة: +1 ("موافق عليه") أو –1 ("مرفوض") ، ويشير أيضًا إلى ما إذا كانت عناوين URL التي تقع في المجموعة مواقع تصيد أو مواقع شرعية.
عند إضافة مورد جديد ، قد ينخفض عدد عناوين URL ، ويظل كما هو ، ولكن لا يزيد أبدًا. لذلك ، بالنسبة لأي موارد a1 ... aN فإن العلاقة صحيحة:
# (a1) ≥ # (a1، a2) ≥ # (a1، a2، a3) ≥ ... ≥ # (a1، a2، ...، aN).
لذلك ، من الحكمة تعيين المعلمات:
N1 ≥ N2 ≥ N3 ≥ ... ≥ NU.
في الإخراج ، نعطي جميع أنواع المجموعات للتحقق. في الشكل. 1 في بداية المقالة يقدم مجموعات حقيقية تكون جميع الموارد صورًا لها.
استخدام الخوارزمية في الممارسة
لاحظ أنك الآن لم تعد بحاجة لاستكشاف مجموعات التصيد! يقوم النظام تلقائيًا بتجميع الصفحات والبحث عن صفحة التصيد الضرورية.
كل يوم ، يتلقى النظام من 5000 صفحة تصيد ويبني ما مجموعه 3 إلى 25 مجموعة جديدة في اليوم. لكل مجموعة ، يتم تحميل قائمة الموارد ، ويتم إنشاء العديد من لقطات الشاشة. يتم إرسال هذه المجموعة إلى تحليلات CERT للتأكيد أو الرفض.
عند بدء التشغيل ، كانت دقة الخوارزمية منخفضة - فقط 5٪. ومع ذلك ، بعد 3 أشهر ، حافظ النظام على الدقة من 50 إلى 85٪. في الواقع ، لا يهم الدقة! الشيء الرئيسي هو أن المحللين لديهم الوقت لعرض التكتلات. لذلك ، إذا كان النظام ، على سبيل المثال ، يولد حوالي 10000 مجموعة في اليوم ولديك محلل واحد فقط ، فسيتعين عليك تغيير معلمات النظام. إذا لم يكن أكثر من 200 في اليوم ، فهذه مهمة قابلة للتنفيذ لشخص واحد. كما تظهر الممارسة ، يستغرق التحليل البصري في المتوسط حوالي دقيقة واحدة.
اكتمال النظام حوالي 82٪. النسبة المتبقية 18٪ إما حالات فريدة للتصيد الاحتيالي (وبالتالي ، لا يمكن تجميعها) ، أو التصيد الاحتيالي ، الذي يحتوي على كمية صغيرة من الموارد (لا يوجد شيء للتجميع حسبه) ، أو صفحات تصيد تتجاوز حدود المعلمات N1 ، N2 ... NU.
نقطة مهمة: كم عدد المرات التي تبدأ فيها مجموعة جديدة على عناوين URL الجديدة التي لم يتم تسليمها؟ نقوم بذلك كل 15 دقيقة. علاوة على ذلك ، اعتمادًا على كمية البيانات ، يستغرق وقت التجميع نفسه 10-15 دقيقة. وهذا يعني أنه بعد ظهور عنوان URL الخاص بالتصيد الاحتيالي ، هناك تأخر في وقت 30 دقيقة.
فيما يلي لقطة شاشة من نظام GUI: توقيعات للكشف عن التصيد الاحتيالي على شبكات التواصل الاجتماعي VKontakte و Bank Of America.


عندما لا تعمل الخوارزمية
كما ذكر أعلاه ، لا تعمل الخوارزمية من حيث المبدأ إذا لم يتم الوصول إلى الحدود المحددة بواسطة المعلمات N1 ، N2 ، N3 ... NU ، أو إذا كان عدد الموارد صغيرًا جدًا لتشكيل المجموعة اللازمة.
يستطيع المخادع تجاوز الخوارزمية من خلال إنشاء موارد فريدة لكل موقع تصيد. على سبيل المثال ، في كل صورة ، يمكنك تغيير بكسل واحد ، وبالنسبة لمكتبات JS و CSS المحملة ، استخدم التعتيم. في هذه الحالة ، من الضروري تطوير خوارزمية تجزئة قابلة للمقارنة (تجزئة إدراكية) لكل نوع من المستندات المحملة. ومع ذلك ، هذه المشكلات خارج نطاق هذه المقالة.
ضع كل ذلك معًا
نحن نربط الوحدة النمطية الخاصة بنا بتنظيمات HTML الكلاسيكية ، والبيانات التي تم الحصول عليها من Threat Intelligence (نظام الذكاء السيبراني) ، ونحصل على الامتلاء بنسبة 99.4٪. بالطبع ، هذا هو اكتمال البيانات التي تم تصنيفها مسبقًا من قبل Threat Intelligence كمعلومات تصيد مشبوهة.
لا أحد يعرف اكتمال جميع البيانات الممكنة ، لأنه من المستحيل تغطية Darknet بالكامل من حيث المبدأ ، ومع ذلك ، وفقًا لتقارير Gartner و IDC و Forrester ، تعد Group-IB واحدة من الشركات العالمية الرائدة في توفير حلول Threat Intelligence في قدراتها.
ماذا عن صفحات التصيد غير المصنفة؟ حوالي 25-50 منهم في اليوم. يمكن فحصها يدويًا. على العموم ، هناك دائمًا عمل يدوي في أي مهمة تكون صعبة للغاية بالنسبة لـ Data Sciense في مجال أمن المعلومات ، وأي ادعاءات بأتمتة 100 في المائة هي خيال تسويقي. تتمثل مهمة أخصائي علوم البيانات في تقليل العمل اليدوي بمقدار 2-3 مرات من الحجم ، مما يجعل عمل المحلل فعالًا قدر الإمكان.
مقالة منشورة على
JETINFO