مراقبة + اختبار الإجهاد = التنبؤ وعدم الفشل

اضطر قسم تكنولوجيا المعلومات في VTB إلى التعامل مع حالات الطوارئ في الأنظمة عدة مرات ، عندما زاد الحمل عليها عدة مرات. لذلك ، أصبح من الضروري تطوير واختبار نموذج يتنبأ بحمل الذروة في الأنظمة الحرجة. لهذا الغرض ، قام أخصائيو تكنولوجيا المعلومات في البنك بمراقبة وتحليل البيانات وتعلموا كيفية أتمتة التوقعات. ما هي الأدوات التي ساعدت على التنبؤ بالحجم وما إذا كان من الممكن تحسين العمل بمساعدتهم ، فسنقول في مقال قصير.



تنشأ مشاكل الخدمات المحملة بدرجة كبيرة في جميع القطاعات تقريبًا ، لكنها ضرورية للقطاع المالي. في الساعة X ، يجب أن تكون جميع الوحدات القتالية جاهزة ، وبالتالي كان من الضروري معرفة ما يمكن أن يحدث مقدمًا وتحديد اليوم الذي سيتم فيه تحميل العبء وأي الأنظمة ستواجهه. يجب مكافحة ومنع حالات الفشل ، وبالتالي لم تتم مناقشة الحاجة إلى تطبيق نظام تحليلات تنبؤية. كان من الضروري ترقية الأنظمة القائمة على بيانات الرصد.

تحليلات على الركبة


يعد مشروع كشوف المرتبات أحد أكثر المشاريع حساسية في حالة حدوث عطل. الأمر أكثر قابلية للفهم للتنبؤ ، لذلك قررنا البدء به. نظرًا لارتفاع الاتصال في لحظات الذروة ، يمكن أن تواجه الأنظمة الفرعية الأخرى ، بما في ذلك الخدمات المصرفية عن بُعد (RBS) ، مشكلات. على سبيل المثال ، بدأ العملاء ، الذين يسعدهم الرسائل القصيرة بشأن استلام الأموال ، في استخدامها بنشاط. الحمل يمكن القفز أكثر من ترتيب من حيث الحجم.

تم إنشاء نموذج التنبؤ الأول يدويًا. لقد اتخذنا عملية التفريغ للعام الماضي وحُسبنا على أساس الأيام القصوى لذروة الذروة: على سبيل المثال ، في الأيام الأولى والخامسة والعشرين والخامسة والعشرين ، وكذلك في الأيام الأخيرة من الشهر. هذا النموذج يتطلب عملاً جادًا ولم يقدم تنبؤًا دقيقًا. ومع ذلك ، حددت الاختناقات حيث كان من الضروري إضافة أجهزة ، وجعلت من الممكن تحسين عملية تحويل الأموال من خلال الاتفاق مع العملاء الرئيسيين: من أجل عدم منح رواتب في جرعة واحدة ، انتشرت المعاملات من مناطق مختلفة في الوقت المناسب. الآن نقوم بمعالجتها في أجزاء يمكن للبنية التحتية لتكنولوجيا المعلومات بالبنك أن تمضغها دون أن تفشل.

بعد الحصول على أول نتيجة إيجابية ، تحولنا إلى أتمتة التنبؤ ، وكان هناك أكثر من عشرة أقسام مهمة تنتظر دورنا.

نهج متكامل


في VTB ، أدخلوا نظام مراقبة MicroFocus. من هناك أخذنا التنبؤ بجمع البيانات ونظام التخزين ونظام الإبلاغ. في الواقع ، كان هناك بالفعل مراقبة ، بقي فقط لإضافة مقاييس ، وحدة التنبؤ وإنشاء تقارير جديدة. يتم دعم هذا القرار من قبل مقاول خارجي ، Technoserv ، لذلك تم تنفيذ العمل الرئيسي في المشروع من قبل المتخصصين فيه ، لكننا قمنا ببناء النموذج بأنفسنا. تم إنشاء نظام التنبؤ على أساس النبي - تم تطوير هذا المنتج مفتوح المصدر على Facebook. إنه سهل الاستخدام وسهل الاندماج مع أدوات المراقبة الشاملة و Vertica الخاصة بنا. بمعنى تقريبي ، يقوم النظام بتحليل جدول التحميل ، واستنادا إلى سلسلة فورييه ، يقوم بتقديره. من الممكن أيضًا إضافة معاملات معينة بحسب الأيام ، مأخوذة من نموذجنا. يتم أخذ المقاييس دون تدخل بشري ، مرة واحدة في الأسبوع يتم إعادة حساب التوقعات تلقائيًا ، ويتم إرسال تقارير جديدة إلى المستلمين.

يكشف هذا النهج عن الدورات الرئيسية ، على سبيل المثال ، السنوية والشهرية والفصلية والأسبوعية. دفع الرواتب والسلفيات وفترات الإجازات والعطلات والمبيعات - كل هذا يؤثر على عدد المكالمات إلى الأنظمة. اتضح ، على سبيل المثال ، أن بعض الدورات تتداخل مع بعضها البعض ، وأن المنطقة الفيدرالية المركزية تعطي العبء الرئيسي (75 ٪) للأنظمة. الكيانات القانونية والأفراد يتصرفون بشكل مختلف. إذا تم توزيع عبء العمل على "الفيزيائيين" بشكل متساوٍ نسبيًا على مدار أيام الأسبوع (هذا كثير من المعاملات الصغيرة) ، فإن الشركات تمتلك 99.9٪ من وقتها ، في حين أن المعاملات يمكن أن تكون قصيرة ، أو يمكن معالجتها في غضون دقائق أو حتى ساعات.



استنادا إلى البيانات التي تم الحصول عليها ، يتم تحديد الاتجاهات طويلة الأجل. لقد كشف النظام الجديد أن الناس يغادرون بشكل مكثف إلى المكتب الإقليمي. هذا معروف للجميع ، لكننا لم نتوقع مثل هذا النطاق ولم نؤمن به في البداية: يتناقص عدد المكالمات إلى مكاتب البنك بشكل سريع للغاية ، ويزداد عدد المعاملات عن بُعد بنفس المقدار بالضبط. وفقًا لذلك ، يتزايد الحمل على النظام وسيستمر في النمو. الآن نحن نتوقع الحمل حتى فبراير 2020. يمكن التنبؤ بالأيام العادية مع حدوث خطأ بنسبة 3٪ ، وأيام الذروة مع خطأ بنسبة 10٪. هذه نتيجة جيدة

المزالق


كالعادة ، كانت هناك بعض الصعوبات. تمر آلية الاستقراء باستخدام سلسلة Fourier بشكل سيئ من الصفر - نحن نعلم أنه في نهاية الأسبوع تقوم الكيانات القانونية بإنشاء عدد قليل من المعاملات ، لكن وحدة التنبؤ تنتج قيمًا بعيدة عن الصفر. كان من الممكن تصحيحها بالقوة ، لكن العكازات ليست طريقتنا. بالإضافة إلى ذلك ، كان من الضروري حل مشكلة جمع البيانات غير المؤلمة من أنظمة المصدر. يتطلب التجميع المنتظم للمعلومات موارد خطيرة للحوسبة ، لذلك قمنا ببناء ذاكرة تخزين مؤقت سريعة باستخدام النسخ المتماثل ، حيث نحصل على بيانات الأعمال من النسخ المتماثلة بالفعل. عدم وجود حمل إضافي على الأنظمة الرئيسية في مثل هذه الحالات هو شرط الحجب.

تحديات جديدة


تم حل مهمة الجبين الخاصة بالتنبؤ بالقمم: لم تكن هناك إخفاقات بنكية تتعلق بالحمل الزائد منذ مايو من هذا العام ، ولعب نظام التنبؤ الجديد دورًا مهمًا في هذا. نعم ، لم يكن هذا كافيًا ، والآن يريد البنك أن يفهم مدى خطورة القمم. نحتاج إلى تنبؤات باستخدام المقاييس من اختبار الحمل ، وبالنسبة لحوالي 30٪ من الأنظمة المهمة التي تعمل بالفعل ، فإن الباقي في طور الحصول على التنبؤات. في المرحلة التالية ، سوف نتوقع العبء على الأنظمة ليس في المعاملات التجارية ، ولكن فيما يتعلق بالبنية التحتية لتكنولوجيا المعلومات ، أي أننا سننزل طبقة أدناه. بالإضافة إلى ذلك ، نحتاج إلى أتمتة مجموعة المقاييس تمامًا وبناء التوقعات بناءً عليها ، حتى لا تشارك في عملية التفريغ. لا يوجد شيء رائع في هذا - فنحن فقط نرصد واختبار الإجهاد وفقًا لأفضل الممارسات العالمية.

Source: https://habr.com/ru/post/ar472062/


All Articles