عشرة أشخاص على 90 ألف موقع: كيف لا بالجنون

مرحبًا ، اسمي فيرا سيفاكوفا. أعمل مع الشركاء الرئيسيين لـ Yandex.Kassi - أقوم بتوصيل المتاجر والخدمات الكبيرة ، وإطلاق المشاريع والسفر إلى الاجتماعات حول العالم. بشكل عام ، أتابع أن كل شيء كان على ما يرام.


يمكن لكل موظف في Yandex.Money تغيير وظيفته مرة واحدة في السنة - اختر قسمًا وعمل هناك لعدة أيام. لذلك ، قبل شهر واحد ، جلست في سابسان ووصلت إلى سانت بطرسبرغ. يعمل قسم المراقبة هناك ، والذي يراقب أيضًا أن 90 ألف موقع متصل بمكتب التذاكر يعمل بشكل جيد ، وقررنا أن نتكاتف.



كيف لا بالجنون؟ ليس بالضبط نفس الشيء (المصدر: reddit.com)


هذه قصة حول كيفية عمل المراقبة لدينا ، وما تعلمته في يومين في قسم آخر.


في كل ثانية ، تمر حوالي 600 معاملة من خلال الخدمة ويجب مراقبة كل هذا في الوقت الفعلي - ولكن في أي وقت بالضبط حان وقت إصدار الإنذار إذا حدث شيء ما؟ نحن بحاجة إلى إلقاء نظرة منهجية على كل شيء تقريبًا.


من الممارسات الجيدة تحليل النظام من وجهة نظر فنية وعدم نسيان مقاييس الأعمال - عدد المدفوعات والمبيعات والمعلمات الأخرى.


في الأنظمة الصغيرة ، تكفي النظرة اليقظة للمشرف الرئيسي (في الغالب الوحيد). ولكن عندما يكون هناك الكثير من العمليات ، لا يمكن للموظفين مراقبة كل شيء يدويًا ، لذا فإن أقصى قدر من الأتمتة سيكون أفضل استراتيجية. لن يعمل أي شيء بدون معرفة الخبراء وجهود الفريق ، لأن المراقبة هي التحسين المستمر والتحليل والقدرة على اختيار المقاييس والمحفزات المختصة. سيعملون في حالة الانحراف عن الظروف المحددة والإبلاغ عن حالة شاذة.


نحن نميز ثلاثة مستويات من المراقبة ، لكل منها مؤشراته المهمة - مستوى النظام ، ومستوى منطق الأعمال ومستوى الأطراف المقابلة.


مستوى النظام


أهم شيء هنا هو مراقبة البنية التحتية على مدار الساعة. من بين الأدوات التي نستخدمها Zabbix لجمع البيانات في الوقت الفعلي - فهي تُعلم عن تشغيل الخوادم ومراكز البيانات ، وجودة الشبكة ، وتوافر المكونات ومصادر البيانات.


إن مراقبة البنية التحتية لتكنولوجيا المعلومات مهمة مسؤولة للغاية ، لأن الفشل في هذا المستوى محفوف بعدم قابلية تشغيل النظام والتدابير اليائسة. لذلك ، من المهم ليس فقط الاستجابة للمشكلات "الوامضة" ، ولكن أيضًا لتحليل الاتجاهات والبيانات التاريخية - وهذا سيتيح التحذير في الوقت المناسب من نقاط الفشل المحتملة والتنبؤ بالحاجة إلى التوسع. تعمل القاعدة لجميع المؤشرات ومستويات المراقبة ، بما في ذلك الأعمال.


بالنسبة للنقاط الحرجة ، يجب تحديد عتبات الزناد أدناه. على سبيل المثال ، إذا زاد وقت الاستجابة من أحد أجهزة التوجيه ، فإننا ننقل حركة المرور إلى أخرى ونقضي على السبب الأول. أدى ذلك إلى تشغيل تحذير ، والذي يسمح لك بتلقي إشعارات بالمشكلات المحتملة في وقت مبكر جدًا ، مما يمنح وقتًا للاستجابة والقدرة على التنبؤ بالتغيرات وتجنب الكوارث.


مستوى منطق الأعمال


يحدد كل فريق العمليات التي يجب تتبعها وأولويتها والمقاييس الشخصية. على سبيل المثال ، لدى فريق أمين الصندوق عشرات العمليات التجارية ، مثل الدفع بكل طريقة متاحة - البطاقات والمحافظ الإلكترونية ، من خلال البنوك والمحطات عبر الإنترنت ، والتجارة عبر الهاتف المحمول ، وإرسال السجلات ، إلخ. كأداة رئيسية لجمع وعرض البيانات عن عمل منطق الأعمال ، نستخدم الجرافيت بالاشتراك مع Grafana.


في هذا المستوى ، من المهم الالتزام بنهج منظم ومحاولة الابتعاد عن "الأعمال / لا يعمل" الثنائية وغير المطلعة.


على سبيل المثال ، يوجد مقياس "عدد مدفوعات البطاقة الناجحة". إذا بدأ في الوميض ، فهذا يعني أن تدفق العمل قد انخفض. في هذه الحالة ، تحتاج إلى فهم السبب بالضبط ، ومراعاة جميع المكونات التي تنطوي عليها هذه العملية. في حالة حدوث انخفاض في عدد المعاملات ، يمكنك التفكير على الفور في حقيقة أن هناك صعوبات على جانب البنك المستحوذ. لكن الرسوم البيانية تظهر أنه مع توفر البنوك ، كل شيء على ما يرام. ثم تحتاج إلى مزيد من التحقيق ، وتبين في النهاية ، على سبيل المثال ، أن جميع الأسئلة موجودة في التخطيط: لسبب ما ، اختفى زر "الدفع" أو أصبح غير نشط.


مستوى الطرف المقابل


نتحدث هنا عن أطراف مقابلة محددة - على سبيل المثال ، الحصول على البنوك والتجار.


لقد اخترنا جداول ومشغلات منفصلة للمشترين ، والتي يجب علينا تتبع مدى توفرها طوال الوقت. بالنسبة لنا ، كخدمة دفع ، الاستقرار مهم جدًا ، لذلك ، في حالة فشل أحد البنوك ، نقوم على الفور بتحويل التدفق إلى الاحتياطي.



فشل أحد البنوك ، ولكن تم توصيل آخر تلقائيًا


تعلمنا إعادة توجيه سير العمل بشكل جيد وفي الوقت المناسب إذا بدأت الأخطاء.



سجل أحد البنوك زيادة في أخطاء الدفع



مترجم - وكل شيء على ما يرام. قيم المحور ص ليست متناسبة


يمكن أن يفشل المكتسبون لعدة أسباب على المستويات الموصوفة بالفعل - الأنظمة ومنطق الأعمال. لا يوجد أحد محصن ضد المشاكل غير المتوقعة ولا يمكنه ضمان توفر 100٪. تجدر الإشارة أيضًا إلى العمل والإصدارات الفنية المخططة ، عندما تحتاج إلى مراقبة تقدم الشؤون عن كثب. تعد مسألة التكرار والتبديل التلقائي أمرًا بالغ الأهمية ، حيث أن الوسائل البسيطة تعني إيقاف المدفوعات عن الشركة.


نحن نعمل مع العديد من البنوك في وقت واحد لتقليل مخاطر التوقف عن العمل وتحسين مدفوعات بطاقة SR. SR (معدل النجاح) أو التحويل هو مقياس الأعمال الذي يتم حسابه كنسبة من عدد الدفعات الناجحة إلى إجمالي عدد المعاملات. تقوم الشركات المختلفة بقياس التحويل بطريقتها الخاصة: على سبيل المثال ، يبدأ شخص القياس من صفحة الدفع ، والبعض الآخر بعد النقر على زر "الدفع". ولكن بشكل عام ، يتأثر SR بالعديد من العوامل المختلفة - MCC ، سواء كان هناك تأمين ثلاثي الأبعاد في الدفع ، أو جغرافية دافعي الرسوم ، أو المدفوعات المتكررة أم لا. من المستحيل تحديد "متوسط ​​المستشفى" ولا يحتاج إلى معرفة - في كل حالة ستكون قيمته الخاصة ، والتي يجب تحسينها.


يمكن تقسيم مجموعة متنوعة من الأخطاء إلى مجموعتين كبيرتين.


  1. الأخطاء التي يمكن منعها - على سبيل المثال ، يحظر الدفع من هذا البلد. إذا كنت متأكدًا من أن هذا ليس هجومًا احتياليًا ولديك مستخدمون من جميع أنحاء العالم ، فمن الضروري في هذه الحالة ربط إمكانية الدفع من بطاقات أي جهة إصدار. هذا ، بالمناسبة ، يمكن القيام به في حساب Yandex Cashier الشخصي.
  2. الأخطاء التي لا يمكن التأثير عليها - على سبيل المثال ، البطاقة مقفلة. هنا ستساعد فقط إعادة الإصدار أو محاولة إعادة الدفع باستخدام بطاقة أخرى كجزء من معاملة جديدة.

يختار الكثير مزود خدمة الدفع بسعر. في الواقع ، ليس السعر هو القيمة الوحيدة التي يجب أخذها في الاعتبار. تحتاج أيضًا إلى إلقاء نظرة على النسبة المئوية للدفعات الناجحة (ريال سعودي) - لأنه لا يوجد شخص لديه تحويل بنسبة 100٪ وتختلف هذه القيمة اختلافًا كبيرًا من بنك لآخر. من الضروري أيضًا التفكير في كيفية ظهور سيناريو المستخدم بشكل عام: كم عدد الخطوات التي تحتاج إلى اتباعها قبل الدفع ، وما إذا كانت الواجهة واضحة ، وما إلى ذلك.


كيف يؤثر التحويل على الأرباح



في الحالة الثانية ، تكون عمولة الخدمات أعلى ، ولكن التحويل أعلى أيضًا ، لأنه يتم استخدام الحجز والتكوين المناسب للبوابة.


كما يتبين من المثال ، فإن الحل الأفضل للأعمال هو تقديم خدمة أفضل ، وعلى الرغم من حقيقة أن العمولة أعلى بسبب الاختلاف في جودة الاستحواذ ، في النهاية لدينا 3 538 080 - 2 847000 = 691 080 روبل فرق شهريًا! وهذا هو 8 ملايين في السنة ، وهو مبلغ كبير للأعمال.


التحويل والدوران والمعدلات تعسفية ، ولكن المثال يوضح أن الشيء الرئيسي في الخدمة هو استقرارها وجودتها. وهذا ينطوي بالفعل على تحويل متزايد ، ونتيجة لذلك ، دوران أكبر للتاجر.


كيف يتم توصيل التاجر


كما ذكرنا سابقًا ، نحاول تغطية كل شيء بالمقاييس والمشغلات التي يتم إطلاقها تلقائيًا على حدث ما. دعونا نرى كيف يحدث كل شيء في مثال مراقبة أحد التجار.


بعد الاتصال بالصراف ، تتم مراقبة التاجر ، إذا لزم الأمر. نحن نبني مخططًا في Grafana ونهيئ المقاييس التي يتم من خلالها تشغيل التنبيهات التلقائية في حالة الانحراف عن القيم "الطبيعية" المحددة.


نستخدم Moira لإرسال إشعارات إلى دردشة مجموعة المراقبة ، والتي ستتحقق من التفاصيل بسرعة. يحتوي الإخطار على رابط لجدول وتفاصيل الحادث.



بالتأكيد مثال حقيقي لرسالة من الروبوت


بعد تحليل الرسم البياني ، غالبًا ما يستخدم أخصائي فريق المراقبة كيبانا لعرض السجلات. يمكن أن يكون الوضع هنا مثيرا للشفقة ، ومن ثم في السجلات ، من الواضح أن الخطأ سيكون مرئيًا أو ستكون هناك حاجة إلى مشاركة إضافية من المحللين لتحليل أسباب الفشل.


في المستقبل ، نريد إعداد إشعار تلقائي للتجار حول الأخطاء من جانبهم ، على سبيل المثال ، حول عدم إمكانية الوصول إلى الخادم أو الاستجابات غير البروتوكول. سيسمح لك ذلك بالاستجابة السريعة للفشل وإعطاء معلومات النظراء لإزالة الأسباب.


بالإضافة إلى الجانب الفني ، نراقب أيضًا مقاييس الأعمال بعناية مثل المبيعات والدخل والتدفق ، ولكن يبدو أن هذا هو موضوع القصص التالية.


أهم شيء


انتهى "يوم العصيان" (وهو ما نسميه انتقالًا مؤقتًا إلى قسم آخر) ، وعدت إلى موسكو. لمدة يومين في قسم المراقبة ، تعلمت الكثير وتبسيط المعرفة الحالية.


  • مهمة المراقبة هي توفير المعلومات ذات الصلة عن حالة النظام على جميع المستويات ؛
  • اختر المقاييس والمحفزات المختصة - نجاح 90٪ ؛
  • في خدمات الدفع ، يضرب التحويل العطاء ؛
  • تحتاج إلى اتباع التقنية وتذكر مقاييس الأعمال ؛
  • نحن بحاجة إلى نظرة منهجية للعمليات والقدرة على تحليل العلاقات ؛

ومع ذلك - كن شاكراً. مراقبة الرجال ، شكرا!




هذا كل شيء. اطرح الأسئلة واشترك في مدونتنا وتعال لزيارة.

Source: https://habr.com/ru/post/ar426583/


All Articles