تقريبا. العابرة. : ما يسمى اليوم SRE (هندسة موثوقية الموقع - "ضمان موثوقية أنظمة المعلومات") يتضمن مجموعة واسعة من التدابير لتشغيل منتجات البرمجيات التي تهدف إلى تحقيق المستوى المطلوب من الموثوقية. تعتبر المراقبة أحد الأحداث الرئيسية ، وتشكل "الإشارات الذهبية" المقاييس الرئيسية التي يجب مراعاتها فيها. نظرًا لعدم العثور على أي مواد تتعلق بهم على Habré ، فقد قررنا ترجمة ملاحظة قصيرة من مؤلفي منصة إدارة الحوادث (VictorOps) ، والتي تعطي فكرة عن الفكرة العامة لهذا النهج.
تعتمد هندسة موثوقية الموقع الفعالة (
SRE ) على فهم عميق للبنية التحتية للخدمة وهندستها. إن زيادة شفافية حالة التطبيق والبنية التحتية ليست سوى بداية للعمل الاستباقي على إنشاء أنظمة موثوقة. في الوقت نفسه ، تعتبر ما يسمى بـ "الإشارات الذهبية الأربع" SRE أفضل نقطة انطلاق لمراقبة حالة الأنظمة. بعد وضع طرق الرصد الأساسية الأربعة هذه ، يمكننا المضي قدمًا في زيادة شفافية النظام.
إن زيادة الشفافية ، إلى جانب أساليب التعاون الفعالة ، تسمح لفرق SRE بمراقبة الأنظمة بسرعة واتخاذ التدابير اللازمة للقضاء على عواقب الحوادث ، وزيادة الفعالية الكلية لأساليب
الرصد والإنذار . تساعد إشارات Gold SRE الفرق في تحديد نقاط الضعف المحتملة في الموثوقية ، مما يسمح لهم بالتركيز على استكشاف مشكلات البنية الأساسية وإصلاحها. دعنا ندرس العلاقة بين طرق المراقبة وأوامر SRE ونرى ما تأثير إشارات الذهب على العملية.
الرصد و SRE
في الجزء الثالث من
قاموس DevOps ، اكتشفنا الإنترنت ، في محاولة للعثور على تعريف SRE. وفقًا
لمقال ويكيبيديا ذي صلة ،
"بن ترينور ، مؤسس فريق موثوقية الموقع في Google [يقول] أن SRE هو" ما يحدث عندما يقوم مهندس برمجيات بعمل ما كان يسمى الصيانة " .
" تجمع SRE بين تحديات وقدرات هندسة البرمجيات وتحديات تشغيل تكنولوجيا المعلومات وتساعدك في إيجاد حلول لمشاكل الموثوقية. من المفهوم أن فرق SRE يجب أن تراقب خدماتها لتحديد المجالات التي يمكن تحسين الموثوقية.
هذا هو بالضبط ما مهمة المراقبة لفرق SRE. يحتل جزءًا صغيرًا فقط من
إنشاء أنظمة عالية الشفافية ، ولكن هذا عنصر مهم لفهم حالة التطبيقات والبنية التحتية. توفر أربع إشارات مراقبة ذهبية و SRE مستوى أساسيًا من الشفافية فيما يتعلق بموثوقية كل شيء تقوم بإنشائه. بعد الوصول إلى مستوى مريح من ملاحظة حالة إشارات الذهب ، يمكنك استخدام هذه المعلومات الإضافية لإجراء تحليل أكثر تعمقًا باستخدام أدوات المراقبة.
الآن وقد قررنا أهمية مراقبة إشارات SRE الذهبية ، دعنا ننتقل إلى المقاييس الحقيقية التي تشكلها.
أربع إشارات مراقبة ذهبية
في بداية الطريق لتحسين جهود المراقبة ، قد يكون من الصعب فهم من أين نبدأ. تم ذكر إشارات SRE الذهبية الأربعة وإشارات المراقبة أولاً في
كتاب Google على SRE ، وتستخدم الآن بنشاط من قبل العديد من الفرق. من الجيد أن نبدأ بهم ، لأنهم يساعدون في تسليط الضوء على المقاييس الرئيسية التي يجب تتبعها دائمًا.
لذلك ، دعونا ننظر إلى الإشارات الذهبية ونرى لماذا تعتبر المراقبة عنصرًا أساسيًا في ضمان موثوقية أي نظام.
1. الكمون
كم من الوقت يستغرق معالجة الطلب؟ حدد نقطة مرجعية للتأخيرات المعتادة للطلبات الناجحة ، وقم بمقارنتها بتأخيرات للطلبات غير الناجحة. يتيح لك تتبع التأخير الناجم عن الأخطاء حل أي مشاكل متعلقة بسرعة اكتشاف الحوادث والاستجابة لها.
2. المرور
هذه الإشارة لا تتطلب أي تفسير خاص. ما هو تأثير عدد المستخدمين أو عدد المعاملات التي تمر عبر الخدمة على النظام؟ اعتمادًا على وظيفة الخدمة ، يمكن أن يختلف قياس حركة المرور اختلافًا كبيرًا من شركة إلى أخرى. من خلال تتبع التفاعلات مع المستخدمين الحقيقيين وحركة المرور ، يمكنك فهم أفضل لكيفية إدراك المستخدمين النهائيين للخدمة والحصول على فكرة عن كيفية تصرف الأنظمة تحت الضغط.
3. الأخطاء
بالطبع ، يجب على كل فريق تتبع الأخطاء. بغض النظر عما إذا كانت الأخطاء يتم تشغيلها يدويًا أو مستقلة (مثل طلب HTTP فاشل) ، يجب على أوامر SRE تتبعها. تستخدم العديد من فرق SRE
برنامج إدارة الحوادث الخاص لتنبيههم إلى الأخطاء الحرجة ، والعثور على أسبابها ، واتخاذ الإجراءات التصحيحية.
4. التشبع
يجب على كل فريق مراقبة حمل نظامهم. من المهم تعيين مقياس للتشبع ، مما يعني أن الخدمة قد وصلت إلى أقصى إمكاناتها. تبدأ معظم الخدمات في فقدان الأداء حتى قبل أن يصل الحمل إلى 100٪ ، لذا فإن فهم وظائف النظام الخاص بك أمر مهم لتحديد إرشادات التشبع المنطقي.
من خلال إعداد قواعد المراقبة والتنبيه للإشارات الذهبية الأربع ، ستغطي معظم الحوادث الرئيسية في النظام. ومع ذلك ، من أجل البدء في إنشاء نظام مراقبة استباقي و SRE ، يجب عليك أن تعمق أكثر.
تقريبا. العابرة. : كمثال على توضيح لوحة القيادة مع المخططات "إشارات ذهبية" ، نقدم نتيجة تكوين مراقبة المقابلة ل Kubernetes من هذه المقالة من Sysdig :
تقريبا. العابرة. : وهنا تمثيل أكثر إشارات بصرية من إشارات Denise Yu ، والتي يمكن استخدامها كمذكرة مريحة:
SRE الاستباقية يتجاوز إشارات الذهب
تعتبر مراقبة الإشارات الذهبية بداية رائعة لتحليل الحوادث في الخدمة ، لكنها ليست كافية. فرق SRE من ذوي الخبرة استكشاف استباقي أنظمتها مع العديد من الطرق الإضافية. إجراء اختبارات منظمة في المراحل التحضيرية والإنتاج ، تدرس فرق SRE بنشاط أنظمتها وتستخدم المعلومات الواردة لزيادة موثوقية الخدمات.
هندسة الفوضى
هندسة الفوضى هي مجال تستخدمه الفرق لاختبار أنظمتها لاكتشاف نقاط الضعف والضعف بشكل استباقي. إدخال الفوضى في الخدمة يدويًا ، يمكنك معرفة كيفية استجابة النظام لمختلف الظروف.
تقريبا. العابرة. : اقرأ المزيد عن هذا النهج في مقال "هندسة الفوضى: فن التدمير المتعمد" ( الجزء 1 والجزء 2 ).أيام اللعبة
بينما تركز هندسة الفوضى على فهم النظام ، فإن
أيام الألعاب تساعد الموظفين على الفهم. يتم استخدامها لاختبار مرونة الفريق عندما يتعلق الأمر بالرد على الحوادث والقضاء على عواقبها. يمكن استخدام نتائج أيام الألعاب لتطوير عمليات أكثر كفاءة أو لتحديد الحاجة إلى أدوات جديدة تزيد من كفاءة الموظفين.
رصد الاصطناعية
تتيح
المراقبة الاصطناعية للفرق إنشاء مستخدمين اصطناعيين ومحاكاة سلوكهم باستخدام الخدمة. يمكنك تعيين أنماط سلوكية محددة ومراقبة سلوك النظام تحت عبء معين. المراقبة الاصطناعية هي وسيلة ممتازة للاختبار المفصل وتحديد موثوقية خدمات معينة في جميع أنحاء النظام.
...
يجب على أي فريق يسعى إلى مراقبة حالة النظام بصريًا مراقبة إشارات SRE الذهبية. لكن فكرة الحالة والموثوقية الكلية للنظام ليست على الإطلاق تعمل على زيادة موثوقيتها. في النظام البيئي الحديث للأنظمة الموزعة للغاية والانتشار السريع ، تواجه فرق SRE مهمة شاقة. يمكن أن تكون إشارات الذهب للمراقبة و SRE هي نقطة الانطلاق التي يبدأ منها المزيد من
التحسن داخل SRE .
PS من المترجم
اقرأ أيضًا في مدونتنا: