لماذا وثائق SRE مهمة. الجزء 3

مساء الخير جميعا! نحن في عجلة من أمرنا لمشاركة الأخبار التي بدأت بالفعل في شهر فبراير في إطلاق دفق جديد على الدورة التدريبية "Devops - Practices and Tools" ، مما يعني أن الوقت قد حان لإنهاء ما بدأناه ونشر الجزء الثالث من المقالة: "لماذا وثائق SRE مهمة" . دعنا نذهب!

وثائق لإدارة أوامر SRE

تحتاج فرق SRE إلى وثائق موثوقة ومعقولة التكلفة للعمل بكفاءة.

موقع الفريق

ملاحظة: بدلاً من الموقع ، يمكنك استخدام مساحة منفصلة أو قسم في Confluence / Wiki.

موقع الفريق مهم لأنه يوفر تنسيق المعلومات والوثائق المتعلقة بفريق SRE ومشاريعه. على سبيل المثال ، على Google ، تستخدم العديد من فرق SRE g3doc (نظام أساسي لتوثيق Google حيث ترسو السفن في التعليمات البرمجية المصدر مع الكود المقترن بها) ، وتستخدم بعض الفرق g3doc ومواقع Google: في هذه الحالة ، ترتبط صفحات g3doc ارتباطًا وثيقًا برمز / تفاصيل التنفيذ.

ميثاق فريق



يجب على فرق SRE دعم الميثاق المنشور الذي يحدد دوافع العمل وتوثيق المشاركة المستمرة. الميثاق ضروري لتحديد هوية الفريق وأهدافه وقيمته في جميع أنحاء الشركة.

عادة ما يتضمن الميثاق العناصر التالية:

  • وصف رفيع المستوى لمنطقة مسؤولية الفريق. بما في ذلك نوع الخدمات التي يدعمها الفريق (وكيف) ، والأنظمة ذات الصلة ، والأمثلة.
  • وصف موجز لاثنين من أهم الخدمات التي يدعمها الفريق. يسلط هذا القسم أيضًا الضوء على التقنيات الرئيسية وتحديات استخدامها وفوائد إشراك SRE ومسؤولياتها.
  • المبادئ والقيم الأساسية للفريق.
  • روابط إلى موقع الفريق والوثائق.

يفترض أيضًا وجود بيان رؤية (مفهوم الرؤية للمستقبل - وصف ملهم للأهداف طويلة المدى للفريق) وخريطة طريق لعدة كتل.

وثائق لدمج SREs جديدة

الاستثمار في الأدوات والمواد التدريبية للموظفين الجدد له تأثير إيجابي على سرعة دمج الموظفين في عمليات العمل. من المفيد أن تقوم فرق SRE بتدريب الوافدين الجدد على جميع مهارات العمل التحولية في أسرع وقت ممكن. توضح قصة زوي بوضوح كيف أن عدم وجود تدريب بدوام كامل للموظف الجديد يجعل الحادثة البسيطة عطلًا خطيرًا.

تقوم العديد من فرق SRE بإعداد موظفين جدد للتحولات باستخدام قوائم المراجعة. عادةً ما تغطي قائمة التحقق من التحول المناطق عالية المستوى (مقسمة إلى أقسام فرعية) التي يجب على أعضاء الفريق فهمها. ومن الأمثلة على هذه المجالات مفاهيم الإنتاج والواجهة الأمامية والخلفية والأتمتة والأجهزة ، والرصد وقطع الأشجار. بالإضافة إلى ذلك ، قد يتم تضمين إرشادات الإعداد للتحول والمهام التي تم تنفيذها أثناء التحول في قائمة المراجعة.

لإعداد أعضاء جدد في فريق SRE ، يستخدمون أيضًا تمارين لعب الأدوار (يطلق عليهم Wheel of Misfortune - Wheel of Failure في Google). هذا التمرين هو سيناريو فشل مع مجموعة محددة من البيانات والإشارات التي قد تحتاجها SRE بشكل افتراضي لحل مشكلة أثناء التحول. يتناوب أعضاء الفريق وهم يلعبون دور المهندس في الواجب لصقل إتقانهم للتعافي من الكوارث والقدرة على تصحيح النظام. يتحقق Wheel of Misfortune لمعرفة ما إذا كان كل عضو من أعضاء الفريق يعرف مكان العثور على الوثائق لحل المشكلة وكيفية التعامل مع الفشل.

إدارة التخزين

يمكن أن تنتشر جميع معلومات فريق SRE عبر عدة مواقع ، والمستودع المحلي والمجلدات الموجودة في Google Drive ، مما يعقد عملية البحث عن الموقع الصحيح بشكل كبير. كما حدث في المثال الموصوف سابقًا ، لم تكن الأداة التشغيلية الأساسية والتعليمات الخاصة باستخدامها متاحة لـ Zoe (SRE on duty) ، لأنها كانت مخفية في الدليل الشخصي لرؤيتها الفنية ، كما أدى عدم القدرة على العثور عليها إلى زيادة كبيرة في مدة فشل الخدمة. للتخلص من هذه المشاكل ، تحتاج إلى هيكلة جميع المعلومات والتأكد من أن أعضاء الفريق يعرفون مكان العثور عليها وتخزينها ، وكيفية الحفاظ عليها. سيساعد الهيكل الذي تم تطويره جيدًا الفريق في العثور على المعلومات بشكل أسرع. سيكون أعضاء الفريق الجدد أسرع في التحديث ، بينما يحل المهندسون المناوبون المشاكل بشكل أسرع.

فيما يلي بعض الإرشادات حول كيفية إنشاء مستودع وثائق والمحافظة عليه:

  • تحديد أصحاب المصلحة الرئيسيين وإجراء مقابلات قصيرة لتحديد جميع الاحتياجات.
  • ابحث عن أكبر قدر ممكن من الوثائق وتحليل الثغرات الموجودة في المحتوى.
  • بناء قاعدة موقعك لإنشاء وثائق جديدة في الأماكن الصحيحة.
  • نقل الوثائق الموجودة إلى موقع جديد.
  • أرشفة وهدم الوثائق القديمة.
  • إجراء فحوصات منتظمة لضمان جودة / اتساق الوثائق المدعومة.
  • تأكد من أن استعلامات البحث القياسية تُرجع المستندات الضرورية بأعلى قائمة نتائج البحث.
  • استخدم إشارات ، مثل Google Analytics ، لقياس الممارسات القياسية.

ملاحظة حول دعم المستودع: من المهم التحقق من الوثائق وتحديثها بانتظام. يجب أن يكون اسم المالك وتاريخ آخر فحص مرئيًا - تساعد هذه المعلومات في التحقق من دقة المستند المحدد. كان Zoe in history قادرًا على العثور على الوثائق القديمة فقط لأداة مهمة ، وبالتالي فقد القدرة على حل المشكلة بسرعة. تعمل الوثائق غير الموثوق بها والتي عفا عليها الزمن على جعل SRE أقل كفاءة ، مما يؤثر سلبًا على موثوقية الخدمات المدارة.

مستودع توافر

يجب أن تتأكد فرق SRE من أن الوثائق تظل متاحة حتى في حالة تعطل مستودع التخزين القياسي وعدم توفره. تمتلك كل Google SRE نسخة من الوثائق الهامة. تتوفر هذه النسخة على جهاز تخزين مضغوط مشفر أو على وسيط مادي قابل للإزالة ولكنه آمن يمكن أن تقوم به كل وحدة من برامج الطوارئ.

وثائق لإيقاف الخدمة

عندما تنتهي دورة حياة الخدمة ، ستقوم SRE بإيقاف تشغيلها بطريقة يمكن التنبؤ بها. يقدم هذا القسم توصيات للوثائق المتعلقة بأخذ الخدمة خارج الخدمة.

من المهم إخطار المستخدمين قبل إيقاف الخدمة وتقديم جدول وخطوات. يجب أن يوضح إعلانك متى ينتهي تسجيل المستخدمين الجدد ، وكيف ستتم معالجة الأخطاء الموجودة والكشف عنها في المستقبل ، ومتى ستتوقف الخدمة في النهاية عن العمل. حدد بوضوح جميع التواريخ المهمة وعملية خفض الدعم المقدم إلى SRE ، وإرسال إعلانات مؤقتة كلما تقدمت.

لا يكفي التوزيع البسيط للبريد الإلكتروني - تحتاج إلى تحديث الصفحة الرئيسية من الوثائق وكتب اللعب وكودلبات. أيضًا ، إن أمكن ، قم بالتعليق على ملفات الرأس. صف تفاصيل الإعلان في مستند (بالإضافة إلى الرسالة) التي يمكن للمستخدمين الرجوع إليها. يجب أن تكون الرسالة قصيرة قدر الإمكان ، ولكن في نفس الوقت تكون غنية بالمعلومات ، وتعكس جميع النقاط الرئيسية. صف تفاصيل إضافية: الدافع التجاري لإيقاف الخدمة ، والأدوات التي يمكن للمستخدمين استخدامها للترحيل إلى خدمة أخرى ، وما هو الدعم المتاح أثناء الترحيل. يجدر أيضًا إنشاء صفحة أسئلة وأجوبة ، حيث تملأها بمرور الوقت بمعلومات جديدة عن الأسئلة التي يطرحها المستخدمون.

دور محرري الوثائق الفنية

يوفر المحررون الفنيون (أو الكتاب الفنيون) خدمات تجعل SRE أكثر كفاءة وإنتاجية. لا يقتصر نطاق المهام على كتابة مستندات منفصلة وفقًا للمتطلبات المحددة من قبل فريق SRE.

فيما يلي بعض التوصيات العملية للمحررين الفنيين حول العمل مع فرق SRE.

  • يتعاون المحررون الفنيون مع SRE لإنشاء مستندات التشغيل لتشغيل الخدمات ووثائق الإنتاج لمنتجات وأدوات SRE.
  • يقومون بإنشاء مستودعات الوثائق وتحديثها ، وهيكلها وإعادة تنظيمها وفقًا لاحتياجات المستخدمين ، وتحسين المستندات الفردية كجزء من الإدارة العامة للمستودع.
  • يساعد المحررين في تحديد التحسينات التي تتطلبها إدارة الوثائق والمعلومات. ويشمل ذلك تقييم الوثائق لجمع المتطلبات ، وتحسين المستندات والمواقع التي أنشأها المهندسون ، وإسداء المشورة للفرق بشأن قواعد إنشاء الوثائق وتنظيمها وإعادة تصميمها والبحث فيها وصيانتها.
  • يجب على المحررين تقييم وتحسين أدوات الوثائق لتوفير حلول SRE أفضل.

أنماط

يوفر المحررون الفنيون أيضًا قوالب تبسط عملية إنشاء وثائق SRE واستخدامها. القوالب تفعل ما يلي:

  • تبسيط إنشاء الوثائق من خلال تزويد المهندسين بهيكل واضح لإنشاء مستندات جديدة.
  • إضافة أقسام من جميع الوثائق اللازمة لاستكمال الوثائق بالكامل.
  • فهي تساعد القارئ على فهم موضوع المستند ونوع المعلومات وكيفية تنظيمها بسرعة.

تحتوي هندسة الوثوقية في الموقع على العديد من نماذج قوالب الوثائق. في هذا القسم ، سنقدم بعض الأمثلة لإظهار كيف توفر القوالب هيكلًا ودليلًا للمهندسين لملء المحتوى.

مقابلة الخدمة

مراجعة

ما هذا ماذا يفعل؟ وصف رفيع المستوى للوظائف المقدمة للعملاء (المستخدم النهائي ، والمكونات ، وما إلى ذلك).

العمارة

اشرح كيف تعمل الهندسة المعمارية. صف حركة البيانات بين المكونات. النظر في إضافة مخطط نظام التبعية الحرجة واستعلامات التدفق والبيانات.

العملاء والتبعيات

اذكر كل العملاء (الذين ينتمون إلى فرق أخرى) التي تعتمد عليها وجميع الخدمات (التي تنتمي إلى فرق أخرى) التي تعتمد عليها. (يمكن أيضًا إظهار ذلك في شكل مخطط نظامي.)

الرمز والتكوين

اشرح هيكل الإنتاج. أين تعمل؟ قم بسرد الثنائيات والمهمة ومراكز البيانات وإعدادات ملف التكوين ، أو حدد مواقعها جميعًا. قم أيضًا بتوفير موقع الرمز ، وإذا لزم الأمر ، معلومات حول الإنشاء.

اذكر ووصف ملفات التكوين والتغييرات والمنافذ المطلوبة لتشغيل هذا المنتج أو الخدمة.

صف ما يلي: ما هي ملفات التكوين التي تم تغييرها لهذا المنتج أو الخدمة؟ كيف يتم الإعداد؟

العمليات

صف ما يلي: ما هي الشياطين والعمليات الأخرى التي يجب تشغيلها حتى تعمل الخدمة؟ ما نصوص التحكم التي تم إنشاؤها لإدارة الخدمة؟

بصمة

قائمة ووصف ملفات السجل التي أنشأتها المكون والملاحظات التي يتم إجراؤها. صف ما يلي: ما السجلات التي يتم إنشاؤها بواسطة هذا المكون؟ ما هو في كل ملف؟ ما هي التوصيات لدراسة هذه الملفات؟ ما هي جوانب المكون التي يجب مراقبتها لتشغيل خدمة موثوقة؟

لوحات المعلومات والأدوات

لصق الروابط إلى لوحات المعلومات والأدوات ذات الصلة.

السلطة

تشير إلى قوة مثيل واحد ؛ مركز البيانات على مستوى العالم: QPS ، عرض النطاق الترددي وقيم الكمون.

جيش تحرير السودان

توفير أهداف إمكانية الوصول.

الإجراءات القياسية

أضف روابط إلى الإجراءات ، بما في ذلك اختبار التحميل ، والتحديثات / الضغط / حالات العلم ، وما إلى ذلك. أضف روابط إلى وثائق التنبيه في كتاب اللعب في حالة تأهب.

المراجع

أضف روابط إلى وثائق التصميم للمكون أو المكونات ذات الصلة ، وعادة ما يكتبها فريق التطوير ، وكذلك المعلومات الأخرى ذات الصلة.

كتاب اللعب

العنوان

في الاسم ، حدد اسم التنبيه (على سبيل المثال ، NormalAlert_AlertVery Very Normal).

مراجعة

صف ما يلي: ماذا يعني هذا التنبيه؟ هل يتعلق الأمر بالبيجر أم بالبريد فقط؟ ما هي العوامل التي تؤدي إلى تنبيه؟ ما أجزاء الخدمة المتأثرة؟ ما التنبيهات المرتبطة به؟ الذي يحتاج إلى إخطار؟

تنبيهات مستوى الخطر

قم بتبرير درجة خطورة الإشعار وتأثير الأجزاء المتأثرة على الحالة العامة للخدمة.

تأكيد

تقديم إرشادات واضحة لفحص الحالة والتحقق من صحتها.

استكشاف الأخطاء وإصلاحها

قائمة ووصف أساليب التصحيح ومصادر المعلومات ذات الصلة. لا تنس الارتباطات إلى لوحات المعلومات المقابلة. قم بتشغيل التنبيهات. صف ما يلي: ما الذي سيظهر في السجلات عند تشغيل التنبيه؟ ما معالجات التصحيح هناك؟ هل هناك أي نصوص وأوامر مفيدة؟ ما الإخراج لا يولدون؟ هل هناك أي مهام إضافية تحتاج إلى حل بعد إزالة التنبيه؟

الحل

صف وسرد جميع الحلول الممكنة للمشكلة التي تسبب التنبيه. صف ما يلي: كيف أقوم بإصلاح المشكلة وحل التنبيه؟ ما الأوامر لتشغيل لإعادة التشغيل؟ من الذي يجب إخطاره إذا تم تشغيل التنبيه بسبب تصرفات المستخدم؟ من لديه خبرة في تصحيح مشكلة مماثلة؟

التصعيد

قائمة ووصف مسارات التصعيد. حدد الشخص أو الفريق ليتم إعلامك ومتى يتم ذلك. إذا التصعيد ليست ضرورية - الكتابة عن ذلك.

روابط ذات صلة

توفير روابط للتنبيهات والإجراءات ووثائق المراجعة ذات الصلة.
تقرير الخدمة الفصلية
مقدمة
صف الخدمة التي يكون الفريق مسؤولاً عنها.

تخطيط القدرات

بما في ذلك:

  • الطلب الفعلي على الخدمة ، بدءًا من آخر 6-8 أرباع ، معبرًا عنه في المقاييس الأكثر صلة بالخدمة (على سبيل المثال ، QPS أو DAU).
  • توقعات ل 8 أرباع المقبلة.
  • خطة السعة التي تلبي الطلب المتوقع في المستوى المطلوب من التكرار - حدد مخاطر العجز و / أو تخطيط القدرة.

نوصي أيضًا بإضافة توقعات للأربعة إلى الأربعة أرباع الماضية حتى يتمكن القارئ من تقييم ثبات ودقة التنبؤات.

SLA التنفيذ / التوفر

يجب أن تحتوي جميع الخدمات التي تدعمها SRE على اتفاقية مستوى الخدمة مكتوبة تقيّم أداء كل ربع سنة.

يجب أن يحتوي قسم SLA على معلمات المكونات الرئيسية للخدمة لقياس الجدوى الفصلية لشروط SLA ، بالإضافة إلى رابط لفريق SLA مكتوب.

الحوادث المصاحبة (اختياري)

قائمة 3-5 الحوادث الكبرى أو الفشل في الربع.

الإنجازات (اختياري)

قائمة الإنجازات الرئيسية لهذا الربع.

تغييرات اتفاقية مستوى الخدمة (مطلوبة)

التغييرات الأخيرة في جيش تحرير السودان.

تفاصيل الخدمة (مرغوب فيه)

قد يشمل القسم النمو ، إحصاءات التأخير ، إلخ.

معلومات الفريق (اختياري)

قد تشمل معلومات عن تكوين الفريق ، والحالات ، والمشاريع ، وإحصائيات التحول.

مصادر البيانات (مطلوب)

صف المصادر المستخدمة للحصول على قيم إمكانية الوصول ، وطرق الحساب ، وتوفير روابط إلى لوحات المعلومات المقابلة.

فريق الميثاق

من نحن

في جملة واحدة (~ سطر واحد) وصف البيئة التكنولوجية والعملاء ومقترحات الفريق ، وكذلك درجة مشاركة SRE والخبرات الخاصة.

الخدمات المدعومة

لتوضيح نطاق العمل ، أوضح الخدمات (أو مجموعتها) التي يدعمها الفريق.

كيف نقضي الوقت

يساعد تحديد النطاق في إنشاء خريطة طريق وتحقيق ودعم الأهداف طويلة الأجل.

قيم الفريق

صف بوضوح القيم. يؤثر هذا على الطريقة التي يتفاعل بها أعضاء الفريق مع بعضهم البعض ، وكيف ينظر فريقك إلى الآخرين.

الخاتمة

بغض النظر عما إذا كنت مسؤولاً عن SRE أو مدير SRE أو محررًا تقنيًا ، فأنت الآن تدرك الأهمية الحاسمة للوثائق في حياة فريق SRE الفعال. تسمح الوثائق الجيدة لفريق SRE بالنمو والالتزام بمنهجية واضحة لإدارة الخدمات الجديدة والحالية.

وبالتالي ، نشرنا الجزء الأخير من هذه المقالة ، حيث يمكن قراءة الجزأين الأول والثاني من خلال النقر فوق الارتباطات التشعبية ، ويمكنك الحصول على المزيد من المعلومات المفيدة في الدرس المفتوح لدينا ، والذي سيعقد في 19 فبراير. نحن في انتظار الجميع!

Source: https://habr.com/ru/post/ar439566/


All Articles