Google و DevOps: كتابان عن SRE

خلال السنوات العشر الأولى في Google ، عملت كمهندس عادي: أطلقت وسائل النقل العام على الخرائط ، وبحثًا محسّنًا ، واكتشفت محتوى غير مرغوب فيه على YouTube. في مرحلة ما ، اتضح أنه في حي فرق SWE (مهندسي البرمجيات) كان هناك بعض SRE الغامض (مهندسي موثوقية الموقع) الذين يعيشون في الإنتاج ويعرفون كل شيء عن البنية التحتية والتكوينات والمراقبة. عادة ما يأتون إلينا بجداول زمنية غير مفهومة ويوصون بشدة بإعادة كتابة شيء ما في خدمتنا بحيث تنفجر بدقة وبشكل تدريجي ، وليس بالكامل مع جميع جيرانها. أو قاموا ببناء جزء من البنية التحتية التي تحل بشكل سحري جميع مشاكلنا مرة واحدة وإلى الأبد. أو قيل أنه لن يكون هناك إصدار ثانٍ هذا الأسبوع ، لأن أحد الأعاصير جرفه إعصار ، ودُفن حصان بجوار آخر وتم قطع كبل الجذع. بعد مرور بعض الوقت ، أصبح من الواضح أنه يمكنك القدوم إلى هؤلاء الأشخاص بمجموعة متنوعة من المشكلات والابتعاد عن الحلول التي تم العثور عليها بمستويين أقل من التجريد أقل مما تتوقعه من منتجك الخاص ("أنت ، بالطبع ، دفعت المبلغ المطلوب من حركة المرور ، ولكن هنا لا يتناسب بغباء مع المفتاح الموجود أعلى الرف ").

ونتيجة لذلك ، أصبحت مهتمًا بكيفية ظهور كل SRE من الداخل ، وذهبت إلى Mission Control ، وهو برنامج تناوب يتيح لي قضاء نصف عام في دور SRE ، واكتساب خبرة إنتاج قيمة ، والعودة إلى فريقي السابق ، إذا رغبت في ذلك ، لمشاركة المعرفة المكتسبة. بدلاً من ذلك ، بقيت ، مثل ثلثي زملائي الحاليين في معالجة الفيديو SRE ، متدربًا أيضًا من المهندسين المنتظمين. الآن أنا نفسي أخيف SWE مع رسومات غير مفهومة وإخلاء مقاطع فيديو YouTube من حرق مراكز البيانات ، مع فواصل للتشفير الإبداعي السلمي. اتضح أنه على مدار خمسة عشر عامًا ، نشأت منظمة SRE صحية وفعالة داخل Google بممارساتها ومبادئها وأساليبها - ولكن لا أحد يعرف عنها ، بسبب أولئك الذين وصلوا إلى هناك ، لم يعد أحد بعد.

كان حل مشكلة اختفاء المعلومات المتعلقة بالواجب و SLO وما بعد الوفاة في الثقب الأسود لـ Google SRE هو كتاب "هندسة موثوقية الموقع" ، الذي يصف بالتفصيل كيف تعمل SRE بالفعل. في الواقع ، بدأ هذا المنشور كله من أجل خبرين:

  1. قبل أسبوعين ، تم إصدار ترجمة روسية لكتاب SRE المذكور أعلاه. إذا كنت مهتمًا بكيفية الحصول على ممارسات DevOps الصحية في شركتك ، فهذا الكتاب مناسب لك. إذا كنت تشك في نفسك من ميول SRE ، فهذا الكتاب هو أكثر لك.
  2. سعيًا وراء الكتاب الأول ، تم نشر دليل موثوقية الموقع مع أمثلة عملية من حياة Google Cloud Platform (حتى الآن باللغة الإنجليزية فقط) - كما أوصي به بشدة.

Source: https://habr.com/ru/post/ar421603/


All Articles