"الأمل هو استراتيجية سيئة". SRE مكثفة في موسكو ، 3-5 فبراير

نعلن عن أول دورة عملية لـ SRE في روسيا: Slurm SRE .


وبكثافة ، سنقوم ببناء وجمع وإصلاح وتحسين مجمع الموقع لبيع تذاكر السينما لمدة ثلاثة أيام.



اخترنا مجمع التذاكر لأنه يحتوي على العديد من سيناريوهات الرفض: تدفق الزوار وهجمات DDoS ، وسقوط واحد من العديد من الخدمات المصغرة الهامة (الترخيص والحجز ومعالجة الدفع) ، وعدم إمكانية الوصول إلى واحدة من العديد من دور السينما (تبادل البيانات حول المقاعد المتوفرة والحجز) ، ومزيد من أسفل القائمة.


سنقوم بصياغة مفهوم الموثوقية لموقع التجميع الخاص بنا ، والذي سنستمر في الهندسة ، وسنقوم بتحليل التصميم من وجهة نظر SRE ، وسنختار المقاييس ، وسنقوم بإعداد مراقبتها ، وسنقوم بإزالة الحوادث التي قد تنشأ ، وسنقوم بإجراء تدريب للعمل الجماعي مع الحوادث في ظروف قريبة من القتال ، وسنقوم بتنظيم استخلاص المعلومات .


يتم تشغيل البرنامج بواسطة Booking.com وجوجل.
هذه المرة لن تكون هناك مشاركة عن بُعد: الدورة مبنية على التفاعل الشخصي والعمل الجماعي.


التفاصيل تحت خفض


مكبرات الصوت


إيفان كروغلوف
المطور الرئيسي في Booking.com (هولندا)
منذ انضمامه إلى Booking.com في عام 2013 ، عمل في مشاريع البنية التحتية مثل التسليم الموزع ومعالجة الرسائل ، BigData ومكدس الويب ، البحث.
الآن يشارك في قضايا بناء سحابة داخلية وشبكة الخدمة.


بن تايلر
المطور الرئيسي في Booking.com (الولايات المتحدة الأمريكية)
تشارك في التطوير الداخلي لمنصة Booking.com.
متخصص في اكتشاف شبكة الخدمة / الخدمة ، وجدولة الوظائف دفعة واحدة ، والاستجابة للحادث وعملية ما بعد الوفاة.
يتحدث ويتعلم باللغة الروسية.


يفغيني فاراففا
جوجل مطور الملف الشخصي على نطاق واسع (سان فرانسيسكو).
خبرة في العمل من مشاريع الويب المحملة للغاية إلى البحث في رؤية الكمبيوتر والروبوتات.
منذ عام 2011 ، شارك في تطوير وتشغيل الأنظمة الموزعة في Google ، والمشاركة في دورة الحياة الكاملة للمشروع: التصور والتصميم والهندسة المعمارية ، وإطلاق وتقليل جميع المراحل الوسيطة.


إدوارد ميدفيديف
CTO at Tungsten Labs (ألمانيا)
كان يعمل مهندسًا في StackStorm ، وكان مسؤولًا عن وظيفة ChatOps في النظام الأساسي. تطوير وتنفيذ ChatOps في أتمتة مراكز البيانات. متحدث في المؤتمرات الروسية والدولية.


البرنامج


ويجري تطوير البرنامج بنشاط. الآن يبدو الأمر هكذا ، وبحلول فبراير ، يمكن أن يتحسن ويتوسع.


السمة رقم 1: المبادئ والأساليب الأساسية لـ SRE


  • ما الذي يتطلبه الأمر لتصبح SRE؟
  • DevOps مقابل SRE
  • لماذا يقدر المطورون SRE ويحزنون جدًا عندما لا يكونون في المشروع
  • SLI و SLO و SLA
  • خطأ الميزانية ودورها في SRE

الموضوع رقم 2: تصميم النظم الموزعة


  • تطبيق العمارة والوظائف
  • تصميم نظام كبير غير مجردة
  • قابلية التشغيل / التصميم للفشل
  • gRPC أو REST
  • الإصدار و الوراء التوافق

السمة №3: كيفية قبول مشروع SRE


  • أفضل الممارسات من SRE
  • قائمة مراجعة قبول المشروع
  • تسجيل ، والمقاييس ، والبحث عن المفقودين
  • خذ CI / CD بأيدينا

السمة №4: تصميم وإطلاق نظام موزع


  • الهندسة العكسية - كيف يعمل النظام؟
  • نحن ننسق SLI و SLO
  • ممارسة تخطيط القدرات
  • إطلاق حركة المرور إلى التطبيق ، يبدأ مستخدمونا في "استخدامه"
  • إطلاق بروميثيوس ، غرافانا ، مطاطا

الموضوع رقم 5: الرصد والملاحظة والإنذار


  • الرصد مقابل قابلية الملاحظة
  • قم بإعداد المراقبة والتنبيهات باستخدام Prometheus
  • مراقبة عملية SLI و SLO
  • الأعراض مقابل الأسباب
  • الصندوق الأسود مقابل رصد مربع أبيض
  • تطبيق الموزع ورصد توافر الخادم
  • 4 إشارات ذهبية (كشف الشذوذ)

موضوع №6: ممارسة اختبار موثوقية النظم


  • العمل تحت الضغط
  • حقن الفشل
  • قرد الفوضى

موضوع # 7: ممارسة الاستجابة للحادث


  • خوارزمية إدارة الإجهاد
  • التفاعل بين المشاركين في الحادث
  • بعد الوفاة
  • تقاسم المعرفة
  • تشكيل الثقافة
  • رصد خطأ
  • إجراء استخلاص المعلومات بلا لوم

الموضوع رقم 8: ممارسة إدارة الأحمال


  • تحميل موازنة
  • خطأ التسامح التطبيق: إعادة المحاولة ، المهلة ، حقن الفشل ، قاطع الدائرة
  • DDoS (إنشاء تحميل) + فشل المتتالية

الموضوع رقم 9: الاستجابة للحوادث


  • إستخلاص المعلومات
  • عند الطلب الممارسة
  • أنواع مختلفة من الفشل (الاختبار ، تغييرات التكوين ، فشل الأجهزة)
  • بروتوكولات إدارة الحوادث

موضوع №10: التشخيص وحل المشكلات


  • اليومية
  • التصحيح
  • ممارسة التحليل والتصحيح على طلبنا

موضوع №11: اختبار موثوقية النظم


  • اختبار الحمل
  • اختبار التكوين
  • اختبار الأداء
  • الافراج عن الكناري

موضوع №12: العمل المستقل والمراجعة


توصيات ومتطلبات المشاركين


SRE - العمل الجماعي. نوصي بشدة بأخذ الدورة كفريق واحد. لذلك ، نحن نقدم خصومات كبيرة للفرق الجاهزة.


سعر الدورة هو 60 000 ₽ للشخص الواحد.
إذا أرسلت الشركة مجموعة من 5 أشخاص - 40000 000.


الدورة مبنية على Kubernetes. لتمرير ، تحتاج إلى معرفة Kubernetes في المستوى الأساسي. إذا كنت لا تعمل معه ، يمكنك الذهاب إلى Slurm Basic ( عبر الإنترنت أو مكثفة في الفترة من 18 إلى 20 نوفمبر ).
بالإضافة إلى ذلك ، يجب أن تكون لديك معرفة جيدة بنظام Linux ، تعرف على Gitlab و Prometheus.


تسجيل


إذا كانت لديك فكرة صعبة عن المشاركة ، على سبيل المثال ، في حضور المدير التنفيذي والمدير الفني وفريق التطوير إلى الدورة التدريبية ، وسوف يتدربون على مراعاة الإدارة الرأسية ، فاكتبوا لي في PM.

Source: https://habr.com/ru/post/ar473032/


All Articles