Google में पहले दस वर्षों के लिए, मैंने एक साधारण इंजीनियर के रूप में काम किया: मैंने नक्शे पर सार्वजनिक परिवहन शुरू किया, खोज में सुधार किया और YouTube पर स्पैम पकड़ा। कुछ बिंदु पर, यह निकला कि एसडब्ल्यूई (सॉफ्टवेयर इंजीनियर) टीमों के पड़ोस में कुछ रहस्यमय एसआरई (साइट विश्वसनीयता इंजीनियर) थे जो उत्पादन में रहते हैं और बुनियादी ढांचे, कॉन्फ़िगरेशन और निगरानी के बारे में सब कुछ जानते हैं। आमतौर पर वे समझ से बाहर के कार्यक्रमों के साथ हमारे पास आते हैं और हमारी सेवा में कुछ लिखने की दृढ़ता से सलाह देते हैं ताकि यह बड़े करीने से और बिट द्वारा विस्फोट हो, और अपने सभी पड़ोसियों के साथ संपूर्णता में न हो। या उन्होंने बुनियादी ढांचे के कुछ टुकड़े का निर्माण किया जो जादुई रूप से हमारी सभी समस्याओं को एक बार और सभी के लिए हल करता है। या यह बताया गया था कि इस हफ्ते कोई दूसरी रिलीज़ नहीं होगी, क्योंकि एक तूफान से एक डाटा सेंटर धुल गया था, और एक घोड़ा दूसरे के बगल में दब गया था और ट्रंक केबल कट गई थी। कुछ समय बाद, यह स्पष्ट हो गया कि आप इन लोगों के पास विभिन्न प्रकार की समस्याओं के साथ आ सकते हैं और अपने स्वयं के उत्पाद से उम्मीद की तुलना में कम अमूर्त के स्तर के एक जोड़े द्वारा पाए गए समाधानों से दूर जा सकते हैं ("आप, निश्चित रूप से, यातायात की आवश्यक राशि के लिए भुगतान किया जाता है, लेकिन यहां) वह बेवकूफी से रैक के शीर्ष पर स्विच में फिट नहीं होता ")।
नतीजतन, मुझे इस बात में दिलचस्पी हो गई कि यह सब एसआरई अंदर से कैसा दिखता है, और मैं
मिशन कंट्रोल में चला गया, एक रोटेशन प्रोग्राम जो मुझे एसआरई की भूमिका में आधा साल बिताने की अनुमति देता है, बहुमूल्य उत्पादन अनुभव प्राप्त करता है और, यदि वांछित है, तो अर्जित ज्ञान को साझा करने के लिए मेरी पिछली टीम में वापस लौटें। इसके बजाय, मैं अपने वर्तमान वीडियो प्रसंस्करण SRE सहयोगियों के दो-तिहाई की तरह रहा, नियमित इंजीनियरों से भी मुकर गया। अब मैं स्वयं SWE को अतुलनीय ग्राफिक्स के साथ डराता हूं और शांतिपूर्ण रचनात्मक कोडिंग के लिए विराम के साथ YouTube वीडियो को डेटा केंद्रों से निकालता हूं। यह पता चला कि पंद्रह वर्षों के दौरान, एक स्वस्थ और प्रभावी एसआरई संगठन अपनी प्रथाओं, सिद्धांतों और विधियों के साथ Google के अंदर बड़ा हुआ है - लेकिन कोई भी उनके बारे में नहीं जानता है, क्योंकि जो लोग वहां गए हैं, कोई भी अभी तक वापस नहीं आया है।
Google SRE ब्लैक होल में ड्यूटी, SLO और पोस्टमार्टम पर जानकारी के गायब होने की समस्या का हल
"साइट विश्वसनीयता इंजीनियरिंग" पुस्तक थी, जो हमारे SRE वास्तव में कैसे काम करती है, इस बारे में विस्तार से बताती है। दरअसल, यह पूरी पोस्ट दो खबरों के लिए शुरू की गई है:
- दो हफ्ते पहले , उपरोक्त SRE पुस्तक का एक रूसी अनुवाद जारी किया गया था। यदि आप उत्सुक हैं कि आपकी कंपनी में स्वस्थ DevOps प्रथाओं को कैसे प्राप्त किया जाए, तो यह पुस्तक आपके लिए है। यदि आप अपने आप को SRE झुकाव के बारे में संदेह करते हैं, तो यह पुस्तक आपके लिए और भी अधिक है।
- Google क्लाउड प्लेटफ़ॉर्म के जीवन से व्यावहारिक उदाहरणों के साथ पहली पुस्तक अभी तक केवल (अब तक केवल अंग्रेजी में) साइट विश्वसनीयता वर्कबुक के बाद प्रकाशित हुई है - मैं भी इसकी अत्यधिक अनुशंसा करता हूं।