Durante los primeros diez años en Google, trabajé como ingeniero ordinario: lancé el transporte público en los mapas, mejoré la búsqueda y detecté spam en YouTube. En algún momento, resultó que en el vecindario de los equipos de SWE (ingenieros de software) había algunos misteriosos SRE (ingenieros de confiabilidad del sitio) que viven en producción y saben todo sobre infraestructura, configuraciones y monitoreo. Por lo general, acudían a nosotros con horarios incomprensibles y recomendaban encarecidamente reescribir algo en nuestro servicio para que explotara ordenadamente y poco a poco, y no en su totalidad con todos sus vecinos. O construyeron una infraestructura que resuelve mágicamente todos nuestros problemas de una vez por todas. O se informó que no habría una segunda liberación esta semana, porque un centro de datos fue arrastrado por un huracán, y un caballo fue enterrado junto a otro y se cortó el cable troncal. Después de un tiempo, quedó claro que puede llegar a estas personas con una amplia variedad de problemas y salir con soluciones encontradas por un par de niveles de abstracción más bajos de lo que espera de su propio producto ("usted, por supuesto, pagó la cantidad requerida de tráfico, pero aquí él no encaja estúpidamente en el interruptor en la parte superior del estante ").
Como resultado, me interesé en cómo se ve todo este SRE desde el interior, y fui a
Mission Control , un programa de rotación que me permite pasar medio año en el papel de SRE, obtener una valiosa experiencia de producción y, si lo desea, volver a mi equipo anterior para compartir los conocimientos adquiridos. En cambio, me quedé, como dos tercios de mis colegas actuales de SRE de procesamiento de video, también reentrenado de ingenieros regulares. Ahora yo mismo asusto a SWE con gráficos incomprensibles y evacúo videos de YouTube de centros de datos en llamas, con pausas para la codificación creativa pacífica. Resultó que en el transcurso de quince años, una organización SRE saludable y efectiva ha crecido dentro de Google con sus prácticas, principios y métodos, pero nadie sabe de ellos, debido a los que llegaron allí, nadie ha regresado todavía.
La solución al problema de la desaparición de la información de servicio, SLO y autopsia en el agujero negro de Google SRE fue el
libro "Ingeniería de confiabilidad del sitio" , que describe en detalle cómo funciona realmente nuestro SRE. En realidad, toda esta publicación se inició en aras de dos noticias:
- Hace dos semanas , se lanzó una traducción al ruso del mencionado libro SRE. Si tiene curiosidad sobre cómo obtener prácticas saludables de DevOps en su empresa, este libro es para usted. Si sospechas de inclinaciones SRE, entonces este libro es aún más para ti.
- En busca del primer libro, se acaba de publicar el Libro de trabajo de confiabilidad del sitio con ejemplos prácticos de la vida de Google Cloud Platform (hasta ahora solo en inglés). También lo recomiendo encarecidamente.