👴🏼 👶🏾 🈹 3 historias de accidentes de Kubernetes en producción: anti-afinidad, cierre elegante, webhook 😮 🧞 🈴

Nota perev. : Presentamos una mini-selección de autopsias sobre los problemas fatales que enfrentaron los ingenieros de diferentes compañías al operar la infraestructura basada en Kubernetes. Cada nota habla sobre el problema en sí, sus causas y consecuencias y, por supuesto, sobre una solución que ayuda a evitar situaciones similares en el futuro.

Como sabes, aprender de la experiencia de otra persona es más barato y, por lo tanto, deja que estas historias te ayuden a estar preparado para posibles sorpresas. Por cierto, en este sitio se publica una selección amplia y actualizada de enlaces a tales "historias de fallas" (según los datos de este repositorio de Git ).

No 1. Cómo el pánico del núcleo bloqueó un sitio

Original: luz de luna .

Entre el 18 y el 22 de enero, el sitio web de Moonlight y API experimentaron fallas intermitentes. Todo comenzó con errores aleatorios de la API y terminó con un apagado completo. Los problemas se resolvieron y la aplicación volvió a la normalidad.

Información general

Moonlight utiliza un software conocido como Kubernetes. Kubernetes ejecuta aplicaciones en grupos de servidores. Estos servidores se llaman nodos. Las copias de la aplicación que se ejecutan en el nodo se denominan pods. Kubernetes tiene un planificador que determina dinámicamente qué pods en qué nodos deberían funcionar.

Cronograma

Los primeros errores del viernes estuvieron relacionados con problemas para conectarse a la base de datos Redis. Moonlight API usa Redis para verificar las sesiones para cada solicitud autenticada. Nuestra herramienta de monitoreo Kubernetes ha notificado que algunos nodos y pods no responden. Al mismo tiempo, Google Cloud informó un mal funcionamiento de los servicios de red y decidimos que eran la causa de nuestros problemas.

A medida que disminuía el tráfico el fin de semana, los errores parecían resolverse en su mayor parte. Sin embargo, el martes por la mañana, el sitio de Moonlight cayó y el tráfico externo no llegó al clúster. Encontramos a otra persona en Twitter con síntomas similares y decidimos que el alojamiento de Google tenía una falla en la red. Nos contactamos con el servicio de asistencia de Google Cloud, que rápidamente remitió el problema al equipo de asistencia técnica.

El equipo de soporte técnico de Google reveló algunos patrones en el comportamiento de los nodos en nuestro clúster de Kubernetes. La utilización de CPU de los nodos individuales alcanzó el 100%, después de lo cual se produjo el pánico del kernel en la máquina virtual y se bloqueó.

Razones

El ciclo que causó la falla fue el siguiente:

El planificador de Kubernetes alojó varios pods con alto consumo de CPU en el mismo nodo.
Los pods se comieron todos los recursos de la CPU en el nodo.
Luego vino el pánico del kernel, que condujo a un período de inactividad durante el cual el nodo no respondió al planificador.
El programador movió todas las cápsulas caídas a un nuevo nodo, y el proceso se repitió, exacerbando la situación general.

Inicialmente, el error ocurrió en el pod de Redis, pero al final todos los pod que trabajan con tráfico cayeron, lo que condujo a un apagado completo. Los retrasos exponenciales durante la reprogramación han llevado a períodos más largos de inactividad.

Solución

Pudimos restaurar el sitio agregando reglas anti-afinidad a todas las implementaciones principales. Distribuyen automáticamente los pods sobre los nodos, aumentando la tolerancia a fallas y el rendimiento.

Kubernetes está diseñado como un sistema host tolerante a fallas. Moonlight utiliza tres nodos en diferentes servidores para mayor estabilidad, y ejecutamos tres copias de cada aplicación que sirve el tráfico. La idea es tener una copia en cada nodo. En este caso, incluso una falla de dos nodos no conducirá al tiempo de inactividad. Sin embargo, Kubernetes a veces colocó las tres cápsulas con el sitio en el mismo nodo, creando así un cuello de botella en el sistema. Al mismo tiempo, otras aplicaciones que demandaban potencia de procesador (es decir, representación del lado del servidor) estaban en el mismo nodo, y no en uno separado.

Se requiere un clúster de Kubernetes correctamente configurado y que funcione correctamente para hacer frente a largos períodos de alta carga de CPU y colocar pods de manera que se maximice el uso de los recursos disponibles. Continuamos trabajando con el soporte de Google Cloud para identificar y abordar la causa raíz del kernel panic en los servidores.

Conclusión

Las reglas anti-afinidad le permiten hacer que las aplicaciones que funcionan con tráfico externo sean más tolerantes a fallas. Si tiene un servicio similar en Kubernetes, considere agregarlos.

Continuamos trabajando con los chicos de Google para encontrar y eliminar la causa de fallas en el núcleo del sistema operativo en los nodos.

No 2. El secreto "sucio" de Kubernetes y el punto final de Ingress

Original: Phil Pearl de Ravelin .

La elegancia está sobrevalorada

Nosotros en Ravelin migramos a Kubernetes (en GKE). El proceso ha sido muy exitoso. Nuestros presupuestos de interrupción de pods están tan completos como siempre, los estados son verdaderamente majestuosos (un juego de palabras difícil de traducir: "nuestros conjuntos con estado son muy majestuosos" - aprox. Transl.) , Y el reemplazo deslizante de los nodos funciona como un reloj.

La pieza final del rompecabezas es mover la capa API de máquinas virtuales antiguas al clúster de Kubernetes. Para hacer esto, necesitamos configurar Ingress para que la API sea accesible desde el mundo exterior.

Al principio, la tarea parecía simple. Simplemente definimos el controlador Ingress, modificamos el Terraform para obtener un cierto número de direcciones IP, y Google se encarga de casi todo lo demás. Y todo esto funcionará como por arte de magia. Clase!

Sin embargo, con el tiempo, comenzaron a notar que las pruebas de integración reciben periódicamente errores 502. A partir de esto, nuestro viaje comenzó. Sin embargo, le ahorraré tiempo e iré directamente a las conclusiones.

Cierre elegante

Todo el mundo habla de un cierre elegante ("elegante", cierre gradual). Pero realmente no debes confiar en él en Kubernetes. O al menos no debería ser el cierre elegante que absorbió con la leche de su madre . En el mundo de Kubernetes, este nivel de "elegancia" es innecesario y amenaza con serios problemas.

Mundo perfecto

Así es como, en la vista mayoritaria, el pod se elimina del servicio o del equilibrador de carga en Kubernetes:

El controlador de replicación decide eliminar el pod.
El pod de punto final se elimina del servicio o equilibrador de carga. Ya no llega nuevo tráfico al pod.
Se llama a un gancho previo a la parada, o el pod recibe una señal SIGTERM.
El pod "con gracia" está desconectado. Deja de aceptar conexiones entrantes.
La desconexión "agraciada" se completa y el pod se destruye después de que todas sus conexiones existentes se detienen o finalizan.

Desafortunadamente, la realidad es completamente diferente.

Mundo real

La mayor parte de la documentación sugiere que todo sucede de manera un poco diferente, pero no escriben explícitamente sobre esto en ningún lado. El principal problema es que el paso 3 no sigue al paso 2. Se producen simultáneamente. En los servicios ordinarios, la eliminación de puntos finales es tan rápida que la probabilidad de encontrar problemas es extremadamente baja. Sin embargo, con Ingresss, todo es diferente: generalmente responden mucho más lentamente, por lo que el problema se vuelve obvio. Pod puede obtener SIGTERM mucho antes de que los cambios en los puntos finales entren en Ingress.

Como resultado, un apagado correcto no es lo que se requiere de un pod. Recibirá nuevas conexiones y debe continuar procesándolas, de lo contrario, los clientes comenzarán a recibir los errores número 500 y toda la maravillosa historia sobre implementaciones y escalas sin complicaciones comenzará a desmoronarse.

Esto es lo que realmente sucede:

El controlador de replicación decide eliminar el pod.
El pod de punto final se elimina del servicio o equilibrador de carga. En el caso de Ingresss, esto puede llevar algún tiempo, y el nuevo tráfico continuará fluyendo hacia el pod.
Se llama a un gancho previo a la parada, o el pod recibe una señal SIGTERM.
En gran medida, el pod debe ignorar esto, continuar trabajando y mantener nuevas conexiones. Si es posible, debería indicarles a los clientes que sería bueno cambiarse a otro lugar. Por ejemplo, en el caso de HTTP, puede enviar Connection: close en los encabezados de respuesta.
La cápsula sale solo cuando el período de espera "elegante" expira y SIGKILL la mata.
Asegúrese de que este período sea más largo que el tiempo que lleva reprogramar el equilibrador de carga.

Si se trata de un código de terceros y no puede cambiar su comportamiento, entonces lo mejor que puede hacer es agregar un gancho previo a la detención que solo duerma durante un período "elegante", de modo que el pod continúe funcionando como si nada sucedió

Número 3. Cómo un webhook simple causó una falla del clúster

Original: Jetstack .

Jetstack ofrece a sus clientes plataformas multiempresa en Kubernetes. A veces hay requisitos especiales que no podemos satisfacer con la configuración estándar de Kubernetes. Para implementarlos, recientemente comenzamos a usar el Open Policy Agent (escribimos sobre el proyecto con más detalle en esta revisión , aprox. Transl.) Como controlador de acceso para implementar políticas especiales.

Este artículo describe el error causado por esta integración mal configurada.

Incidente

Nos dedicamos a actualizar el asistente para el clúster de desarrollo, en el que varios equipos probaron sus aplicaciones durante la jornada laboral. Era un clúster regional en la zona europa-oeste1 en Google Kubernetes Engine (GKE).

Se advirtió a los comandos que se estaba realizando una actualización, sin tiempo de inactividad esperado. Ese mismo día, ya hicimos una actualización similar a otro entorno de preproducción.

Comenzamos la actualización usando nuestra tubería GKE Terraform. La actualización del asistente no se completó hasta que expiró el tiempo de espera de Terraform, que configuramos durante 20 minutos. Esta fue la primera llamada de atención de que algo salió mal, aunque en la consola GKE el clúster todavía figuraba como "actualización".

Reiniciar la tubería condujo al siguiente error

 google_container_cluster.cluster: Error waiting for updating GKE master version: All cluster resources were brought up, but the cluster API is reporting that: component "kube-apiserver" from endpoint "gke-..." is unhealthy

Esta vez, la conexión con el servidor API comenzó a interrumpirse periódicamente y los equipos no pudieron implementar sus aplicaciones.

Mientras estábamos tratando de entender lo que estaba sucediendo, todos los nodos comenzaron a destruirse y recrearse en un ciclo sin fin. Esto ha llevado a una denegación indiscriminada de servicio para todos nuestros clientes.

Establecemos la causa raíz de la falla

Con el soporte de Google, pudimos determinar la secuencia de eventos que condujeron a la falla:

GKE completó la actualización en una instancia del asistente y comenzó a aceptar todo el tráfico al servidor API en él a medida que se actualizaban los siguientes asistentes.
Durante la actualización de la segunda instancia del asistente, el servidor API no pudo ejecutar PostStartHook para registrar la CA.
Durante la ejecución de este enlace, el servidor API intentó actualizar ConfigMap llamado extension-apiserver-authentication en kube-system . No fue posible hacer esto porque el backend para el webhook de comprobación de Open Policy Agent (OPA) que configuramos no respondió.
Para que el asistente pase una comprobación de estado, esta operación debe completarse correctamente. Como esto no sucedió, el segundo maestro ingresó al ciclo de emergencia y detuvo la actualización.

El resultado fueron bloqueos periódicos de la API, debido a que los kubelets no pudieron informar el estado del nodo. A su vez, esto condujo al hecho de que el mecanismo para la restauración automática de los nodos GKE (reparación automática de nodos ) comenzó a reiniciar los nodos. Esta característica se describe en detalle en la documentación :

Un estado no saludable puede significar: Dentro de un tiempo determinado (aproximadamente 10 minutos), el nodo no da ningún estado en absoluto.

Solución

Cuando descubrimos que el recurso ValidatingAdmissionWebhook estaba causando un acceso intermitente al servidor API, lo eliminamos y restauramos el clúster para que funcione.

Desde entonces, han configurado ValidatingAdmissionWebhook para OPA para monitorear solo aquellos espacios de nombres donde la política es aplicable y a los que los equipos de desarrollo tienen acceso. También limitamos el webhook a Ingress and Service , los únicos con los que funciona nuestra política.

Desde que implementamos la OPA por primera vez, la documentación se ha actualizado para reflejar este cambio.

También agregamos una prueba de vida para asegurar que la OPA se reinicie en caso de que no esté disponible (e hicimos las modificaciones apropiadas a la documentación).

También consideramos deshabilitar el mecanismo de recuperación automática para los nodos GKE, pero aún así decidimos abandonar esta idea.

Resumen

Si habilitamos las alertas de tiempo de respuesta del servidor API, inicialmente podríamos notar su aumento global para todas las solicitudes CREATE y UPDATE después de implementar el webhook para OPA.

Esto subraya la importancia de configurar pruebas para todas las cargas de trabajo. Mirando hacia atrás, podemos decir que el despliegue de OPA fue tan engañosamente simple que ni siquiera nos involucramos en la tabla de Helm (aunque debería). El cuadro realiza una serie de ajustes más allá de la configuración básica descrita en el manual, incluida la configuración de livenessProbe para contenedores con un controlador de admisión.

No fuimos los primeros en encontrar este problema: el problema aguas arriba permanece abierto. La funcionalidad en este asunto puede mejorarse claramente (y haremos un seguimiento de esto).

PD del traductor

Lea también en nuestro blog:

3 historias de accidentes de Kubernetes en producción: anti-afinidad, cierre elegante, webhook

No 1. Cómo el pánico del núcleo bloqueó un sitio

Información general

Cronograma

Razones

Solución

Conclusión

No 2. El secreto "sucio" de Kubernetes y el punto final de Ingress

La elegancia está sobrevalorada

Cierre elegante

Mundo perfecto

Mundo real

Número 3. Cómo un webhook simple causó una falla del clúster

Incidente

Establecemos la causa raíz de la falla

Solución

Resumen

PD del traductor

More articles: