Hola, me llamo Vera Sivakova. Trabajo con socios clave de Yandex.Kassi: conecto grandes tiendas y servicios, lanzo proyectos y viajo a reuniones en todo el mundo. En general, sigo que todo estaba bien.
Cada empleado de Yandex.Money puede cambiar su ocupación una vez al año: elija un departamento y trabaje allí durante varios días. Por lo tanto, hace un mes, me senté en Sapsan y llegué a San Petersburgo. Allí funciona un departamento de monitoreo, que también monitorea que 90,000 sitios conectados a la taquilla están funcionando bien, y decidimos unir fuerzas.

¿Cómo no volverse loco? No es exactamente lo mismo (fuente: reddit.com)
Esta es una historia sobre cómo funciona nuestro monitoreo y lo que aprendí en un par de días en otro departamento.
Cada segundo, alrededor de 600 transacciones pasan por el servicio y todo esto debe ser monitoreado en tiempo real, pero ¿a qué hora exacta es hora de hacer sonar la alarma si sucede algo? Necesitamos una mirada sistemática a casi todo.
Es una buena práctica analizar el sistema desde un punto de vista técnico y no olvidarse de las métricas comerciales: la cantidad de pagos, la rotación y otros parámetros.
En sistemas pequeños, el buen aspecto del administrador principal (a menudo el único) es suficiente. Pero cuando hay muchos procesos, los empleados no pueden monitorear todo manualmente, por lo que la mejor estrategia será la automatización máxima. Nada funcionará sin el conocimiento experto y los esfuerzos del equipo, ya que el monitoreo es la mejora continua, el análisis y la capacidad de elegir métricas y desencadenantes competentes. Funcionarán en caso de desviación de las condiciones dadas e informarán una anomalía.
Distinguimos tres niveles de monitoreo, cada uno de los cuales tiene sus propios indicadores importantes: el nivel del sistema, el nivel de lógica de negocios y el nivel de las contrapartes.
Nivel del sistema
Lo más importante aquí es el monitoreo continuo de la infraestructura. De las herramientas que utilizamos Zabbix para recopilar datos en tiempo real, notifica sobre el funcionamiento de servidores y centros de datos, la calidad de la red, la disponibilidad de componentes y fuentes de datos.
El monitoreo de la infraestructura de TI es un trabajo muy responsable, ya que la falla en este nivel está plagada de inoperancia del sistema y medidas desesperadas. Por lo tanto, es importante no solo responder a los problemas "intermitentes", sino también analizar las tendencias y los datos históricos; esto permitirá una advertencia oportuna de posibles puntos de falla y predecirá la necesidad de escalar. La regla funciona para todos los indicadores y niveles de monitoreo, incluidos los negocios.
Para puntos críticos, los umbrales de activación deben seleccionarse a continuación. Por ejemplo, si el tiempo de respuesta de un enrutador aumenta, transferimos el tráfico a otro y eliminamos la causa en el primero. Esto activó un activador de advertencia, que le permite recibir notificaciones de problemas potenciales muy temprano, lo que le da una reserva de tiempo para la respuesta, la capacidad de predecir cambios y evitar desastres.
Nivel de lógica de negocios
Cada equipo define los procesos que necesitan ser rastreados, su prioridad y métricas personales. Por ejemplo, el equipo del Cajero tiene docenas de procesos comerciales, como el pago por cada método disponible: tarjetas, billeteras electrónicas, a través de bancos y terminales en línea, comercio móvil, envío de registros, etc. Como la herramienta principal para recopilar y mostrar datos sobre el trabajo de la lógica empresarial, utilizamos Graphite junto con Grafana.
En este nivel, es importante adherirse a un enfoque sistemático y tratar de alejarse del binario y no informativo "funciona / no funciona".
Por ejemplo, hay una métrica "Número de pagos con tarjeta exitosos". Si comienza a parpadear, significa que el flujo de trabajo ha disminuido. En este caso, debe comprender cuál es exactamente el motivo y tener en cuenta todos los componentes que intervienen en este proceso. En el caso de una disminución en el número de transacciones, puede pensar inmediatamente en el hecho de que existen dificultades por parte del banco adquirente. Pero los gráficos muestran que con la disponibilidad de los bancos, todo está bien. Luego debe investigar más y, al final, resulta, por ejemplo, que todas las preguntas están en el diseño: por alguna razón, el botón "Pagar" ha desaparecido o se ha vuelto inactivo.
Nivel de contraparte
Aquí estamos hablando de contrapartes específicas, por ejemplo, la adquisición de bancos y comerciantes.
Hemos seleccionado cronogramas y disparadores separados para los adquirentes, cuya disponibilidad debemos rastrear todo el tiempo. Para nosotros, como servicio de pago, la estabilidad es muy importante, por lo tanto, en caso de quiebra de uno de los bancos, transferimos inmediatamente el flujo a la reserva.

Un banco falló, pero otro se conectó automáticamente
Aprendimos a redirigir el flujo de trabajo bastante bien y de manera oportuna si comenzaron los errores.

Uno de los bancos registró un aumento en los errores de pago.

Traducido - y todo está en orden. Los valores del eje Y no son proporcionales
Los adquirentes pueden fallar por una variedad de razones en los niveles ya descritos: sistemas y lógica de negocios. Nadie es inmune a problemas imprevistos y no puede garantizar el 100% de disponibilidad. También vale la pena recordar sobre el trabajo técnico planificado y los lanzamientos, cuando necesite monitorear de cerca el progreso de los asuntos. El tema de la redundancia y el cambio automático es crítico, ya que simple significa suspender los pagos para el negocio.
Trabajamos con varios bancos a la vez para minimizar los riesgos de tiempo de inactividad y optimizar los pagos con tarjeta SR. SR (tasa de éxito) o la conversión es una métrica comercial que se calcula como la relación entre la cantidad de pagos exitosos y la cantidad total de transacciones. Diferentes compañías miden la conversión a su manera: por ejemplo, alguien comienza a medir desde la página de pago, otras después de hacer clic en el botón "Pagar". Pero, en general, SR está influenciado por muchos factores diferentes: MCC, si hay 3D-Secure en el pago, la geografía de los pagadores, pagos recurrentes o no. El SR “promedio hospitalario” es imposible de determinar y no necesita saberlo; en cada caso será su propio valor, que debe optimizarse.
Toda la variedad de errores se puede dividir en dos grandes grupos.
- Errores que pueden evitarse , por ejemplo, el pago desde este país está prohibido. Si está seguro de que este no es un ataque fraudulento y tiene usuarios en todo el mundo, entonces en este caso es necesario conectar la posibilidad de pago con tarjetas de cualquier emisor. Esto, por cierto, se puede hacer en la cuenta personal del cajero de Yandex.
- Errores que no pueden ser influenciados , por ejemplo, la tarjeta está bloqueada. Aquí solo será útil volver a emitir o intentar repetir el pago con otra tarjeta como parte de una nueva transacción.
Muchos eligen un proveedor de pago a una tarifa. De hecho, la tasa no es el único valor que debe tenerse en cuenta. También debe observar el porcentaje de pagos exitosos (SR), porque nadie tiene una conversión del 100% y este valor varía mucho de un banco a otro. También es necesario considerar cómo se ve el escenario de usuario en general: cuántos pasos debe seguir antes de pagar, si la interfaz es clara, etc.
Cómo la conversión afecta las ganancias

En el segundo caso, la comisión por los servicios es mayor, pero la conversión también es mayor, porque se utilizan la reserva y la configuración adecuada de la puerta de enlace.
Como se puede ver en el ejemplo, una mejor solución para el negocio sería tomar un mejor servicio y, a pesar del hecho de que la comisión es mayor debido a la diferencia en la calidad de la adquisición, al final tenemos 3 538 080 - 2 847 000 = 691 080 rublos de diferencia por mes. Y esto es 8 millones al año, lo que es mucho dinero para los negocios.
La conversión, la rotación y las tarifas son arbitrarias, pero el ejemplo demuestra que lo principal en el servicio es su estabilidad y calidad. Y esto ya implica una mayor conversión y, como resultado, una mayor rotación para el comerciante.
Cómo se conecta el comerciante
Como se mencionó anteriormente, tratamos de cubrir todo con métricas y disparadores que se activan automáticamente en un evento. Veamos cómo sucede todo en el ejemplo de monitorear a uno de los comerciantes.
Después de conectarse al Cajero, el comerciante, si es necesario, es monitoreado. Construimos un gráfico en Grafana y configuramos las métricas mediante las cuales se activan alertas automáticas en caso de desviación de los valores "normales" dados.
Utilizamos Moira para enviar notificaciones al chat del grupo de monitoreo, que verificará rápidamente los detalles. La notificación contiene un enlace al cronograma y detalles del incidente.

Absolutamente un ejemplo real de un mensaje de un bot
Después de analizar el gráfico, el especialista del equipo de monitoreo utiliza con mayor frecuencia Kibana para ver los registros. Aquí la situación puede ser prosaica, y luego, en los registros, obviamente, se verá un error o se requerirá la participación adicional de analistas para analizar las causas de la falla.
En el futuro, queremos configurar una notificación automática de los comerciantes sobre los errores de su lado, por ejemplo, sobre la inaccesibilidad del servidor o las respuestas que no son de protocolo. Esto le permitirá responder rápidamente a una falla y brindar información a las contrapartes para eliminar las causas.
Además del aspecto técnico, también supervisamos cuidadosamente las métricas comerciales, como la rotación, los ingresos y la salida, pero este parece ser el tema de las siguientes historias.
Lo mas importante
Mi "día de desobediencia" (que es lo que llamamos una transición temporal a otro departamento) terminó y regresé a Moscú. Durante 2 días en el departamento de monitoreo, aprendí mucho y agilicé el conocimiento actual.
- La tarea de monitoreo es proporcionar información relevante sobre el estado del sistema en todos los niveles;
- Elija métricas y disparadores competentes: 90% de éxito;
- En los servicios de pago, la conversión alcanza la oferta;
- Debe seguir la técnica y recordar las métricas comerciales;
- Necesitamos una visión sistemática de los procesos y la capacidad de analizar relaciones;
Y sin embargo, se agradecido. Monitoreando chicos, gracias!
Eso es todo Haz preguntas, suscríbete a nuestro blog y ven a visitarnos.