Dix personnes sur 90 mille sites: comment ne pas devenir fou

Salut, je m'appelle Vera Sivakova. Je travaille avec des partenaires clés de Yandex.Kassi - Je connecte de grands magasins et services, lance des projets et voyage à des réunions à travers le monde. En général, je comprends que tout allait bien.


Chaque employé de Yandex.Money peut changer de profession une fois par an - choisissez un département et travaillez-y pendant plusieurs jours. Par conséquent, il y a un mois, je me suis assis à Sapsan et je suis arrivé à Saint-Pétersbourg. Un service de surveillance y travaille, qui surveille également le bon fonctionnement de 90 000 sites connectés à la billetterie, et nous avons décidé d'unir nos forces.



Comment ne pas devenir fou? Pas exactement pareil (source: reddit.com)


C'est une histoire sur le fonctionnement de notre surveillance et sur ce que j'ai appris en quelques jours dans un autre département.


Chaque seconde, environ 600 transactions passent par le service et tout cela doit être surveillé en temps réel - mais à quelle heure exacte est-il temps de sonner l'alarme si quelque chose se produit? Nous avons besoin d'un regard systématique sur à peu près tout.


Il est recommandé d'analyser le système d'un point de vue technique et de ne pas oublier les paramètres commerciaux - le nombre de paiements, le chiffre d'affaires et d'autres paramètres.


Dans les petits systèmes, le regard vigilant de l'administrateur principal (le plus souvent le seul) suffit. Mais quand il y a beaucoup de processus, les employés ne peuvent pas tout surveiller manuellement, donc l'automatisation maximale sera la meilleure stratégie. Rien ne fonctionnera sans connaissances d'experts et efforts d'équipe, car la surveillance est une amélioration continue, une analyse et la possibilité de choisir des paramètres et des déclencheurs compétents. Ils travailleront en cas d'écart par rapport aux conditions données et signaleront une anomalie.


Nous distinguons trois niveaux de surveillance, chacun ayant ses propres indicateurs importants - le niveau du système, le niveau de la logique métier et le niveau des contreparties.


Niveau système


La chose la plus importante ici est la surveillance permanente des infrastructures. Parmi les outils que nous utilisons Zabbix pour collecter des données en temps réel - il informe sur le fonctionnement des serveurs et des centres de données, la qualité du réseau, la disponibilité des composants et des sources de données.


La surveillance de l'infrastructure informatique est un travail très responsable, car l'échec à ce niveau est lourd d'inopérabilité du système et de mesures désespérées. Par conséquent, il est important non seulement de répondre aux problèmes de «clignotement», mais également d'analyser les tendances et les données historiques - cela permettra d'avertir en temps opportun des points de défaillance potentiels et de prévoir la nécessité d'une mise à l'échelle. La règle fonctionne pour tous les indicateurs et niveaux de suivi, y compris les entreprises.


Pour les points critiques, les seuils de déclenchement doivent être sélectionnés ci-dessous. Par exemple, si le temps de réponse d'un routeur augmente, nous transférons le trafic vers un autre et éliminons la cause sur le premier. Cela a déclenché un déclencheur d'avertissement, qui vous permet de recevoir des notifications de problèmes potentiels très tôt, ce qui donne une réserve de temps pour la réponse, la possibilité de prévoir les changements et d'éviter les catastrophes.


Niveau de logique métier


Chaque équipe définit les processus à suivre, leur priorité et leurs paramètres personnels. Par exemple, l'équipe Cashier dispose de dizaines de processus commerciaux, tels que le paiement par chaque méthode disponible - cartes, portefeuilles électroniques, via des banques et des terminaux en ligne, le commerce mobile, l'envoi de registres, etc. En tant qu'outil principal de collecte et d'affichage de données sur le travail de la logique métier, nous utilisons Graphite en collaboration avec Grafana.


À ce niveau, il est important d'adhérer à une approche systématique et d'essayer de s'éloigner du binaire et non informatif «fonctionne / ne fonctionne pas».


Par exemple, il existe une mesure «Nombre de paiements par carte réussis». S'il commence à clignoter, cela signifie que le flux de travail a diminué. Dans ce cas, vous devez comprendre quelle est exactement la raison et prendre en compte tous les composants impliqués dans ce processus. En cas de diminution du nombre de transactions, vous pouvez immédiatement penser au fait qu'il y a des difficultés du côté de la banque acquéreuse. Mais les graphiques montrent qu'avec la disponibilité des banques, tout va bien. Ensuite, vous devez enquêter plus avant, et à la fin, il s'avère, par exemple, que toutes les questions sont dans la mise en page: pour une raison quelconque, le bouton "Payer" a disparu ou il est devenu inactif.


Niveau de contrepartie


Nous parlons ici de contreparties spécifiques - par exemple, l'acquisition de banques et de commerçants.


Nous avons sélectionné des plannings et des déclencheurs distincts pour les acquéreurs, dont nous devons suivre en permanence la disponibilité. Pour nous, en tant que service de paiement, la stabilité est très importante, par conséquent, en cas de défaillance de l'une des banques, nous transférons immédiatement le flux à la réserve.



Une banque a échoué, mais une autre s'est connectée automatiquement


Nous avons appris à rediriger le flux de travail assez bien et en temps opportun si des erreurs se sont produites.



Une des banques a enregistré une augmentation des erreurs de paiement



Traduit - et tout est en ordre. Les valeurs de l'axe Y ne sont pas proportionnées


Les acquéreurs peuvent échouer pour diverses raisons aux niveaux déjà décrits - systèmes et logique métier. Personne n'est à l'abri de problèmes imprévus et ne peut garantir une disponibilité à 100%. Il convient également de se souvenir des travaux techniques et des versions prévus, lorsque vous devez surveiller de près l'avancement des affaires. La question de la redondance et de la commutation automatique est critique, car simple signifie arrêter les paiements pour l'entreprise.


Nous travaillons avec plusieurs banques à la fois pour minimiser les risques d'indisponibilité et optimiser les paiements par carte SR. SR (taux de réussite) ou bien la conversion est une mesure commerciale qui est calculée comme le rapport du nombre de paiements réussis au nombre total de transactions. Différentes entreprises mesurent la conversion à leur manière: par exemple, quelqu'un commence à mesurer à partir de la page de paiement, d'autres après avoir cliqué sur le bouton "Payer". Mais en général, SR est influencé par de nombreux facteurs différents - MCC, qu'il y ait 3D-Secure dans le paiement, la géographie des payeurs, les paiements récurrents ou non. La RS «moyenne hospitalière» est impossible à déterminer et n'a pas besoin d'être connue - dans chaque cas, ce sera sa propre valeur, qui devra être optimisée.


Toute la variété des erreurs peut être divisée en deux grands groupes.


  1. Erreurs qui peuvent être évitées - par exemple, le paiement depuis ce pays est interdit. Si vous êtes sûr qu'il ne s'agit pas d'une attaque frauduleuse et que vous avez des utilisateurs partout dans le monde, alors dans ce cas, il est nécessaire de connecter la possibilité de paiement à partir des cartes de tous les émetteurs. Soit dit en passant, cela peut être fait dans le compte personnel du caissier Yandex.
  2. Erreurs qui ne peuvent pas être influencées - par exemple, la carte est verrouillée. Ici, seule une nouvelle émission ou une tentative de répétition du paiement avec une autre carte dans le cadre d'une nouvelle transaction sera utile.

Beaucoup choisissent un fournisseur de paiement à un taux. En fait, le taux n'est pas la seule valeur à prendre en compte. Vous devez également examiner le pourcentage de paiements réussis (SR) - car personne n'a 100% de conversion et cette valeur varie considérablement d'une banque à l'autre. Il est également nécessaire de considérer à quoi ressemble le scénario utilisateur en général: combien d'étapes vous devez passer avant de payer, si l'interface est claire, etc.


Comment la conversion affecte les bénéfices



Dans le deuxième cas, la commission pour les services est plus élevée, mais la conversion est également plus élevée, car la réservation et la configuration appropriée de la passerelle sont utilisées.


Comme vous pouvez le voir sur l'exemple, une meilleure solution pour l'entreprise serait de prendre un meilleur service et, malgré le fait que la commission est plus élevée en raison de la différence de qualité de l'acquisition, nous avons finalement 3538880 - 2847000 = 691080 roubles de différence par mois! Et cela représente 8 millions par an, ce qui représente beaucoup d'argent pour les entreprises.


La conversion, le chiffre d'affaires et les tarifs sont arbitraires, mais l'exemple montre que l'essentiel du service est sa stabilité et sa qualité. Et cela implique déjà une conversion accrue et, par conséquent, un chiffre d'affaires plus important pour le commerçant.


Comment le commerçant est connecté


Comme mentionné précédemment, nous essayons de tout couvrir avec des métriques et des déclencheurs qui se déclenchent automatiquement sur un événement. Voyons comment tout se passe sur l'exemple de la surveillance d'un des marchands.


Après la connexion à la caisse, le commerçant, si nécessaire, est surveillé. Nous construisons un graphique dans Grafana et configurons les métriques par lesquelles les alertes automatiques sont déclenchées en cas d'écart par rapport aux valeurs "normales" données.


Nous utilisons Moira pour envoyer des notifications au chat du groupe de surveillance, qui vérifiera rapidement les détails. La notification contient un lien vers le calendrier et les détails de l'incident.



Absolument un vrai exemple de message d'un bot


Après avoir analysé le graphique, le spécialiste du groupe de surveillance utilise le plus souvent Kibana pour visualiser les journaux. Ici, la situation peut être prosaïque, puis dans les journaux, évidemment, une erreur sera visible ou une participation supplémentaire des analystes sera nécessaire pour analyser les causes de l'échec.


À l'avenir, nous souhaitons configurer une notification automatique des commerçants en cas d'erreur de leur côté, par exemple, en cas d'inaccessibilité du serveur ou de réponses non protocolaires. Cela vous permettra de répondre rapidement à une défaillance et de fournir des informations aux contreparties pour éliminer les causes.


En plus du côté technique, nous surveillons également attentivement les mesures commerciales telles que le chiffre d'affaires, les revenus et les sorties, mais cela semble être le sujet des histoires suivantes.


La chose la plus importante


Ma «journée de désobéissance» (qui est ce que nous appelons une transition temporaire vers un autre département) s'est terminée, et je suis retourné à Moscou. Pendant 2 jours dans le service de suivi, j'ai beaucoup appris et rationalisé les connaissances actuelles.


  • La tâche de surveillance consiste à fournir des informations pertinentes sur l'état du système à tous les niveaux;
  • Choisissez des paramètres et des déclencheurs compétents - 90% de réussite;
  • Dans les services de paiement, la conversion atteint l'enchère;
  • Vous devez suivre la technique et vous souvenir des mesures commerciales;
  • Nous avons besoin d'une vision systématique des processus et de la capacité d'analyser les relations;

Et pourtant - soyez reconnaissant. Surveillez les gars, merci!




C’est tout. Posez des questions, abonnez-vous à notre blog et venez visiter.

Source: https://habr.com/ru/post/fr426583/


All Articles