Salut Nous continuons la série de mitaps Backend United. La quatrième réunion, appelée Okroshka, sera consacrée aux incidents. Avec des collègues de Tutu.Ru, Ozon et Avito, nous parlerons de la gestion des incidents, des outils pour améliorer la réponse aux incidents et de la valeur de la dette technique.
La réunion aura lieu le 10 août, à partir de midi. Inscrivez-vous et invitez des collègues. Sous la cinématique - résumés, liens vers l'enregistrement et la diffusion vidéo du mitap.

Rapports
Outils simples pour améliorer la réponse aux incidents: expérience Tutu. Andrey Borzov (Tutu.ru)

Nous voulons tous que nos utilisateurs soient satisfaits et que les services fonctionnent et soient rapidement réparés après les pannes. Plus il y a de développeurs et d'équipes, plus de services différents, plus d'outils de contrôle différents que tout cela fonctionne. Et plus des actions possibles qui doivent être prises pour diagnostiquer et récupérer.
Je vais vous dire comment des solutions techniques simples nous ont aidés à nous faciliter la vie lors d'incidents. Comment, en utilisant les fonctionnalités de chat, presque sans magie, nous avons donné aux équipes un système personnalisable qui rend les diagnostics importants pour elles plus proches, les alertes de différents systèmes sont plus utiles et leur routage est plus facile.
Et en prime, je vais vous dire comment vous pouvez mesurer les «neuf» précieux de la disponibilité de votre service, et ce qui s'est passé avec nous.
Travailler avec Production Explosions: détection, estimation des pertes, gestion des incidents. Dmitry Khimion (Avito)

Est-il arrivé dans votre pratique qu'un échec, qui jusqu'à récemment paraissait insignifiant, ait conduit au fait que toute la nourriture était soignée? Ou avez-vous résolu un problème qui n'était pas particulièrement grave?
Comment comprendre l'effet réel et reconnaître une bombe à retardement? Comment gérer le flux de bugs et plantages et en isoler les significatifs? Dans le rapport, je vais vous dire comment la pratique est organisée dans Avito et quelles recherches et automatisations nous utilisons dans notre travail.
AutoLSR - Collecte de données automatisée pour les incidents importants. Vladimir Kolobaev (Avito)

Parfois, des situations surviennent où tout tombe en panne, tous les graphiques sont rouges et tout est en feu. Il semble qu'avec une analyse détaillée, tout devient clair ... mais non. Il n'est pas facile de saisir la cause première du problème, surtout lorsque vous n'avez pas une image complète de ce qui se passe dans le monolithe, les services, les microservices, les bases de données, dans la tête des développeurs, etc.
Je vais vous dire comment nous avons collecté toutes les connaissances secrètes, les scénarios de défaillance de divers systèmes et services et transféré tout cela au code à des fins de détection automatisée et d'analyse initiale des incidents importants.
Nous l'avons cassé maintenant, mais nous le réparerons plus tard. La dette technologique et sa valeur. Boris Kaiser (Ozon)

Des taux de développement élevés entraînent une accélération du taux d'accumulation de la dette technique. De plus en plus souvent, nous devons faire des concessions sur la stabilité et la qualité des solutions développées au profit de nouvelles fonctionnalités et de nouveaux attributs de produits. Sans un contrôle approprié des volumes de dette technique, la situation avec la stabilité du système et, par conséquent, avec la stabilité technique de l'entreprise pourrait se détériorer. Je parlerai de ce que nous faisons pour contrôler tout ce qui tombe en panne et est rapidement réparé, comment nous aidons les équipes à ne pas oublier ces promesses, et nous fournissons à l'entreprise des informations complètes et compréhensibles sur ce qui s'est passé, comment il a été réparé et ce que nous ferons pour cela ne s'est pas reproduit.
Horaire
12h30 - 13h15 - Outils simples pour améliorer la réponse aux incidents: expérience Tutu . Andrey Borzov (Tutu.ru)
13h20 - 14h00 - Travail avec Production Explosions: détection, estimation des pertes, gestion des incidents . Dmitry Khimion (Avito)
14h00 - 14h45 - Déjeuner
14 h 45 - 15 h 30 - AutoLSR - collecte automatisée de données pour les incidents importants . Vladimir Kolobaev (Avito)
15:40 - 16:20 - Nous l'avons cassé maintenant, mais nous le réparerons plus tard. La dette technologique et sa valeur . Boris Kaiser (Ozon)
16:30 - Afterparty à ONE MORE PUB
Mots de passe et apparences
Mitap débutera le 10 août à 12h00. La participation à l'événement est gratuite, mais vous devez vous inscrire . Veuillez indiquer votre nom et prénom comme sur votre passeport, et n'oubliez pas de l'emporter (ou un permis de conduire) avec vous, sinon vous ne serez pas admis au bureau.
Adresse: bureau Avito, Lesnaya 7 .
Regardez la diffusion en direct du mitap sur la chaîne YouTube AvitoTech.
A très bientôt!