Administrateurs système partout dans le monde, félicitations pour vos vacances professionnelles!
Nous n'avons plus d'administrateur système (enfin, presque). Cependant, leur tradition est encore fraîche. En l'honneur de la fête, nous avons préparé cette épopée. Asseyez-vous, chers lecteurs.

Il était une fois, le monde de Dodo IS était en feu. À cette époque, la tâche principale de nos administrateurs système était de survivre un autre jour et de ne pas pleurer.
Il était une fois, les programmeurs écrivaient un peu et lentement le code et ne l'étalaient sur prod qu'une fois par semaine. Les problèmes ne se posaient donc qu'une fois tous les sept jours. Mais ensuite, ils ont commencé à écrire plus de code et à le diffuser plus souvent, les problèmes ont commencé à augmenter, parfois tout a commencé à s'effondrer et la restauration a empiré. Les administrateurs système ont souffert, mais ont souffert de ce stand.
Ils étaient assis à la maison le soir avec de l'anxiété dans leur cœur. Et chaque fois que cela s'est produit, "cela n'a jamais été le cas, et encore une fois le monitoring envoie un signal d'aide: Mec, le monde est en feu!". Ensuite, nos administrateurs système ont mis leurs imperméables rouges, des shorts sur des leggings, ont fait des boucles sur leur front et ont volé pour sauver le monde Dodo.
Attention, une petite explication. Les administrateurs système classiques qui servent le matériel dans Dodo IS ne l'ont jamais été. Nous avons immédiatement fait avancer Azure dans les nuages.
Qu'ont-ils fait:
- si quelque chose se casse, nous faisons en sorte qu'il soit réparé;
- jonglé avec des serveurs au niveau expert;
- Responsable du réseau virtuel dans Azure
- responsable des choses de bas niveau, par exemple, les interactions des composants (* dans un murmure * dans lequel parfois ils ne fouillaient pas le nichrome);
- le serveur se reconnecte;
- et bien d'autres encore sauvages.
La vie de l'équipe d'ingénieurs en infrastructure (comme nous appelions nos administrateurs système) a alors consisté à éteindre des incendies et des bancs d'essai incessants. Ils ont vécu et pleuré, puis ont décidé de penser: qu'est-ce qui est si mauvais, peut-être pouvons-nous faire mieux? Par exemple, nous ne diviserons pas les gens en programmeurs et administrateurs système?
Tâche
Éléments fournis: il y a un administrateur système qui a des serveurs dans la zone de responsabilité, un réseau qui le connecte à d'autres serveurs, des programmes au niveau de l'infrastructure (le serveur Web qui héberge l'application, un système de gestion de base de données, etc.). Et il y a un programmeur dont le domaine de responsabilité est le code de travail.
Et il y a des choses qui sont à la jonction. À qui incombe cette responsabilité?
Habituellement, à cette jonction, nos administrateurs système et programmeurs se rencontraient et cela commençait:
- Mec, rien ne fonctionne, probablement à cause de l'infrastructure.
- Mec, c'est dans le code.
Une fois à ce moment, une barrière a commencé à se développer entre eux, à travers laquelle ils ont jeté joyeusement du caca. La tâche, comme un caca, a été jetée d'un côté à l'autre de la clôture. Dans ce cas, personne n'a réussi à résoudre la situation. Sourire triste.
Un rayon de soleil a percé un ciel nuageux, quand il y a plusieurs années, Google a eu l'idée de ne pas faire les choses, mais plutôt de faire une chose courante.
Mais que se passe-t-il si vous décrivez tout comme du code?
En 2016, Google a publié une brochure «Site Reliability Engineering» sur la transformation du rôle d'un administrateur système: du Master of Magic à une approche d'ingénierie formelle pour l'utilisation de logiciels et l'automatisation. Ils ont eux-mêmes traversé toutes les épines et les obstacles, l'ont compris et ont décidé de partager cela avec le monde. Le livre est dans le domaine public
ici .
Le livre contient des vérités simples:
- tout faire comme du code est bon;
- l'utilisation d'une approche d'ingénierie est bonne;
- faire un bon suivi, c'est bien;
- il est également bon d'empêcher la libération du service s'il n'a pas de consignation et de surveillance claires.
Ces pratiques ont été lues par notre Gleb (
entropie ), et c'est parti. Nous introduisons! Nous sommes maintenant dans une phase de transition. L'équipe SRE est formée (il y a 6 spécialistes prêts à l'emploi, 6 autres sont à bord) et est prête à changer le monde entièrement en code pour le mieux.
Nous créons notre infrastructure de manière à permettre aux développeurs de gérer pleinement leurs environnements et de collaborer avec SRE.
Vangem au lieu de conclusions
L'administrateur système est une profession digne. Mais la connaissance de la partie système nécessite également d'excellentes compétences en génie logiciel.
Les systèmes deviennent de plus en plus simples, et la connaissance super unique de l'administration de serveurs de fer devient de moins en moins populaire chaque année. La technologie cloud évince le besoin de ces connaissances.
Un bon administrateur système dans un avenir proche devra avoir de bonnes compétences en génie logiciel. Mieux encore, il a de bonnes compétences dans ce domaine.
Personne ne sait prédire l'avenir jusqu'à ce qu'il arrive, mais nous pensons qu'avec le temps, il y aura de moins en moins d'entreprises qui voudront augmenter le personnel infiniment gonflé d'administrateurs système. Bien sûr, les amoureux resteront. Aujourd'hui, peu montent à cheval, utilisent principalement des voitures, bien qu'il y ait des amoureux ...
Le tout avec un administrateur système de jour, tout le code!