Kubernetes Intensive: Support Jobs

Le 1er et 3 février sera Slurm-3, intensif sur Kubernetes. Annonce et programme ici.


Aujourd'hui, je vais vous parler un peu de la cuisine intérieure: comment nous aidons les élèves à faire face à la pratique et ce qui en découle. Dans le même temps, les futurs participants comprendront à quoi s'attendre du soutien.



Je prends moi-même des cours rémunérés 2 à 3 fois par an, je prends toujours des options avec la pratique, et je termine très rarement jusqu'au bout. Pour moi, la situation me semble avoir commandé un steak au kilo dans un restaurant: j'ai mangé autant que j'ai pu, j'ai laissé le reste sur une assiette. Mais pour ceux qui vont à Slurm, j'aimerais farcir toute la portion.


Au premier Slorme, nous avons réagi calmement à la pratique, disent-ils, nous donnons des devoirs, et les participants se débrouillent du mieux qu'ils peuvent. Et cela conduirait à un désastre s'il n'y avait pas d'initiative et de gars talentueux dans le public: "Il y a 15 minutes, j'ai écrit dans un chat sur le problème, je l'ai déjà résolu moi-même et j'en ai aidé cinq autres."


Par conséquent, dans le deuxième Slörm, en plus de trois conférenciers, une douzaine de membres du personnel de soutien ont travaillé avec des étudiants: des administrateurs système de l'équipe Southbridge.


Où sont les problèmes avec la pratique?


Le Do It Yourself s'approche de lui-même. On pourrait faire Walkthrough: "copiez la configuration, démarrez le playbook, le tour est joué, votre cluster est prêt." Ce serait très rapide, très simple et très dénué de sens. Nous avons fait le chemin: pour terminer la tâche, vous devez comprendre le sujet et corriger manuellement les configurations, les paramètres, etc.


Boule de neige Tous les sujets et tâches sont liés les uns aux autres. Si vous n'avez pas déployé le cluster le premier jour, vous ne pourrez pas lancer l'application le deuxième. Le sujet le plus important et le plus complexe était Ceph.


Étain et Fakap


Ceph est un sujet clé et complexe, et vous ne pouvez pas continuer sans lui, donc le fait de brancher massivement Ceph sur la destructivité était comparable à un fakap. Ensuite, les supports ont été posés avec des os.


Erreur sur la diapositive. Nous sommes tous humains, orateurs aussi. Il y avait des erreurs sur les diapositives, et cela signifiait que les 87 étudiants écriraient maintenant dans un chat, car rien ne fonctionne pour eux.


Difficultés de diffusion. Nous avons acheté un canal dédié au fournisseur et gardé le canal de sauvegarde du mégaphone, mais selon la loi de la méchanceté, cela n'a pas sauvé. Le premier jour de Slurm, un important fournisseur de dorsale est tombé par l'intermédiaire duquel la chaîne est passée au service de diffusion Facecast. Nous avons commencé la diffusion sur YouTube, mais pendant ce temps, les intervenants avec des étudiants à temps plein se sont précipités et les étudiants en ligne à la traîne ont fait un scandale, pouvant aller jusqu'à la déconnexion des cours. Le lendemain, Facecast a changé le schéma de connexion des fournisseurs, mais tous les utilisateurs n'ont pas immédiatement obtenu un bon système. Et toute la vague d'indignation est tombée sur notre soutien.


(Le problème à cause du fournisseur tombé a été résolu: ils ont arrêté les cours, attendu la pleine performance et répété tout le matériel manqué. J'ai dû supporter les retards du deuxième jour).


Donc, l'étudiant demande de l'aide


Le support doit choisir une ligne de comportement:
- donner à l'étudiant la possibilité de se lancer de façon autonome dans le dépannage;
- trouver l'erreur de l'élève et l'expliquer;
- faire une étape de pratique pour l'étudiant.


Il y a des erreurs indétectables: connexion incorrecte, lettre I au lieu de l (grand i au lieu de petit L), dans cet esprit.


S'il y avait un fakap, une ligne est établie vers le support. Il est impossible d'aider soigneusement cinq à la fois dans le temps.


Mais la pression du temps était sérieuse: dans le chat interne du support technique de la journée, plusieurs milliers de messages sont arrivés. Les services de soutien ont été fermés après minuit et ont commencé à fonctionner à 6 heures du matin (bénédictions et soutien, et les étudiants sont dispersés dans différents fuseaux horaires).


Par conséquent, parfois au lieu d'analyser, les participants ont reçu la réponse: "J'ai tout corrigé, maintenant votre cluster fonctionne comme il se doit, continuez." Oui, "Do It Youself" est braconné, mais il a été possible d'éviter une boule de neige.


Petites joies simples


L'équipe de support a collecté des questions sur le chat et un formulaire spécial, trié, répondu et envoyé des questions difficiles aux intervenants. Par conséquent, il n'y avait pas de questions suspendues.



Il s’est avéré qu’il n’était pas commode pour les participants en ligne de basculer entre la diffusion et la console, et nous n’avions pas de fichier texte avec des commandes, seulement une présentation sur l’ordinateur portable du haut-parleur. Par conséquent, l'un des supports assis dans le hall a composé et envoyé des commandes des diapositives au télégramme.


En général, une douzaine de travailleurs acharnés se tiennent derrière des orateurs brillants, grâce auxquels la grande majorité des participants ont atteint la fin de la pratique. Heureusement, Southbridge est engagée dans le soutien des infrastructures, tout le monde peut nous aider.


Slurm-3 sera meilleur que Slurm-2


Ce qui a été fait spontanément sur Slerm-2, nous systématisons et optimisons:
- nous fixons notre groupe de soutien pour chaque soutien afin que les étudiants connaissent leur soutien en personne;
- rédiger une base de données d'erreurs typiques et de solutions;
- préparer des raccourcis «Si vous n'avez pas maîtrisé la pratique, mais que vous souhaitez continuer»;
- préparer une note du participant avec des instructions sur l'organisation du lieu de travail et l'interaction avec le support.


Slurm-3: lancement du cluster Kubernetes

Source: https://habr.com/ru/post/fr433922/


All Articles