Kubernetes Intensive: Support Jobs

Der 1. bis 3. Februar ist Slurm-3, intensiv auf Kubernetes. Ankündigung und Programm hier.


Heute erzähle ich Ihnen ein wenig über die innere Küche: Wie wir den Schülern helfen, mit der Praxis umzugehen und was daraus entsteht. Gleichzeitig werden zukünftige Teilnehmer verstehen, was sie von der Unterstützung erwarten können.



Ich selbst nehme 2-3 mal im Jahr an bezahlten Kursen teil, nehme immer Optionen mit Übung und beende sie sehr selten bis zum Ende. Für mich sieht die Situation so aus, als hätte ich ein Kilogramm Steak in einem Restaurant bestellt: Ich habe so viel gegessen, wie ich konnte, den Rest auf einem Teller liegen lassen. Aber bei denen, die nach Slurm gehen, möchte ich die ganze Portion stopfen.


Beim ersten Slorme haben wir ruhig auf die Praxis reagiert, sie sagen, wir geben Aufträge und die Teilnehmer schaffen es so gut sie können. Und dies würde zu einer Katastrophe führen, wenn es keine Initiative und keine talentierten Leute im Publikum gäbe: "Vor 15 Minuten schrieb ich in einem Chat über das Problem, ich habe es bereits selbst gelöst und fünf weiteren geholfen."


Daher arbeiteten im zweiten Slörm neben drei Rednern ein Dutzend Support-Mitarbeiter mit Studenten: Systemadministratoren aus dem Southbridge-Team.


Wo liegen die Probleme mit der Praxis?


Die Do It Yourself nähern sich. Man könnte Walkthrough machen: "Kopieren Sie die Konfiguration, starten Sie das Playbook, voila, Ihr Cluster ist bereit." Es wäre sehr schnell, sehr einfach und sehr bedeutungslos. Wir sind den harten Weg gegangen: Um die Aufgabe abzuschließen, müssen Sie das Thema verstehen und die Konfigurationen, Einstellungen usw. manuell korrigieren.


Schneeball Alle Themen und Aufgaben sind miteinander verbunden. Wenn Sie den Cluster am ersten Tag nicht bereitgestellt haben, können Sie die Anwendung am zweiten Tag nicht rollen. Das wichtigste und komplexeste Thema war Ceph.


Zinn und Fakap


Ceph ist ein zentrales und komplexes Thema, und ohne es kann man nicht weitermachen. Daher war das massive Einstecken von Ceph in die Destruktivität vergleichbar mit einem Fakap. Dann wurden die Stützen mit Knochen gelegt.


Fehler auf der Folie. Wir sind alle Menschen, auch Sprecher. Es gab Fehler auf den Folien und sie bedeuteten, dass alle 87 Schüler jetzt in einem Chat schreiben würden, da für sie nichts funktioniert.


Broadcast-Pannen. Wir haben einen dedizierten Kanal vom Anbieter gekauft und den Backup-Kanal vom Megaphon ferngehalten, aber nach dem Gesetz der Gemeinheit hat dies nicht gespart. Am ersten Tag von Slurm fiel ein großer Backbone-Anbieter aus, über den der Kanal zum Facecast-Rundfunkdienst durchging. Wir haben die Sendung auf YouTube gestartet, aber während dieser Zeit rannten die Redner mit Vollzeitstudenten vorwärts, und die zurückgebliebenen Online-Studenten machten einen Skandal, bis hin zur Trennung vom Unterricht. Am nächsten Tag änderte Facecast das Verbindungsschema der Anbieter, aber nicht alle Benutzer verdienten sofort ein gutes System. Und die ganze Welle der Empörung fiel auf unsere Unterstützung.


(Das Problem wegen des gefallenen Anbieters wurde gelöst: Sie stoppten den Unterricht, warteten auf die volle Arbeitsfähigkeit und wiederholten das gesamte vermisste Material. Wir mussten die Verzögerungen des zweiten Tages ertragen.)


Also bittet der Schüler um Hilfe


Der Support sollte eine Verhaltenslinie wählen:
- dem Schüler die Möglichkeit geben, sich selbständig an der Fehlersuche zu beteiligen;
- den Fehler des Schülers finden und erklären;
- Machen Sie eine Übungsstufe für den Schüler.


Es gibt nicht erkennbare Fehler: falsche Anmeldung, Buchstabe I anstelle von l (großes i anstelle von kleinem L) in diesem Sinne.


Wenn es einen Fakap gab, wird eine Linie zur Unterstützung aufgebaut. Es ist unmöglich, fünf auf einmal sorgfältig zu helfen.


Der Zeitdruck war jedoch ernst: Im internen Chat des technischen Supports für den Tag kamen mehrere tausend Nachrichten an. Die Unterstützungsdienste wurden nach Mitternacht abgeschaltet und begannen um 6 Uhr morgens zu arbeiten (zum Glück sind der Support und die Schüler in verschiedenen Zeitzonen verteilt).


Daher erhielten die Teilnehmer manchmal anstelle des Parsens eine Antwort: "Ich habe alles korrigiert, jetzt funktioniert Ihr Cluster wie es sollte, fahren Sie fort." Ja, "Do It Youself" ist pochiert, aber es war möglich, einen Schneeball zu vermeiden.


Kleine einfache Freuden


Das Support-Team sammelte Fragen aus dem Chat und ein spezielles Formular, sortierte, beantwortete und schickte schwierige Fragen an die Redner. Daher gab es keine hängenden Fragen.



Es stellte sich heraus, dass es für Online-Teilnehmer unpraktisch war, zwischen Rundfunk und Konsole zu wechseln, und wir haben keine Textdatei mit Befehlen, sondern nur eine Präsentation auf dem Laptop des Sprechers. Daher wählte eine der in der Halle sitzenden Unterstützungen und sendete Befehle von den Folien an das Telegramm.


Im Allgemeinen stehen ein Dutzend harte Arbeiter hinter hellen Lautsprechern, dank derer die überwiegende Mehrheit der Teilnehmer das Ende der Übung erreicht hat. Glücklicherweise engagiert sich Southbridge für die Unterstützung der Infrastruktur. Jeder kann uns helfen.


Slurm-3 wird besser sein als Slurm-2


Was auf Slerm-2 spontan gemacht wurde, systematisieren und optimieren wir:
- Wir legen unsere Selbsthilfegruppe für jede Unterstützung fest, damit die Schüler ihre Unterstützung persönlich kennen.
- eine Datenbank mit typischen Fehlern und Lösungen schreiben;
- Abkürzungen vorbereiten „Wenn Sie die Übung nicht beherrschen, aber weitermachen möchten“;
- ein Memo des Teilnehmers mit Anweisungen zur Organisation des Arbeitsplatzes und zur Interaktion mit dem Support erstellen.


Slurm-3: Starten Sie den Kubernetes-Cluster

Source: https://habr.com/ru/post/de433922/


All Articles