Kubernetes Intensive: Empregos de suporte

De 1 a 3 de fevereiro será Slurm-3, intensivo em Kubernetes. Anúncio e programa aqui.


Hoje vou falar um pouco sobre a cozinha interna: como ajudamos os alunos a lidar com a prática e o que ela resulta. Ao mesmo tempo, os futuros participantes entenderão o que esperar do suporte.



Eu mesmo faço cursos pagos de 2 a 3 vezes por ano, sempre faço opções com a prática e raramente termino até o fim. Para mim, a situação parece que eu pedi um quilo de bife em um restaurante: comi o máximo que pude, deixei o resto em um prato. Mas naqueles que vão para Slurm, eu gostaria de encher toda a porção.


No primeiro Slorme, reagimos com calma à prática, dizem eles, damos atribuições e os participantes gerenciam o melhor que podem. E isso levaria ao desastre se não houvesse iniciativa e caras talentosos na platéia: "15 minutos atrás, escrevi em uma conversa sobre o problema, eu já o resolvi e ajudei mais cinco".


Portanto, no segundo Slörm, além de três palestrantes, uma dúzia de funcionários de suporte trabalhou com os alunos: administradores de sistema da equipe Southbridge.


Onde estão os problemas com a prática?


O faça você mesmo se aproxima. Pode-se fazer o passo a passo: "copie a configuração, inicie o manual, pronto, seu cluster está pronto". Seria muito rápido, muito simples e sem sentido. Fizemos o caminho difícil: para concluir a tarefa, você precisa entender o tópico e corrigir manualmente as configurações, configurações etc.


Bola de neve Todos os tópicos e tarefas estão relacionados entre si. Se você não implantou o cluster no primeiro dia, não poderá rolar o aplicativo no segundo. O tópico mais importante e complexo foi Ceph.


Estanho e Fakap


O Ceph é um tópico importante e complexo, e você não pode seguir em frente sem ele. Portanto, a conexão massiva do Ceph com a destrutividade era comparável a um fakap. Em seguida, os apoios foram colocados com ossos.


Erro no slide. Somos todos humanos, falantes também. Havia erros nos slides, e eles queriam dizer que todos os 87 alunos escreveriam em um bate-papo agora, pois nada funciona para eles.


Falhas na transmissão. Compramos um canal dedicado do provedor e mantivemos o canal de backup do megafone, mas, de acordo com a lei da maldade, isso não salvou. No primeiro dia de Slurm, um grande provedor de backbone caiu através do qual o canal foi para o serviço de transmissão do Facecast. Iniciamos a transmissão no YouTube, mas, durante esse período, os palestrantes com estudantes em tempo integral avançaram e os alunos on-line atrasados ​​fizeram um escândalo, inclusive a desconexão das aulas. No dia seguinte, o Facecast mudou o esquema de conexão dos provedores, mas nem todos os usuários ganharam imediatamente um bom sistema. E toda a onda de indignação caiu em nosso apoio.


(O problema, devido à queda do fornecedor, foi resolvido: eles interromperam as aulas, esperaram a capacidade total de trabalho e repetiram todo o material perdido. Tivemos que suportar as defasagens do segundo dia).


Então, o aluno pede ajuda


O suporte deve escolher uma linha de comportamento:
- dar ao aluno um envolvimento independente na solução de problemas;
- encontre o erro do aluno e explique-o;
- faça uma etapa da prática para o aluno.


Existem erros indetectáveis: logon incorreto, letra I em vez de l (i grande em vez de pequeno L), nesse espírito.


Se houve um fakap, uma linha é construída para o suporte. É impossível ajudar com cuidado cinco problemas ao mesmo tempo.


Mas a pressão do tempo era séria: no bate-papo interno de suporte técnico do dia, vários milhares de mensagens surgiram. Os serviços de suporte foram desativados após a meia-noite e começaram a trabalhar às 6 horas da manhã (bênçãos e apoio, e os alunos estão espalhados em diferentes fusos horários).


Portanto, às vezes, em vez de analisar, os participantes receberam uma resposta: "Corrigi tudo, agora seu cluster está funcionando como deveria, siga em frente". Sim, "Faça você mesmo" é escalfado, mas foi possível evitar uma bola de neve.


Pequenas alegrias simples


A equipe de suporte coletou perguntas do bate-papo e um formulário especial, classificou, respondeu e enviou perguntas difíceis aos palestrantes. Portanto, não havia perguntas pendentes.



Verificou-se que era inconveniente para os participantes on-line alternar entre transmissão e console, e não tínhamos um arquivo de texto com comandos, apenas uma apresentação no laptop do orador. Portanto, um dos suportes do salão discou e enviou comandos dos slides para o telegrama.


Em geral, uma dúzia de trabalhadores esforçados fica atrás de alto-falantes brilhantes, graças aos quais a grande maioria dos participantes chegou ao fim da prática. Felizmente, a Southbridge está envolvida no suporte de infraestrutura, todos podem ajudar conosco.


Slurm-3 será melhor que Slurm-2


O que foi feito espontaneamente no Slerm-2, sistematizamos e otimizamos:
- fixamos nosso grupo de apoio para cada apoio, para que os alunos conheçam seu apoio pessoalmente;
- escrever um banco de dados de erros e soluções típicas;
- preparando atalhos "Se você não domina a prática, mas deseja seguir em frente";
- preparar um memorando do participante com instruções sobre a organização do local de trabalho e interação com o suporte.


Slurm-3: Iniciar o cluster Kubernetes

Source: https://habr.com/ru/post/pt433922/


All Articles