El 1 y 3 de febrero será Slurm-3, intensivo en Kubernetes. Anuncio y programa aquí.
Hoy les contaré un poco sobre la cocina interior: cómo ayudamos a los estudiantes a hacer frente a la práctica y lo que resulta de ella. Al mismo tiempo, los futuros participantes entenderán qué esperar del apoyo.

Yo mismo tomo cursos pagados 2-3 veces al año, siempre tomo opciones con práctica, y muy rara vez lo termino hasta el final. Para mí, la situación parece que pedí un filete de kilogramo en un restaurante: comí todo lo que pude, dejé el resto en un plato. Pero en aquellos que van a Slurm, me gustaría rellenar toda la porción.
En el primer Slorme, reaccionamos con calma a la práctica, dicen, asignamos tareas y los participantes se las arreglan lo mejor que pueden. Y esto llevaría al desastre si no hubiera ninguna iniciativa y muchachos con talento en la audiencia: "Hace 15 minutos escribí en un chat sobre el problema, ya lo resolví yo mismo y ayudé a cinco más".
Por lo tanto, en el segundo Slörm, además de tres oradores, una docena de personal de apoyo trabajó con los estudiantes: administradores de sistemas del equipo de Southbridge.
¿Dónde están los problemas con la práctica?
El hágalo usted mismo se acerca a sí mismo. Uno podría hacer Tutorial: "copie la configuración, inicie el libro de jugadas, listo, su clúster está listo". Sería muy rápido, muy simple y sin sentido. Seguimos el camino difícil: para completar la tarea, debe comprender el tema y corregir manualmente las configuraciones, configuraciones, etc.
Bola de nieve Todos los temas y tareas están relacionados entre sí. Si no implementó el clúster el primer día, no podrá lanzar la aplicación el segundo día. El tema más importante y complejo fue Ceph.
Estaño y Fakap
Ceph es un tema clave y complejo, y no puedes seguir adelante sin él, por lo que el taponamiento masivo de Ceph en destructividad fue comparable a un fakap. Luego los soportes se colocaron con huesos.
Error en la diapositiva. Todos somos humanos, hablantes también. Hubo errores en las diapositivas, y significaron que los 87 estudiantes escribirían en un chat ahora, ya que nada funciona para ellos.
Transmitir fallos. Compramos un canal dedicado del proveedor y conservamos el canal de respaldo del megáfono, pero de acuerdo con la ley de la mezquindad, esto no se guardó. El primer día de Slurm, un importante proveedor de red troncal cayó a través del cual el canal pasó al servicio de transmisión Facecast. Comenzamos la transmisión en YouTube, pero durante este tiempo, los oradores con estudiantes de tiempo completo corrieron hacia adelante, y los estudiantes rezagados en línea hicieron un escándalo, hasta e incluyendo la desconexión de las clases. Al día siguiente, Facecast cambió el esquema de conexión de los proveedores, pero no todos los usuarios obtuvieron de inmediato un buen sistema. Y toda la ola de indignación cayó sobre nuestro apoyo.
(El problema debido al proveedor caído se resolvió: detuvieron las clases, esperaron la capacidad de trabajo completa y repitieron todo el material perdido. Tuvimos que soportar los retrasos del segundo día).
Entonces, el estudiante pide ayuda
El soporte debe elegir una línea de comportamiento:
- dar al estudiante para participar de manera independiente en la resolución de problemas;
- encuentre el error del alumno y explíquelo;
- Hacer una etapa de práctica para el alumno.
Hay errores indetectables: inicio de sesión incorrecto, letra I en lugar de l (i grande en lugar de L pequeña), en ese espíritu.
Si hubo un fakap, se crea una línea para el soporte. Es imposible ayudar cuidadosamente a cinco a la vez en problemas.
Pero la presión del tiempo era grave: en el chat de soporte técnico interno del día, varios miles de mensajes aparecieron. Los servicios de apoyo se apagaron después de la medianoche y comenzaron a funcionar a las 6 a.m. (afortunadamente, el apoyo y los estudiantes se encuentran dispersos en diferentes zonas horarias).
Por lo tanto, a veces, en lugar de analizar, los participantes recibieron una respuesta: "Corrigí todo, ahora su clúster funciona como debería, siga adelante". Sí, "Hágalo usted mismo" es cazado furtivamente, pero fue posible evitar una bola de nieve.
Pequeñas alegrías simples
El equipo de soporte recopiló preguntas del chat y un formulario especial, clasificó, respondió y envió preguntas difíciles a los oradores. Por lo tanto, no hubo preguntas pendientes.

Resultó que era inconveniente para los participantes en línea cambiar entre la transmisión y la consola, y no tenemos un archivo de texto con comandos, solo una presentación en la computadora portátil del orador. Por lo tanto, uno de los soportes sentados en el pasillo marcó y envió comandos desde las diapositivas al telegrama.
En general, una docena de trabajadores trabajan detrás de brillantes oradores, gracias a lo cual la gran mayoría de los participantes llegó al final de la práctica. Afortunadamente, Southbridge se dedica al soporte de infraestructura, todos pueden ayudarnos.
Slurm-3 será mejor que Slurm-2
Lo que se ha hecho espontáneamente en Slerm-2, sistematizamos y optimizamos:
- arreglamos nuestro grupo de apoyo para cada apoyo para que los estudiantes conozcan su apoyo en persona;
- escribir una base de datos de errores y soluciones típicas;
- preparación de accesos directos "Si no ha dominado la práctica, pero quiere seguir adelante";
- prepare una nota del participante con instrucciones sobre la organización del lugar de trabajo y la interacción con el apoyo.
Slurm-3: Lanzamiento de Kubernetes Cluster