Entre otras cosas, brindamos soporte para Votsap. Por la noche, nada augura problemas, cuando de repente se abre una ventana de video llamada. Primer plano: equipo de telecomunicaciones instalado en el sitio del cliente ... Y se quema. Literalmente Parece que puede ver la luz: el aislamiento de los cables cerca de la fuente de alimentación. Un hombre pregunta qué hacer. Gritando:
- ¡Cadáveres!
El:
- ¿puedo?
- Puedes!
Y solo entonces se cuece.

Resultó que no todos se pueden extinguir por medios convencionales: en respuesta, se pueden descargar con un par de decenas de miles de voltios. O incluso el enfriamiento interferirá con la operación de equipos importantes. En general, vio un incendio, llamado soporte y, mientras se establecía la conexión, encontró y preparó un extintor de incendios.
En general, hola, Habr! Soy del equipo de soporte técnico remoto y, a menudo, nos comunicamos con usuarios de todo el país y el extranjero. Y hacen cosas bastante extrañas. Debajo están las bicicletas.
Que hacemos y que es
CROC puede asumir oficinas de soporte, producción y servicios individuales. Hemos estado haciendo esto por muchos, muchos años. Hay un equipo de centro de llamadas que responde a los scripts estándar y ayuda en situaciones típicas, la segunda línea (yo y mis colegas) es para analizar casos complejos cuando necesita ingresar al nivel de configuración de software de red, servidor o aplicación, e ingenieros móviles que andar y cambiar de hierro. Además, un comando de reinicio en cada ciudad, pero más sobre eso más adelante. Hay mucho romance en el trabajo, porque a menudo hacemos SLA muy ajustados para bancos y minoristas, y apoyamos las instalaciones de infraestructura de transporte. Por razones obvias, no menciono los nombres de los clientes, y los guardias de seguridad también han cambiado algunos de los detalles no muy importantes para que nadie pueda ser claramente reconocido.
Calor
En los picos de calor, la comunicación con uno de los servidores locales desaparece. Hay muchos servidores de este tipo en los sitios, están montados de forma bastante compacta en salas técnicas, y en todas partes hay dificultades con la refrigeración, además, a menudo se usa uno externo forzado. Bueno, es decir, un poderoso ventilador dirigido directamente al estante. Los colegas lo llaman la palabra de moda "freecooling", pero este es un ventilador dirigido al estante.
Pero esto no ocurre todos los días en el calor, sino solo cada segundo. Comenzamos a entender, a veces, como en una historia de detectives: resulta que hay dos personas trabajando en la misma habitación. Un especialista sabe lo que es un soporte, o es muy consciente de la misteriosa conexión de luces intermitentes y un ventilador. El segundo especialista es una abuela. Ella no lo sabe. Y cuando el calor alcanza su máximo, la abuela siente el umbral térmico, luego toma y enciende el ventilador. Porque su pequeño fanático no es tan poderoso.
La consecuencia lógica es que la abuela se enfría, el estante se sobrecalienta. Más allá del umbral de temperatura, se produce un apagado térmico regular. Y tenemos otro boleto.
El caso no es infrecuente, no estamos acostumbrados. Escribimos memorandos y capacitamos a las personas clave del cliente, y ellos necesitan capacitar a personas lineales. Pero no siempre sucede bien. En otra habitación similar, el stand estaba apagado por la noche durante seis a ocho minutos. Luego se enteraron: el nuevo vigilante no fue advertido, cortó el poder del estante de la toma de corriente, encendió la tetera y luego devolvió todo como estaba.
Simplemente hay entradas extrañas. Otro pobre electricista llevó la fuente de alimentación del aire acondicionado al interruptor de la luz en la sala técnica. Mientras hay alguien allí, todo funciona. La gente se va, el soporte se apaga. Como resultado, ahora hay un letrero "¡No apague la luz!" ¡Me arrancaré las manos! " Parece que el electricista ya ha sido retirado, por lo que no puede hacer el cableado correcto, debe resolverlo con esta muleta.
Permiso de baño
Enviamos al ingeniero visitante al servicio de uno de los nodos de una red grande. La ingeniera va al lugar. Debo decir que esta es una habitación muy peculiar con techos altos, que fue construida durante el nacimiento de la URSS. Después de varias reconstrucciones sobre el baño de hombres, se creó un espacio sobre las cabinas donde se pueden colocar los equipos. Una situación común en el país, por cierto: no hay suficiente espacio para el hierro, hacen un "falso techo". Por alguna razón, generalmente allí. Yo mismo conecté los interruptores un par de veces mientras estaba parado en el inodoro.
La niña llega al jefe de la instalación y pide permiso para visitar el baño de hombres. Al principio, las personas durante mucho tiempo no entienden por qué lo necesita. Entonces la máquina burocrática se enciende: el caso no es familiar y nadie sabe qué hacer. Al final, tuvo muchos problemas para hacer todo bien. Los chicos simplemente cerraron el inodoro durante el trabajo oficialmente y se les permitió hacer cualquier cosa adentro.
En las cadenas minoristas, por alguna razón, el equipo a menudo se monta junto a tuberías con agua o ventiladores. En un par de salas de servidores y en la sala vimos el flujo de agua. El último caso fue visto generalmente en cámaras de monitoreo: comienza a llover. Hay un estante con equipo (alimentado naturalmente), al lado hay tres cuencas, y gotea de manera uniforme y monótona desde el techo. Todo salió bien y, al parecer, esta situación nos confundió solo. Solo nuestros ingenieros estaban preocupados por el cliente.
En otra ocasión, se rompió una tubería sobre el servidor. El ingeniero directamente en el video quita el interruptor del soporte, lo voltea, un vaso de agua se derrama. Por lo general, el cambio continúa funcionando. Lo llevamos a nuestro laboratorio y le dimos al cliente uno nuevo a cambio.
De alguna manera, el equipo de telecomunicaciones sobrevivió después del lanzamiento del sistema de extinción de incendios en polvo en una de las oficinas del cliente. Simplemente sacudieron todo el polvo (fue bastante difícil, tuve que desmontarlo), pero la pieza de hierro en sí misma todavía funciona.
Enseñanzas
Audite el equipo de red en un sitio seguro. El gerente técnico está de pie ante la comisión. Se defendió a sí mismo. Al final se queja:
- La comida que tenemos de la ciudad es mala, constantemente la tensión no es correcta. Ahora, si toma un enchufe, insértelo en este tomacorriente, generalmente es malo. Derriba el estante.
E inserta un tapón para mostrar.
El rack no solo fue eliminado, sino que también se deshabilitó la puerta de enlace y luego el servidor. El disco duro se quemó en el servidor, donde las aplicaciones para administrar el objeto estaban girando. Todo estaba parado solo de hormigón armado.
La comisión fue reelegida al día siguiente. Y tuvimos que recoger nuevos equipos y llevarlos a nuestro lugar durante la noche.
En un caso similar (solo hubo una falla de energía real, y no tales ejercicios), el objeto fue atendido por un gran proveedor doméstico. Muy grande y muy doméstico. Abrimos una solicitud para que su equipo se queme. Tienen un SLA de ocho horas. La respuesta de su apoyo:
- Bueno, sí, sabemos que el hierro se rompió allí. ¿No ves que almorzamos? El instalador llegará mañana o pasado mañana.
Resultó que tienen SLA, pero no hay penalidad por violación.
El segundo caso con los ejercicios fue este. Banco Dos de la mañana, solicitud de una pieza crítica de hierro. Cuatro horas para reemplazar. Con gritos: "Colegas, ¡todo se ha ido!" (pero solo en una palabra): llamamos a los estadounidenses, dicen dónde recoger el trozo de hierro en Moscú, ir allí, recoger, en este momento un colega se arrastra de rodillas frente a los especialistas en logística. Estamos a tiempo En una hora y media los traemos. Ni siquiera nos dejan entrar al edificio:
"Gracias, pero no necesitamos".
- Chicos! Que fue eso
- Las enseñanzas!
SMS sin hogar
Apoyamos operador de telefonía móvil extranjero. Uno de los servicios que estamos monitoreando es convertir SMS en el espíritu de "El suscriptor intentó llamarlo, pero no tiene dinero" en una llamada sin respuesta. Es decir, en lugar de un mensaje, no recibe respuesta, pero el teléfono no suena. El operador, por cierto, pensó que la probabilidad de una devolución de llamada era mucho mayor.
Un buen día, todas las transacciones desaparecen del gráfico. Simplemente no hay llamadas sin dinero en absoluto. Comenzamos a entender, pero no podemos encontrar los fines. Solo en una hora llega el hecho de que no hay llamadas en absoluto en el país.
Y luego comienzan por la noche. Esta es la fiesta musulmana del Ramadán, y el horario de llamadas es sesgado. Esto sucede en la víspera de Año Nuevo, cuando el 1 de enero casi no hay llamadas por la mañana, y allí sucedió en la primavera.
Incluso con clientes extranjeros, siempre es necesario consultar a sus ingenieros, dónde están exactamente conectados. Un proveedor sueco pone sistemas para gestionar personas. En Rusia: dos instalaciones. En uno, solicitan actualizar a la última versión, porque necesitan alguna función nueva. El otro ha estado trabajando de manera constante durante casi medio año, y no hay preguntas. Los suecos se conectan, actualizan en silencio al segundo cliente, informan al primero sobre la actualización y cierran el caso.
Nos estamos preparando para disculparnos y compensar (porque el sistema no funcionó durante los segundos 20 minutos, y ahora será necesario coordinar una nueva ventana para el primero), cuando de repente resulta que:
- El primer cliente está satisfecho y confirma el boleto.
- El segundo no notó ningún tiempo de inactividad.
Entonces no se lo dijimos a nadie, pero fue muy extraño.
Piernas de tiro
Cuando el cliente de soporte está alojado en la nube y solicita acceso directo al automóvil en lugar de describir lo que nos sucederá, apostamos qué tan rápido les disparan allí. Este no es el primer ni el centésimo caso. Los administradores del cliente pierden regularmente acceso remoto a la máquina por una variedad de razones. Aquí hay un nuevo caso: establecieron una nueva autenticación allí, y ella tomó y dejó a los usuarios actuales. Y para pasar esta autenticación y reenviar el acceso remoto nuevamente, debe ingresar de alguna manera y configurar todo primero. En general, configurar un firewall para acceso remoto es un largo camino.
En tales casos, contratamos un equipo de recarga. Es decir, un administrador que puede reiniciar el servidor o jugar un robot con control remoto con Vatsap. Esto es para que cuando establezca algo en Khabarovsk, no vuele en un viaje de negocios por la noche a Khabarovsk.
Para un nuevo hardware de red y configuraciones normales, un proveedor grande tiene un equipo regular para volver a la configuración anterior. Active el temporizador durante media hora. Si no cancela esta tarea en media hora, se reiniciará y restaurará la versión anterior. Si todo está bien configurado, verifique (dos veces) y cancele esta tarea. Cuando estoy seguro de que todo funciona.
A veces necesitas montar para poner equipo. Tenemos un chico llamado 13. Porque cuando cayó un viaje de negocios a Surgut, ya estaba empacando una pieza de hierro para el aeropuerto, y en el camino le dijeron que la misma pieza de hierro era mucho más necesaria para el mismo cliente en Krasnodar. Y cambiaron el boleto. La segunda vez vino a buscar un reemplazo, y allí todo se levantó durante el vuelo, y nos envió fotografías de sus pies en la playa en una conversación de trabajo.
Pero el mejor caso fue este. El cliente tomó y eliminó la conexión entre dos trabajadores en un par de servidores antes de irse. Nos sentamos, llega la solicitud: "Nada funciona". Estamos conectados, buscamos:
- ¿Qué hiciste?
- Antes de salir de casa, eliminé la conexión entre los servidores.
- por qué?
"¿Por qué no fue así?"
¿Tienes binoculares?
Cuando probamos el sistema de reconocimiento de personas que trepaban por una valla para una empresa de transporte (reconocimiento para videovigilancia), de alguna manera salimos por la mañana para marcar lugares para instalar cámaras de video. Era importante encontrar a los "conejos" y no asustarlos, para que luego pudieran colocar cámaras en lugares de escalada frecuente. Tomaron binoculares, pero no los necesitaban, porque las "liebres" no dudaron y no tuvieron miedo.
El mes pasado, se abrió un estudio fotográfico en el edificio frente a nuestra oficina. Con grandes ventanales y luz natural. A las modelos desnudas o vestidas con condiciones se les dispara regularmente allí, pero sus rostros no son visibles desde lejos. Por lo tanto, los binoculares estaban en demanda. El día de los disparos especialmente calurosos, se recibieron varias entradas de inmediato con una solicitud de colegas de la oficina.
En control
Llegué a un cliente que tiene muchas oficinas en la Federación Rusa. Hay un servidor principal en Moscú y muchos están conectados desde oficinas adicionales en la Federación Rusa. Hurgando en una de las glándulas regionales. Un líder local se acerca a mí y me informa:
- Empujando demasiado tiempo.
- Bueno, el trabajo es así.
"Entiendes que esto está bajo el control de la ..."
- El presidente de la empresa?
- No, en el mismo ...
- Específicamente, este servidor?
- si.
Me rei El es así:
"Estás haciendo lo incorrecto riendo".
Y se fue.
Y pensé que teníamos un trabajo peligroso. Tal vez él realmente tiene el control. Tal vez podría enfrentarme a esa insolencia. Personalmente de ...
Wifi
El cliente sin parar abre incidentes por problemas con wi-fi. Pero debo decir que este es un gran hangar, en el hangar, un almacén, y allí, debido a los estantes con metal (hay espacios en blanco para la planta), no siempre llegaba al centro. Les hicimos una encuesta rápida por radio y les recomendamos qué y dónde colocarla. Informaron que hicieron todo al respecto. Y ahora, parece que el punto de acceso central no se aferra y desaparece constantemente. Enviaron a un ingeniero móvil allí. Resultó que en el momento en que se calculó la ubicación de los puntos, había una grúa en el centro del hangar. En realidad, a los instaladores del cliente realmente les gustó, y lo fijaron directamente en él. Y la grúa gira alrededor del almacén, y cuando sale en una dirección, ya no está en la otra red. Durante un tiempo intentaron entender por qué la red se perdió, luego se reparó y luego nos llamaron.
Mejor caso
Una aplicación compleja, tratamos con el usuario durante casi media hora por teléfono. Ya maldigo todo, porque este es el caso cuando una persona no puede articular claramente lo que hizo. Y no informa todo lo que ve en la pantalla. Y él no dice todo lo que está haciendo en este momento. Ya preveo que la necesidad de hacerlo todo lenta y deliberadamente lo enfurece no menos que a mí. Pero por otra razón. Y luego, durante la siguiente explicación, que si no lee todo lo que ve en la pantalla, no puedo ayudarlo, de repente informa:
- Lo siento, tenemos un incendio aquí.
Y cuelga. En el boleto, escribí "el edificio se quemó con el equipo" y fui personalmente a revisar, pero nunca se sabe ...
Referencias