Suporte técnico durante a semana: histórias sobre o que acontece quando você não consegue alcançar o usuário

Entre outras coisas, fornecemos suporte ao Votsap. À noite, nada indica problemas, quando de repente uma janela de chamada de vídeo é aberta. Close-up - equipamento de telecomunicações instalado no site do cliente ... E queima. Literalmente. Você pode ver a luz, ao que parece - o isolamento dos fios perto da fonte de alimentação. Um homem pergunta o que fazer. Gritando:
- Carcaças!
Ele:
Posso?
- você pode!
E só então ele ensopado.



Descobriu-se que nem todos eles podem ser extintos por meios convencionais: em resposta, eles podem chocar-se com algumas dezenas de milhares de volts. Ou até a têmpera interferirá na operação de equipamentos importantes. Em geral, ele viu um incêndio, chamado suporte e, enquanto a conexão foi estabelecida, ele encontrou e preparou um extintor de incêndio.

Em geral, olá, Habr! Sou da equipe de suporte técnico remoto e geralmente nos comunicamos com usuários em todo o país e no exterior. E eles fazem coisas bastante estranhas. Abaixo estão as motos.

O que fazemos e o que é


O CROC pode assumir escritórios de suporte, produção e serviços individuais. Fazemos isso há muitos, muitos anos. Há uma equipe de call center que responde aos scripts padrão e ajuda em situações típicas; a segunda linha (eu e meus colegas) é para analisar casos complexos quando você precisa entrar no nível de configuração de rede, servidor ou software de aplicativo e engenheiros móveis que andar e trocar de ferro. Além disso, um comando de reinicialização em cada cidade, mas mais sobre isso mais tarde. Há muito romance no trabalho, porque geralmente fazemos SLAs muito rígidos para bancos e varejistas e apoiamos instalações de infraestrutura de transporte. Por razões óbvias, não estou mencionando os nomes dos clientes, e os guardas de segurança também mudaram alguns dos detalhes não muito importantes para que ninguém possa ser claramente reconhecido.

Calor


Nos picos de calor, a comunicação com um dos servidores locais desaparece. Existem muitos desses servidores nos locais, eles são montados de maneira bastante compacta em salas técnicas e, em todo lugar, há dificuldades com o resfriamento; além disso, um servidor externo forçado é frequentemente usado. Bem, isto é, um ventilador poderoso voltado diretamente para o rack. Os colegas chamam de chavão "freecooling", mas esse é um fã voltado para o rack.

Mas isso não acontece todos os dias no calor, mas apenas a cada segundo. Começamos a entender - às vezes, como em uma história de detetive: acontece que há duas pessoas trabalhando na mesma sala. Um especialista sabe o que é um suporte ou está ciente da misteriosa conexão de luzes piscantes e um ventilador. O segundo especialista é uma avó. Ela não sabe. E quando o calor atinge o máximo, a avó sente o limiar térmico, então pega e liga o ventilador. Porque seu pequeno fã não é tão poderoso.

A consequência lógica é que a avó esfria, o rack superaquece. Além do limite de temperatura, ocorre um desligamento térmico regular. E nós temos outro ingresso.

O caso não é incomum, não estamos acostumados. Escrevemos memorandos e treinamos as pessoas-chave do cliente, e elas precisam treinar pessoas lineares. Mas nem sempre acontece direito. Em outra sala semelhante, o suporte foi desligado à noite por seis a oito minutos. Então eles aprenderam: o novo vigia não foi avisado, cortou a corrente do rack da tomada, ligou a chaleira e depois devolveu tudo como estava.

Existem simplesmente entradas estranhas. Outro eletricista trouxe a fonte de alimentação do ar condicionado para o interruptor da sala técnica. Enquanto houver alguém lá, tudo funciona. As pessoas saem - o suporte desliga. Como resultado, agora existe um sinal "Não apague a luz !!!" Vou arrancar minhas mãos !!! " Parece que o eletricista já foi retirado, para que ele não possa fazer a fiação correta, é preciso resolvê-la com esta muleta.

Permissão de banheiro


Enviamos o engenheiro visitante para atender a um dos nós de uma rede grande. A garota-engenheira vai ao local. Devo dizer que esta é uma sala muito peculiar, com tetos altos, construída durante o nascimento da URSS. Após várias reconstruções no banheiro masculino, foi criado um espaço acima dos estandes, onde os equipamentos podem ser colocados. Uma situação comum no país, a propósito: não há espaço suficiente para o ferro, eles fazem um "teto falso". Por alguma razão, geralmente lá. Eu mesmo conectei os interruptores algumas vezes enquanto estava no banheiro.

A menina chega ao chefe da instalação e pede permissão para visitar o banheiro masculino. A princípio, as pessoas há muito tempo não entendem por que ela precisa. Então a máquina burocrática liga: o caso não é familiar e ninguém sabe o que fazer. No final, ela teve muitos problemas para corrigir tudo. Os caras fecharam o banheiro oficialmente durante o trabalho e permitiram fazer qualquer coisa lá dentro.

Nas redes de varejo, por algum motivo, o equipamento é frequentemente montado próximo a tubulações com água ou ventiladores. Em um par de salas de servidores e na sala, assistimos ao fluxo da água. O último caso foi visto geralmente em câmeras de monitoramento: começa a chover. Há um rack com equipamento (com alimentação natural), ao lado dele, três bacias, e pinga uniformemente e monotonamente do teto. Tudo deu certo e, ao que parece, essa situação nos confundiu apenas. Somente nossos engenheiros estavam preocupados com o cliente.

Outra vez, um cano sobre o servidor quebrou. O engenheiro diretamente no vídeo remove o interruptor do suporte e o vira - um copo de água sai dele. Normalmente, o switch continua funcionando. Trouxemos para o nosso laboratório e devolvemos ao cliente um novo.

De alguma forma, o equipamento de telecomunicações sobreviveu após o lançamento do sistema de extinção de incêndios em pó em um dos escritórios do cliente. Eles apenas sacudiram todo o pó (foi bastante difícil, eu tive que desmontá-lo), mas o próprio pedaço de ferro ainda funciona.

Ensinamentos


Audite o equipamento de rede em um site seguro. O gerente técnico está diante da comissão. Ele se defendeu. No final, ele reclama:
- A comida que temos da cidade é ruim, constantemente a tensão não está certa. Agora, se você pegar um plugue, insira-o nesta tomada, geralmente é ruim. Derruba o rack.

E insere um plug para mostrar.

O rack não foi apenas eliminado, mas também o gateway foi desativado e o servidor. O disco rígido foi queimado no servidor, onde os aplicativos para gerenciar o objeto estavam girando. Tudo parecia concreto reforçado.

A comissão foi reconduzida no dia seguinte. E tivemos que pegar novos equipamentos e trazê-los para o nosso lugar da noite para o dia.

Em um caso semelhante (apenas houve uma falha de energia real, e não esses exercícios), o objeto foi reparado por um grande fornecedor doméstico. Muito grande e muito doméstico. Abrimos uma solicitação para que seus equipamentos sejam queimados. Eles têm um SLA de oito horas. A resposta do seu apoio:
- Bem, sim, sabemos que o ferro quebrou lá. Você não vê que almoçamos? O instalador chegará amanhã ou depois de amanhã.

Acontece que eles têm SLA, mas não há penalidade por violação.

O segundo caso com os exercícios foi este. Banco Duas da manhã, pedido de um pedaço crítico de ferro. Quatro horas para substituir. Com gritos: "Colegas, tudo se foi!" (mas apenas em uma palavra) - chamamos os americanos, eles dizem onde pegar o pedaço de ferro em Moscou, vão lá, colecionam, neste momento um colega se ajoelha diante dos logísticos. Estamos a tempo. Em uma hora e meia, nós os trazemos. Eles nem nos deixam entrar no prédio:
"Obrigado, mas não precisamos."
- Gente! O que foi aquilo?
- os ensinamentos!

SMS sem-teto


Apoiamos operadora móvel estrangeira. Um dos serviços que estamos monitorando está convertendo o SMS no espírito de "O assinante tentou ligar para você, mas ele não tem dinheiro" em uma ligação não atendida. Ou seja, em vez de uma mensagem, ela é atendida, mas o telefone não toca. A operadora, a propósito, achou que a probabilidade de uma chamada de retorno era muito maior.

Um belo dia, todas as transações desaparecem do gráfico. Simplesmente não há chamadas sem dinheiro. Começamos a entender, mas não conseguimos encontrar os fins. Apenas em uma hora chega ao fato de que não há chamadas no país.

E então eles começam à noite. Este é o feriado muçulmano do Ramadã, e o horário das chamadas é inclinado. Isso acontece na véspera de Ano Novo, quando em 1º de janeiro quase não há ligações pela manhã e aconteceu na primavera.

Mesmo com clientes estrangeiros, é sempre necessário verificar seus engenheiros, onde exatamente eles estão conectados. Um fornecedor sueco coloca sistemas para gerenciar pessoas. Na Rússia - duas instalações. Em um deles, eles pedem para atualizar para a versão mais recente, porque precisam de algum novo recurso. O outro trabalha constantemente há quase meio ano e não há dúvidas. Os suecos se conectam, atualizam silenciosamente o segundo cliente, informam o primeiro sobre a atualização e fecham o caso.

Estamos nos preparando para pedir desculpas e compensar (porque o sistema não funcionou pelos segundos 20 minutos e agora será necessário coordenar uma nova janela para a primeira), quando de repente acontece que:

  1. O primeiro cliente está satisfeito e confirma o bilhete.
  2. O segundo não notou nenhum tempo de inatividade.

Nós não contamos a ninguém na época, mas era muito estranho.

Pernas de tiro


Quando o cliente de suporte está hospedado na nuvem e solicita acesso direto ao carro, em vez de descrever o que acontecerá conosco, apostamos com que rapidez eles atiram nas pernas. Este não é o primeiro ou mesmo o centésimo caso. Os administradores do cliente perdem regularmente o acesso remoto à máquina por vários motivos. Aqui está um novo caso: eles estabeleceram uma nova autenticação lá, e ela pegou e descartou os usuários atuais. E para passar essa autenticação e encaminhar o acesso remoto novamente, você precisa entrar e configurar tudo primeiro. Em geral, a configuração de um firewall para acesso remoto é um longo caminho.

Nesses casos, contratamos uma equipe de recarga. Ou seja, um administrador que pode reiniciar o servidor ou executar um robô controlado remotamente com o Vatsap. Isso ocorre para que quando você configurar algo em Khabarovsk, não voe em uma viagem de negócios à noite para Khabarovsk.

Para um novo hardware de rede e configurações normais, um fornecedor grande possui uma equipe regular para reverter para a configuração anterior. Ative o cronômetro por meia hora. Se você não cancelar esta tarefa em meia hora, haverá uma reinicialização e restauração da versão anterior. Se tudo estiver bem configurado - verifique (duas vezes) e cancele esta tarefa. Quando tenho certeza de que tudo funciona.

Às vezes você precisa montar para colocar o equipamento. Temos um cara chamado 13º. Porque quando uma viagem de negócios a Surgut, ele já estava carregando um pedaço de ferro no aeroporto e, no caminho, lhe disseram que o mesmo pedaço de ferro era muito mais necessário para o mesmo cliente em Krasnodar. E eles mudaram a passagem. Na segunda vez, ele procurou um substituto, e lá tudo subiu durante o vôo, e ele nos enviou fotos de seus pés na praia em uma conversa de trabalho.

Mas o melhor caso foi esse. O cliente retirou e removeu a conexão entre dois funcionários em um par de servidores antes de sair. Sentamos, o pedido chega: "Nada funciona". Estamos conectados, olhamos:
O que você fez?
- Antes de sair de casa, apaguei a conexão entre os servidores.
Porque?
"Por que não foi assim?"

Você tem binóculos?


Quando testamos o sistema de reconhecimento de pessoas que escalam uma cerca para uma empresa de transporte (reconhecimento para vigilância por vídeo), de alguma forma saímos de manhã para marcar lugares para instalar câmeras de vídeo. Era importante encontrar os “coelhos” e não assustá-los, para que depois pudessem colocar as câmeras em locais de escalada frequente. Eles pegaram binóculos, mas não precisavam deles, porque as "lebres" não hesitaram e não tinham medo.

No mês passado, um estúdio de fotografia foi aberto no prédio em frente ao nosso escritório. Com grandes janelas e luz natural. Modelos nus ou com roupas muito condicionais são fotografados regularmente lá, mas seus rostos não são visíveis de longe. Portanto, os binóculos estavam em demanda. No dia das filmagens especialmente quentes, vários ingressos foram recebidos imediatamente com um pedido de colegas do escritório.

No controle


Eu vim para um cliente que tem muitos escritórios na Federação Russa. Há um servidor principal em Moscou e muitos conectados a partir de escritórios adicionais na Federação Russa. Bisbilhotando em uma das glândulas regionais. Um líder local se aproxima de mim e relata:
- Cutucando por muito tempo.
- Bem, o trabalho é assim.
"Você entende que isso está sob controle das próprias ..."
O presidente da empresa?
- Não, no mesmo ...
- Especificamente, este servidor?
Sim.
Eu ri Ele é assim:
"Você está fazendo a coisa errada, rindo."
E saiu.
E eu pensei que tínhamos um trabalho perigoso. Talvez ele realmente esteja no controle. Talvez eu pudesse enfrentar essa insolência. Pessoalmente de ...

Wi-fi


O cliente ininterrupto abre incidentes para problemas com o wi-fi. Mas devo dizer que este é um grande hangar, no hangar - um armazém, e ali, por causa das prateleiras de metal (existem espaços em branco para a planta), nem sempre chegava ao centro. Fizemos uma pesquisa rápida por rádio e recomendamos o que e onde colocá-lo. Eles relataram que fizeram tudo. E agora, parece que o ponto de acesso central não se apega e desaparece constantemente. Eles enviaram um engenheiro móvel para lá. Aconteceu que, no momento em que a localização dos pontos foi calculada, havia um guindaste no centro do hangar. Na verdade, os instaladores do cliente realmente gostaram dele e fixaram o ponto diretamente nele. E o guindaste percorre o armazém e, quando sai em uma direção, não está mais na outra rede. Por algum tempo, eles tentaram entender por que a rede estava perdida, depois foi reparada e depois nos bateram.

Melhor caso


Uma aplicação complexa, lidamos com o usuário por quase meia hora no telefone. Eu já amaldiçoo tudo, porque esse é o caso em que uma pessoa não consegue articular claramente o que fez. E não relata tudo o que vê na tela. E ele não diz tudo o que está fazendo agora. Eu já prevejo que a necessidade de fazer tudo devagar e deliberadamente o enfurece, nada menos que eu. Mas por outro motivo. E então, durante a próxima explicação, que se ele não ler tudo o que vê na tela, eu não posso ajudá-lo, ele repentinamente informa:
Desculpe, temos um incêndio aqui.

E desliga. No bilhete, escrevi "o prédio incendiado com o equipamento" e fui pessoalmente verificar - mas você nunca sabe ...

Referências


Source: https://habr.com/ru/post/pt458440/


All Articles