Bicicletas de TI de varejo - como era há 12 anos



Em 2005, uma subestação voou em Moscou, e todos no país perceberam subitamente que as salas de servidores de backup precisavam ser feitas. Os bancos os fizeram em 2006-2007 e no varejo - desde 2008. Por que é tão tarde? Porque os custos de TI ainda não pareciam tão importantes quanto são agora. Lembro-me da história de como meu cliente quase foi demitido por um período inativo de dois dias na rede e, ao mesmo tempo, por outros recursos de varejo. Acontece que muitos em TI não acreditam mais que isso era verdade.

E assim foi. Aqui está a primeira história da série "Vamos lá, isso não acontece" - sobre como a loja foi reservada por um modem analógico para acesso à Internet. Naquele momento, havia apenas um provedor com fibra neste local e a partir das alternativas - uma antena parabólica ou discada. O ZSSS é caro, então eles escolheram um modem de voz. A certa altura, a escavadeira está rasgando o porta-malas da Golden Telecom. Naquela época, eles estavam mudando seu FOCL, então não havia temporariamente nenhuma reserva. Por três dias, a loja opera em um modem. Durante o dia, 48 kilobits por segundo, à noite 96 kilobits por segundo. Como você pode ver pelas velocidades, era um Zyxel muito bom, mantendo-se em uma linha barulhenta.

Trabalho na CROC há 15 anos, agora sou Diretor de Desenvolvimento de Negócios em Varejo. Historicamente, a maioria dos meus projetos também está no varejo. Com o consentimento do cliente, publico histórias sobre como era o varejo de TI há 12 anos de mim e de meus colegas. Os guardas de segurança substituíram alguns detalhes sem importância para não ofender pessoas específicas.

A Internet era necessária para enviar relatórios (em caso de acidente, eles imediatamente decidiram enviá-los mais tarde, sem prioridade) e atualizar os preços em todo o banco de dados de mercadorias de uma loja bastante grande. A transação é longa, se interromper o tempo limite - tudo acabou. Em geral, no primeiro dia, tentamos baixar os preços, mas nada resultou. Uma equipe lidou com a TI e a segunda, por telefone, registrou alterações manualmente: no escritório e na loja havia várias pessoas com impressões. Um pouco depois, eles escreveram um script para importar arquivos XLS e começaram a enviar partes do banco de dados por correio para um dos administradores, e ele os levou de carro até a loja. No contrato com o fornecedor, a propósito, o acidente não foi culpa do operador - os três primeiros dias sem multas e, em seguida, 1/724 do valor anual por hora. Quando perguntados sobre a compensação por perdas, eles acenaram com a mão e disseram: “Bem, no próximo mês os serviços são gratuitos!”.

Em seguida, o conselho de administração examinou os documentos que descreviam possíveis acidentes e os considerou improváveis. Poucos acreditavam que as interrupções na TI são um fenômeno, e não um caso único envolvendo sobrenomes específicos. Apenas alguns casos de perdas diretas nos convenceram a ouvir essas pessoas estranhas de óculos.

A segunda história incrível sobre um erro em TI . Grandes varejistas estão começando a entender o segredo do sucesso de um dos parceiros. O fato é que, para todos, o negócio segue claramente um caminho diferente com o mesmo modelo. Ele faz tudo de forma rápida, simples e ampliou seus negócios cerca de 20 vezes nos últimos oito anos. Nesse mercado, era cerca de dez vezes mais do que deveria ter sido logicamente. Então, eles começam a analisar transações - e chega a entender que o cartão SAP do parceiro contém padrões instituídos há dez anos para um cliente de teste. E existem fatores ligeiramente diferentes em termos de planos e recompensas. Como resultado, uma pessoa recebe cerca de duas vezes mais que os outros parceiros. O varejo conduziu uma investigação interna. Descobrimos que isso não é uma conspiração, mas um acidente banal. E um homem nesse acidente em dez anos construiu um grande negócio.

Em um ponto, o diretor da loja de alguma forma roubou. Mais precisamente, dados ajustados manualmente nas caixas registradoras. Então foi possível, e a entrada manual foi percebida como uma prioridade em comparação com a geração automática. Ele esteve em liberdade condicional por três meses nessa posição e criou sistematicamente no final do dia um pequeno delta entre o relatório e o dinheiro realmente aceito nas bilheterias. No 28º dia do último mês de seu período de estágio, ele escreveu uma declaração (inesperadamente para o escritório) e, de acordo com o procedimento, restavam apenas três dias para a aceitação da loja. Naturalmente, um inventário já foi feito sem ele. As perdas foram estimadas em 700 mil rublos líquidos (o preço da Hyundai Sonata com "carne picada completa" na época), e teria sido muito pior se a loja verificasse o imposto naquele momento. Como resultado, eles reuniram evidências sobre ele, o processaram. O juiz chama:

- Traga um disquete com o sistema, veremos.
Eu não posso. Eu tenho uma instalação do SAP 32 terabytes. Este é um trem de disquetes.
Vamos, deixe-me dar o telefone aos nossos especialistas. Temos bons especialistas. Você tem 1C lá?
- É melhor você vir até nós.
- Não, nós não iremos a você.

O tribunal não pôde coletar Forensics, e o caso foi encerrado por falta de provas.

Nos últimos anos, tivemos casos no CROC em que era necessário coletar análises forenses para ataques, e já chegamos com utilitários especiais e fizemos projeções de terabytes, que são muito convenientes para estudar em um ambiente virtual, percebendo que não há mais nada nos dados de origem vai mudar. Mas então parecia uma fantasia. E agora, longe de todo mundo em sistemas de segurança, usa o forense normal, que constantemente grava essa imagem em casa e coleta dados adicionais de todos os pacotes na rede.

A óptica chega ao armazém através de um edifício vizinho. Do prédio vizinho - uma ponte aérea já está no local do cliente. O armazém funciona 24 horas, mas à noite a ponte de retransmissão de rádio cai. O canal de backup é um satélite, um terminal no telhado de seu armazém. Há uma boa velocidade, 25 Mbps. Por aqueles anos - o espaço como é. Mas o satélite é um grande atraso na rede, pelo menos 0,8 segundos para o sinal passar da Terra para o satélite e vice-versa. Parte disso são as limitações da velocidade da luz, outra parte é um monte de transformações em desmoduladores trabalhando em protocolos com alto coeficiente de redundância. Como resultado, isso se deve ao fato de o equipamento do armazém começar a funcionar com atrasos. Em 0,1 segundos, tudo é como um relógio e, em 0,8, trocas de pacotes muito longas começam. Um funcionário do armazém cutuca um scanner em um palete e, em seguida, o aperto de mão começa, enviando prontidão, definindo um protocolo, enviando um pacote, um relatório de recebimento e assim por diante. Já foi anos depois que os protocolos pareciam resolver quase todos com um pacote de saída. Então foi necessário trocar um monte de dados com um sistema remoto. Como resultado, o trabalho começa a desacelerar, porque as operações se tornam longas. Uma linha de carros está sendo construída e, pela manhã, tudo está em sabão. E assim todas as noites. À noite, em um armazém próximo, eles puxam o interruptor e o equipamento do operador de óptica cai. É impossível transferir o canal: a colocação do cabo foi acordada pelo proprietário do local e ele nem era da Rússia. Por vários meses, a equipe do armazém trabalhou até conseguir outro operador para si - também uma ponte de rádio de um prédio fora do território, e depois colocou a ótica normalmente.

Um armazém de varejo de moda, ou seja, um lugar onde há uma pilha enorme de roupas em caixas. Os pontos de acesso Wi-Fi da Motorola queimavam muito lá. Às vezes, o firmware apenas piscava, e às vezes eles realmente queimavam. Eles foram carregados de um pen drive, então havia uma pessoa especial no armazém com uma escada que subia até eles. Por vários meses, cerca de 60 incidentes ocorreram com uma redefinição do firmware e uma dúzia de pontos se esgotou. Eles pecaram no fabricante e no lote com falha, mas após uma investigação completa, verificou-se que o problema estava em descargas estáticas. Poeira de tecidos sintéticos acumulados, de modo a criar um condutor em torno do ponto. Um pouco de vibração, tudo tem uma extremidade para dentro, a segunda - na linha de força em algum lugar. Se antes disso o firmware de uma descarga estática voou, o ponto foi eliminado para manutenção. Se ela teve azar, foi socada com mais seriedade. Pendurado no ponto de aterramento, isso resolveu o problema por seis meses. Então os pontos começaram a queimar novamente: olhamos e o aterramento se afastou dos edifícios. Verificou-se que as diferenças de temperatura sob o teto do armazém eram de tal ordem que a expansão-compressão constante simplesmente elevava e dissociava tudo, de modo que o acoplamento rígido não suportava.

As frequências nas pontes de rádio, é claro, em um bom sentido, devem ser coordenadas, mas quase ninguém o fez. E de fato o povo era selvagem. Um exemplo Os moradores abateram uma das placas do ZSSS nos limites da cidade na loja várias vezes. Porque irradia. Sim, irradia. Mas, um metro abaixo, você já pode viver por anos. Mas a maior parte da radiação que você capta em foco quando sobe no telhado, levanta-se exatamente no pico do padrão de radiação e bate na placa com um graveto.

Sobre pessoas selvagens, lembro-me da grande história com os terminais no armazém . Por 3500 dólares cada, um dos primeiros terminais móveis de pleno direito foi trazido para a Rússia em um dos armazéns. Na verdade, esses eram smartphones de nível militar. Com eles foi possível realizar qualquer operação no armazém. E os trabalhadores do armazém os traziam regularmente com telas danificadas. "Chefe, sem trabalho!" Não, a equipe de TI do varejo entendeu que os estava estragando de alguma forma e, provavelmente, de maneira maliciosa. Para não funcionar. O que ninguém entendeu foi como eles fazem isso, levando em conta a tela do corindo e, mais importante, o porquê, se eles têm um pagamento por peça e cortam seus próprios ganhos. Naquele momento, no varejo, em quase todos os lugares a vigilância por vídeo começou a ser introduzida, e os especialistas em TI decidiram acelerar um pouco o projeto no armazém. Modelos e câmeras reais estavam lá. Eles trocaram alguns dos dispositivos e observaram o que estava acontecendo. A primeira cena: duas estão sentadas no pé da carregadeira e tentam apagar a tela com um pano de esmeril. "Aposto que você é um covarde, não pode usar uma lixa?" - Foi sobre esse o motivo. Eles jogaram novos trabalhadores assim. Aconteceu que a verdadeira causa do dano foram as moedas afiadas que conseguiram causar pelo menos algum dano ao dispositivo. Mas um deles estava completamente perdido - eles apenas colocaram vários carregadores nele com um carregador. Ele era o único ponto de apoio e apenas achatado. Mas ele continuou a transmitir dados, ou seja, apenas a periferia sofreu. A propósito, esses Hanivels trabalharam em um armazém sem perdas, enquanto as próximas duas gerações do Motorol foram substituídas.

Havia muitas histórias com comunicações diretas em armazéns e lojas. Primeiro, não havia quase nenhuma criptografia lá (mais precisamente, havia todos os tipos de reversão de espectro e, às vezes, mudanças de frequência), para que todos na área pudessem ouvir as negociações da loja. Como nos vizinhos da loja com um certo desejo. Em segundo lugar, eles interferiram maravilhosamente um com o outro: dois fornecedores diferentes podiam trocar frequências entre si, como resultado, uma infra-estrutura homogênea era necessária através dos tubos. O resultado foi que o varejista em todas as lojas começou a construir comunicações em walkie-talkies e, dois anos depois, surgiram telefones celulares e cobertura normal.

Ao mesmo tempo, houve boatos de que os terminais de coleta de dados no wifi novo seriam introduzidos nas lojas. E isso exigiu amplos canais de backup. Felizmente, o Skylink apareceu no mesmo momento: é uma rede de banda larga (CDMA-800) e dependia do estado da atmosfera muito menos que um satélite. Nós mudamos para ele quando mudamos para a reserva - eles levantaram seus terminais telefônicos nas varas de pesca das janelas para pegá-los melhor.

Agora fazemos muitas consultorias de varejo na CROC, mas a prática na Rússia não era muito comum. Mas há uma história maravilhosa sobre isso. Cerca de dez anos atrás, meus estimados colegas desenvolveram um modelo de negócios que mataria o então único operador de supermercado on-line. Era evidente que muitos processos podem ser aprimorados devido à organização adequada da logística e da TI, e isso reduziu bastante o custo do pedido. Agora o Yandex.Food usa algo semelhante, mas há dez anos tudo parecia muito, muito estranho. Fomos ao piloto, até pegamos um pedaço de terra, mas depois de certas mudanças na composição do quadro, o projeto foi enterrado. Decidimos vender o modelo, apenas o descrevemos como um projeto robusto e fomos para a Inglaterra. Paralelamente, eles ofereceram o único de nosso único operador on-line. Seus gerentes marcaram uma consulta, solicitados a mostrar diferentes partes dos processos. Pareciam negociações com a Yandex: "veremos, e se entendermos que nós mesmos não faremos isso, talvez compremos". Mas a história não é sobre isso, mas sobre o fato de que durante as negociações eles decidiram ir ao seu armazém. Existem vários andares, elevadores nas laterais do prédio e as pessoas correm de um lado para o outro. Ou seja, o trabalhador manual pega o carrinho e começa a dirigir no chão e concluir o pedido. Elevadores são um gargalo, na frente deles há enormes linhas. E funciona assim por muitos anos. Eles olharam por cinco minutos e depois sugeriram em uma reunião:

  1. Hoje, faça todos os elevadores esquerdos apenas em ascensão e todos os elevadores direitos somente em descida. Isso simplificará bastante o carregamento e o descarregamento.
  2. Em seguida, faça a separação física de carrinhos e pessoas. Deixe apenas os carros com ordens entrarem no elevador, e as pessoas pré-armazenadas em cache os aguardam no chão.
  3. Como você sente a eficácia - aqui, compre um Talmud, onde ele diz como fazer outras coisas normalmente, e não os princípios básicos da algoritmo.

Em geral, por tantos anos eles trabalharam normalmente, e então algumas cabras chegaram e mostraram a elas o óbvio. Ainda há um sentimento de vergonha espanhola por isso. A propósito, o Talmude não foi levado, e seu armazém agora é novo, bom.

Muitas vezes ouvi histórias sobre o fato de que você pode confundir o teste com o prod . Parecia ficção até certo ponto. Assim, na noite de 31 de dezembro a 2 de janeiro (a julgar pelo estado do país, essa é uma noite contínua), como geralmente ocorre no varejo, houve prevenção e atualizações. Entre outras coisas, eles levantaram uma nova instalação de teste do SAP a partir de um backup de três meses e a implantaram em um segmento de teste separado para transferi-lo aos desenvolvedores para testes. O segmento é isolado. Em 2 de janeiro, começam as chamadas de suporte:

- Por que os preços há um quarto atrás?
- Não existem tais ações já!
Ligue para especialistas:
- Oi pessoal! Você implantou a instalação em um segmento fechado?
Sim.
- exatamente?
- Sim, nós damos um dente.
"E verifique novamente, por favor."
- ... Sim, no fechado. Embora espere ...

A única ponte entre o segmento de teste fechado e o prod estava no sistema de monitoramento. Ela é comum entre eles. E a SAP, mesmo nessa revisão, acabou sendo uma coisa muito complicada: primeiro ele bateu nos endereços e, depois, quando não recebeu uma resposta, bateu todos os disponíveis. E, no final, cheguei através do subsistema de caixa através do monitoramento. E vi que estava na hora de atualizá-lo. E a base de teste tem cerca de quatro meses, bem, a SAP inundou os preços dos produtos. Talvez tenha sido difícil para ele, mas ele conseguiu. Então o próprio produto inundou novos preços lá. Talvez o teste tenha se sentido ofendido e novamente inundado. Com dificuldade. E assim foi várias vezes.

Em geral, é claro, naqueles anos, o SAP era uma raridade. Sua presença indicava que a cadeia de varejo está olhando muito para o futuro. Todo mundo fez 1C, dopou no joelho e dopou novamente. Entre as soluções em dinheiro, várias dezenas (!) De grandes soluções offline lutaram, tanto as nossas quanto as ocidentais, proprietárias e gratuitas. Eles ofereceram um monte de tudo, e todas as decisões ainda tinham que ser concluídas. Dos sistemas de RH, SAP, Boss-Kadrovik e 1C lutaram. 1C, então todo mundo estava com medo, era cru. O segundo era um campo minado mais ou menos claro, com bugs conhecidos, e o terceiro era meio melhor, mas inexplorado e estrangeiro, e era possível explodir em qualquer lugar. Até as próprias arquiteturas lutaram - centralizadas e descentralizadas. Meu colega trabalhou em um rígido discounter, então coloquei tudo imediatamente em um sistema centralizado. Para minimizar a quantidade de equipamentos na loja, além dos balcões, eles colocam apenas um módulo (computador e roteador) - isso é tudo. O computador de backup estava embaixo da mesa. O roteador, conforme necessário, foi trazido do armazém junto com o leite, porque todos os dias era entregue. Admin não era necessário nesse ponto. Alguém como o diretor ou gerente de produto sabia como mudar o módulo e ativá-lo. De acordo com o ranho na rede, muitos se ajudaram no local, a alfabetização computacional das pessoas era muito boa. Havia menos de 100 pessoas no departamento de TI para toda a rede de quase 700 lojas e 3.500 balcões, incluindo desenvolvedores, consultores, administradores, balconistas e financiadores de TI. A prática da SAP era de 11 pessoas (em comparação, o maior varejista do país tinha cerca de 2800 lojas e mais de 2000 especialistas em TI). Eles foram os primeiros no varejo a introduzir relatórios paralelos nas tecnologias OLAP e na memória. Era quase espaço naqueles dias, mas deu origem a uma configuração sistemática. A transição do SAP 4.6 para o 4.7 levou meio ano e, em seguida, os caras decidiram parar no 4.7 e não atualizar mais. O primeiro no país recusou o suporte do fornecedor. E ninguém mais fez isso antes deles, e nossos colegas, representantes do fornecedor, não sabiam se comportar ao mesmo tempo: então eles até deram acesso a todas as notas do SAP (é o que geralmente pagam, a base do suporte) e então, apenas o acesso a notas críticas e de segurança começou a ser concedido a outros.

Agora sobre recuperação de desastres . Se em 2005 uma subestação foi coberta, em 2010 turfeiras já estavam queimando na área ao redor da cidade. E eles queimaram porque havia calor atípico. Por 56 dias em um escritório de um grande varejo, os aparelhos de ar condicionado trabalharam com sobrecarga, ou seja, eles não aguentaram. Mas começou assim: a princípio a temperatura subia pela cidade. Todos os aparelhos de ar condicionado, incluindo reserva, foram comissionados. Mais ou menos o suficiente. Quatro dias depois, ficou claro que a história seria longa e nossos clientes de varejo começaram a esperar por um blecaute. Eletricistas lançaram prevenção de diesel, ele estava louco e morreu. . - , , . , , — , . , . . , . , . : . , . , : , . , , . , . DRP, .

, . Citação:
, - , « 2 1» « 3 2» . , , . . , - , . , — , , . , , . . :
— ! SAP ! !
. . , . . , , , . . , , . ( ), — -, . , , . :

— . ?
, . :
— .
, :
— , . , . , , ?
, . :
— , . , , .
.

. -, , CIO. -, DRP. «»? , , , , , . , - , . . , , . .

, , .


  • .
  • « » .
  • - .
  • .
  • — dsmirnov@croc.ru.

Source: https://habr.com/ru/post/pt470453/


All Articles