Como o banco quebrou



A migração malsucedida da infraestrutura de TI danificou 1,3 bilhão de registros de clientes bancários. A falha foi a falta de testes e uma atitude frívola em relação a sistemas de TI complexos. Cloud4Y conta como foi.

Em 2018, o banco britânico TSB percebeu que seu "divórcio" há dois anos com o grupo bancário Lloyds (ambas as empresas fundidas em 1995) é muito caro. O TSB ainda estava vinculado ao seu ex-parceiro por meio de sistemas de TI Lloyds clonados às pressas. E a pior parte foi que o banco teve que pagar "pensão alimentícia" - deduções na forma de taxas anuais de licença de US $ 127 milhões.

Poucas pessoas gostam de pagar dinheiro ao ex, então, em 22 de abril de 2018 às 18:00, a TSB começou a fase final de um plano de 18 meses que deveria mudar tudo. Planejava-se transferir bilhões de registros de clientes para o sistema de TI da empresa espanhola Banco Sabadell, que comprou a TSB por US $ 2,2 bilhões em 2015.

Jose Olyu, CEO do Banco Sabadell, falou sobre o próximo evento duas semanas antes do Natal de 2017, durante uma reunião festiva da equipe em uma prestigiada sala de conferências em Barcelona. A ferramenta de migração mais importante seria a nova versão do sistema Banco Sabadell: Proteo. Foi até renomeado para Proteo4UK especificamente para o projeto de migração do TSB.

Na apresentação do Proteo4UK, Jaime Guardiola Romoharo, diretor executivo do Banco Sabadell, se gabou de que o novo sistema é um projeto de larga escala que não tem análogos na Europa e já foi trabalhado por mais de 1000 especialistas. E que sua implementação dará um impulso significativo ao crescimento do Banco Sabadell no Reino Unido.

O dia da migração foi nomeado em 22 de abril de 2018. Era uma noite tranquila de domingo no meio da primavera. Os sistemas de TI do banco foram desativados porque os registros foram transferidos de um sistema para outro. Com a restauração do acesso público às contas bancárias no final da noite de domingo, pode-se esperar que o banco retorne lenta e suavemente à operação.

Mas enquanto Olya e Guardiola Romoharo estavam transmitindo com alegria do palco a implementação do projeto Proteo4UK, a equipe responsável pelo processo de migração ficou muito nervosa. O projeto, que levou 18 meses, estava seriamente atrasado e excedeu o orçamento. Não houve tempo para realizar testes adicionais. Mas a transferência de todos os dados da empresa (e isso, lembre-se, bilhões de registros) para outro sistema é um trabalho titânico.

Os engenheiros não ficaram nervosos por nada.


Um esboço em um site que os clientes viram por muito tempo

20 minutos após o TSB abrir o acesso às contas, tendo a certeza absoluta de que a migração ocorreu sem problemas, surgiram os primeiros relatórios de problemas.

Acumulações de pessoas desapareceram de repente. Compras de pequenas quantidades foram erroneamente registradas como milhares de despesas. Algumas pessoas fizeram login em suas contas pessoais e não viram suas contas bancárias, mas sim contas de pessoas completamente diferentes.

Às 21h, os representantes do TSB disseram ao regulador financeiro local (Autoridade Reguladora e Supervisora ​​Financeira do Reino Unido, FCA) que o banco estava com problemas. Mas a FCA já prestou atenção a isso: a TSB realmente estragou muito, e os clientes eram tolos. E, é claro, eles começaram a reclamar das redes sociais (e hoje em dia, escrever algumas linhas no Twitter ou no Facebook não é difícil). Às 23:30, outro regulador financeiro, a Prudential Regulatory Authority (PRA), entrou em contato com a FCA, que também achou que algo estava errado.

Já no fundo depois da meia-noite, eles conseguiram entrar em contato com um dos representantes do banco. E faça a única pergunta: "o que diabos está acontecendo?"

Levou algum tempo para entender a escala da tragédia, mas agora sabemos que durante a migração 1,3 bilhão de registros de 5,4 milhões de clientes foram danificados. Por pelo menos uma semana, os clientes não conseguiram gerenciar seu dinheiro usando um computador e dispositivos móveis. Eles não conseguiram pagar o empréstimo e muitos dos clientes do banco receberam uma vaga em seu histórico de crédito, além de multas por atraso.


Era assim que o banco de clientes do TSB on-line era

Quando as falhas começaram a aparecer, quase imediatamente depois disso, os representantes do banco garantiram que os problemas eram "periódicos". Três dias depois, foi emitida uma declaração de que todos os sistemas são normais. Mas os clientes continuaram relatando problemas. Somente em 26 de abril de 2018, o CEO do Banco Paul Pester admitiu que o TSB está "de joelhos", pois a infraestrutura de TI do banco ainda apresentava um "problema de largura de banda" que não permitia o uso de serviços bancários on-line para cerca de um milhão de clientes.

Duas semanas após o início da migração, ainda eram relatadas falhas no aplicativo de banco on-line, o que gerava erros internos relacionados ao banco de dados SQL.
As dificuldades com os pagamentos, especialmente com contas comerciais e hipotecas, duraram até quatro semanas. Jornalistas onipresentes descobriram que o TSB rejeitou a oferta de ajuda do Lloyds Banking Group no início da crise migratória. Em geral, os problemas associados à entrada de serviços on-line e a possibilidade de transferência de dinheiro foram observados até 3 de setembro.

Um pouco de história



O primeiro caixa eletrônico foi aberto em 27 de junho de 1967 perto do Barclays em Enfield.

Os sistemas bancários de TI estão se tornando cada vez mais complexos, à medida que as necessidades dos clientes e suas expectativas do banco estão crescendo. Cerca de 40 a 60 anos atrás, teríamos o maior prazer em visitar a agência local do banco durante o horário de trabalho para depositar dinheiro ou sacá-lo pelo caixa.

A quantia em dinheiro na conta estava diretamente relacionada ao dinheiro e moedas que transferimos para o banco. Nossa contabilidade doméstica podia ser rastreada com caneta e papel, e os sistemas de computador não estavam disponíveis para os clientes. Os funcionários do banco colocam dados de cadernetas e outras mídias em dispositivos que contam dinheiro.

Mas em 1967, no norte de Londres , foi instalado um caixa eletrônico, que não estava localizado no território do banco. E este evento mudou no setor bancário. A conveniência do usuário tornou-se uma diretriz para o desenvolvimento de instituições financeiras. E isso ajudou os bancos a se tornarem mais sofisticados em termos de trabalho com clientes e seu dinheiro. Afinal, embora os sistemas de computador estivessem disponíveis apenas para os funcionários do banco, eles estavam satisfeitos com a maneira "papel" anterior de interagir com um cliente. E somente quando havia caixas eletrônicos e, em seguida, serviços bancários on-line, o público em geral teve acesso direto aos sistemas de TI do banco.

Caixas eletrônicos foram apenas o começo. Logo, as pessoas conseguiram evitar a fila do caixa ligando simplesmente para o banco pelo telefone. Isso exigia cartões especiais inseridos em um leitor capaz de descriptografar sinais DTMF (multi-tone tone) transmitidos quando o usuário pressionava as teclas “1” (retirar dinheiro) ou “2” (depositar dinheiro).

A Internet e o mobile banking aproximaram os clientes dos principais sistemas que suportam bancos. Apesar de várias restrições e configurações, todos esses sistemas devem interagir efetivamente entre si e com o mainframe principal, verificando o saldo da conta, fazendo transferências de dinheiro e assim por diante.

Poucos clientes pensam em quão difícil é a informação quando, por exemplo, você vai a um banco on-line para exibir ou atualizar informações sobre dinheiro em sua conta. Quando você entra no sistema, esses dados são transmitidos por meio de um conjunto de servidores; quando você faz uma transação, o sistema duplica esses dados na infraestrutura de back-end, que depois faz o trabalho duro - transfere dinheiro de uma conta para outra para pagar contas, efetuar pagamentos e continuar assinaturas.

Agora multiplique esse processo por vários bilhões. Segundo dados compilados pelo Banco Mundial através da Fundação Bill e Melinda Gates, 69% dos adultos em todo o mundo têm uma conta bancária. Cada uma dessas pessoas deve pagar contas. Alguém paga uma hipoteca ou transfere dinheiro para clubes infantis, alguém paga uma assinatura da Netflix ou aluga um servidor em nuvem. E todas essas pessoas usam mais de um banco.

Inúmeros sistemas internos de TI de um banco (banco móvel, caixas eletrônicos etc.) não devem apenas interagir entre si. Eles precisam interagir com outros sistemas bancários no Brasil, China e Alemanha. Um caixa eletrônico francês deve poder emitir dinheiro em um cartão bancário emitido em algum lugar da Bolívia.

O dinheiro sempre foi global, mas nunca antes esse sistema era tão complexo. O número de maneiras de usar os sistemas de TI do banco está aumentando, mas as formas antigas ainda estão em uso. O sucesso de um banco depende em grande parte de quão "sustentável" é sua infra-estrutura de TI e de quão efetivamente o banco pode lidar com uma falha repentina, o que tornará o sistema ocioso.

Sem testes - prepare-se para problemas



O CEO do Banco de Sabadell, Jaime Guardiola (à esquerda), estava confiante de que tudo iria correr bem. Não deu certo.

Os sistemas de computador da TSB não eram muito bons em resolver problemas rapidamente. Obviamente, houve falhas de software, mas, na realidade, o banco "quebrou" devido à excessiva complexidade dos sistemas de TI. Segundo o relatório, preparado nos primeiros dias da falha em larga escala, "a combinação de novos aplicativos, o uso expandido de microsserviços e o uso de dois data centers ativos (ativos / ativos) levaram a um risco complexo no local de trabalho".

Alguns bancos, como o HSBC, operam globalmente e, portanto, também possuem sistemas interconectados muito complexos. Mas eles, de acordo com um dos executivos de TI do HSBC em Lancaster, são regularmente testados, migrados e atualizados. Ele vê o HSBC como um modelo de como outros bancos devem gerenciar seus sistemas de TI: alocando funcionários e gastando seu tempo. Mas, ao mesmo tempo, ele admite que, para um banco menor, especialmente um que não possua experiência em migração, fazer isso corretamente é uma tarefa muito difícil.

A migração do TSB foi difícil. E, de acordo com especialistas, a equipe do banco não conseguia atingir esse nível de complexidade em termos de qualificações. Além disso, eles nem se deram ao trabalho de verificar sua decisão, testar a migração com antecedência.

Falando ao Parlamento britânico sobre questões bancárias, Andrew Bailey, diretor executivo da FCA, confirmou essa suspeita. O código incorreto provavelmente causou os problemas iniciais apenas no TSB, mas os sistemas interconectados da rede financeira global significavam que seus erros eram perpetuados e irreversíveis. O banco continuou vendo erros inesperados em outras partes de sua arquitetura de TI. Os clientes receberam mensagens sem sentido ou sem relação com seus problemas.

O teste de regressão pode ajudar a evitar uma catástrofe, identificando o código incorreto antes que ele possa ser executado em um ambiente de produção e danificá-lo, criando erros que não podem ser revertidos. Mas o banco decidiu percorrer o campo minado, que ele nem conhecia. As consequências foram previsíveis. Outro problema foi a "otimização" dos custos. Em que isso se manifesta? O fato de anteriormente ter sido decidido acabar com os backups armazenados no Lloyds, pois eles "comiam" muito dinheiro.

Os bancos britânicos (e outros também) estão se esforçando para atingir um nível de acessibilidade de "quatro noves", ou seja, 99,99%. Na prática, isso significa que o sistema de TI deve estar disponível o tempo todo e o tempo de inatividade é de até 52 minutos por ano. O sistema dos “três noves”, 99,9%, à primeira vista não é muito diferente. Mas, na verdade, isso significa que o tempo de inatividade chega a 8 horas por ano. Para um banco, “quatro noves” é bom, mas “três noves” não é.

Mas toda vez que uma empresa faz alterações em sua infraestrutura de TI, corre riscos. Afinal, algo pode dar errado. Reduzir as alterações pode ajudar a evitar problemas, enquanto as alterações necessárias precisam ser exaustivamente testadas. E, nesse ponto, os reguladores britânicos chamaram a atenção.

Talvez a maneira mais fácil de evitar o tempo de inatividade seja fazer menos alterações. Mas cada banco, como qualquer outra empresa, é forçado a introduzir cada vez mais oportunidades úteis para os clientes e seus próprios negócios, a fim de permanecer competitivo. Ao mesmo tempo, os bancos ainda são obrigados a cuidar de seus clientes, protegendo suas economias e dados pessoais, proporcionando condições confortáveis ​​para o uso dos serviços. Acontece que as organizações são forçadas a gastar muito tempo e dinheiro na manutenção da integridade da infraestrutura de TI, oferecendo novos serviços.

De acordo com dados divulgados pela Autoridade Reguladora e de Supervisão Financeira do Reino Unido, o número de falhas tecnológicas registradas no setor de serviços financeiros do Reino Unido cresceu 187% entre 2017 e 2018. Na maioria das vezes, a causa das falhas é um problema na operação da nova funcionalidade. Ao mesmo tempo, é extremamente importante para os bancos garantir a operação contínua e ininterrupta de todos os serviços e relatórios quase instantâneos das transações. Os clientes estão sempre nervosos quando seu dinheiro fica no meio do nada. Um cliente que está nervoso com o dinheiro está sempre com problemas, um sinal claro.

Alguns meses após o fracasso do TSB (quando o CEO do banco havia renunciado), os reguladores financeiros do Reino Unido e o Banco da Inglaterra publicaram um documento de discussão sobre sustentabilidade operacional. Então, eles tentaram levantar a questão de quão profundamente os bancos foram na busca de inovações e se podem garantir a operação estável do sistema que está disponível agora.

O documento também propunha alterações à lei. Tratava-se de responsabilizar os funcionários da empresa pelo que deu errado nos sistemas de TI da empresa. Os parlamentares britânicos explicaram da seguinte maneira: "Quando você é pessoalmente responsável e pode ir à falência ou ser preso, isso mudará bastante sua atitude em relação ao trabalho, incluindo o aumento do tempo dedicado à questão da confiabilidade e segurança".

Sumário


Toda atualização e correção se resume ao gerenciamento de riscos, especialmente quando se trata de centenas de milhões de dólares. Afinal, se algo der errado, pode ser caro em termos de dinheiro e reputação. Parece coisas óbvias. E a falência do banco durante a migração teve que ensiná-los muito.

Deveria ter sido. Mas não ensinou. Em novembro de 2019, a TSB, que novamente voltou ao seu retorno e lentamente endireitou sua reputação, "encantou" os clientes com uma nova falha no campo da tecnologia da informação. O segundo golpe no banco levou ao fato de que ele seria forçado a fechar 82 agências em 2020 para reduzir seus custos. Ou ele simplesmente não poderia economizar com especialistas em TI.

A parcimônia em relação à TI é finalmente tributada. A TSB reportou uma perda de US $ 134 milhões em 2018, em comparação com um lucro de US $ 206 milhões em 2017. Os custos após a migração, incluindo compensação para os clientes, correção de transações fraudulentas (e seu número aumentou acentuadamente durante o caos bancário) e a assistência de especialistas de terceiros totalizaram US $ 419 milhões. O provedor de TI do banco também recebeu US $ 194 milhões por seu papel na crise.

No entanto, apesar das lições aprendidas após a falência do TSB, as interrupções ainda ocorrerão. Eles são inevitáveis. Mas, graças aos testes e ao bom código, o número de falhas e o tempo de inatividade podem ser significativamente reduzidos. O Cloud4Y, geralmente ajudando grandes empresas a migrar para a infraestrutura de nuvem, está bem ciente da importância de mudar rapidamente de um sistema para outro. Portanto, podemos realizar testes de carga e usar um sistema de backup em vários níveis, além de outras opções que permitem verificar todo o possível antes de iniciar a migração.

O que mais é útil para ler no blog do Cloud4Y

Energia solar salgada
Pentesters na vanguarda da segurança cibernética
→ A Grande Teoria dos Flocos de Neve
Internet por balões
Você precisa de travesseiros no data center?

Assine o nosso canal Telegram para não perder outro artigo! Escrevemos não mais do que duas vezes por semana e apenas a negócios.

Source: https://habr.com/ru/post/pt484644/


All Articles