Wie die Bank kaputt ging



Die erfolglose Migration der IT-Infrastruktur hat 1,3 Milliarden Datensätze von Bankkunden beschädigt. Der Fehler war das Fehlen von Tests und eine leichtfertige Einstellung zu komplexen IT-Systemen. Cloud4Y erzählt, wie es war.

2018 erkannte die britische Bank TSB , dass ihre „Scheidung“ vor zwei Jahren mit der Bankengruppe Lloyds (beide Unternehmen wurden 1995 fusioniert) zu teuer ist. Das TSB war noch immer durch hastig geklonte Lloyds-IT-Systeme an seinen früheren Partner gebunden. Und das Schlimmste war, dass die Bank „Kindergeld“ zahlen musste - Abzüge in Form von jährlichen Lizenzgebühren in Höhe von 127 Millionen US-Dollar.

Nur wenige Leute zahlen gerne Geld an ihre Ex, und so begann TSB am 22. April 2018 um 18:00 Uhr die letzte Phase eines 18-Monats-Plans, der alles ändern sollte. Es war geplant, Milliarden von Kundendaten an das IT-System des spanischen Unternehmens Banco Sabadell zu übertragen, das TSB im Jahr 2015 für 2,2 Milliarden US-Dollar gekauft hatte.

Banco Sabadell CEO Jose Olyu sprach über die bevorstehende Veranstaltung 2 Wochen vor Weihnachten 2017 während eines festlichen Mitarbeitertreffens in einem prestigeträchtigen Konferenzraum in Barcelona. Das wichtigste Migrationstool sollte die neue Version des Banco Sabadell-Systems sein: Proteo. Es wurde sogar speziell für das TSB-Migrationsprojekt in Proteo4UK umbenannt.

Jaime Guardiola Romoharo, Executive Director von Banco Sabadell, prahlte bei der Proteo4UK-Präsentation, dass das neue System ein Großprojekt ist, das in Europa keine Analoga aufweist und an dem über 1000 Spezialisten gearbeitet haben. Und dass seine Implementierung dem Wachstum von Banco Sabadell in Großbritannien einen signifikanten Schub verleihen wird.

Der Tag der Migration wurde am 22. April 2018 festgelegt. Es war ein ruhiger Sonntagabend mitten im Frühling. Die IT-Systeme der Bank wurden deaktiviert, weil Datensätze von einem System auf ein anderes übertragen wurden. Mit der Wiederherstellung des öffentlichen Zugangs zu Bankkonten am späten Sonntagabend war zu erwarten, dass die Bank langsam und reibungslos wieder in Betrieb gehen würde.

Aber während Olya und Guardiola Romoharo freudig von der Bühne aus über die Umsetzung des Proteo4UK-Projekts sendeten, waren die für den Migrationsprozess verantwortlichen Mitarbeiter sehr nervös. Das Projekt, das 18 Monate dauerte, war ernsthaft in Verzug und überstieg das Budget. Es blieb keine Zeit, zusätzliche Tests durchzuführen. Aber die Übertragung aller Unternehmensdaten (und dies, Rückruf, Milliarden von Datensätzen) auf ein anderes System ist eine gigantische Arbeit.

Es stellte sich heraus, dass die Ingenieure nicht umsonst nervös waren.


Ein Stub auf einer Site, den Kunden zu lange gesehen haben

20 Minuten nachdem der TSB den Zugang zu den Konten eröffnet hatte, kamen die ersten Berichte über Probleme, da er sich völlig sicher war, dass die Migration reibungslos verlief.

Ansammlungen von Menschen verschwanden plötzlich. Käufe kleinerer Beträge wurden fälschlicherweise als Tausend Ausgaben verbucht. Einige Personen haben sich in ihre persönlichen Konten eingeloggt und ihre Bankkonten nicht gesehen, aber Konten von völlig anderen Personen.

Um 21.00 Uhr teilten Vertreter der TSB der örtlichen Finanzaufsichtsbehörde (UK Financial Regulatory and Supervisory Authority, FCA) mit, dass die Bank Probleme habe. Aber die FCA hat bereits darauf geachtet: TSB hat wirklich viel versaut, und die Kunden waren Dummköpfe. Und natürlich beschwerten sie sich über soziale Netzwerke (und heutzutage ist es nicht schwierig, ein paar Zeilen auf Twitter oder Facebook zu schreiben). Um 23:30 Uhr wandte sich eine andere Finanzaufsichtsbehörde, die Prudential Regulation Authority (PRA), an die FCA, die ebenfalls der Ansicht war, dass etwas nicht stimmte.

Bereits tief nach Mitternacht gelang es ihnen, einen Vertreter der Bank zu erreichen. Und stell ihnen die einzige Frage: "Was zum Teufel ist los?"

Es hat einige Zeit gedauert, um das Ausmaß der Tragödie zu verstehen, aber jetzt wissen wir, dass während der Migration 1,3 Milliarden Datensätze von 5,4 Millionen Kunden beschädigt wurden. Kunden waren mindestens eine Woche lang nicht in der Lage, ihr Geld über einen Computer und mobile Geräte zu verwalten. Es gelang ihnen nicht, den Kredit zu bezahlen, und viele Kunden der Bank erhielten einen Platz in ihrer Bonitätshistorie sowie verspätete Gebühren.


So sah die Online-TSB-Kundenbank aus

Als die Ausfälle fast unmittelbar danach auftraten, versicherten die Bankvertreter, dass die Probleme „regelmäßig“ auftraten. Drei Tage später wurde eine Erklärung ausgestellt, dass alle Systeme normal sind. Kunden meldeten jedoch weiterhin Probleme. Erst am 26. April 2018 gab Bankchef Paul Pester zu, dass die TSB „auf den Knien“ sei, da die IT-Infrastruktur der Bank noch ein „Bandbreitenproblem“ habe, das die Nutzung von Online-Banking-Diensten für rund eine Million Kunden nicht ermöglichte.

Zwei Wochen nach Beginn der Migration wurden weiterhin Abstürze in der Online-Banking-Anwendung gemeldet, die interne Fehler in Bezug auf die SQL-Datenbank verursachten.
Die Zahlungsschwierigkeiten, insbesondere bei Geschäftskonten und Hypothekenkonten, dauerten bis zu vier Wochen. Und allgegenwärtige Journalisten stellten fest, dass die TSB zu Beginn der Migrationskrise das Hilfsangebot der Lloyds Banking Group abgelehnt hatte. Im Allgemeinen wurden die Probleme bei der Eingabe von Online-Diensten und die Möglichkeit der Geldüberweisung bis zum 3. September beobachtet.

Ein bisschen Geschichte



Der erste Geldautomat wurde am 27. Juni 1967 in der Nähe von Barclays in Enfield eröffnet.

Bank-IT-Systeme werden immer komplexer, da die Kundenbedürfnisse und ihre Erwartungen an die Bank steigen. Vor ungefähr 40-60 Jahren würden wir uns freuen, die örtliche Bankfiliale während der Arbeitszeit zu besuchen, um Bargeld einzuzahlen oder über die Kasse abzuheben.

Der Geldbetrag auf dem Konto stand in direktem Zusammenhang mit dem Bargeld und den Münzen, die wir an die Bank überwiesen haben. Unsere Buchhaltung zu Hause konnte mit Stift und Papier verfolgt werden, und den Kunden standen keine Computersysteme zur Verfügung. Bankangestellte speichern Daten aus Sparbüchern und anderen Medien auf Geräten, die Geld zählen.

1967 wurde im Norden Londons erstmals ein Geldautomat installiert , der sich nicht auf dem Territorium der Bank befand. Und diese Veranstaltung hat das Bankwesen verändert. Benutzerfreundlichkeit ist zu einer Richtlinie für die Entwicklung von Finanzinstituten geworden. Dies hat dazu beigetragen, dass die Banken im Umgang mit Kunden und ihrem Geld anspruchsvoller geworden sind. Während Computersysteme nur Bankangestellten zur Verfügung standen, waren sie schließlich mit der bisherigen „Papierform“ der Interaktion mit einem Kunden zufrieden. Erst als es Geldautomaten und dann Online-Banking gab, erhielt die breite Öffentlichkeit direkten Zugang zu den IT-Systemen der Bank.

Geldautomaten waren nur der Anfang. Bald konnten die Leute die Warteschlange an der Kasse umgehen, indem sie einfach die Bank anriefen. Dies erforderte spezielle Karten, die in ein Lesegerät eingesetzt wurden und in der Lage waren, Mehrfrequenzsignale (DTMF) zu entschlüsseln, die gesendet wurden, wenn der Benutzer die Tasten „1“ (Geld abheben) oder „2“ (Geld einzahlen) drückte.

Das Internet und Mobile Banking haben die Kunden näher an die wichtigsten Systeme gebracht, die Banken unterstützen. Trotz verschiedener Einschränkungen und Einstellungen müssen alle diese Systeme effektiv miteinander und mit dem Mainframe interagieren, den Kontostand überprüfen, Geldtransfers durchführen und so weiter.

Nur wenige Kunden denken darüber nach, wie schwierig die Informationen sind, wenn Sie beispielsweise zu einer Online-Bank gehen, um Informationen zu Geld auf Ihrem Konto anzuzeigen oder zu aktualisieren. Wenn Sie in das System eintreten, werden diese Daten über eine Reihe von Servern übertragen. Wenn Sie eine Transaktion durchführen, dupliziert das System diese Daten in der Back-End-Infrastruktur, die dann die harte Arbeit leistet - Überweisungen von einem Konto auf ein anderes, um Rechnungen zu bezahlen, Zahlungen zu tätigen und Abonnements fortzusetzen.

Multiplizieren Sie diesen Prozess nun mit mehreren Milliarden. Nach Angaben der Weltbank über die Bill and Melinda Gates Foundation haben 69 Prozent der Erwachsenen weltweit ein Bankkonto. Jeder dieser Leute muss Rechnungen bezahlen. Jemand zahlt eine Hypothek oder überweist Geld für Kinderclubs, jemand zahlt ein Abonnement für Netflix oder mietet einen Cloud-Server. Und alle diese Leute benutzen mehr als eine Bank.

Zahlreiche interne IT-Systeme einer Bank (Mobile Banking, Geldautomaten etc.) sollten nicht nur miteinander interagieren. Sie müssen mit anderen Bankensystemen in Brasilien, China und Deutschland interagieren. Ein französischer Geldautomat sollte in der Lage sein, Geld auszugeben, das sich auf einer in Bolivien ausgestellten Bankkarte befindet.

Geld war schon immer global, aber noch nie war dieses System so komplex. Die Anzahl der Möglichkeiten, die IT-Systeme der Bank zu nutzen, nimmt zu, es werden jedoch immer noch alte Methoden verwendet. Der Erfolg einer Bank hängt maßgeblich davon ab, wie „wartbar“ ihre IT-Infrastruktur ist und wie effektiv die Bank einen plötzlichen Ausfall bewältigen kann, der das System zum Stillstand bringt.

Keine Tests - machen Sie sich bereit für Probleme



Jaime Guardiola, CEO der Banco de Sabadell (links), war zuversichtlich, dass alles reibungslos verlaufen würde. Hat nicht funktioniert.

TSB-Computersysteme waren nicht sehr gut darin, Probleme schnell zu lösen. Natürlich gab es Software-Ausfälle, aber in Wirklichkeit „brach“ die Bank aufgrund der übermäßigen Komplexität der IT-Systeme zusammen. Laut dem Bericht, der in den frühen Tagen der massiven Störung erstellt wurde, „führte die Kombination neuer Anwendungen, der erweiterte Einsatz von Mikrodiensten in Kombination mit dem Einsatz von zwei aktiven (Aktiv / Aktiv) Rechenzentren zu einem komplexen Risiko am Arbeitsplatz.“

Einige Banken, wie die HSBC, sind global tätig und verfügen daher auch über sehr komplexe, miteinander verbundene Systeme. Laut einem der IT-Manager von HSBC in Lancaster werden sie jedoch regelmäßig getestet, migriert und aktualisiert. Er sieht in der HSBC ein Modell dafür, wie andere Banken ihre IT-Systeme verwalten sollten: die Zuweisung von Personal und den Zeitaufwand. Gleichzeitig räumt er ein, dass es für eine kleinere Bank, insbesondere eine Bank ohne Migrationserfahrung, eine sehr schwierige Aufgabe ist, dies richtig zu tun.

Die TSB-Migration war schwierig. Experten zufolge konnten die Bankmitarbeiter diese Komplexität in Bezug auf die Qualifikation nicht erreichen. Außerdem haben sie sich nicht einmal die Mühe gemacht, ihre Entscheidung zu überprüfen und die Migration im Voraus zu testen.

Andrew Bailey, Executive Director der FCA, bestätigte diesen Verdacht vor dem britischen Parlament in Bankangelegenheiten. Ein fehlerhafter Code verursachte wahrscheinlich die anfänglichen Probleme nur im TSB, aber die miteinander verbundenen Systeme des globalen Finanznetzwerks bedeuteten, dass seine Fehler fortbestanden und irreversibel waren. Die Bank stellte weiterhin unerwartete Fehler in ihrer IT-Architektur fest. Kunden erhielten Nachrichten, die bedeutungslos waren oder nichts mit ihren Problemen zu tun hatten.

Regressionstests könnten helfen, eine Katastrophe zu verhindern, indem fehlerhafter Code identifiziert wird, bevor er in einer Produktionsumgebung ausgeführt werden kann, und Schäden verursacht werden, die zu Fehlern führen, die nicht rückgängig gemacht werden können. Aber die Bank beschloss, über das Minenfeld zu gehen, von dem er nicht einmal wusste. Die Folgen waren vorhersehbar. Ein weiteres Problem war die "Optimierung" der Kosten. Worin manifestiert es sich? Die Tatsache, dass früher beschlossen wurde, die in Lloyds gespeicherten Backups zu beseitigen, da sie zu viel Geld "aßen".

Britische Banken (und auch andere) streben eine Barrierefreiheit von "vier Neunen" an, das sind 99,99%. In der Praxis bedeutet dies, dass das IT-System jederzeit verfügbar sein muss und die Ausfallzeit bis zu 52 Minuten pro Jahr beträgt. Das Drei-Neun-System von 99,9% ist auf den ersten Blick nicht sehr unterschiedlich. Tatsächlich bedeutet dies jedoch, dass die Ausfallzeit 8 Stunden pro Jahr beträgt. Für eine Bank sind "vier Neunen" gut, "drei Neunen" nicht.

Aber jedes Mal, wenn ein Unternehmen Änderungen an seiner IT-Infrastruktur vornimmt, geht es Risiken ein. Schließlich kann etwas schief gehen. Das Reduzieren von Änderungen kann helfen, Probleme zu vermeiden, während erforderliche Änderungen gründlich getestet werden müssen. Zu diesem Zeitpunkt machten die britischen Aufsichtsbehörden auf sich aufmerksam.

Möglicherweise können Sie Ausfallzeiten am einfachsten vermeiden, indem Sie weniger Änderungen vornehmen. Aber jede Bank ist, wie jedes andere Unternehmen, gezwungen, immer mehr nützliche Möglichkeiten für Kunden und ihr eigenes Geschäft zu schaffen, um wettbewerbsfähig zu bleiben. Gleichzeitig sind die Banken weiterhin verpflichtet, sich um ihre Kunden zu kümmern, ihre Ersparnisse und persönlichen Daten zu schützen und komfortable Bedingungen für die Inanspruchnahme von Dienstleistungen bereitzustellen. Es stellt sich heraus, dass Unternehmen gezwungen sind, viel Zeit und Geld für die Aufrechterhaltung des Zustands der IT-Infrastruktur aufzuwenden und gleichzeitig neue Dienste anzubieten.

Nach Angaben der britischen Finanzaufsichtsbehörde stieg die Zahl der im britischen Finanzdienstleistungssektor verzeichneten technologischen Ausfälle zwischen 2017 und 2018 um 187 Prozent. In den meisten Fällen ist die Fehlerursache ein Problem beim Betrieb der neuen Funktionalität. Gleichzeitig ist es für die Banken von entscheidender Bedeutung, den kontinuierlichen und unterbrechungsfreien Betrieb aller Dienste und die nahezu sofortige Meldung von Transaktionen sicherzustellen. Kunden sind immer nervös, wenn ihr Geld mitten im Nirgendwo hängt. Ein Kunde, der wegen des Geldes nervös ist, ist immer in Schwierigkeiten, ein sicheres Zeichen.

Einige Monate nach dem TSB-Absturz (der CEO der Bank war zu diesem Zeitpunkt zurückgetreten) gaben die britischen Finanzaufsichtsbehörden und die Bank of England ein Diskussionspapier zur operativen Nachhaltigkeit heraus. Sie versuchten, die Frage zu stellen, inwieweit die Banken nach Innovationen streben und ob sie den stabilen Betrieb des derzeit verfügbaren Systems gewährleisten können.

In dem Dokument wurden auch Gesetzesänderungen vorgeschlagen. Es ging darum, die Mitarbeiter im Unternehmen für die Fehler in den IT-Systemen des Unternehmens verantwortlich zu machen. Die britischen Parlamentarier erklärten es so: "Wenn Sie persönlich verantwortlich sind und bankrott gehen oder ins Gefängnis geschickt werden können, wird dies Ihre Einstellung zur Arbeit stark verändern, einschließlich der Erhöhung des Zeitaufwands für das Thema Zuverlässigkeit und Sicherheit."

Zusammenfassung


Jedes Update und jede Korrektur hängt vom Risikomanagement ab, insbesondere wenn es um Hunderte von Millionen Dollar geht. Denn wenn etwas schief geht, kann es in Bezug auf Geld und Ansehen teuer werden. Es würde offensichtliche Dinge scheinen. Und das Scheitern der Bank während der Migration musste ihnen viel beibringen.

Hätte sein sollen. Hat aber nicht gelehrt. Im November 2019 „begeisterte“ TSB die Kunden mit einem neuen Misserfolg auf dem Gebiet der Informationstechnologie. Der zweite Schlag für die Bank führte dazu, dass sie im Jahr 2020 82 Filialen schließen musste, um ihre Kosten zu senken. Oder er konnte einfach nicht an IT-Spezialisten sparen.

Sparsamkeit gegenüber der IT wird letztendlich besteuert. TSB verzeichnete 2018 einen Verlust von 134 Mio. USD, verglichen mit einem Gewinn von 206 Mio. USD im Jahr 2017. Die Kosten nach der Migration, einschließlich der Entschädigung der Kunden, der Korrektur betrügerischer Transaktionen (und deren Anzahl nahm während des Bankenchaos stark zu) und der Unterstützung durch Spezialisten von Drittanbietern beliefen sich auf 419 Mio. USD. Dem IT-Anbieter der Bank wurden zudem 194 Millionen US-Dollar für seine Rolle in der Krise in Rechnung gestellt.

Trotz der nach dem Ausfall der TSB-Bank gezogenen Lehren wird es dennoch zu Unterbrechungen kommen. Sie sind unvermeidlich. Dank Tests und gutem Code können Abstürze und Ausfallzeiten erheblich reduziert werden. Cloud4Y unterstützt häufig große Unternehmen bei der Migration auf die Cloud-Infrastruktur und ist sich bewusst, wie wichtig es ist, schnell von einem System auf ein anderes zu wechseln. Daher können wir Auslastungstests durchführen und ein mehrstufiges Sicherungssystem sowie andere Optionen verwenden, mit denen Sie vor Beginn der Migration alles Mögliche überprüfen können.

Was sonst noch nützlich ist, lesen Sie im Cloud4Y- Blog

Salzige Sonnenenergie
Pentester an der Spitze der Cybersicherheit
→ Die große Schneeflockentheorie
Internet mit Luftballons
Benötigen Sie Kissen im Rechenzentrum?

Abonnieren Sie unseren Telegrammkanal , um keinen Artikel mehr zu verpassen! Wir schreiben nicht mehr als zweimal pro Woche und nur geschäftlich.

Source: https://habr.com/ru/post/de484644/


All Articles