La migración fallida de la infraestructura de TI ha dañado 1.300 millones de registros de clientes bancarios. La falla fue la falta de pruebas y una actitud frívola hacia los complejos sistemas de TI. Cloud4Y cuenta cómo fue. En 2018, el
banco británico
TSB se dio cuenta de que su "divorcio" hace dos años con el grupo bancario Lloyds (ambas compañías fusionadas en 1995) es demasiado costoso. La TSB todavía estaba vinculada a su antiguo socio a través de sistemas de TI Lloyds clonados a toda prisa. Y la peor parte fue que el banco tuvo que pagar "manutención de los hijos", deducciones en forma de derechos de licencia anuales de $ 127 millones.
A pocas personas les gusta pagar dinero a sus ex, por lo que el 22 de abril de 2018 a las 18:00, TSB comenzó la etapa final de un plan de 18 meses que se suponía que cambiaría todo. Se planeó transferir miles de millones de registros de clientes al sistema de TI de la compañía española Banco Sabadell, que compró TSB por $ 2.2 mil millones en 2015.
El CEO de Banco Sabadell, José Olyu, habló sobre el próximo evento 2 semanas antes de Navidad de 2017 durante una reunión festiva de personal en una prestigiosa sala de conferencias en Barcelona. La herramienta de migración más importante era la nueva versión del sistema de Banco Sabadell: Proteo. Incluso se renombró Proteo4UK específicamente para el proyecto de migración TSB.
En la presentación de Proteo4UK, Jaime Guardiola Romoharo, Director Ejecutivo de Banco Sabadell, se jactó de que el nuevo sistema es un proyecto a gran escala que no tiene análogos en Europa y ha sido trabajado por más de 1000 especialistas. Y que su implementación dará un impulso significativo al crecimiento de Banco Sabadell en el Reino Unido.
El día de la migración fue designado el 22 de abril de 2018. Era un tranquilo domingo por la noche en medio de la primavera. Los sistemas de TI del banco se desactivaron porque los registros se transfirieron de un sistema a otro. Con la restauración del acceso público a las cuentas bancarias el domingo por la noche, uno podría esperar que el banco regrese a la operación lenta y suavemente.
Pero mientras Olya y Guardiola Romoharo transmitían con alegría desde el escenario sobre la implementación del proyecto Proteo4UK, el personal responsable del proceso de migración estaba muy nervioso. El proyecto, que tardó 18 meses, se retrasó mucho y superó el presupuesto. No hubo tiempo para realizar pruebas adicionales. Pero la transferencia de todos los datos de la empresa (y esto, recordar, miles de millones de registros) a otro sistema es un trabajo titánico.
Resultó que los ingenieros no estaban nerviosos por nada.
Un trozo en un sitio que los clientes han visto durante demasiado tiempo.20 minutos después de que la TSB abrió el acceso a las cuentas, estando completamente seguros de que la migración se realizó sin problemas, llegaron los primeros informes de problemas.
Las acumulaciones de personas desaparecieron repentinamente. Las compras de pequeñas cantidades se registraron por error como miles de gastos. Algunas personas iniciaron sesión en sus cuentas personales y no vieron sus cuentas bancarias, sino cuentas de personas completamente diferentes.
A las 9 p.m., los representantes de TSB le dijeron al regulador financiero local (Autoridad de Supervisión y Regulación Financiera del Reino Unido, FCA) que el banco tenía problemas. Pero FCA ya ha prestado atención a esto: TSB realmente la fastidió mucho, y los clientes eran tontos. Y, por supuesto, comenzaron a quejarse de
las redes sociales (y hoy en día, escribir un par de líneas en Twitter o Facebook no es difícil). A las 23:30, otro regulador financiero, la Autoridad de Regulación Prudencial (PRA), contactó a FCA, quien también sintió que algo andaba mal.
Ya mucho después de la medianoche, lograron comunicarse con uno de los representantes del banco. Y hágales la única pregunta: "¿qué demonios está pasando?"
Tomó tiempo comprender la magnitud de la tragedia, pero ahora sabemos que durante la migración se dañaron 1.300 millones de registros de 5.4 millones de clientes. Durante al menos una semana, los clientes no pudieron administrar su dinero desde una computadora y dispositivos móviles. No lograron pagar el préstamo, y muchos de los clientes del banco recibieron un lugar en su historial crediticio, así como cargos por pagos atrasados.
Así es como se veía el banco de clientes TSB en líneaCuando comenzaron a aparecer las fallas, casi inmediatamente después de eso, los representantes del banco aseguraron que los problemas eran "periódicos". Tres días después, se emitió una declaración de que todos los sistemas son normales. Pero los clientes continuaron informando problemas. Solo el 26 de abril de 2018, el CEO del Banco, Paul Pester, admitió que TSB está "de rodillas", ya que la infraestructura de TI del banco todavía tenía un "problema de ancho de banda" que no permitía el uso de servicios de banca en línea para aproximadamente un millón de clientes.
Dos semanas después del inicio de la migración, todavía se informaron bloqueos en la aplicación de banca en línea, lo que generó errores internos relacionados con la base de datos SQL.
Las dificultades con los pagos, especialmente con las cuentas comerciales y las cuentas hipotecarias, duraron hasta cuatro semanas. Y periodistas ubicuos descubrieron que el TSB rechazó la oferta de ayuda del Grupo bancario Lloyds al comienzo de la crisis migratoria. En general, los problemas asociados con la entrada de servicios en línea y la posibilidad de transferir dinero se observaron hasta el 3 de septiembre.
Un poco de historia
El primer cajero automático se abrió el 27 de junio de 1967 cerca de Barclays en Enfield.Los sistemas bancarios de TI se están volviendo cada vez más complejos, a medida que crecen las necesidades de los clientes y sus expectativas del banco. Hace unos 40-60 años, nos complacería visitar la sucursal local del banco durante el horario laboral para depositar efectivo o retirarlo a través del cajero.
La cantidad de dinero en la cuenta estaba directamente relacionada con el efectivo y las monedas que transferimos al banco. La contabilidad de nuestra casa podía rastrearse con un bolígrafo y papel, y los sistemas informáticos no estaban disponibles para los clientes. Los empleados del banco colocan datos de libretas y otros medios en dispositivos que cuentan dinero.
Pero en 1967, en el norte de Londres
, se instaló por primera
vez un cajero automático, que no estaba ubicado en el territorio del banco. Y este evento ha cambiado la banca. La conveniencia del usuario se ha convertido en una guía para el desarrollo de las instituciones financieras. Y esto ha ayudado a los bancos a ser más sofisticados en términos de trabajo con clientes y su dinero. Después de todo, si bien los sistemas informáticos solo estaban disponibles para los empleados del banco, estaban satisfechos con la forma anterior, "en papel" de interactuar con un cliente. Y solo cuando había cajeros automáticos, y luego banca en línea, el público en general tenía acceso directo a los sistemas de TI del banco.
Los cajeros automáticos fueron solo el comienzo. Pronto, las personas pudieron evitar la cola en el cajero simplemente llamando al banco por teléfono. Esto requirió tarjetas especiales insertadas en un lector capaz de descifrar las señales de frecuencia múltiple de doble tono (DTMF) transmitidas cuando el usuario presionó las teclas "1" (retirar dinero) o "2" (depositar dinero).
Internet y la banca móvil han acercado a los clientes a los principales sistemas que respaldan a los bancos. A pesar de varias limitaciones y configuraciones, todos estos sistemas deben interactuar efectivamente entre sí y con el mainframe principal, verificar el saldo de la cuenta, realizar transferencias de dinero, etc.
Pocos clientes piensan en lo difícil que es la información cuando, por ejemplo, usted va a un banco en línea para ver o actualizar información sobre el dinero en su cuenta. Cuando ingresa al sistema, estos datos se transmiten a través de un conjunto de servidores, cuando realiza una transacción, el sistema duplica estos datos en la infraestructura de back-end, que luego hace el trabajo duro: transfiere dinero de una cuenta a otra para pagar facturas, realizar pagos y continuar suscripciones.
Ahora multiplique este proceso por varios miles de millones. Según los datos recopilados por el Banco Mundial a través de la Fundación Bill y Melinda Gates, el
69 por ciento de los adultos en todo el mundo tienen una cuenta bancaria. Cada una de estas personas debe pagar las facturas. Alguien paga una hipoteca o transfiere dinero para clubes de niños, alguien paga una suscripción a Netflix o alquila un servidor en la nube. Y todas estas personas usan más de un banco.
Numerosos sistemas informáticos internos de un banco (banca móvil, cajeros automáticos, etc.) no solo deben interactuar entre sí. Necesitan interactuar con otros sistemas bancarios en Brasil, China y Alemania. Un cajero automático francés debería poder emitir dinero que está en una tarjeta bancaria emitida en algún lugar de Bolivia.
El dinero siempre ha sido global, pero nunca antes este sistema ha sido tan complejo. La cantidad de formas de usar los sistemas de TI del banco está aumentando, pero las formas antiguas todavía están en uso. El éxito de un banco depende en gran medida de cuán "sostenible" sea su infraestructura de TI y de cuán eficientemente el banco pueda hacer frente a una falla repentina, lo que hará que el sistema permanezca inactivo.
Sin pruebas: prepárese para los problemas
El CEO del Banco de Sabadell, Jaime Guardiola (izquierda) confiaba en que todo saldría bien. No funcionó.Los sistemas informáticos TSB no eran muy buenos para resolver problemas rápidamente. Hubo, por supuesto, fallas de software, pero en realidad el banco "quebró" debido a la excesiva complejidad de los sistemas de TI. Según el informe, que se preparó en los primeros días de la interrupción masiva, “la combinación de nuevas aplicaciones, el uso ampliado de microservicios en combinación con el uso de dos centros de datos activos (Activo / Activo) condujo a un riesgo complejo en el lugar de trabajo.
Algunos bancos, como HSBC, operan a nivel mundial y, por lo tanto, también tienen sistemas interconectados muy complejos. Pero ellos, según uno de los ejecutivos de TI de HSBC en Lancaster, son regularmente probados, migrados y actualizados. Él ve a HSBC como un modelo de cómo otros bancos deben administrar sus sistemas de TI: asignando personal y gastando su tiempo. Pero al mismo tiempo, admite que para un banco más pequeño, especialmente uno que no tiene experiencia en migración, hacer esto correctamente es una tarea muy difícil.
La migración de TSB fue difícil. Y, según los expertos, el personal del banco no pudo tratar de alcanzar este nivel de complejidad en términos de calificaciones. Además, ni siquiera se molestaron en verificar su decisión, probar la migración por adelantado.
En declaraciones al Parlamento británico sobre cuestiones bancarias, Andrew Bailey, Director Ejecutivo de la FCA, confirmó esta sospecha. El código incorrecto probablemente causó los problemas iniciales solo en la TSB, pero los sistemas interconectados de la red financiera global significaron que sus errores fueron perpetuos e irreversibles. El banco continuó viendo errores inesperados en otras partes de su arquitectura de TI. Los clientes recibieron mensajes sin sentido o sin relación con sus problemas.
Las pruebas de regresión podrían ayudar a prevenir una catástrofe al identificar un código incorrecto antes de que se ejecute en un entorno de producción, y causó daños, creando errores que no se pudieron revertir. Pero el banco decidió ir al campo minado, del cual ni siquiera sabía. Las consecuencias fueron predecibles. Otro problema fue la "optimización" de los costos. ¿En qué se manifiesta? El hecho de que antes se decidió eliminar las copias de seguridad almacenadas en Lloyds, ya que "comían" demasiado dinero.
Los bancos británicos (y otros también) se esfuerzan por alcanzar un nivel de accesibilidad de "cuatro nueves", que es del 99,99%. En la práctica, esto significa que el sistema de TI debe estar disponible en todo momento, y el tiempo de inactividad es de hasta 52 minutos por año. El sistema de "tres nueves", 99.9%, a primera vista no es muy diferente. Pero, de hecho, significa que el tiempo de inactividad alcanza las 8 horas al año. Para un banco, "cuatro nueves" es bueno, pero "tres nueves" no lo es.
Pero cada vez que una empresa realiza cambios en su infraestructura de TI, asume riesgos. Después de todo, algo puede salir mal. Reducir los cambios puede ayudar a evitar problemas, mientras que los cambios necesarios deben probarse a fondo. Y en este punto, los reguladores británicos llamaron la atención.
Quizás la forma más fácil de evitar el tiempo de inactividad es hacer menos cambios. Pero cada banco, como cualquier otra empresa, se ve obligado a introducir más y más oportunidades útiles para los clientes y su propio negocio a fin de seguir siendo competitivos. Al mismo tiempo, los bancos todavía están obligados a cuidar a sus clientes, protegiendo sus ahorros y datos personales, proporcionando condiciones cómodas para usar los servicios. Resulta que las organizaciones se ven obligadas a gastar mucho tiempo y dinero en mantener la salud de la infraestructura de TI, al tiempo que ofrecen nuevos servicios.
Según las cifras publicadas por la Autoridad de Supervisión y Regulación Financiera del Reino Unido, el número de fallas tecnológicas registradas en el sector de servicios financieros del Reino Unido creció un 187 por ciento entre 2017 y 2018. Muy a menudo, la causa de las fallas es un problema en el funcionamiento de la nueva funcionalidad. Al mismo tiempo, es de vital importancia para los bancos garantizar el funcionamiento continuo ininterrumpido de todos los servicios y la notificación casi instantánea de las transacciones. Los clientes siempre están nerviosos cuando su dinero se queda en el medio de la nada. Un cliente que está nervioso por el dinero siempre está en problemas, una señal segura.
Unos meses después del fracaso de la TSB (en ese momento el CEO del banco había renunciado), los reguladores financieros del Reino Unido y el Banco de Inglaterra
emitieron un documento de debate sobre sostenibilidad operativa. Por lo tanto, trataron de plantear la cuestión de cuán profundamente los bancos buscaron innovaciones y si pueden garantizar el funcionamiento estable del sistema que está disponible ahora.
El documento también propuso enmiendas a la ley. Se trataba de hacer que los empleados de la empresa fueran responsables de lo que salió mal en los sistemas de TI de la empresa. Los parlamentarios británicos lo explicaron de esta manera: "Cuando usted es personalmente responsable y puede ir a la bancarrota o ser enviado a prisión, esto cambiará enormemente su actitud hacia el trabajo, incluido el aumento del tiempo dedicado al tema de la confiabilidad y la seguridad".
Resumen
Cada actualización y arreglo se reduce a la gestión de riesgos, especialmente cuando se trata de cientos de millones de dólares. Después de todo, si algo sale mal, puede ser costoso en términos de dinero y reputación. Parecería cosas obvias. Y la quiebra del banco durante la migración tuvo que enseñarles mucho.
Debería haber sido Pero no enseñó. En noviembre de 2019, TSB, que nuevamente recuperó su recuperación y lentamente mejoró su reputación, "deleitó" a los clientes con un
nuevo fracaso en el campo de la tecnología de la información. El segundo golpe al banco llevó al hecho de que se vería obligado a cerrar 82 sucursales en 2020 para reducir sus costos. O simplemente no podría ahorrar en especialistas de TI.
La paternidad hacia la TI está gravada en última instancia. TSB informó una pérdida de $ 134 millones en 2018, en comparación con una ganancia de $ 206 millones en 2017. Los costos después de la migración, incluida la compensación a los clientes, la corrección de transacciones fraudulentas (y su número aumentó considerablemente durante el caos bancario) y la asistencia de especialistas externos ascendieron a $ 419 millones. El proveedor de TI del banco también recibió $ 194 millones por su papel en la crisis.
Sin embargo, a pesar de las lecciones aprendidas después de la quiebra del banco TSB, aún se producirán interrupciones. Son inevitables. Pero gracias a las pruebas y al buen código, la cantidad de bloqueos y el tiempo de inactividad pueden reducirse significativamente. Cloud4Y, que a menudo ayuda a las grandes empresas a migrar a la infraestructura de la nube, es muy consciente de la importancia de pasar rápidamente de un sistema a otro. Por lo tanto, podemos llevar a cabo pruebas de carga y utilizar un sistema de respaldo de varios niveles, así como otras opciones que le permiten verificar todo lo posible antes de comenzar la migración.
¿Qué más es útil para leer en el blog de Cloud4Y?→
Energía solar salada→
Pentesters a la vanguardia de la ciberseguridad→ La
gran teoría del copo de nieve→
Internet por globos→
¿Necesita almohadas en el centro de datos?¡Suscríbete a nuestro canal de
Telegram para no perderte otro artículo! No escribimos más de dos veces por semana y solo por negocios.