Almacenamiento para infraestructura HPC, o cómo recolectamos 65 PB de almacenamiento en el Centro de Investigación RIKEN Japón


datacenterknowledge.com

El año pasado, se implementó la instalación de almacenamiento basada en RAIDIX más grande en este momento. Se implementó un sistema de 11 clústeres de conmutación por error en el Instituto RIKEN de Ciencias de la Computación (Japón). El objetivo principal del sistema es el HPC Infrastructure Storage (HPCI), que se implementa como parte del proyecto de intercambio de información de intercambio académico a gran escala Academic Cloud (basado en la red SINET).

Una característica importante de este proyecto es su volumen total de 65 PB, de los cuales el volumen utilizable del sistema es 51.4 PB. Para comprender mejor este valor, agregamos que se trata de 6512 discos de 10 TB cada uno (el más moderno en el momento de la instalación). Esto es mucho

El trabajo en el proyecto continuó durante todo el año, después de lo cual el monitoreo de la estabilidad del sistema continuó durante aproximadamente un año. Los indicadores obtenidos cumplieron con los requisitos establecidos, y ahora podemos hablar sobre el éxito de este registro y un proyecto significativo para nosotros.

Supercomputadora en el Centro de Computación del Instituto RIKEN


Para la industria de las TIC, el Instituto RIKEN es conocido principalmente por su legendaria "computadora K" (del japonés "kei", que significa 10 billones), que en el momento del lanzamiento (junio de 2011) era considerada la supercomputadora más poderosa del mundo.


La supercomputadora ayuda al Centro de Ciencias Computacionales en la implementación de investigaciones complejas a gran escala: permite modelar el clima, las condiciones climáticas y el comportamiento molecular, calcular y analizar reacciones en física nuclear, predicción de terremotos y mucho más. Las capacidades de la supercomputadora también se utilizan para una investigación más "diaria" y aplicada, para buscar campos petroleros y pronosticar tendencias en los mercados bursátiles.

Dichos cálculos y experimentos generan una gran cantidad de datos, cuyo valor y significado no pueden ser sobreestimados. Para aprovechar al máximo esto, los científicos japoneses han desarrollado un concepto para un único espacio de información en el que los profesionales de HPC de diferentes centros de investigación tendrán acceso a los recursos de HPC recibidos.

Infraestructura informática de alto rendimiento (HPCI)


HPCI opera sobre la base de SINET (The Science Information Network), una red troncal para el intercambio de datos científicos entre universidades y centros de investigación japoneses. Actualmente, SINET reúne a unos 850 institutos y universidades, creando enormes oportunidades para el intercambio de información en investigaciones que afectan la física nuclear, la astronomía, la geodesia, la sismología y la informática.

HPCI es un proyecto de infraestructura único que forma un sistema unificado de intercambio de información en el campo de la informática de alto rendimiento entre universidades y centros de investigación en Japón.

Al combinar las capacidades de la supercomputadora "K" y otros centros de investigación en una forma accesible, la comunidad científica recibe beneficios obvios por trabajar con datos valiosos creados por la informática de la supercomputadora.

Con el fin de proporcionar un acceso efectivo de los usuarios conjuntos al entorno HPCI, se impusieron altos requisitos de almacenamiento para la velocidad de acceso. Y gracias a la "hiperproductividad" de la computadora K, se calculó que el clúster de almacenamiento en el Centro de Ciencias Computacionales del Instituto RIKEN se creó con un volumen de trabajo de al menos 50 PB.

La infraestructura del proyecto HPCI se construyó sobre la base del sistema de archivos Gfarm, que permitió proporcionar un alto nivel de rendimiento y combinar grupos de almacenamiento dispares en un solo espacio compartido.

Sistema de archivos Gfarm


Gfarm es un sistema de archivos distribuidos de código abierto desarrollado por ingenieros japoneses. Gfarm es el fruto del desarrollo del Instituto de Ciencia y Tecnología Industrial Avanzada (AIST), y el nombre del sistema se refiere a la arquitectura utilizada por Grid Data Farm.

Este sistema de archivos combina una serie de propiedades aparentemente incompatibles:

  • Alta escalabilidad en volumen y rendimiento.
  • Distribución de redes de larga distancia con soporte para un solo espacio de nombres para varios centros de investigación diversos.
  • Soporte de API POSIX
  • Alto rendimiento requerido para computación paralela
  • Seguridad de almacenamiento de datos

Gfarm crea un sistema de archivos virtual utilizando recursos de almacenamiento de múltiples servidores. El servidor de metadatos distribuye los datos y el esquema de distribución en sí está oculto para los usuarios. Debo decir que Gfarm consiste no solo en un clúster de almacenamiento, sino también en una cuadrícula computacional que utiliza los recursos de los mismos servidores. El principio de funcionamiento del sistema se parece a Hadoop: el trabajo enviado se "baja" al nodo donde se encuentran los datos.

La arquitectura del sistema de archivos es asimétrica. Los roles están claramente asignados: Servidor de almacenamiento, Servidor de metadatos, Cliente. Pero al mismo tiempo, los tres roles pueden ser realizados por la misma máquina. Los servidores de almacenamiento almacenan muchas copias de archivos y los servidores de metadatos funcionan en modo maestro-esclavo.

Proyecto de trabajo


Core Micro Systems, un socio estratégico y proveedor exclusivo de RAIDIX en Japón, implementó la implementación en el Instituto RIKEN del Centro de Ciencias de la Computación. Para implementar el proyecto, se necesitaron unos 12 meses de trabajo minucioso, en el que no solo los empleados de Core Micro Systems, sino también los especialistas técnicos del equipo de Reydix tomaron parte activa.

Al mismo tiempo, la transición a otro sistema de almacenamiento parecía poco probable: el sistema existente tenía muchos enlaces técnicos que complicaban la transición a cualquier nueva marca.

Durante largas pruebas, comprobaciones y mejoras, RAIDIX ha demostrado un alto rendimiento y una eficiencia consistentes al trabajar con una cantidad de datos tan impresionante.

Sobre las mejoras vale la pena contar un poco más. Era necesario no solo crear la integración de los sistemas de almacenamiento con el sistema de archivos Gfarm, sino también expandir algunas características funcionales del software. Por ejemplo, para cumplir con los requisitos establecidos de las especificaciones técnicas, era necesario desarrollar e implementar la tecnología de escritura automática lo antes posible.

El despliegue del sistema en sí fue sistemático. Los ingenieros de Core Micro Systems realizaron con cuidado y precisión cada etapa de la prueba, aumentando gradualmente la escala del sistema.

En agosto de 2017, la primera fase de implementación se completó cuando el volumen del sistema alcanzó 18 PB. En octubre del mismo año, se implementó la segunda fase, en la cual el volumen aumentó a un récord de 51 PB.

Arquitectura de soluciones


La solución se creó a través de la integración de los sistemas de almacenamiento RAIDIX y el sistema de archivos distribuido Gfarm. En conjunto con Gfarm, la capacidad de crear almacenamiento escalable usando 11 sistemas RAIDIX de doble controlador.

La conexión a los servidores de Gfarm se realiza a través de 8 x SAS 12G.



Fig. 1. Imagen de un clúster con un servidor de datos separado para cada nodo

(1) conexiones de malla SAN de 48 Gbps × 8; ancho de banda: 384 Gbps
(2) conexiones de TELA de malla de 48 Gbps × 40; ancho de banda: 1920Gbps

Configuración de plataforma de controlador dual


CPUIntel Xeon E5-2637 - 4 piezas
Placa baseCompatible con el modelo de procesador compatible con PCI Express 3.0 x8 / x16
Caché interna256 GB para cada nodo
Chasis2U
Controladores SAS para conectar estanterías de discos, servidores y sincronización de caché de escrituraBroadcom 9305 16e, 9300 8e
HDDHGST Helium 10TB SAS HDD
Sincronización de latidosEthernet 1 GbE
CacheSync Sync6 x SAS 12G

Ambos nodos del clúster de conmutación por error están conectados a 10 JBOD (60 discos de 10 TB cada uno) a través de 20 puertos SAS 12G para cada nodo. En estos estantes de disco, se crearon 58 matrices RAID6 de 10 TB (8 discos de datos (D) + 2 discos de paridad (P)) y se asignaron 12 discos para “intercambio en caliente”.

10 JBOD => 58 × RAID6 (8 discos de datos (D) + 2 discos de paridad (P)), LUN de 580 HDD + 12 HDD para “intercambio en caliente” (2.06% del volumen total)

592 HDD (10TB SAS / 7.2k HDD) por cluster * HDD: HGST (MTBF: 2 500 000 horas)



Fig. 2. Clúster de conmutación por error con diagrama de conexión 10 JBOD

Sistema general y diagrama de conexión




Fig. 3. Imagen de un solo clúster dentro del sistema HPCI

Indicadores clave del proyecto


Capacidad utilizable por clúster: 4.64 PB ((RAID6 / 8D + 2P) LUN × 58)

La capacidad útil total de todo el sistema: 51.04 PB (4.64 PB × 11 grupos).

Capacidad total del sistema: 65 PB .

El rendimiento del sistema fue: 17 GB / s para escritura, 22 GB / s para lectura.

El rendimiento total del subsistema de disco del clúster en 11 sistemas de almacenamiento RAIDIX: 250 GB / s .

Source: https://habr.com/ru/post/es431230/


All Articles