🎰 😥 ✌🏻 ¿Por qué monitorear los sistemas de almacenamiento? 😙 😸 🐍

Alguien caerá pronto

Porque SHD almacena lo sagrado de los santos: datos. Si los datos ya no están disponibles, huele a frito muy pronto. O si de repente el lugar se acaba, también es una sorpresa desagradable. Por lo tanto, el monitoreo debe ser obligatorio y debe cubrir los sistemas de almacenamiento.

Hay dos enfoques principales para monitorear el almacenamiento . Utilice un sistema de monitoreo universal como Nagios, Icinga, que recopilará información a través de SNMP, o compre software altamente especializado de los propios fabricantes de los sistemas de almacenamiento. Por supuesto, la segunda opción proporciona un análisis más profundo del estado del hierro, muestra cosas específicas como el estado de la memoria caché, iops, tasa de aciertos, controladores de carga, etc. Esta es la opción elegida con mayor frecuencia por nuestros clientes, que tienen matrices grandes y costosas en servicio. .

Pero, por cierto, no todo es tan fácil con el software de monitoreo comercial. Con más detalle lo contaré más. Será, por así decirlo, una experiencia de primera mano. En un momento, durante casi 2 años estuve terminando uno de estos sistemas para miles de trozos de papel verde de un vendedor famoso. Y lo recogió para que incluso el apoyo del vendedor comenzara a consultarme. Pero algunos problemas de software fueron reemplazados por otros, así como algunos indios de apoyo fueron reemplazados por nuevos indios, y fue entonces cuando tuve la idea, si no de actuar radicalmente ... En general, todo comenzó con esto.

¿Qué hay de malo con el software del proveedor?

Como dije, el monitoreo del fabricante monitorea perfectamente los sistemas de almacenamiento del mismo fabricante. Esta es su principal ventaja. Las desventajas crecen a partir de aquí: las matrices de otros fabricantes se admiten de forma limitada o no se admiten. Resulta que si tiene varias matrices diferentes en la granja, entonces necesita varias herramientas de monitoreo diferentes. Sí, y no olvide cuál de qué y cuándo necesita verlo la próxima vez. Idealmente, generalmente por administrador para cada matriz.

No es ningún secreto que las herramientas de los fabricantes vendedores cuestan dinero y son bastante grandes. Y la extensión del soporte también cuesta un centavo. Y algunos proveedores han dominado un nuevo enfoque: anuncian el final del ciclo de vida de su software y ofrecen simplemente comprar otro producto, sin migración de licencias. Fue una configuración que ocurrió hace un par de meses con uno de nuestros clientes. No hay opciones: si desea continuar monitoreando el hardware, realice una nueva compra.

Si profundiza en el software del proveedor, aparecerán otras características desagradables. Por ejemplo, en varios productos puede ver la imagen del estado actual, pero no puede ver el historial del período anterior. O la historia es limitada: el registro se reescribe una vez cada 3 días. Simplemente no hay necesidad de hablar sobre la acumulación de estadísticas. Y a menudo se requiere el historial de eventos para pronósticos, por ejemplo, la compra de repuestos, y para informar e investigar incidentes. Por ejemplo, los frenos en algunos sistemas comerciales se pueden empujar al sistema de almacenamiento y, si no hay datos reales, no hay nada para esconderse.

Y finalmente, uno no puede dejar de quejarse de la velocidad de las actualizaciones y los cambios en el software del proveedor. ¡Oh, con qué frecuencia me he encontrado con este problema durante mi larga práctica! Están saliendo nuevos modelos de matrices, están saliendo nuevos firmwares, aparecen nuevas configuraciones. Todo esto interrumpe fácilmente el monitoreo de trabajo: o algún tipo de infante deja de ser recolectado, o las matrices generalmente se caen. En un nuevo microcódigo, un fabricante desactivó el soporte para versiones antiguas de SSL, y el software de monitoreo aún no admitía el protocolo TLS. Y al principio nadie pudo encontrar una razón. Después de mi propia investigación, envié estas entradas al fabricante, y ya actualizaron las antiguas bibliotecas. Sin embargo, toda esta burocracia duró indefinidamente.

Y una vez que fallamos el piloto en el cliente. Se propuso utilizar el software del proveedor, y al cliente le gustó todo en términos de funcionalidad e interfaz. Pero desafortunadamente, sus principales sistemas productivos no fueron compatibles. Incluso estaban listos para esperar uno o dos meses, pero el proveedor dijo que no había planes para incluir estos sistemas en el soporte en un futuro próximo (y esto fue solo una actualización de la línea Hitachi AMS en HUS).

En general, una gran cantidad de inconvenientes y por alguna razón por mucho dinero.

Hace mucho tiempo no recogí damas ...

Frustrado por este estado de cosas, a menudo he pensado en cómo implementar mi propio monitoreo para el almacenamiento. Si conoce bien la matriz y posee su CLI, puede obtener rápidamente la información que necesita sobre el estado o llegar al fondo de los problemas. Por supuesto, antes de esto, es necesario palear muchos muelles, foros de humo y bases de conocimiento de proveedores, información fragmentariamente diferente. Pero cuando sabes qué comando escribir con qué tecla y qué significa cada columna de salida, ya eres un gurú. Quedaba por construir este conocimiento en una interfaz conveniente, que continuará haciendo todo por usted.

Admito que al principio planeé escribir la interfaz desde cero también, pero luego me encontré con Zabbix, una herramienta madura con una gran comunidad, que también es fácil de expandir. Tenía todo lo que necesitaba: una interfaz, un modelo a seguir, notificaciones, un sistema de activación, agentes de cliente proxy. Solo quedaba que esta combinación proporcionara correctamente información sobre los sistemas de almacenamiento y los valores de umbral de varios parámetros. El caso comenzó a hervir. Contamos con un equipo de especialistas en matrices. Por supuesto, es imposible conocer todas las matrices por una persona, por lo que estamos divididos por modelo y fabricante.

Otra dificultad en el desarrollo de su propio monitoreo es la capacidad de acceder a las piezas de hierro por sí mismas y para que aún no tengan miedo de cargar, romper y realizar todo tipo de experimentos. Afortunadamente, los recursos de nuestro laboratorio permitieron todo esto.

Lo primero que se debe monitorear es el estado de todos los componentes de hardware. Se puede tomar algo a través de SNMP, pero en la mayoría de los casos se trata de una encuesta que utiliza un protocolo especial (SMI-S, REST API, SOAP API y otros). Debo decir que las matrices mismas te permiten configurar notificaciones sobre averías en ellas. Y todos los clientes usan esto como mínimo. Pero, ¿qué sucede si se rompe la notificación en la matriz? Esto sucedió, y más de una vez, cuando la matriz estuvo en silencio durante semanas y a todos les pareció que todo estaba en orden, estaba en silencio. Y de repente se hizo evidente que un número crítico de discos voló sobre él, pero ya era demasiado tarde.

El segundo punto importante a monitorear es el rendimiento. Porque cuando un rendimiento se basa en un sistema de almacenamiento con un retraso de grabación de unos segundos, Oracle simplemente puede subir y bajar. Ni idea Es el rendimiento en grandes infraestructuras con muchos sistemas de almacenamiento el peor controlado. Y Zabbix tiene un análisis predictivo extremadamente conveniente: en función del pronóstico, puede establecer el valor de la métrica, que se convertirá en el futuro. Por ejemplo, hicimos un disparador que funcionará si hay un pronóstico de que solo quedarán 3 meses para la disposición actual. O, por ejemplo, que el tiempo de respuesta según el pronóstico en 2 semanas será mayor en 50 milisegundos. El monitoreo nos da tiempo para conocer de antemano los problemas futuros y para hacer algo ya.

En algún momento, nos dimos cuenta de que es bueno saber sobre el estado del almacenamiento, por supuesto, pero es mucho mejor entender qué más está sucediendo en la red y en el lado del servidor. Como resultado, después de varios meses de trabajo, fue posible ver los servidores, la red y los sistemas de almacenamiento en una interfaz. No solo aparecieron complementos y conectores para almacenamiento, sino también un enlace útil en forma de mapas de topología de red. Hasta ahora, por supuesto, el complemento tiene en cuenta nuestra experiencia y nuestras necesidades, pero si nos dice lo que necesita ver en él, lo modificaremos.

Topología de extremo a extremo para VMware Cluster: de la máquina virtual al volumen de almacenamiento

Rendimiento

En el gráfico de rendimiento de la matriz, vemos que el sistema está muy sobrecargado. La alta utilización de grupos de discos indica que los discos están sobrecargados. Hay muchas operaciones de E / S en los puertos de almacenamiento, lo que significa que los sistemas de TI cargan la matriz por su parte. Bueno, el gráfico característico del tiempo de respuesta, así como la utilización de procesadores por encima de los valores recomendados. Veredicto: se pusieron demasiadas tareas en la matriz; algunas de ellas deben migrarse.

Mapa de red de almacenamiento: encontrar cuellos de botella

Resumen

Que conseguimos Hemos equipado el popular y muy común sistema de monitoreo Zabbix con nuevas características, que incluyen:

Recopilación de información sobre el estado de todos los componentes lógicos y de hardware de matrices de discos y conmutadores de la red de almacenamiento.
Estadísticas de rendimiento para absolutamente todos los sistemas para los que creamos complementos (los proveedores tienen lagunas en este sentido).
Mapas topológicos de una red de almacenamiento compartido y de extremo a extremo desde máquinas virtuales a volúmenes en sistemas de almacenamiento (hasta ahora solo para VMware).
Recolección de toda la información de inventario.
La cantidad de espacio en disco.

El propio Zabbix le permite crear notificaciones muy interesantes, establecer umbrales y enviar cartas informativas sobre el problema. Por ejemplo, si el puerto en el conmutador se cayó (o el tráfico en el puerto se hizo muy grande), el mensaje contendrá no solo el nombre del conmutador con el número de puerto, sino también información sobre el dispositivo conectado.

¿Qué sistemas soportamos actualmente? Muchos diferentes:

Todos los arreglos de Hitachi (AMS, HUS, VSP, VSP G).
Matrices Dell-EMC CLARiiON, VNX, Unity, ISILON, Compellent.
Matrices HPE 3PAR, P9500, XP7.
Matrices de IBM Storwize, DS5000.
Matrices NetApp FAS (modo 7, modo c).
HPE StoreOnce, EMC DataDomain Disk Libraries.
Conmutadores Brocade Silkworm, Cisco MDS.

También tenemos extensiones para algunos sistemas operativos (Windows, ESX), con los cuales recopilamos datos sobre FC HBA para dibujar mapas topológicos en el futuro. Desarrollo activo de complementos para OpenStack y sistemas de virtualización.

Al desarrollar complementos, se tiene en cuenta la experiencia de nuestros ingenieros, detrás de la cual hay muchos casos para resolver problemas en matrices, tanto de hardware como de rendimiento. Los nuevos complementos se desarrollan a pedido en poco tiempo debido a la gran cantidad de bibliotecas preparadas propias.

Algunos de nuestros clientes configuran el sistema de la siguiente manera: las notificaciones con el número del contrato, las personas de contacto y todos los parámetros del componente defectuoso se envían automáticamente a nuestro correo. Esto reduce el tiempo de reacción y el pedido de las piezas de repuesto necesarias, ya que el ingeniero de servicio no necesita llamar y aclarar mucha información, incluso de noche. La aplicación se pone inmediatamente a trabajar.

¿Cómo resuelve los problemas de monitoreo de su infraestructura, en particular el almacenamiento? Cuéntanoslo en los comentarios o en la carta al correo VRyzhevsky@croc.ru

¿Por qué monitorear los sistemas de almacenamiento?

¿Qué hay de malo con el software del proveedor?

Hace mucho tiempo no recogí damas ...

Resumen

More articles: