Fehlertoleranz im Qsan-Speicher

In der IT-Infrastruktur, in der Virtualisierung weit verbreitet ist, sind Speichersysteme heute der Kern, in dem alle virtuellen Maschinen gespeichert sind. Durch den Ausfall dieses Knotens kann die Arbeit des Rechenzentrums vollständig gestoppt werden. Obwohl ein beträchtlicher Teil der Serverausrüstung in der einen oder anderen Form „standardmäßig“ Fehlertoleranz aufweist, haben sie gerade aufgrund der besonderen Rolle von Speichersystemen im Rechenzentrum erhöhte Anforderungen an die „Überlebensfähigkeit“.




Die effektivste Methode zur Gewährleistung der Fehlertoleranz in der IT ist die Verwendung mehrerer Instanzen von Geräten und Software (im einfachsten Fall Duplizierung). Natürlich kann der Speicher vollständig dupliziert werden. Für die Notfallwiederherstellung wird genau dieser Ansatz verwendet. Aber nicht alle Unternehmen können sich eine solche Lösung leisten. Es geht nicht nur um die doppelten Kosten für Geräte, sondern auch um andere Kosten für die Organisation einer solchen Lösung und deren weitere Unterstützung.


Die Möglichkeit der Vervielfältigung von Geräten beseitigt jedoch nicht die Notwendigkeit, eine Fehlertoleranz auf Komponentenebene sicherzustellen. Insbesondere wird Redundanz auf Speichersysteme für Stromversorgungen, Kühlmodule, Antriebe und natürlich Steuerungen angewendet. All dies ist längst alltäglich geworden. Ohne ein ähnliches Design ist es schwierig, Speicherplatz zu finden. Qsan hier ist keine Ausnahme. Wir möchten in diesem Artikel jedoch auf das eingehen, was nicht sofort ersichtlich ist, und gleichzeitig soll in erster Linie die Fehlertoleranz des gesamten Systems erhöht werden.


Kühlmodule


Sehr oft werden in Speichersystemen mit 2U-3U-Gehäusen kombinierte Module verwendet, die Netzteile und Lüfter kombinieren. Einerseits ist es praktisch, weil Es muss nur eine Einheit gewartet werden. Wenn andererseits das Kühlsystem ausfällt, kann die Stromversorgung zwangsweise abgeschaltet werden, um eine Überhitzung zu vermeiden. Und es scheint, dass nicht die kritischste Situation eintreten wird, aber es lohnt sich offensichtlich nicht, Speicherschwachstellen hinzuzufügen.


Die Kühlung in Qsan-Speichersystemen ist in Form separater Module mit einem "heißen" Ersatz organisiert, unabhängig von der Stromversorgung. Tatsächlich haben die Netzteile ihre eigenen Lüfter, die das Netzteil selbst durchbrennen lassen. Das Kühlmodul bietet Platz für zwei unabhängige Lüfter, die sich gegenseitig versichern. Das Speichersystem enthält zwei solcher Module: rechts und links - für einen effizienten Luftstrom aller Komponenten. Wenn einer der Lüfter ausfällt, erhöhen alle anderen automatisch ihre Drehzahl, um den daraus resultierenden Luftmangel auszugleichen. Aus diesem Grund besteht bei einer Fehlfunktion des Lüfters nicht die Gefahr einer Überhitzung des gesamten Geräts.


Verbindungstopologie des Erweiterungsregals


Das klassische Schema zum Verbinden von Erweiterungsregalen mit dem Speicher bedeutet eine Topologie, die als Kaskade bezeichnet wird. In diesem Fall sind die entsprechenden Regal- und Speichercontroller durch ein einziges SAS-Kabel miteinander verbunden. Insgesamt werden 2 Kabel für ein Dual-Controller-System erhalten. Wenn Sie das zweite anschließen möchten, wird es auf die gleiche Weise mit dem ersten Regal verbunden. Usw. Der Vorteil dieser Topologie ist die einfache Implementierung in Geräte. Das Minus ist eine gewisse Anfälligkeit für eine plötzliche Unterbrechung des SAS-Schaltkreises aufgrund des Kreuzausfalls nicht verbundener Speichercontroller und Regale oder aufgrund eines Stromausfalls eines der Erweiterungsregale in der Mitte der Kette. Das Ergebnis ist ein Zugriffsverlust auf einen Teil der Laufwerke und ein möglicher Zusammenbruch der RAID-Gruppe, wenn diese auf mehrere Fälle verteilt ist.


Vor einem Controller-Cross-Ausfall bietet Qsan Schutz in Form einer internen logischen Kommunikation zwischen Controllern über die Speicher-Backplane. Das heißt, Der Speichercontroller sieht nicht nur den direkt mit ihm verbundenen JBOD-Controller, sondern auch den „Nachbar“ -Controller über eine spezielle Verbindung in der Rückwandplatine. Wenn eine solche Situation auftritt und niemand die SAS-Kabel zwischen dem Speichersystem und dem Regal physisch herauszieht, bleibt der Zugriff auf alle Laufwerke erhalten.



Um die SAS-Schaltung beispielsweise vor Unterbrechungen zu schützen, die durch das Abschalten des Erweiterungsfachs verursacht werden, wird normalerweise eine andere Verbindungstopologie verwendet - die umgekehrte Kaskade. In diesem Fall wird das Speichersystem sofort mit dem ersten und letzten Regal in der Kette verbunden und erhält von beiden Seiten Zugriff auf die Laufwerke.



Wenn Sie einen stärkeren Schutz wünschen, können Sie Konfigurationen in größerem Maßstab erstellen, indem Sie beispielsweise die Topologie des Baums verwenden. Oder erschweren durch eine Kombination der genannten Topologien. Dies ist aufgrund der großen Anzahl von SAS-Anschlüssen an den Geräten (2 für jeden Speichercontroller und 5 für jeden JBOD-Controller) mit automatischer Erkennung der Eingangs- / Ausgangsbetriebsarten möglich. Die Hauptsache ist, dass der Administrator selbst nicht verwirrt ist. Und das Speichersystem kann die Konfiguration korrekt konfigurieren.


Schneller Wiederaufbau


Die Verfügbarkeit von Ersatzlaufwerken im System erhöht die Zuverlässigkeit der Informationsspeicherung erheblich. Allein die Tatsache, dass solche Festplatten zugewiesen sind, bedeutet jedoch keinen absoluten Schutz. Tatsache ist, dass der Wiederherstellungsprozess (Neuerstellung) ziemlich zeitaufwändig und oft zeitaufwändig ist. Die Komplexität ergibt sich aus dem ständigen Zugriff auf Stammdaten. Das heißt, Das System muss neben der aktuellen Arbeit auch die Daten auf eine neue Festplatte kopieren. Die Dauer des Umbaus hängt direkt von der Kapazität des Antriebs und seinen Geschwindigkeitseigenschaften ab. Da das System nichts über den tatsächlich belegten Speicherplatz weiß, kopiert es beim Wiederherstellen einfach alles: Block für Block.


Infolgedessen kann die Wiederherstellung einer modernen Festplatte mit hoher Kapazität von mehr als 10 TB und einer ernsthaften Belastung der Speichersysteme leicht eine Woche oder länger dauern. Beachten Sie auch, dass während des Wiederherstellungsvorgangs die Ausfallwahrscheinlichkeit anderer Laufwerke aufgrund der erhöhten Belastung erheblich zunimmt. Und dies kann bereits bei der Verwendung von beispielsweise RAID5 eine ernsthafte Gefahr darstellen.


Als Lösung für dieses Problem sind viele Speicherentwickler besorgt, den Wiederherstellungsprozess zu beschleunigen. Hierfür können verschiedene Ansätze verwendet werden, aber das Wesentliche ist dasselbe: Während des Wiederaufbaus werden nur wirklich belegte Blöcke kopiert. Qsan hat sich diesem Problem nicht entzogen. Wenn im Speichersystem dieses Anbieters die Option " Schnelle Wiederherstellung " aktiviert ist, verfolgt das System die für die Aufzeichnung verwendeten Blöcke und kann bei einem Festplattenfehler nur diese auf ein neues Laufwerk kopieren.



Die Option "Schnelle Neuerstellung" ist beim Erstellen neuer Volumes nicht standardmäßig aktiviert Die Verwendung wirkt sich auf die Leistung aus, insbesondere bei zufälligen Schreibvorgängen, da:


  1. Es ist notwendig, Datensätze in Blöcken zu verfolgen.
  2. Bei der Neuerstellung werden Prüfsummen nicht für nicht zugewiesenen Speicherplatz neu berechnet. Wenn daher ein neuer Eintrag in diesem Bereich vorgenommen wird, muss dieser zunächst „initialisiert“ werden.

Daher wird nicht empfohlen, Fast Rebuild für Volumes zu verwenden, z. B. mit hoch geladenen Datenbanken oder in Videoüberwachungssystemen, bei denen das Volume immer noch zu 100% voll ist. Für Datei- oder Mailserver ist diese Option jedoch nur sehr nützlich.


Anstelle einer Schlussfolgerung


Jeder Speicherhersteller impliziert, dass seine Geräte zuverlässig sind. Und wenn es bei der Entwicklung von Geräten keine fatalen Fehleinschätzungen gibt und ein unglaublicher Durst nach Einsparungen bei der Herstellung und Prüfung besteht, können wir im Allgemeinen dem Anbieter zustimmen. Sie müssen jedoch verstehen:


  • Die grundlegende Fehlertoleranz von Speichersystemen ist in erster Linie eine Möglichkeit, bei Ausfall einer oder mehrerer Komponenten weiterhin Zugriff auf Daten zu haben.
  • Zusätzliche Optionen in Bezug auf Fehlertoleranz (wie die oben beschriebenen) sind die Beseitigung bestimmter Arten von Fehlfunktionen und die Erhöhung Ihrer Chancen auf Zugriff auf Daten.
  • Eine 100% ige Zuverlässigkeit kommt leider nicht vor. Um dem Problem so nahe wie möglich zu kommen, bemühen sich die meisten vernünftigen Speicheranbieter (und darunter auch Qsan ), ihre Produkte sowohl in Bezug auf Hardware als auch in Bezug auf Software kontinuierlich zu verbessern.

Gleichzeitig sollte man nicht vergessen, dass keine absolute Zuverlässigkeit von Speichersystemen die Verfügbarkeit von Sicherungskopien, klaren und eingeübten Plänen für die Wiederherstellung im Falle eines Unfalls und den betrieblichen technischen Support für den Anbieter nicht aufhebt.

Source: https://habr.com/ru/post/de459214/


All Articles