Reduzieren Sie Ausfallzeiten mit der Shared Nothing-Architektur

Das Thema Fehlertoleranz in Datenspeichersystemen ist immer relevant, da in unserer Zeit der allgegenwärtigen Virtualisierung und Konsolidierung von Speicherressourcen die Speicherung die Verbindung ist, deren Ausfall nicht nur zu einem normalen Unfall, sondern auch zu langen Ausfallzeiten von Diensten führt. Moderne Speichersysteme enthalten daher viele doppelte Komponenten (bis hin zu Controllern). Aber ist ein solcher Schutz ausreichend?




Absolut alle Anbieter, die die Merkmale von Speichersystemen auflisten, erwähnen immer die hohe Fehlertoleranz ihrer Lösungen, ohne den Begriff „ohne einen einzigen Fehlerpunkt“ hinzuzufügen. Schauen Sie sich ein typisches Speichersystem genauer an. Um Ausfallzeiten zu vermeiden, werden Netzteile, Kühlmodule, E / A-Ports, Laufwerke (dh RAID) und natürlich Controller im Speichersystem dupliziert. Wenn Sie sich diese Architektur genau ansehen, werden Sie mindestens zwei potenzielle Fehlerquellen bemerken, über die Sie bescheiden schweigen:


  1. Das Vorhandensein einer einzelnen Rückwandplatine (Rückwandplatine)
  2. Eine Kopie der Daten

Backplein ist ein technisch hoch entwickeltes Gerät, das in der Produktion strengen Tests unterzogen werden muss. Und deshalb gibt es äußerst seltene Fälle, in denen es vollständig fehlschlägt. Selbst bei teilweisen Fehlfunktionen, wie z. B. einem nicht funktionierenden Laufwerkssteckplatz, muss dieser jedoch durch vollständig ausgeschalteten Speicher ersetzt werden.


Das Erstellen mehrerer Kopien der Daten ist auf den ersten Blick ebenfalls kein Problem. So ist beispielsweise die Klonfunktionalität in Speichersystemen, mit der eine vollständige Kopie der Daten mit einer gewissen Periodizität aktualisiert werden kann, weit verbreitet. Bei Problemen mit derselben Rückwandplatine ist die Kopie jedoch genauso unzugänglich wie das Original.


Eine völlig offensichtliche Lösung zur Überwindung dieser Mängel ist die Replikation auf ein anderes Speichersystem. Wenn wir unsere Augen vor der erwarteten Verdoppelung der Hardwarekosten verschließen (wir gehen jedoch davon aus, dass Personen, die sich für eine solche Lösung entscheiden, diese Tatsache im Voraus angemessen denken und akzeptieren), entstehen weiterhin Kosten für die Organisation der Replikation in Form von Lizenzen, zusätzlicher Software und Hardware. Und vor allem: Sie müssen irgendwie die Konsistenz der replizierten Daten sicherstellen. Das heißt, Erstellen Sie einen Speichervirtualisierer / vSAN / usw., der auch Bargeld und Zeitressourcen benötigt.


AccelStor hat sich bei der Entwicklung seiner Hochverfügbarkeitssysteme zum Ziel gesetzt, die oben genannten Nachteile zu beseitigen . Es gab also eine Interpretation der Shared Nothing-Technologie, die in einer freien Übersetzung „ohne Verwendung gemeinsamer Geräte“ bedeutet.


Das Konzept der Shared Nothing- Architektur besteht in der Verwendung von zwei unabhängigen Knoten (Controllern), von denen jeder seinen eigenen Datensatz hat. Die synchrone Replikation zwischen Knoten über die InfiniBand 56G-Schnittstelle ist für Software, die auf dem Speichersystem ausgeführt wird, absolut transparent. Daher ist die Verwendung von Speichervirtualisierern, Software-Agenten usw. nicht erforderlich.


Physisch kann die AccelStor-Lösung mit zwei Lösungen in zwei Modellen implementiert werden:


  • H510 - basierend auf Twin-Servern in einem 2U-Paket, wenn mäßige Leistung und Kapazität bis zu 22 TB erforderlich sind;
  • H710 - basiert auf separaten 2U-Servern, wenn hohe Leistung und hohe Kapazität (bis zu 57 TB) erforderlich sind.


H510 Twin Server Modell



H710-Modell basierend auf separaten Servern


Die Verwendung unterschiedlicher Formfaktoren ist auf die Notwendigkeit einer unterschiedlichen Anzahl von SSDs zurückzuführen, um ein bestimmtes Volumen und eine bestimmte Leistung zu erzielen. Außerdem ist die Twin-Plattform billiger und ermöglicht es Ihnen, günstigere Lösungen anzubieten, wenn auch mit einem gewissen bedingten "Nachteil" in Form einer einzelnen Rückwandplatine. Alles andere, einschließlich der Funktionsprinzipien, ist für beide Modelle völlig identisch.


Der Datensatz für jeden Knoten enthält zwei FlexiRemap- Gruppen sowie zwei Hotspare- Gruppen. Jede Gruppe kann dem Ausfall einer SSD standhalten. Entsprechend der Ideologie erstellt FlexiRemap alle eingehenden Anforderungen zum Aufzeichnen eines Knotens in sequentielle Ketten mit 4K-Blöcken neu, die dann in dem für sie bequemsten Modus auf die SSD geschrieben werden (sequentielle Aufzeichnung). Darüber hinaus bestätigt der Host die Aufzeichnung erst nach der physischen Platzierung von Daten auf der SSD, d. H. ohne im RAM zwischenzuspeichern. Das Ergebnis ist eine sehr beeindruckende Leistung von bis zu 600K IOPS zum Schreiben und 1M + IOPS zum Lesen (Modell H710).


Wie bereits erwähnt, erfolgt die Datensatzsynchronisation in Echtzeit über die InfiniBand 56G-Schnittstelle, die eine hohe Bandbreite und eine geringe Latenz aufweist. Um die Nutzung des Kommunikationskanals bei der Übertragung kleiner Pakete zu maximieren. Weil Es gibt nur einen Kommunikationskanal. Für eine zusätzliche Impulsprüfung wird eine dedizierte 1-GbE-Verbindung verwendet. Es wird nur der Herzschlag übertragen, sodass keine Anforderungen an die Geschwindigkeitseigenschaften bestehen.


Wenn die Systemkapazität aufgrund von Erweiterungsregalen erhöht wird (bis zu 400 + TB) , werden sie auch paarweise verbunden, um dem Konzept „ohne einen einzigen Fehlerpunkt“ zu entsprechen.


Für zusätzlichen Datenschutz (neben der Tatsache, dass AccelStor bereits zwei Kopien hat) wird ein spezieller Verhaltensalgorithmus verwendet, falls eine SSD ausfällt. Wenn die SSD ausfällt, beginnt der Knoten, die Daten auf einem der Hot-Spare-Laufwerke neu zu erstellen. Eine FlexiRemap-Gruppe, die sich in einem herabgesetzten Zustand befindet, wechselt in den schreibgeschützten Modus. Dies geschieht, um die Störung von Schreib- und Wiederherstellungsvorgängen auf der Sicherungsdiskette zu beseitigen, was letztendlich den Wiederherstellungsprozess beschleunigt und die Zeit verkürzt, in der das System potenziell anfällig ist. Nach Abschluss der Wiederherstellung wechselt der Knoten wieder in den normalen Lese- / Schreibmodus.



Wie bei anderen Systemen nimmt natürlich die Gesamtleistung während der Neuerstellung ab (schließlich funktioniert eine der FlexiRemap-Gruppen bei der Aufzeichnung nicht). Der Wiederherstellungsprozess selbst ist jedoch so schnell wie möglich, wodurch sich AccelStor-Systeme von Lösungen anderer Anbieter unterscheiden.


Ein weiteres nützliches Merkmal der Nothing Shared-Technologie ist der Betrieb von Knoten im sogenannten True Active-Active-Modus. Im Gegensatz zur „klassischen“ Architektur, bei der nur ein Controller ein bestimmtes Volume / einen bestimmten Pool besitzt und der zweite lediglich Eingabe- / Ausgabeoperationen ausführt, arbeitet in AccelStor- Systemen jeder Knoten mit seinem eigenen Datensatz und sendet keine Anforderungen an den „Nachbarn“. Infolgedessen wird die Gesamtsystemleistung aufgrund der parallelen Verarbeitung von Eingabe- / Ausgabeanforderungen durch Knoten und des Zugriffs auf Laufwerke verbessert. Außerdem gibt es kein Failover, da Sie im Falle eines Fehlers einfach keine Lautstärkeregelung auf einen anderen Knoten übertragen müssen.


Wenn wir die Technologie der Nothing Shared-Architektur mit der vollständigen Speicherduplizierung vergleichen, ist sie auf den ersten Blick der vollständigen Implementierung der Notfallwiederherstellung in Bezug auf Flexibilität etwas unterlegen. Dies gilt insbesondere für die Organisation der Kommunikationsleitung zwischen Speichersystemen. Im H710-Modell ist es daher möglich, die Knoten aufgrund der Verwendung nicht so billiger aktiver optischer InfiniBand-Kabel auf eine Entfernung von 100 m zu verteilen. Aber selbst im Vergleich zur üblichen Implementierung der synchronen Replikation anderer Anbieter über den verfügbaren FibreChannel auch über größere Entfernungen ist die Lösung von AccelStor billiger und einfacher zu installieren / zu betreiben Es ist nicht erforderlich, Speichervirtualisierer zu installieren und / oder in Software zu integrieren (was im Prinzip bei weitem nicht immer möglich ist). Vergessen Sie außerdem nicht, dass es sich bei den AccelStor-Lösungen um All-Flash-Arrays handelt, deren Leistung höher ist als die der „klassischen“ Speichersysteme nur mit SSD.



Bei Verwendung der Nothing Shared-Technologie von AccelStor ist es realistisch, eine Speichersystemverfügbarkeit von 99,9999% zu sehr vernünftigen Kosten zu erzielen. Zusammen mit der hohen Zuverlässigkeit der Lösung, unter anderem durch die Verwendung von zwei Datenkopien , und der beeindruckenden Leistung dank proprietärer FlexiRemap- Algorithmen sind AccelStor- Lösungen hervorragende Kandidaten für Schlüsselpositionen beim Aufbau eines modernen Rechenzentrums.

Source: https://habr.com/ru/post/de441780/


All Articles