Data Warehouse-Leistung: Neue Ziffern

In unserem vorherigen Beitrag haben wir unsere Messungen der Hypervisor-Leistung nach der Installation von Patches gegen die Schwachstellen Meltdown und Spectre geteilt. Heute ist es Zeit, über die Leistung von Data Warehouse zu sprechen.

Dank der Optimierungen von VzKernel und seiner Neukompilierung mit der Option „Retpoline“ haben wir anfällige Maschinencodesequenzen ersetzt und konnten Leistungsprobleme, die durch den Schutz des Hypervisors vor Schwachstellen in Intel-Prozessoren verursacht wurden, fast vollständig beseitigen. Infolgedessen wurde der Produktivitätsrückgang auf 1-2% reduziert. Vor diesem Hintergrund haben viele jedoch Fragen zum Betrieb des Data Warehouse. Dies ist nicht überraschend, da in hyperkonvergierten Umgebungen verteilter Speicher eine grundlegende Rolle spielt und bei langsamer Speicherung alle Leistungsvorteile von virtuellen Maschinen und Containern zunichte gemacht werden können.

Heute möchten wir Ihnen zwei Demonstrationstests vorstellen, die durchgeführt wurden, um die Leistung virtueller Maschinen und die Datendichte im verteilten VZ-Speicher zu bewerten, der in die Virtuozzo 7-Produktfamilie integriert ist. Ein Cluster von 6 Knoten wurde als Prüfstand mit direkter Datenspeicherung verwendet Nur 5 von ihnen waren besetzt, und auf dem verbleibenden Knoten befanden sich virtuelle Maschinen.

Jeder Knoten hatte die folgende Konfiguration:

  • CPU: 2 x Intel Xeon E5-2620 v4 bei 2,1 GHz
  • RAM: 64 GB DDR4 2133 MHz
  • NET: 2 x 10 Gbit / s - zwei separate Subnetze zur Trennung von Testverkehr und verteiltem Datenspeicherverkehr
  • Kapazitäten:

    • Festplatte: 8 x 1 TB 7200 U / min - einschließlich 7 Festplatten für Chunk-Server (CS)
    • SSD: 400 GB Intel DC P3600 PCIe - für Metadaten (MDS), Journaling und Client-Cache

Eine der Festplatten auf jedem Knoten wurde für das System zugewiesen, die restlichen 7 für den Chunk-Server (CS) zur Datenspeicherung. Infolgedessen stellte sich heraus, dass es sich bei dem Cluster um 42 Chunk-Server handelte. Um diese Wirtschaftlichkeit zu verwalten, haben wir 3 Metadatenserver (MDS) gestartet. Die Datenreplikation wurde nach dem 3: 2-Schema implementiert, das als Standardlösung für die meisten typischen Aufgaben angesehen werden kann.

Laut den Ergebnissen des WebBench-Tests, bei dem wir die Leistung und Dichte virtueller Maschinen mit Windows Server 2012 R2 bewertet haben, ist die Anzahl der Anforderungen für virtuellen Speicher in VZ7 viel höher und die Gesamtleistung 30% höher als die Ergebnisse der vorherigen Speichergeneration, die mit VZ6 geliefert wurde . Gleichzeitig kann VZ Storage zusammen mit dem Virtuozzo 7-Hypervisor den gleichzeitigen Betrieb von über 100 virtuellen Maschinen in einem Cluster dieser Größe unterstützen und ihnen eine akzeptable Leistung bieten.

WebBench: Dichte VM Windows 2012 R2 basierend auf VStorage


Der zweite Test wurde mit dem Dienstprogramm SysBench durchgeführt und emulierte nicht OLTP-Anforderungen, sondern OLTP-Transaktionen. Wir haben dieselben virtuellen Maschinen mit Microsoft Windows Server 2012 R2 auf demselben Cluster geladen und noch interessantere Ergebnisse erzielt. Zusätzlich zum Leistungsvorteil bei VMs ab 30 Stück weist VZ7 eine höhere Verteilungsdichte auf, die mit dem gleichzeitigen Betrieb von mehr als 100 virtuellen Maschinen fertig wird. Gleichzeitig zeigt veralteter Speicher in VZ6 eine akzeptable Leistung für maximal 60 virtuelle Maschinen in einem reduzierten Cluster.

SysBench: VStorage-basierte Windows 2012 R2-VM-Dichte




Und ein bisschen mehr über Erasure Coding


Zusätzlich zu all dem oben Gesagten bleibt Virtuozzo ein Befürworter der Verwendung von Komprimierungstechnologien, die auf Reed-Solomon- oder Erasure-Codierungscodes basieren. Trotz einer breiten Diskussion über diese Technologie bevorzugen viele immer noch die Verwendung direkter Kopien und das Speichern von bis zu 3 Kopien von Daten in ihrem Netzwerk. Wie die Praxis gezeigt hat, verringert dieser Ansatz jedoch die Netzwerkleistung und verlangsamt den Sicherungsprozess.

Um dies zu überprüfen, haben wir zwei Cluster mit jeweils 6 Knoten zusammengestellt. Beide Cluster haben 3 Metadatenserver (MDS) und 66 Chunk-Server (CS) zum Speichern von Daten über SAS 15K-Laufwerke gestartet. Einer der Cluster wurde zum Hosten virtueller Maschinen und der andere zum Sichern verwendet. Wir haben zwei Möglichkeiten zum Platzieren von Backups ausprobiert: EC im 3 + 2-Modus (zwei Hash-Summen für drei Daten) und 3: 2-Backup (zwei vollständige Kopien der Daten werden im Netzwerk gespeichert). Aus datenschutzrechtlicher Sicht sind die Konfigurationen identisch - sie ermöglichen die Wiederherstellung aller Informationen, auch wenn zwei Fehlerquellen auftreten. In Bezug auf die Leistung zeigt die EG jedoch viel bessere Ergebnisse.

Löschcodierung und Datenreplikation in einem parallelen VM-Sicherungsskript



Die Abszisse gibt die Anzahl der virtuellen Maschinen an, die gleichzeitig an Sicherungsprozessen beteiligt sind. Und entlang der Ordinatenachse ist die durchschnittliche Sicherungsgeschwindigkeit in MB / s. Die Geschwindigkeit wird pro Knoten berechnet, sodass der Gesamtdurchsatz und die Clusterleistung viel höher sind, ein Vielfaches der Anzahl der Knoten. Die Grafik zeigt, dass bei einer gleichzeitigen Sicherung von 15 virtuellen Maschinen von jedem Knoten der Leistungsgewinn aufgrund der Verwendung von EC bei 10% liegt.

Fazit


Diese Tests zeigen die Vorteile der aktualisierten Architektur und des verbesserten VZ-Speichers bei der Arbeit mit virtuellen MS Windows-Maschinen, die traditionell schwieriger zu optimieren und zu kompaktieren sind als VMs mit Gast-Linux, die im Allgemeinen in Systemcontainer konvertiert werden können. In diesem Test verwendeten wir SAS 15K-Festplatten, keine Solid-State-Laufwerke, bei denen die Ergebnisse aufgrund einer Erhöhung der Gesamtantwortzeit und der Geschwindigkeit des Speichersubsystems noch höher wären.

Source: https://habr.com/ru/post/de413713/


All Articles