Optimieren Sie die Rack-Verteilung von Servern

In einem der Chats wurde mir eine Frage gestellt:

- Und es gibt etwas zu lesen, wie man Server richtig in Racks packt?

Mir wurde klar, dass ich einen solchen Text nicht kannte, also schrieb ich meinen eigenen.

Erstens handelt dieser Text von physischen Servern in physischen Rechenzentren (DCs). Zweitens glauben wir, dass es viele Server gibt: Hunderte oder Tausende, für eine kleinere Anzahl macht dieser Text keinen Sinn. Drittens glauben wir, dass wir drei Begrenzer haben: physischen Platz in den Racks, Stromversorgung des Racks und Lassen der Racks in Reihen, sodass wir einen ToR-Switch verwenden können, um Server in benachbarten Racks zu verbinden.

Die Antwort auf die Frage hängt stark davon ab, welchen Parameter wir optimieren und was wir variieren können, um das beste Ergebnis zu erzielen. Zum Beispiel brauchen wir nur ein Minimum an Platz, um mehr für weiteres Wachstum zu lassen. Oder wir haben die Freiheit, die Höhe der Racks, die Leistung pro Rack, die Sockel in der PDU, die Anzahl der Racks in einer Gruppe von Schaltern (ein Schalter pro 1, 2 oder 3 Racks), die Länge der Drähte und die Zugarbeit (dies ist an den Enden der Reihen kritisch: Bei 10 Racks hintereinander und 3 Racks an einem Switch müssen Sie die Drähte in einer anderen Reihe ziehen oder die Anschlüsse im Switch nicht ausreichend nutzen. Separate Storys: Serverauswahl und DC-Auswahl, wir gehen davon aus, dass sie ausgewählt sind.

Es wäre schön, einige der Nuancen und Details zu verstehen, insbesondere den durchschnittlichen / maximalen Verbrauch von Servern und wie wir mit Strom versorgt werden. Wenn wir also eine russische Stromversorgung von 230 V und eine Phase pro Rack haben, kann eine 32A-Maschine ~ 7 kW halten. Angenommen, wir zahlen nominell für 6 kW pro Rack. Wenn ein Anbieter unseren Verbrauch nur für eine Serie von 10 Racks misst und nicht für jedes Rack, und wenn die Maschine einen konventionellen Grenzwert von 7 kW hat, können wir technisch 6,9 kW in einem separaten Rack verschlingen, in einem weiteren 5,1 kW, und alles ist in Ordnung - nicht strafbar.

Normalerweise ist es unser Hauptziel, die Kosten zu minimieren. Das beste Messkriterium ist die Reduzierung der Gesamtbetriebskosten (TCO). Es besteht aus folgenden Teilen:

  • CAPEX: Beschaffung von DC-Infrastruktur, Servern, Netzwerkhardware und Verkabelung
  • OPEX: DC-Vermietung, Stromverbrauch, Wartung. OPEX hängt von der Lebensdauer ab. Es ist vernünftig anzunehmen, dass es 3 Jahre entspricht.



Je nachdem, wie groß die einzelnen Stücke in der gesamten Torte sind, müssen wir die teuersten optimieren und den Rest alle verbleibenden Ressourcen so effizient wie möglich nutzen lassen.

Angenommen, wir haben einen vorhandenen Gleichstrom, es gibt eine Rackhöhe von H-Einheiten (z. B. H = 47), Strom für das Rack-P- Rack (P- Rack = 6 kW), und wir haben uns für die Verwendung von Servern mit zwei Einheiten von h = 2U entschieden. Wir entfernen 2..4 Einheiten aus dem Rack zu den Schaltern, Patchfeldern und Organisatoren. Das heißt physikalisch haben wir S h = Rounddown ((H-2..4) / h) -Server in unserem Rack (d. h. S h = Rounddown ((47-4) / 2) = 21 Server pro Rack). Denken Sie daran, dies ist S h .

Im einfachen Fall sind alle Server im Rack gleich. Insgesamt, wenn wir das Rack mit Servern hämmern, können wir auf jedem Server durchschnittlich die Leistung P serv = P Rack / S h (P serv = 6000 W / 21 = 287 W) ausgeben . Der Einfachheit halber ignorieren wir hier den Schalterverbrauch.

Wir treten einen Schritt zur Seite und bestimmen, wie hoch der maximale Serververbrauch P max ist . Wenn es sehr einfach, sehr ineffizient und absolut sicher ist, lesen wir, was auf dem Netzteil des Servers steht - fertig.

Wenn es komplizierter und effizienter ist, nehmen wir das TDP (Thermal Design Package) aller Komponenten und fassen es zusammen (dies ist nicht sehr richtig, kann aber so sein).

Normalerweise kennen wir die TDP-Komponenten nicht (mit Ausnahme der CPU), daher gehen wir am korrektesten, aber auch am schwierigsten vor (wir benötigen ein Labor). Wir nehmen einen experimentellen Server mit der erforderlichen Konfiguration und laden ihn beispielsweise mit Linpack (CPU und Speicher) und fio (Festplatten). Verbrauch messen. Wenn Sie es ernst nehmen, müssen Sie während der Tests auch die wärmste Umgebung im kalten Korridor schaffen, da dies sowohl den Lüfterverbrauch als auch den CPU-Verbrauch beeinflusst. Unter diesen bestimmten Bedingungen erhalten wir unter dieser bestimmten Last den maximalen Verbrauch eines bestimmten Servers mit einer bestimmten Konfiguration. Wir meinen nur, dass die neue Firmware des Systems, eine andere Version der Software, andere Bedingungen das Ergebnis beeinflussen können.

Insgesamt kehren wir zu P serv zurück und wie vergleichen wir es mit P max . Hier geht es darum zu verstehen, wie die Dienste funktionieren und wie stark Ihre Nerven bei Ihrem Technikfreak sind.

Wenn Sie es überhaupt nicht riskieren, glauben wir, dass alle Server sofort beginnen können, ihr Maximum zu verbrauchen. Gleichzeitig kann ein Eingang zum Gleichstrom gebildet werden. Infra sollte unter diesen Bedingungen einen Dienst erbringen, daher P serv ≡ P max . Dies ist ein Ansatz, bei dem Zuverlässigkeit von entscheidender Bedeutung ist.

Wenn der Techdir nicht nur an perfekte Sicherheit denkt, sondern auch an das Geld des Unternehmens und mutig genug ist, dann können wir das entscheiden

  • Wir beginnen mit der Verwaltung unserer Lieferanten. Insbesondere verbieten wir die geplante Wartung zum Zeitpunkt der geplanten Spitzenlast, um den Abfall einer Eingabe zu minimieren.
  • und / oder unsere Architektur ermöglicht es Ihnen, das Rack / die Zeile / den DC zu verlieren, und die Dienste funktionieren weiterhin.
  • und / oder wir verteilen die Last horizontal gut auf die Racks, sodass unsere Services niemals den maximalen Verbrauch in einem Rack zusammen erreichen.

Hier ist es sehr nützlich, nicht nur zu raten, sondern auch den Verbrauch zu überwachen und zu wissen, wie sehr die Server unter normalen Bedingungen und unter Spitzenbedingungen Strom verbrauchen. Daher komprimiert das techdir nach einiger Analyse alles, was es hat, und sagt: „Wir entscheiden absichtlich, dass der maximal erreichbare Durchschnitt des maximalen Serververbrauchs pro Rack ** so viel ** niedriger ist als der maximale Verbrauch“, bedingt P serv = 0,8 * P max .

Und dann gelangen nicht 16 Server mit P max = 375 W, sondern 20 Server mit P serv = 375 W \ * 0,8 = 300 W in ein 6-kW-Rack. Das heißt 25% mehr Server. Dies ist eine sehr große Einsparung - schließlich benötigen wir sofort 25% weniger Racks (wir sparen auch PDUs, Switches und Kabel). Ein ernstes Minus einer solchen Entscheidung - es ist notwendig zu überwachen, dass unsere Annahmen immer noch wahr sind. Dass die neue Version der Firmware den Betrieb der Lüfter und den Verbrauch nicht wesentlich verändert, dass die Entwicklung einer neuen Version plötzlich nicht mehr viel effizienter mit dem Server begann (lesen Sie, wir haben mehr Last und mehr Verbrauch auf dem Server). Schließlich werden unsere anfänglichen Annahmen und Schlussfolgerungen sofort falsch. Dies ist ein Risiko, das verantwortungsbewusst eingegangen (oder vermieden und dann für offensichtlich unterlastete Racks bezahlt werden muss).

Ein wichtiger Hinweis: Wenn möglich, sollten Sie versuchen, Server von verschiedenen Diensten horizontal auf Racks zu verteilen. Dies ist notwendig, damit keine Storys auftreten, wenn ein Serverstapel für einen Dienst eintrifft. Die Racks sind vertikal damit verstopft, um die "Dichte" zu erhöhen (weil dies einfacher ist). In Wirklichkeit stellt sich heraus, dass ein Rack mit denselben niedrig ausgelasteten Servern eines Dienstes überfüllt ist und der andere gleichermaßen hoch ausgelastet ist. Die Wahrscheinlichkeit eines Sturzes der Sekunde ist viel höher, Das Lastprofil ist das gleiche, und alle Server in diesem Rack verbrauchen aufgrund der erhöhten Last dieselbe Menge.

Zurück zur Verteilung der Server in den Racks. Wir haben die physischen Einschränkungen des Rack-Platzes und die Leistungsbeschränkungen untersucht und sehen uns nun das Netzwerk an. Sie können Switches an 24/32/48 Ports N verwenden (zum Beispiel haben wir ToR-Switches mit 48 Ports). Glücklicherweise gibt es nicht viele Optionen, wenn Sie nicht an Breakout-Kabel denken. Wir betrachten die Szenarien, wenn wir einen Switch pro Rack haben, einen Switch auf zwei oder drei Racks in der R- Netzgruppe . Es scheint mir, dass mehr als drei Racks in der Gruppe schon zu viel sind, weil Das Problem der Verkabelung zwischen Racks wird viel größer.

Für jedes Netzwerkszenario (1, 2 oder 3 Racks in einer Gruppe) verteilen wir den Server in Racks:

S Rack = min (S h , Abrundung (P Rack / P Serv ), Abrundung (N / R netto ))

Für die Option mit 2 Racks in der Gruppe:

S Rack 2 = min (21, Rounddown (6000/300), Rounddown (48/2)) = min (21, 20, 24) = 20 Server pro Rack.

Ebenso betrachten wir die verbleibenden Optionen:

S Rack 1 = 20
S Rack 3 = 16

Und wir sind fast da. Wir zählen die Anzahl der Racks für die Verteilung aller unserer S-Server (sei es 1000):

R = Aufrundung (S / (S- Rack * R- Netz )) * R- Netz

R 1 = Aufrundung (1000 / (20 * 1)) * 1 = 50 * 1 = 50 Racks

R 2 = Aufrundung (1000 / (20 * 2)) * 2 = 25 * 2 = 50 Racks

R 3 = Aufrundung (1000 / (16 * 3)) * 3 = 21 * 3 = 63 Racks

Als nächstes betrachten wir die Gesamtbetriebskosten für jede Option basierend auf der Anzahl der Racks, der erforderlichen Anzahl von Switches, der Verkabelung usw. Wir wählen die Option, bei der die Gesamtbetriebskosten geringer sind. Gewinn!

Beachten Sie, dass die erforderliche Anzahl von Racks für die Optionen 1 und 2 zwar gleich ist, der Preis jedoch unterschiedlich ist, da Die Anzahl der Schalter für die zweite Option ist halb so hoch und die Länge der erforderlichen Kabel ist länger.

PS Wenn die Möglichkeit besteht, ein Rack und die Rackhöhe mit Strom zu versorgen, erhöht sich die Variabilität. Der Prozess kann jedoch auf das oben Genannte reduziert werden, indem nur die Optionen sortiert werden. Ja, es wird mehr Kombinationen geben, aber immer noch eine sehr begrenzte Anzahl - die Leistung pro Rack für die Berechnung kann in Schritten von 1 kW erhöht werden, typische Racks haben eine begrenzte Anzahl von Größen: 42U, 45U, 47U, 48U, 52U. Und hier kann die Was-wäre-wenn-Analyse von Excel im Datentabellenmodus zur Berechnung beitragen. Wir schauen uns die erhaltenen Platten an und wählen das Minimum aus.

Source: https://habr.com/ru/post/de474112/


All Articles