Kürzlich hat mich ein Kollege in einem Chat gefragt:
- Gibt es einen Artikel darüber, wie Server richtig in die Racks gepackt werden?
Mir wurde klar, dass ich mir dessen nicht bewusst bin. Also habe ich beschlossen, meinen Text zu schreiben.
Erstens ist dies ein Artikel über Bare-Metal-Server in Rechenzentrumsanlagen. Zweitens schätzen wir, dass es viele Server gibt (Hunderte oder Tausende); Der Artikel macht für weniger Mengen keinen Sinn. Drittens gehen wir davon aus, dass die Racks drei Einschränkungen aufweisen: physischer Platz, elektrische Leistung pro Schrank und Schränke bleiben in den nebeneinander liegenden Reihen, sodass wir einen einzelnen ToR-Switch verwenden können, um Server in ihnen zu verbinden.
Die Antwort auf die ursprüngliche Frage hängt wesentlich von dem Parameter ab, den wir optimieren, und davon, was wir ändern können, um ein besseres Ergebnis zu erzielen. Zum Beispiel müssen wir weniger Platz benötigen, um mehr Platz für zukünftiges Wachstum zu schaffen. Oder wir haben die Freiheit bei der Auswahl der Schrankhöhe, der Leistung pro Rack, der Anzahl der Sockel pro PDU, der Anzahl der Schränke pro Switch-Gruppe (ein Switch pro 1, 2 oder 3 Racks), der Kabellängen und der Verkabelungsarbeiten. Die letzte Komponente ist entscheidend für das Ende von Rack-Reihen, bei denen Kabel in die andere Reihe gezogen werden müssen oder nicht ausgelastete Ports im Switch verbleiben müssen. Ganz andere Geschichten sind die Serverauswahl und die Auswahl des Rechenzentrums. Wir sollten bedenken, dass wir sie bereits ausgewählt haben.
Es ist gut, einige Nuancen und Details zu verstehen, insbesondere den durchschnittlichen / maximalen Stromverbrauch des Servers und die Art und Weise, wie unser Anbieter Strom liefert. Wenn wir also eine Stromversorgung von 230 V 1 Phase haben, kann ein 32-Ampere-Leistungsschalter bis zu ~ 7 kW halten. Nehmen wir an, wir zahlen offiziell für 6 kW pro Rack. Wenn ein Anbieter unseren Stromverbrauch pro Reihe von 10 Schränken misst, nicht pro einzelnen, und wenn Leistungsschalter die Leistung auf 7 kW begrenzen, können wir 6,9 kW in einem Rack und 5,1 kW in einem anderen verwenden. Es wird in Ordnung und nicht strafbar sein.
Normalerweise besteht unser Hauptziel darin, die Ausgaben zu minimieren. Das beste Messkriterium ist die Reduzierung der Gesamtbetriebskosten (TCO). Es besteht aus folgenden Teilen:
- CAPEX: Kauf von Rechenzentrumsinfrastruktur, Servern, Netzwerkgeräten, Verkabelung
- OPEX: Gleichstrommiete, Stromverbrauch, Wartung. OPEX hängt von der Lebensdauer ab. Es ist vernünftig anzunehmen, dass eine Lebensdauer 3 Jahren entspricht.

Wir sollten die teuersten Teile des Kuchens optimieren. Alles andere sollte die verbleibenden Ressourcen so effektiv wie möglich nutzen.
Angeblich haben wir einen vorhandenen Gleichstrom, eine Rackhöhe von H-Einheiten (zum Beispiel H = 47), eine Leistung pro Rack-P-
Rack (P-
Rack = 6 kW), und wir haben uns für die Verwendung von Servern mit zwei Einheiten von h = 2U entschieden. Nehmen wir 2 bis 4 Einheiten für Switches, Patchfelder und Kabelmanager aus dem Rack. Dann können wir S
h = Rounddown ((H-2..4) / h) -Server in ein Rack einpassen (d. H. S
h = Rounddown ((47-4) / 2) = 21 Server pro Rack). Lassen Sie uns S
h auswendig lernen.
In einem einfachen Fall sind alle Server gleich. Wenn wir also ein Rack mit Servern füllen, können wir pro Server eine durchschnittliche Leistung von P
serv = P
Rack / S
h (P
serv = 6000 W / 21 = 287 W) ausgeben. Wir ignorieren hier den Stromverbrauch des Schalters.
Lassen Sie uns beiseite treten und definieren, wie hoch der maximale Serverstromverbrauch P
max ist. Die einfache, absolut sichere und äußerst ineffiziente Methode besteht darin, die Angaben auf dem Etikett auf dem Server-Netzteil zu lesen. Hier ist P
max .
Ein komplizierterer und effizienterer Ansatz besteht darin, die TDP aller Komponenten zu erfassen und zusammenzufassen. Es ist nicht genau, aber wir können es so machen.
Normalerweise kennen wir die TDP von Komponenten außer der CPU nicht. Der korrekteste und komplizierteste Ansatz besteht also darin, einen experimentellen, ausreichend konfigurierten Server zu verwenden, ihn beispielsweise über / Linpack / (CPU und Speicher) und / fio / (Festplatten) zu laden und den Stromverbrauch zu messen. In diesem Fall brauchen wir ein Labor. Wenn wir die Dinge ernst nehmen, sollten wir im kalten Gang eine warme Umgebung schaffen, da höhere Temperaturen sowohl die Lüfter als auch den CPU-Stromverbrauch beeinflussen. Somit erhalten wir den maximalen Stromverbrauch des Beispielservers mit dieser speziellen Konfiguration in der aktuellen Umgebung unter der spezifischen Last. Denken Sie daran, dass eine neue Firmware, Softwareversion und andere Bedingungen das Ergebnis beeinflussen können.
Kehren wir nun zu P
serv zurück und wie sollen wir es mit P
max vergleichen
? Es geht darum zu verstehen, wie die Dienste funktionieren und wie stark die Nerven unseres CTO sind.
Wenn wir kein Risiko eingehen, sollten wir davon ausgehen, dass alle Server gleichzeitig ihr potenzielles Maximum verbrauchen. Gleichzeitig kann auch eine der DC-Einspeisungen ausfallen. Die Infrastruktur sollte den Dienst weiterhin bereitstellen. Also, P
serv ≡ P
max . Dies ist der Ansatz, bei dem Zuverlässigkeit sehr wichtig ist.
Wenn der CIO nicht nur die ideale Sicherheit, sondern auch das Unternehmensgeld berücksichtigt, wenn er mutig genug ist, kann er das entscheiden
- Wir beginnen mit der Verwaltung unserer Lieferanten, insbesondere verbieten wir jede geplante Wartung in den Zeiträumen unserer erwarteten hohen Last, um Stromausfälle zu minimieren
- und oder unsere Architektur ermöglicht es uns, ein Rack / eine Reihe / einen DC zu verlieren, während die Dienste den Betrieb fortsetzen
- und oder wir verteilen die Last horizontal so gut auf die Racks, dass unsere Server in einem einzigen Schrank niemals ihr theoretisches Maximum zusammen verbrauchen.
Es ist vorteilhaft, hier nicht nur zu raten, sondern auch den Stromverbrauch zu überwachen und zu verstehen, wie Server bei normalen und Spitzenlasten Strom verbrauchen. So und so nach einiger Analyse bemüht sich der CIO und sagt:
"Ich befehle, dass der maximal erreichbare Durchschnitt des gesamten maximalen Stromverbrauchs des Servers
so viel geringer ist als der maximale Stromverbrauch eines einzelnen Servers." Sei es P
serv = 0,8 * P
maxUnd dann kann ein Rack mit 6 kW nicht 16 Server mit P
max = 375 W aufnehmen, sondern 20 Server mit P
serv = 375 W * 0,8 = 300 W. Dh 25% mehr Server. Es ist eine Realwirtschaft, weil wir 25% weniger Racks benötigen. Und wir können Rack-PDUs, Switches und Kabel sparen. Ein schwerwiegender Nachteil der Lösung ist die Notwendigkeit, kontinuierlich zu überprüfen, ob unsere Annahmen noch gültig sind. Wir sollten sicherstellen, dass eine neue Firmware den Lüfterbetrieb und den Stromverbrauch nicht wesentlich verändert und dass das Entwicklungsteam die Server nicht wesentlich effizienter nutzt (dies bedeutet, dass es ihnen gelungen ist, die Auslastung und den Stromverbrauch zu erhöhen). Dann werden sowohl anfängliche Annahmen als auch Schlussfolgerungen falsch. Es ist also das Risiko, verantwortungsbewusst akzeptiert zu werden. Oder das Risiko kann vermieden werden und das Unternehmen zahlt für offensichtlich unterlastete Racks.
Ein wichtiger Hinweis: Es lohnt sich, wenn möglich zu versuchen, verschiedene Serviceserver horizontal auf die Racks zu verteilen. Es ist erforderlich, Fälle zu vermeiden, in denen eine Reihe von Servern für den Service eintrifft und vertikal in Schränke installiert wird, um die "Dichte" zu verbessern (nur weil dies auf diese Weise einfacher ist). Dies führt in der Tat dazu, dass ein Rack mit denselben Servern mit geringer Last gefüllt ist, während sich alle hoch belasteten Server in einem anderen befinden. Wenn das Lastprofil das gleiche ist und alle Server aufgrund der hohen Last gleichzeitig gleich viel verbrauchen, ist die Wahrscheinlichkeit, das zweite Rack zu verlieren, viel höher.
Kommen wir zurück zur Serververteilung in den Racks. Wir haben physische Einschränkungen in den Schränken und Leistungsbeschränkungen berücksichtigt. Betrachten wir nun das Netzwerk. Man kann N = 24/32/48-Port-Switches verwenden (vorausgesetzt, 48-Port-ToR-Switches). Glücklicherweise gibt es nicht so viele Optionen, wenn wir Breakout-Kabel ignorieren. Wir betrachten Optionen eines Schalters in jedem einzelnen Rack, eines Schalters pro zwei oder pro drei Schränke pro Gruppe (R-
Netz ). Ich glaube, dass die Gruppe nicht drei sein sollte. Andernfalls kommt es zu Verkabelungsproblemen.
Daher verteilen wir Server für jedes Netzwerkszenario auf die Racks (1, 2 oder 3 Racks pro Gruppe):
S
Rack = min (S
h , Abrundung (P
Rack / P
Serv ), Abrundung (N / R
netto ))
Somit ist eine Gruppe von zwei Racks Szenario
S
Rack 2 = min (21, Rounddown (6000/300), Rounddown (48/2)) = min (21, 20, 24) = 20 Server pro Rack
Ebenso zählen wir die anderen Szenarien:
S
Rack 1 = 20
S
Rack 3 = 16
Wir sind fast fertig. Wir sollten die Gesamtanzahl der Racks zählen, um alle Server S zu verteilen (es sollen 1000 Server vorhanden sein):
R = Aufrundung (S / (S-
Rack * R-
Netz )) * R-
NetzR
1 = Aufrundung (1000 / (20 * 1)) * 1 = 50 * 1 = 50 Racks
R
2 = Aufrundung (1000 / (20 * 2)) * 2 = 25 * 2 = 50 Racks
R
2 = Aufrundung (1000 / (16 * 3)) * 3 = 21 * 3 = 63 Racks
Dann sollten wir die Gesamtbetriebskosten für jede Option basierend auf der Anzahl der Racks, der erforderlichen Switches, der Verkabelung usw. zählen. Wir wählen das Szenario mit den niedrigsten Gesamtbetriebskosten. Gewinn!
Bitte beachten Sie, dass die Anzahl der Racks für Szenario 1 und 2 zwar gleich ist, die Gesamtbetriebskosten jedoch aufgrund der doppelt so geringen Anzahl von Schaltern und längeren Kabeln für das zweite Szenario unterschiedlich sind.
PS Wenn die Leistung pro Rack oder Rackhöhe variieren kann, steigt die Variabilität. Die Auswahl kann jedoch durch Brute-Force-Optionen auf die oben beschriebene Methode reduziert werden. Es wird mehr Szenarien geben, aber ihre Anzahl wird begrenzt sein. Wir können die Leistung pro Rack in Schritten von 1 kW erhöhen, und es gibt eine begrenzte Anzahl von Standard-Rack-Typen: 42U, 45U, 47U, 48U. Es kann hilfreich sein, die Was-wäre-wenn-Analyse von Excel im Datentabellenmodus zu verwenden. Wir sollten uns die resultierende Tabelle ansehen und die beste Option auswählen.