✔️ 😦 🗒️ تحسين توزيع الخادم عبر الرفوف 🧖 🚰 👨🏾‍⚖️

في الآونة الأخيرة ، سألني زميل في محادثة:

- هل هناك مقال عن كيفية حزم الخوادم في الرفوف بشكل صحيح؟

أدركت أنني لست على علم بذلك. لذلك ، قررت أن أكتب النص الخاص بي.

أولاً ، هذا مقال حول الخوادم المعدنية العارية في مرافق مركز البيانات (DC). ثانياً ، نقدر وجود الكثير من الخوادم (المئات أو الآلاف) ؛ المقالة لا معنى لكميات أقل. ثالثًا ، نعتبر أن هناك ثلاثة قيود في الرفوف: المساحة المادية ، والطاقة الكهربائية لكل واحدة ، والخزائن تبقى في الصفوف المجاورة لبعضها البعض ، حتى نتمكن من استخدام مفتاح ToR واحد لتوصيل الخوادم فيها.

تعتمد إجابة السؤال الأصلي بشكل كبير على المعلمة التي نقوم بتحسينها وعلى ما يمكننا تغييره للحصول على نتيجة أفضل. على سبيل المثال ، نحتاج إلى استخدام مساحة أقل لترك المزيد للنمو في المستقبل. أو ربما لدينا الحرية في اختيار ارتفاع الخزانة ، الطاقة لكل حامل ، عدد المقابس لكل وحدة PDU ، عدد الخزائن لكل مجموعة مفاتيح (مفتاح لكل 1 ، 2 ، أو 3 رفوف) ، أطوال الكابلات وأعمال الكابلات. يعد المكون الأخير حاسمًا بالنسبة لصفوف الرف حيث نحتاج إلى سحب الكابلات في الصف الآخر أو ترك المنافذ غير المستخدمة في المحول. قصص مختلفة تماما هي اختيار الخادم واختيار مركز البيانات. يجب أن نعتبر أننا اخترناها بالفعل.

من الجيد أن نفهم بعض الفروق الدقيقة والتفاصيل ، على وجه الخصوص ، متوسط / الحد الأقصى لاستهلاك طاقة الخادم وكيف يوفر بائعنا الكهرباء. لذلك ، إذا كان لدينا مصدر طاقة 230V 1phase ، فإن قاطع الدائرة 32Amps يمكن أن يحمل ما يصل إلى 7kW ~. دعنا نقول أننا ندفع رسمياً مقابل 6 كيلو واط لكل رف. إذا كان البائع يقيس استهلاك الطاقة لدينا في كل صف من 10 خزائن ، وليس لكل واحدة ، وإذا كانت قواطع الدائرة تحد من الطاقة عند 7 كيلو واط ، فيمكننا استخدام 6.9 كيلو واط في حامل و 5.1 كيلو واط في خزانة أخرى. سيكون على ما يرام وغير عاقب.

عادة ، هدفنا الأساسي هو تقليل الإنفاق. أفضل معيار للقياس هو تخفيض التكلفة الإجمالية للملكية. يتكون من الأجزاء التالية:

CAPEX: شراء البنية التحتية لمركز البيانات ، الخوادم ، أجهزة الشبكات ، الكابلات
OPEX: العاصمة الإيجار ، واستهلاك الكهرباء والصيانة. يعتمد OPEX على العمر الافتراضي. من المعقول افتراض أن العمر يساوي 3 سنوات.

يجب علينا تحسين الأجزاء الأغلى من الكعكة. يجب أن يستخدم كل شيء الموارد المتبقية بأكبر قدر ممكن من الفعالية.

من المفترض أن لدينا وحدة تحكم تيار مستمر (DC) ، ارتفاع الحامل لوحدات H (على سبيل المثال H = 47) ، طاقة لكل حامل P _رف (P _rack = 6kW) ، وقررنا استخدام خوادم h = 2U المكونة من وحدتين. دعنا نزيل 2 إلى 4 وحدات من الحامل للمفاتيح ولوحات التصحيح ومديري الكابلات. بعد ذلك يمكننا وضع خوادم S _h = rounddown ((H-2..4) / h) في حامل (بمعنى S _h = rounddown ((47-4) / 2) = 21 خادمًا لكل حامل). دعنا نحفظ S _ح .

في حالة بسيطة ، جميع الخوادم هي نفسها. لذلك ، إذا ملأنا الحامل بالخوادم ، فيمكننا أن ننفق لكل خادم طاقة متوسطة P P = P _rack / S _h (P serv = 6000W / 21 = 287W). نحن نتجاهل استهلاك الطاقة التبديل هنا.

دعونا نضع جانباً ونحدد ما هو الحد الأقصى لاستهلاك طاقة الخادم P _max . تتمثل الطريقة المباشرة والآمنة وغير الفعالة للغاية في قراءة ما يقوله الملصق الموجود على وحدة تزويد الطاقة بالخادم. هنا هو P _ماكس .

نهج أكثر تعقيدًا وكفاءة هو أخذ TDP لجميع المكونات وتلخيصها. إنه غير دقيق ، لكن يمكننا القيام بذلك بهذه الطريقة.

عادة ، نحن لا نعرف TDP من المكونات بصرف النظر عن وحدة المعالجة المركزية. لذلك ، فإن النهج الأكثر صحة والأكثر تعقيدًا هو اتخاذ خادم تجريبي مكون بشكل مناسب ، وتحميله ، على سبيل المثال ، بواسطة / Linpack / (وحدة المعالجة المركزية والذاكرة) و / fio / (الأقراص) ، وقياس استهلاك الطاقة. نحن بحاجة إلى مختبر في هذه الحالة. إذا أخذنا الأمور على محمل الجد ، يجب أن نخلق بيئة دافئة في الممر البارد لأن ارتفاع درجة الحرارة يؤثر على كل من المراوح واستهلاك طاقة وحدة المعالجة المركزية. وبالتالي ، نحصل على الحد الأقصى لاستهلاك الطاقة لخادم العينة مع هذا التكوين المحدد داخل البيئة الحالية تحت الحمل المحدد. فقط ضع في اعتبارك أن البرامج الثابتة الجديدة وإصدار البرنامج وشروط أخرى قد تؤثر على النتيجة.

الآن ، دعنا نرجع إلى P _serv وكيف يجب أن نقارن ذلك بـ P _max . إنه سؤال عن فهم كيفية عمل الخدمات ومدى قوة أعصاب CTO لدينا.

إذا لم نقبل أي خطر ، يجب أن نفترض أن جميع الخوادم قد تبدأ في استهلاك الحد الأقصى المحتمل في وقت واحد. في الوقت نفسه ، يمكن أن تفشل واحدة من تغذية العاصمة كذلك. يجب أن تظل البنية التحتية تقدم الخدمة. لذلك ، P _serv ≡ P _max . إنها الطريقة التي تكون فيها الموثوقية مهمة للغاية.

إذا أخذ CIO في الاعتبار ليس فقط السلامة المثالية ولكن أيضًا أموال الشركة ، إذا كان شجاعًا بدرجة كافية ، فيمكنه أن يقرر ذلك

نبدأ في إدارة موردينا ، على وجه الخصوص ، نمنع أي صيانة مخططة في فترات الحمل العالي المتوقع لدينا لتقليل انقطاع التيار الكهربائي
و / أو الهندسة المعمارية لدينا تسمح لنا بفقدان رف / صف / DC أثناء استمرار الخدمات
أو نقوم بتوزيع الحمل عبر الرفوف بشكل أفقي بحيث لا تستهلك خوادمنا في خزانة واحدة الحد الأقصى النظري لها معًا.

من المفيد ليس مجرد تخمين هنا ولكن مراقبة استهلاك الطاقة وفهم كيفية استهلاك الخوادم للطاقة أثناء التحميل المعتاد وذروة الحمل. وهكذا وبعد بعض التحليلات ، يختبئ مدير المعلومات ويقول:
"أطلب أن يكون الحد الأقصى الممكن تحقيقه من متوسط استهلاك الطاقة القصوى للخادم أقل بكثير من الحد الأقصى لاستهلاك الخادم الواحد." فليكن P _serv = 0.8 * P _max

وبعد ذلك ، يمكن أن يستوعب حامل سعة 6 كيلووات 16 خادمًا من P _max = 375W ولكن 20 خادمًا من P serv = 375W * 0.8 = 300W. أي 25 ٪ خوادم أكثر. إنه اقتصاد حقيقي لأننا نحتاج إلى رفوف أقل بنسبة 25 ٪. ويمكننا توفير وحدات PDU على الرف والمفاتيح والكابلات. عيب خطير في الحل هو الحاجة إلى التحقق باستمرار من أن افتراضاتنا لا تزال صالحة. يجب أن نتأكد من أن البرنامج الثابت الجديد لا يغير تشغيل المعجبين واستهلاك الطاقة بشكل كبير ، وأن فريق التطوير لم يبدأ في استخدام الخوادم بكفاءة أكبر بكثير (وهذا يعني أنهم نجحوا في زيادة الاستخدام واستهلاك الطاقة). ثم كل الافتراضات الأولية والاستنتاجات تصبح خاطئة. لذلك ، فمن المخاطرة أن يتم قبولك بطريقة مسؤولة. أو يمكن تجنب المخاطر ومن ثم تدفع الشركة مقابل رفوف ناقصة بشكل واضح.

ملاحظة مهمة: يجدر محاولة توزيع خوادم خدمات مختلفة عبر الرفوف أفقياً إن أمكن. يجب تجنب الحالات عند وصول مجموعة من الخوادم للخدمة وتثبيتها في خزانات رأسياً لتحسين "الكثافة" (لمجرد أنه من السهل القيام بذلك على هذا النحو). في الواقع ، إنه يؤدي إلى الموقف عندما يتم تعبئة أحد الأرفف مع نفس الخوادم منخفضة التحميل بينما يوجد جميع الأجهزة المحملة بشكل كبير في واحدة أخرى. عندما يكون ملف تعريف التحميل هو نفسه ، وتبدأ جميع الخوادم في الاستهلاك على قدم المساواة في وقت واحد بسبب التحميل العالي ، يصبح احتمال فقد الحامل الثاني أعلى بكثير.

دعنا نعود إلى توزيع الخادم في الرفوف. اعتبرنا القيود المادية في الخزانات والقيود المفروضة على الطاقة. الآن لننظر في الشبكة. يمكن للمرء استخدام مفاتيح التبديل N = 24/32/48-port (على افتراض مفاتيح 48-ToR). لحسن الحظ ، لا توجد خيارات كثيرة إذا تجاهلنا الكابلات المنفصلة. نحن نفكر في خيارات التبديل في كل حامل ، أو تبديل لكل اثنين أو لكل ثلاث خزانات لكل مجموعة (R _net ). أعتقد أن المجموعة لا يجب أن تكون ثلاثة. خلاف ذلك ، فإنه يؤدي إلى مشاكل الكابلات.

لذلك ، نقوم بتوزيع الخوادم عبر الرفوف لكل سيناريو شبكة (1 أو 2 أو 3 رفوف لكل مجموعة):

_رف S = دقيقة (S _h ، دائري (P _rack / P serv) ، دائري (N / R _net ))

وبالتالي ، فإن مجموعة من اثنين من السيناريو الرفوف

_رف S ² = دقيقة (21 ، دائرية (6000/300) ، دائرية (48/2)) = دقيقة (21 ، 20 ، 24) = 20 خادم لكل رف

وبالمثل ، نحسب السيناريوهات الأخرى:

_رف S ¹ = 20

_رف S ³ = 16

لقد انتهينا تقريبا. يجب أن نحسب إجمالي عدد الرفوف لتوزيع جميع الخوادم S (يجب أن يكون هناك 1000 خادم):

R = الجولة (S / ( _رف S * R _net )) * R _net

R ₁ = تقرير موجز (1000 / (20 * 1)) * 1 = 50 * 1 = 50 رفوف

R ₂ = الجولة (1000 / (20 * 2)) * 2 = 25 * 2 = 50 رفوف

R ₂ = موجز (1000 / (16 * 3)) * 3 = 21 * 3 = 63 رفوف

بعد ذلك ، يجب أن نحسب التكلفة الإجمالية للملكية لكل خيار بناءً على عدد الرفوف ، والمفاتيح المطلوبة ، والكابلات ، إلخ. نختار السيناريو بأقل تكلفة جمركية. الربح!

يرجى ملاحظة أنه على الرغم من أن عدد الأرفف للسيناريوهين 1 و 2 هو نفسه ، فإن التكلفة الإجمالية للملكية مختلفة بسبب ضعف عدد المحولات والكابلات الطويلة للسيناريو الثاني.

PS في حالة اختلاف الطاقة لكل حامل أو ارتفاع الحامل ، فإن التباين يزيد. ولكن قد يتم تقليل الاختيار إلى الأسلوب أعلاه عن طريق القوة الغاشمة الخيارات. سيكون هناك المزيد من السيناريوهات ، ولكن الكمية ستكون محدودة. يمكننا زيادة الطاقة لكل حامل بخطوات تبلغ 1 كيلو وات ، وهناك عدد محدود من أنواع الأرفف القياسية: من 42U ، 45U ، 47U ، 48U. قد يكون من المفيد استخدام تحليل What-If في Excel في وضع جدول البيانات. يجب أن ننظر إلى الجدول الناتج وتحديد الخيار الأفضل.

تحسين توزيع الخادم عبر الرفوف

More articles: