موازنة التحميل المفتوح (الجزء الثاني)

في مقالة سابقة ، تحدثنا عن محاولة استخدام Watcher وقدمنا ​​تقرير اختبار. نحن نقوم بشكل دوري بإجراء مثل هذه الاختبارات لتحقيق التوازن بين الوظائف الهامة الأخرى لسحابة الشركات أو المشغلين الكبيرة.

قد يتطلب التعقيد العالي للمشكلة التي يجري حلها عدة مقالات لوصف مشروعنا. اليوم ننشر المقال الثاني في سلسلة حول موازنة الأجهزة الافتراضية في السحابة.

بعض المصطلحات


قام برنامج VmWare بتقديم الأداة المساعدة DRS (جدولة الموارد الموزعة) لموازنة تحميل بيئة المحاكاة الافتراضية الخاصة بهم.

كما searchvmware.techtarget.com/definition/VMware-DRS يكتب
"برنامج VMware DRS (جدولة الموارد الموزعة) هو أداة مساعدة تقوم بموازنة تحميل الحوسبة مع الموارد المتاحة في بيئة افتراضية. الأداة المساعدة جزء من حزمة المحاكاة الافتراضية تسمى VMware Infrastructure.

باستخدام VMware DRS ، يحدد المستخدمون قواعد توزيع الموارد المادية بين الأجهزة الظاهرية (VMs). يمكن تكوين الأداة المساعدة للتحكم اليدوي أو التلقائي. تجمعات موارد VMware يمكن إضافتها بسهولة أو إزالتها أو إعادة تنظيمها. إذا رغبت في ذلك ، يمكن عزل تجمعات الموارد بين وحدات الأعمال المختلفة. إذا تغير حجم عمل جهاز أو أكثر من الأجهزة الافتراضية بشكل كبير ، فإن برنامج VMware DRS يعيد توزيع الأجهزة الافتراضية بين الخوادم الفعلية. إذا تم تقليل عبء العمل الكلي ، فقد يتم إيقاف بعض الخوادم الفعلية مؤقتًا وتوحيد عبء العمل. "

لماذا أحتاج إلى التوازن؟



في رأينا ، DRS هي ميزة لا غنى عنها للسحابة ، على الرغم من أن هذا لا يعني أنه ينبغي استخدام DRS في أي وقت وفي أي مكان. اعتمادًا على الغرض من السحابة واحتياجاتها ، قد يكون هناك متطلبات مختلفة لطريقة DRS وطرق الموازنة. ربما هناك حالات عندما لا تكون هناك حاجة لتحقيق التوازن على الإطلاق. أو حتى ضارة.

لفهم مكان وأين يحتاج عملاء دائرة الاستعلام والأمن بشكل أفضل ، ضع في اعتبارك أهدافهم وأهدافهم. الغيوم يمكن تقسيمها إلى عامة وخاصة. فيما يلي الاختلافات الرئيسية بين هذه السحب وأهداف العملاء.

السحب الخاصة / عملاء الشركات الكبيرةالغيوم العامة / الأعمال الصغيرة والمتوسطة ، الناس
المعايير والأهداف الرئيسية للمشغلتقديم خدمة موثوقة أو منتجتقليل تكلفة الخدمات في المعركة في سوق تنافسية
متطلبات الخدمةالموثوقية على جميع المستويات وفي جميع عناصر النظام

أداء مضمون

تحديد أولويات الأجهزة الافتراضية في عدة فئات

أمن المعلومات والبيانات المادية

جيش تحرير السودان ودعم 24/7
سهولة الخدمة القصوى

خدمات بسيطة نسبيا

تقع مسؤولية البيانات على عاتق العميل

تحديد أولويات VM غير مطلوب

أمن المعلومات على مستوى الخدمات القياسية ، مسؤولية العملاء

قد يكون هناك فشل

لا جيش تحرير السودان ، والجودة غير مضمونة

دعم البريد

النسخ الاحتياطي هو اختياري
ميزات العملاءمجموعة واسعة جدا من التطبيقات.

التطبيقات القديمة الموروثة في الشركة.

أبنية مخصصة متطورة لكل عميل.

قواعد التقارب.

يعمل البرنامج دون توقف في وضع 7 × 24.

أدوات النسخ الاحتياطي على الطاير.

الحمل دوري العملاء يمكن التنبؤ بها.
التطبيقات النموذجية - موازنة الشبكة ، Apache ، WEB ، VPN ، SQL

من الممكن إيقاف التطبيق لفترة من الوقت

يُسمح بالتوزيع التعسفي لـ VMs في السحابة

النسخ الاحتياطي العميل

يمكن التنبؤ بها بالنسبة لعدد كبير من العملاء ، وهو متوسط ​​الحمل الإحصائي.
الآثار المترتبة على الهندسة المعماريةGeoklasterizatsiya

تخزين مركزي أو موزع

محفوظة IBS
التخزين المحلي للبيانات على عقد الحوسبة
تحقيق التوازن بين الأهدافحتى توزيع الحمل

أقصى استجابة التطبيق

الحد الأدنى موازنة تأخير الوقت

موازنة فقط عند الحاجة بوضوح

اختتام قطعة من المعدات للصيانة الوقائية
تقليل تكلفة الخدمات وتكاليف المشغل

تعطيل بعض الموارد في حالة انخفاض التحميل

توفير الطاقة

خفض تكاليف الموظفين


نستخلص الاستنتاجات التالية لأنفسنا:


للسحب الخاصة المقدمة للعملاء من الشركات الكبيرة ، يمكن تطبيق DRS وفقًا للقيود:

  • أمن المعلومات وقواعد تقارب المحاسبة لتحقيق التوازن ؛
  • توفر كمية كافية من الموارد في حالة وقوع حادث ؛
  • توجد بيانات الجهاز الظاهري على نظام تخزين مركزي أو موزع ؛
  • تنوع الوقت في إجراءات الإدارة والنسخ الاحتياطي والتوازن ؛
  • موازنة فقط ضمن إجمالي المضيفين العميل ؛
  • موازنة فقط مع عدم توازن قوي ، وأكثر هجرة آمنة ومأمونة من VMs (بعد كل شيء ، يمكن أن تفشل الهجرة) ؛
  • موازنة الأجهزة الظاهرية "الهادئة" نسبيًا (قد يستغرق ترحيل الأجهزة الافتراضية "الصاخبة" وقتًا طويلاً) ؛
  • تحقيق التوازن مع مراعاة "التكلفة" - الحمل على نظام التخزين والشبكة (مع بنيات مخصصة للعملاء الكبار) ؛
  • تحقيق التوازن مع مراعاة السلوك الفردي لكل جهاز VM ؛
  • الموازنة مرغوبة بعد ساعات (الليل ، عطلات نهاية الأسبوع ، العطلات).

للسحابات العامة التي تقدم خدمات للعملاء الصغار ، يمكن استخدام DRS في كثير من الأحيان ، مع ميزات متقدمة:

  • عدم وجود قيود على أمن المعلومات وقواعد التقارب ؛
  • تحقيق التوازن داخل السحابة ؛
  • تحقيق التوازن في أي وقت معقول ؛
  • تحقيق التوازن بين أي VM ؛
  • موازنة الأجهزة الافتراضية "الصاخبة" (حتى لا تتداخل مع البقية) ؛
  • غالبًا ما توجد بيانات الجهاز الظاهري على محركات الأقراص المحلية ؛
  • حساب متوسط ​​التخزين وأداء الشبكة (العمارة السحابية موحدة) ؛
  • الموازنة وفقًا للقواعد المعممة والإحصائيات المتاحة لسلوك مركز البيانات.

مشكلة التعقيد


صعوبة الموازنة هي أن دائرة الاستعلام والأمن يجب أن تعمل مع الكثير من العوامل غير المؤكدة:

  • سلوك المستخدم لكل من أنظمة معلومات العميل ؛
  • خوارزميات لتشغيل خوادم نظام المعلومات ؛
  • سلوك خادم DBMS
  • تحميل على موارد الحوسبة ، التخزين ، الشبكة ؛
  • تفاعل الخادم فيما بينهم في الصراع على الموارد السحابية.

يحدث تحميل عدد كبير من خوادم التطبيقات الافتراضية وقواعد البيانات على الموارد السحابية بمرور الوقت ، ويمكن أن تحدث العواقب وتتداخل مع تأثيرات لا يمكن التنبؤ بها بعد أوقات غير متوقعة. حتى بالنسبة للتحكم في العمليات البسيطة نسبيًا (على سبيل المثال ، للتحكم في المحرك ، ونظام تسخين المياه في المنزل) ، تحتاج أنظمة التحكم الآلي إلى استخدام خوارزميات التغذية المرتدة المتمايزة والتكامل المتكامل .



مهمتنا هي أن العديد من أوامر الحجم أكثر تعقيدًا ، وهناك خطر من أن النظام لن يكون قادرًا على موازنة التحميل مع القيم المحددة في وقت معقول ، حتى لو لم تحدث تأثيرات خارجية من المستخدمين.



تاريخ تطوراتنا


لحل هذه المشكلة ، قررنا عدم البدء من نقطة الصفر ، ولكن الاستفادة من الخبرة الحالية ، وبدأنا في التفاعل مع المتخصصين الذين لديهم خبرة في هذا المجال. لحسن الحظ ، تزامن فهمنا للمشاكل تماما.

المرحلة 1


استخدمنا نظامًا يعتمد على تقنية الشبكات العصبية ، وحاولنا تحسين مواردنا على أساسها.

كان اهتمام هذه المرحلة هو اختبار التكنولوجيا الجديدة ، وكانت أهميتها هي تطبيق نهج غير قياسي في حل المشكلة ، حيث تكون المقاربات القياسية قد استنفدت نفسها عملياً من الناحية الأخرى.

لقد بدأنا النظام ، وذهبنا بالفعل إلى التوازن. لم يسمح لنا حجم السحابة لدينا بالحصول على نتائج متفائلة أعلنها المطورون ، ولكن كان من الواضح أن الموازنة كانت ناجحة.

علاوة على ذلك ، كان لدينا قيود خطيرة إلى حد ما:

  • لتدريب شبكة عصبية ، يجب تشغيل الأجهزة الظاهرية دون تغييرات كبيرة لعدة أسابيع أو أشهر.
  • تم تصميم الخوارزمية للتحسين استنادًا إلى تحليل البيانات "التاريخية" السابقة.
  • لتدريب شبكة عصبية ، هناك حاجة إلى كمية كبيرة من البيانات وموارد الحوسبة.
  • يمكن إجراء التحسين والموازنة في حالات نادرة نسبيًا - مرة واحدة كل بضع ساعات ، وهو ما لا يكفي بشكل واضح.

المرحلة 2


نظرًا لأننا لم نكن راضين عن الوضع ، فقد قررنا تعديل النظام ، ولهذا يجب علينا الإجابة على السؤال الرئيسي - لمن نفعل ذلك؟

الأول للعملاء من الشركات. لذلك ، نحن بحاجة إلى نظام يعمل بكفاءة ، مع قيود الشركات التي تسهل التنفيذ فقط.

السؤال الثاني هو ما المقصود بكلمة "التشغيلية"؟ نتيجة لنقاش قصير ، قررنا أنه من الممكن الاعتماد على وقت الاستجابة من 5 إلى 10 دقائق حتى لا تقفز القفزات قصيرة الأجل النظام إلى الرنين.

السؤال الثالث هو ما حجم العدد المتوازن للخوادم التي تختارها؟
وقد تقرر هذه القضية في حد ذاته. عادةً ، لا يجعل العملاء تجميعات الخوادم كبيرة جدًا ، وهذا يتوافق مع التوصيات الواردة في المقالة لتقييد المجاميع بـ 30-40 خوادم.

بالإضافة إلى ذلك ، من خلال تقسيم تجمع الخوادم ، نقوم بتبسيط مهمة خوارزمية الموازنة.

السؤال الرابع هو كم يناسبنا الشبكة العصبية من خلال عملية التعلم الطويلة والتوازن النادر؟ قررنا التخلي عنها لصالح خوارزميات تشغيل أبسط من أجل الحصول على النتيجة بالثواني.



يمكن العثور هنا على وصف للنظام الذي يستخدم هذه الخوارزميات وأوجه القصور فيها .

قمنا بتطبيق هذا النظام وإطلاقه وتلقينا نتائج مشجعة - حيث يقوم الآن بتحليل الحمل السحابي بانتظام ويقدم توصيات بشأن تحريك الأجهزة الظاهرية ، وهي صحيحة إلى حد كبير. حتى الآن من الواضح أننا نستطيع تحقيق 10-15 ٪ من الموارد للأجهزة الافتراضية الجديدة مع تحسين جودة الأجهزة الموجودة.



عند اكتشاف خلل في ذاكرة الوصول العشوائي (RAM) أو وحدة المعالجة المركزية (CPU) ، يعطي النظام أوامر لجدولة Tionics لإجراء الترحيل المباشر للأجهزة الافتراضية المطلوبة. كما يتضح من نظام المراقبة ، فقد تم نقل الجهاز الظاهري من مضيف (أعلى) إلى مضيف آخر (سفلي) وذاكرة محررة على المضيف العلوي (مظلل في الدوائر الصفراء) ، واحتلاله على التوالي في المضيف السفلي (مظلل في دوائر بيضاء).

الآن نحاول تقييم فعالية الخوارزمية الحالية بشكل أكثر دقة ونحاول العثور على أخطاء محتملة فيها.

المرحلة 3


يبدو أنه يمكنك تهدئة هذا ، والانتظار لفعالية مجربة وإغلاق الموضوع.
لكن فرص التحسين الواضحة التالية تدفعنا لإجراء مرحلة جديدة.

  1. تشير الإحصاءات ، على سبيل المثال ، هنا وهنا إلى أن نظامي المعالجين وأربعة المعالجات في أدائهم أقل بكثير من الأنظمة ذات المعالج الواحد. هذا يعني أن جميع المستخدمين يحصلون على عوائد أقل بكثير من وحدات المعالجة المركزية (CPU) وذاكرة الوصول العشوائي (RAM) ومحركات أقراص الحالة الثابتة (SSD) وشبكات LAN (الشبكات المحلية) وشبكات الاتصال (FC) التي تم شراؤها في أنظمة المعالجات المتعددة مقارنة بأجهزة المعالج الواحد.
  2. يمكن لمخططي الموارد أنفسهم التعامل مع أخطاء جسيمة ، إليك إحدى المقالات في هذا الموضوع.
  3. تسمح لك التقنيات التي تقدمها Intel و AMD لمراقبة ذاكرة الوصول العشوائي وذاكرة التخزين المؤقت بدراسة سلوك الأجهزة الظاهرية ووضعها بطريقة لا تتداخل فيها الأجهزة المجاورة الصاخبة مع الأجهزة الظاهرية الهادئة.
  4. توسيع مجموعة المعلمات (الشبكة ، التخزين ، أولوية الجهاز الظاهري ، تكلفة الترحيل ، جاهزيته للترحيل).

في المجموع


كانت نتيجة عملنا على تحسين خوارزميات الموازنة استنتاجًا لا لبس فيه أنه بسبب الخوارزميات الحديثة ، من الممكن تحقيق تحسين كبير للموارد (25-30٪) من مراكز البيانات وتحسين جودة خدمة العملاء.

تعد الخوارزمية القائمة على الشبكات العصبية ، بالطبع ، حلًا مثيرًا للاهتمام يحتاج إلى مزيد من التطوير ، وبسبب القيود الحالية ، فإنه غير مناسب لحل مثل هذه المشكلات على وحدات التخزين المميزة للسحب الخاصة. في الوقت نفسه ، في السحب العامة ذات الحجم الكبير ، أظهرت الخوارزمية نتائج جيدة.

سنخبرك أكثر عن قدرات المعالجات وأجهزة الجدولة والموازنة عالية المستوى في المقالات التالية.

Source: https://habr.com/ru/post/ar465715/


All Articles