قياس HDFS 3 مع HDFS 2

تستخدم شركتنا SberTech (Sberbank Technologies) حاليًا HDFS 2.8.4 لأنه يحتوي على عدد من المزايا ، مثل نظام Hadoop البيئي ، والعمل السريع مع كميات كبيرة من البيانات ، وهو جيد في التحليلات وأكثر من ذلك بكثير. ولكن في ديسمبر 2017 ، أصدرت مؤسسة Apache Software إصدارًا جديدًا من إطار عمل مفتوح المصدر لتطوير وتنفيذ البرامج الموزعة - Hadoop 3.0.0 ، والذي يتضمن عددًا من التحسينات المهمة على خط الإصدار الرئيسي السابق (hadoop-2.x). أحد أهم التحديثات وأكثرها إثارة للاهتمام بالنسبة لنا هو دعم رموز التكرار (Erasure Coding). لذلك ، تم تعيين المهمة لمقارنة هذه الإصدارات مع بعضها البعض.

خصصت شركة SberTech 10 أجهزة افتراضية 40 جيجا لكل منها لهذا البحث. نظرًا لأن سياسة التشفير RS (10.4) تتطلب ما لا يقل عن 14 جهازًا ، فلن تعمل لاختبارها.

على أحد الأجهزة سيتم وضع NameNode بالإضافة إلى DataNode. سيتم إجراء الاختبار باستخدام سياسات التشفير التالية:

  • XOR (2.1)
  • RS (3.2)
  • RS (6.3)

وأيضا باستخدام النسخ المتماثل بعامل النسخ 3.

تم اختيار حجم كتلة البيانات بما يعادل 32 ميجابايت.

البحث


اختبار معدل البيانات


أجريت اختبارات لمعدلات نقل البيانات. تم نقل البيانات من نظام الملفات المحلي إلى نظام الملفات الموزعة. حجم الملف المستخدم في هذا الاختبار هو 292.2 ميجابايت.

تم الحصول على النتائج التالية:



يتم أيضًا إنشاء رسم بياني للقيم المستلمة المجمعة لوقت نقل الملف:



وأيضًا ، رسم بياني لمعدلات البيانات المستلمة المجمعة:



كما يتبين من الرسم البياني ، يتم إرسال أسرع البيانات المشفرة باستخدام XOR (2،1). يظهر الترميزان RS (6.3) و RS (3.2) سلوكًا مشابهًا ، على الرغم من أن متوسط ​​قيمة السرعة لـ RS (6.3) أعلى قليلاً. النسخ المتماثل يفقد سرعة كبيرة (حوالي 1.5 مرة أقل من XOR و 1.5 مرة أقل من RS).

أما بالنسبة لكفاءة التخزين ، فإن XOR (2.1) و RS (6.3) هما أكثر طرق التخزين ربحية ، فالبيانات الزائدة هي 50٪ فقط. النسخ المتماثل ، مع نسبة تكرار 3 ، يفقد مرة أخرى ، وتخزين 200٪ من البيانات الزائدة.

اختبار الأداء


في الاختبار السابق ، تم رصد حالة الخوادم باستخدام أداة المراقبة Grafana.

فيما يلي رسم بياني يوضح حمل وحدة المعالجة المركزية أثناء اختبارات نقل البيانات:



كما يتبين من الرسم البياني ، في هذا الاختبار أيضًا يستهلك ترميز RS (6.3) أقل الموارد. يظهر النسخ المتماثل مرة أخرى أسوأ نتيجة.

استهلاك الموارد في استعادة البيانات


لإجراء هذا الاختبار ، تم تحميل كمية معينة من البيانات إلى نظام الملفات الموزعة Hadoop. ثم تم حذف جهازين مع DataNode.
فيما يلي الرسوم البيانية لحالة الأجهزة في وقت استعادة البيانات مع ترميز RS (6.3) وعند استخدام النسخ المتماثل:


حالة المعالج أثناء استعادة البيانات باستخدام ترميز RS (6.3)


حالة وحدة المعالجة المركزية أثناء استعادة البيانات باستخدام النسخ المتماثل

كما يتبين من الرسوم البيانية ، فإن ترميز RS (6.3) يحمّل المعالج أكثر من النسخ المتماثل أثناء استعادة البيانات ، وهو أمر منطقي ، لأنه من أجل استعادة البيانات المفقودة باستخدام رموز زائدة ، من الضروري حساب مصفوفة التكرار العكسي ، والتي تستهلك موارد أكثر من الكتابة فوق فقط البيانات من DataNode الأخرى في حالة النسخ المتماثل.

نتائج الاختبار:


  • بالنسبة لمعدلات نقل البيانات ، من الأفضل استخدام تشفير XOR (2.1) أو RS (6.3)
  • عند إرسال البيانات ، يقوم المعالج بتحميل أقل التشفير RS (6.3) و RS (3.2)
  • عند استعادة البيانات ، يكون المعالج أقل ضغطًا من خلال استخدام النسخ المتماثل.
  • الطريقة الأكثر ضغطًا لتخزين البيانات هي ترميزات RS (6.3) و XOR (2.1)

أكثر طرق التخزين موثوقية هي ترميز RS (6.3) ، لأنها تسمح لك بفقدان ما يصل إلى ثلاثة أجهزة دون فقدان البيانات ، والنسخ المتماثل بمعامل النسخ المتماثل 3 يدعم فشل ما يصل إلى جهازين. XOR (2 ، 1) هي الطريقة الأكثر موثوقية لتخزين البيانات لأنها تسمح لك بفقدان جهاز واحد كحد أقصى.

الخلاصة


الأهداف الرئيسية لاستخدام نظام الملفات الموزعة في SberTech هي:

  • موثوقية عالية
  • التقليل من تكلفة صيانة الخوادم لتخزين البيانات
  • توفير أدوات تحليل البيانات

بناءً على نتائج التحليل ، يتم التوصل إلى الاستنتاجات التالية:

  • يتفوق HDFS 3 على الموثوقية على HDFS 2.
  • يفوز HDFS 3 بتقليل تكاليف صيانة الخادم لأنه يخزن البيانات بشكل مضغوط.
  • يحتوي HDFS 3 على نفس مجموعة أدوات تحليل البيانات مثل HDFS 2.

وفي هذا الصدد ، استنتج أن HDFS 3 هو بديل عقلاني لـ HDFS 2.

المصادر المستخدمة:


Source: https://habr.com/ru/post/ar418667/


All Articles