مستودع البيانات الموزعة في مفهوم بحيرة البيانات: تثبيت CDH

نواصل مشاركة خبرتنا في تنظيم مستودع البيانات ، والذي بدأنا الحديث عنه في مشاركة سابقة . هذه المرة نريد أن نتحدث عن كيفية حل مهام تثبيت CDH.




تركيب CDH


نبدأ خادم Cloudera Manager ، ونضيفه إلى التحميل التلقائي ونتحقق من تحوله إلى الحالة النشطة:


systemctl start cloudera-scm-server systemctl enable cloudera-scm-server systemctl status cloudera-scm-server 

بعد صعوده ، نتبع الرابط "hostname: 7180 /" ، وقم بتسجيل الدخول (admin / admin) ونواصل التثبيت من واجهة المستخدم الرسومية. بعد التفويض ، سيبدأ التثبيت تلقائيًا وسيتم إجراء انتقال إلى الصفحة لإضافة مضيفين إلى المجموعة:





يوصى بإضافة جميع المضيفين الذين سيتم ربطهم بطريقة أو بأخرى بالبيئة المنتشرة (حتى لو لم يستضيفوا خدمات Cloudera). يمكن أن تكون هذه الأجهزة ذات أدوات التكامل المستمر أو أدوات BI أو ETL أو أدوات اكتشاف البيانات. سيسمح لك تضمين هذه الأجهزة في المجموعة بتثبيت عبّارات خدمات نظام المجموعة (Gateways) التي تحتوي على ملفات مع تكوين خدمات الكتلة وموقعها ، مما سيبسط التكامل مع برامج الجهات الخارجية. يوفر Cloudera Manager أيضًا أدوات مراقبة ملائمة وإنشاء شاشات للمقاييس الرئيسية لجميع آلات المجموعة في نافذة واحدة ، مما يبسط توطين المشاكل أثناء التشغيل. تتم إضافة المضيفين باستخدام زر "بحث جديد" - يتم إجراء انتقال إلى الصفحة لإضافة أجهزة إلى الكتلة ، حيث يُقترح تزويدها ببيانات للاتصال عبر SSH:




بعد إضافة المضيفين ، ننتقل إلى مرحلة اختيار طريقة التثبيت. نظرًا لأننا قمنا بتنزيل البارسيل ، فإننا نختار طريقة "استخدام الطرود (مستحسن)" ، والآن نحتاج إلى إضافة مستودعنا. نضغط على زر "المزيد من الخيارات" ، ونحذف جميع المستودعات الافتراضية المثبتة هناك ونضيف عنوان المستودع مع محلل CDH - "hostname / parcels / cdh /". بعد التأكيد ، على يمين النقش "حدد نسخة CDH" ، يجب عرض نسخة CDH المقدمة في البارسل الذي تم تنزيله. بالنسبة إلى طريقة التثبيت هذه ، لا يمكن تكوين أي شيء في علامة التبويب هذه:





ستطلب منك علامة التبويب التالية تثبيت JDK. نظرًا لأننا فعلنا ذلك بالفعل استعدادًا للتثبيت ، فإننا نتخطى هذه الخطوة:




عند الانتقال إلى علامة التبويب التالية ، يبدأ تثبيت مكونات نظام المجموعة على الأجهزة المضيفة المحددة. بعد اكتمال التثبيت ، سيكون الانتقال إلى الخطوة التالية متاحًا. في حالة مواجهة أخطاء التثبيت (واجهت هذا الموقف عند تثبيت بيئات التطوير المحلية) ، يمكنك مشاهدة تفاصيلها باستخدام الأمر "tail -f /var/log/cloudera-scm-server/cloudera-scm-server.log" ومن خلال النقر على زر التفاصيل على الجانب الأيمن من الجدول:




في خطوة التثبيت التالية ، ستتم مطالبتك بتحديد إحدى مجموعات الخدمات المعدة للتثبيت. في المستقبل ، يمكن تكوين الخدمات وأدوارها يدويًا ، لذلك ليس من المهم جدًا اختيار ما في علامة التبويب هذه. في حالتنا ، عادةً ما يتم تثبيت "Core with Impala". يمكنك هنا أيضًا الإشارة إلى الحاجة إلى تثبيت Cloudera Navigator. إذا كنت تقوم بتثبيت إصدار Enterprise ، فيجب عليك تثبيت هذه الأداة المفيدة:




في علامة التبويب التالية للخدمات من المجموعة المحددة ، يُقترح تحديد الأدوار والمضيفين الذين سيتم تثبيتهم عليهم. فيما يلي بعض الإرشادات لتثبيت الأدوار على المضيفين.


أدوار HDFS


NameNode - يتم وضعه في نسخة واحدة على أحد العقد الرئيسية ، ويفضل أن يكون أكثر تفريغًا ، حيث أنه مهم جدًا لتشغيل المجموعة ويساهم بشكل كبير في استخدام الموارد.
SecondaryNameNode - يتم وضعه في نسخة واحدة على أحد العقد الرئيسية ، ويفضل ألا يكون على نفس العقدة مثل NameNode (لضمان التسامح مع الخطأ).
الموازن - يتم وضعه في نسخة واحدة على أحد العقد الرئيسية.
HttpFS - واجهة برمجة تطبيقات إضافية لـ HDFS ، لا يمكنك تثبيته.
بوابة NFS - دور مفيد للغاية ، يسمح لك بتركيب HDFS كمحرك شبكة. يتم وضعه في نسخة واحدة على أحد العقد الرئيسية.
DataNode - وضع على جميع عقد البيانات.

أدوار الخلية


بوابة - ملفات تكوين الخلية. يتم وضعه على جميع مضيفي الكتلة.
Hive Metastore Server - خادم بيانات التعريف ، مثبت في نسخة واحدة على أحد العقد الرئيسية (على سبيل المثال ، تلك التي تم تثبيت PostgreSQL فيها - يخزن بياناته هناك).
WebHCat - لا حاجة للتثبيت.
HiveServer2 - يتم تثبيته في نسخة واحدة على نفس العقدة الرئيسية مثل Hive Metastore Server (شرط لعملهم المشترك).

أدوار هيو


يتم تثبيت Hue Server - GUI لـ HDFS في نسخة واحدة على أحد العقد الرئيسية.
Load Balancer - موازن تحميل على واجهة المستخدم الرسومية لـ HDFS ، يتم تثبيته في نسخة واحدة على أحد العقد الرئيسية.

أدوار إمبالا


Impala StateStore - يتم وضعه في نسخة واحدة على أحد العقد الرئيسية.
خادم الكتالوج Impala - يتم وضعه في نسخة واحدة على أحد العقد الرئيسية.
Impala Daemon - وضع على جميع عقد البيانات (يمكنك ترك القيمة الافتراضية).

أدوار خدمات مدير Cloudera


يتم تثبيت مراقب الخدمة ، مراقب النشاط ، مراقب المضيف ، مدير التقارير ، خادم الأحداث ، ناشر التنبيه في نسخة واحدة على إحدى العقد الرئيسية.

أدوار Oozie


خادم Oozie - يتم وضعه في نسخة واحدة على أحد العقد الرئيسية.

غزل الأدوار


ResourceManager - يتم وضعه في نسخة واحدة على أحد العقد الرئيسية.
خادم JobHistory - يتم تثبيته في نسخة واحدة على أحد العقد الرئيسية.
NodeManager - وضع على جميع عقد البيانات (يمكنك ترك القيمة الافتراضية).

أدوار ZooKeeper


ZooKeeper Server - لضمان التسامح مع الخطأ ، يتم تثبيته في ثلاث نسخ على العقد الرئيسية.

أدوار Cloudera Navigator


Navigator Audit Server - يتم تثبيته في نسخة واحدة على أحد العقد الرئيسية.
Navigator Metadata Server - يتم وضعه في نسخة واحدة على أحد العقد الرئيسية.



بعد توزيع الأدوار ، توجد علامة تبويب تحتوي على قائمة قصيرة بإعدادات الخدمات المثبتة. سيكون تغييرهم متاحًا بعد التثبيت وفي هذه المرحلة يمكن تركهم دون تغيير:




باتباع إعدادات الخدمة ، يوجد تكوين قاعدة بيانات للخدمات التي تحتاجها. نقوم بإدخال الاسم الكامل للمضيف الذي تم تثبيت PostgreSQL عليه ، في مربعات القائمة "نوع قاعدة البيانات" ، حدد العنصر المناسب وحدد الحقول للاتصال بقواعد البيانات المقابلة في الحقول المتبقية. بعد إدخال جميع البيانات ، انقر فوق الزر "اختبار الاتصال" وتحقق من توفر قواعد البيانات. إذا كان هذا هو الحال ، فسيظهر نقش "ناجح" على الجانب الأيمن من الجدول المقابل لكل من قواعد البيانات:




كل شيء جاهز لنشر الخدمات. انتقل إلى علامة التبويب التالية ولاحظ هذه العملية. إذا فعلنا كل شيء بشكل صحيح ، فسيتم إكمال جميع الخطوات بنجاح. خلاف ذلك ، ستتم مقاطعة العملية في إحدى الخطوات وسيكون سجل الأخطاء متاحًا بالضغط على السهم:




تهانينا - CDH جاهز للعمل!




يمكنك متابعة تثبيت البارسيل إضافية.


وضع جراحات إضافية


في الحالات التي تكون فيها المجموعة الأساسية من خدمات CHD غير كافية أو إذا كانت هناك حاجة إلى إصدار أحدث ، يمكنك تثبيت مجموعات إضافية لتوسيع قائمة الخدمات المتاحة التي يمكن نشرها في المجموعة. خلال مشروعنا ، احتجنا إلى خدمة الإصدار 2.2 من Spark لإطلاق المهام المطورة وعمل أدوات اكتشاف البيانات. إنه ليس جزءًا من CDH ، لذا قم بتثبيته بشكل منفصل. للقيام بذلك ، انقر فوق الزر "Hosts" وحدد عنصر القائمة المنسدلة "الطرود":




تفتح علامة تبويب تحتوي على البارسيل ، تعرض قائمة بالمجموعات التي يديرها مدير Cloudera هذا والبارسيل المثبت عليها. لإضافة بارسيل مع Spark 2.2 ، حدد المجموعة المطلوبة وانقر على زر "تكوين" في الزاوية اليمنى العليا.




نضغط على زر "+" ، في السطر الذي يظهر ، نشير إلى عنوان المستودع مع Spars 2.2 parsel ("hostname / parcels / spark /") وانقر فوق الزر "Save Changes":





بعد هذه التلاعبات ، يجب أن تظهر واحدة جديدة باسم SPARK2 في قائمة البارسيل في علامة التبويب السابقة. مبدئيًا ، يبدو أنه متاح للتنزيل ، لذا فإن الخطوة التالية هي تنزيله بالنقر فوق الزر "تنزيل":




يجب أن يكون البارسيل الذي تم تنزيله مبعثرًا على عُقد نظام المجموعة بحيث يمكن تثبيت الخدمات منه. للقيام بذلك ، انقر فوق الزر "توزيع" الذي يظهر على الجانب الأيمن من الخط مع محلل SPARK2:




الخطوة الأخيرة في العمل مع الطرد هي تنشيطه. نقوم بتنشيطه بالنقر فوق الزر "تنشيط" ، الذي يظهر على الجانب الأيمن من الخط مع البقدونس:




بعد التأكيد ، تصبح الخدمة التي نحتاجها متاحة للتثبيت. ولكن هناك فروق دقيقة. لتثبيت بعض الخدمات في المجموعة ، تحتاج إلى تنفيذ أي إجراءات إضافية إلى جانب تثبيت البارسيل. عادة ما يتم كتابة هذا على الموقع الرسمي في قسم تثبيت وتحديث هذه الخدمة (هنا مثالها على Spark 2 - www.cloudera.com/documentation/spark2/latest/topics/spark2_installing.html ). في هذه الحالة ، تحتاج إلى تنزيل ملف Spark 2 CSD (المتوفر في صفحة معلومات الإصدار والتعبئة - www.cloudera.com/documentation/spark2/latest/topics/spark2_packaging.html ) ، وتثبيته على المضيف باستخدام Cloudera Manager ، وإعادة تشغيله. دعنا نقوم بذلك - قم بتنزيل هذا الملف ، ونقله إلى المضيف المطلوب وتنفيذ الأوامر من التعليمات:


 mv SPARK2_ON_YARN-2.1.0.cloudera1.jar /opt/cloudera/csd/ chown cloudera-scm:cloudera-scm /opt/cloudera/csd/SPARK2_ON_YARN-2.1.0.cloudera1.jar chmod 644 /opt/cloudera/csd/SPARK2_ON_YARN-2.1.0.cloudera1.jar systemctl restart cloudera-scm-server 

عندما يرتفع Cloudera Manager ، سيكون كل شيء جاهزًا لتثبيت Spark 2. على الشاشة الرئيسية ، انقر فوق السهم الموجود على يمين اسم المجموعة وحدد عنصر "إضافة خدمة" في القائمة المنسدلة:




في قائمة الخدمات المتاحة للتثبيت ، حدد الخدمة التي نحتاجها:

في علامة التبويب التالية ، حدد مجموعة التبعيات للخدمة الجديدة. على سبيل المثال ، تلك التي تكون فيها القائمة أوسع:




بعد ذلك تأتي علامة التبويب مع اختيار الأدوار والمضيفين الذين سيتم تثبيتهم عليها ، على غرار الدور الذي تم أثناء تثبيت CDH. من المستحسن أن تضع دور خادم المحفوظات في نسخة واحدة على أحد العقد الرئيسية والبوابة على جميع خوادم المجموعة:




بعد تحديد الأدوار ، يُقترح التحقق من التغييرات التي تم إجراؤها على الكتلة وتأكيدها أثناء تثبيت الخدمة. هنا يمكنك ترك كل شيء افتراضيًا:




يبدأ تأكيد التغييرات في تثبيت الخدمة في الكتلة. إذا تم كل شيء بشكل صحيح ، فسيتم إكمال التثبيت بنجاح:




مبروك! تم تثبيت Spark 2 بنجاح في المجموعة:




يجب إعادة تشغيل الكتلة لإكمال عملية التثبيت. بعد ذلك ، كل شيء جاهز للذهاب.


قد تحدث أخطاء أثناء مرحلة تثبيت الخدمة. على سبيل المثال ، عند التثبيت على إحدى البيئات ، لم يكن من الممكن نشر دور Spark 2 Gateway. تمت المساعدة على حل هذه المشكلة عن طريق نسخ محتويات الملف / var / lib / Alternatives / spark2-conf من المضيف الذي تم تثبيت هذا الدور عليه بنجاح إلى ملف مشابه في الجهاز المشكل. لتشخيص أخطاء التثبيت ، من المناسب استخدام ملفات السجل الخاصة بالعمليات المقابلة ، والتي يتم تخزينها في المجلد / var / run / cloudera-scm-agent / process / folder.


هذا كل شيء لهذا اليوم. ستغطي المقالة التالية في السلسلة موضوع إدارة مجموعة CDH.

Source: https://habr.com/ru/post/ar414831/


All Articles