🤵🏿 🦇 👩‍🚒 مستودع البيانات الموزعة في مفهوم بحيرة البيانات: من أين نبدأ 📸 🚵 🈷️

في عالم الشركات ، كان هناك تشبع مع أنظمة الواجهة الأمامية وحافلات البيانات والأنظمة الكلاسيكية الأخرى التي تم تنفيذها من قبل الجميع على مدى السنوات 10-15 الماضية. ولكن هناك شريحة واحدة كانت حتى وقت قريب في وضع "يريدها الجميع ، ولكن لا أحد يعرف ما هو". وهذه بيانات كبيرة. يبدو جميلًا ، يتم الترويج له من قبل الشركات الغربية الكبرى - كيف لا تصبح متعجرفًا؟

ولكن في حين أن معظمهم يشاهدون ويسألون فقط ، فقد بدأت بعض الشركات في تنفيذ حلول تستند إلى هذه التقنية في مجال تكنولوجيا المعلومات. لعب دور مهم في ذلك من خلال ظهور توزيعات Apache Hadoop التجارية ، التي يقدم مطوروها الدعم الفني لعملائهم. واستشعارًا بالحاجة إلى مثل هذا الحل ، قرر أحد عملائنا تنظيم مستودع بيانات موزع في مفهوم Data Lake استنادًا إلى Apache Hadoop.

أهداف المشروع

أولاً ، تحسين عمل قسم إدارة المخاطر. قبل بدء العمل ، كان قسم كامل يعمل في حساب عوامل مخاطر الائتمان (FCR) ، ويتم إجراء جميع الحسابات يدويًا. استغرق إعادة الحساب حوالي شهر في كل مرة ، وكان للبيانات التي استندت إليها الوقت لتصبح قديمة. لذلك ، تضمنت مهام الحل التحميل اليومي لدلتا البيانات في المستودع ، وإعادة حساب FCD وبناء بيانات البيانات في أداة BI (كانت وظيفة SpagoBI كافية لهذه المهمة) لتصورها.

ثانيًا ، توفير أدوات تعدين بيانات عالية الأداء لموظفي البنوك المعنيين بعلوم البيانات. يمكن تثبيت هذه الأدوات ، مثل Jupyter و Apache Zeppelin ، محليًا ويمكن استخدامها أيضًا لاستكشاف البيانات وبناء النماذج. لكن تكاملها مع مجموعة Cloudera يسمح باستخدام موارد الأجهزة من أكثر عُقد النظام إنتاجية للحسابات ، مما يسرع مهام تحليل البيانات بعشرات أو حتى مئات المرات.

تم اختيار حامل Oracle Big Data Appliance كحل للأجهزة المستهدفة ، لذلك تم أخذ توزيع Clachede لـ Apache Hadoop كأساس. كان الحامل مسافرًا لبعض الوقت ، ولتسريع العملية ، تم تخصيص خوادم في السحابة الخاصة للعميل لهذا المشروع. الحل معقول ، ولكن كان هناك عدد من المشاكل التي سأناقشها أدناه.

تم التخطيط للمهام التالية داخل المشروع:

نشر CDH من Cloudera (توزيع Cloudera بما في ذلك Apache Hadoop) والخدمات الإضافية اللازمة للعمل.
تكوين البرامج المثبتة.
قم بإعداد التكامل المستمر لتسريع عملية التطوير (سيتم تناوله في مقالة منفصلة).
تثبيت أدوات BI لبناء التقارير وأدوات اكتشاف البيانات لضمان عمل مركز البيانات (ستتم تغطيته في منشور منفصل).
تطوير تطبيقات لتنزيل البيانات اللازمة من الأنظمة النهائية ، وكذلك تحديثها المنتظم.
تطوير نماذج التقارير لتصور البيانات في أداة BI.

إنها ليست السنة الأولى التي تقوم فيها Neoflex بتطوير وتنفيذ الأنظمة المستندة إلى Apache Hadoop وحتى لديها منتجها الخاص للتطوير البصري لعمليات ETL - Neoflex Datagram. لفترة طويلة كنت أرغب في المشاركة في أحد مشاريع هذا الفصل وكنت سعيدًا بإدارة هذا النظام. اتضح أن التجربة قيّمة للغاية ومحفزة لمواصلة دراسة الموضوع ، لذلك أسارع إلى مشاركتها معك. آمل أن تكون مثيرة للاهتمام.

الموارد

قبل بدء التثبيت ، يوصى بإعداد كل ما تحتاج إليه.
يعتمد مقدار وقوة الحديد بشكل مباشر على عدد الوسائط والوسائط التي سيتم نشرها. لأغراض التطوير ، يمكنك تثبيت جميع المكونات على جهاز افتراضي ضعيف واحد على الأقل ، ولكن هذا النهج غير مرحب به.

في المرحلة التجريبية للمشروع والتطوير النشط ، عندما كان عدد مستخدمي النظام ضئيلاً ، كانت بيئة رئيسية واحدة فقط كافية - وهذا سمح بالتسارع عن طريق تقليل وقت تحميل البيانات من الأنظمة النهائية (الإجراء الأكثر شيوعًا وطويلًا لتطوير مستودعات البيانات). الآن بعد أن استقر النظام ، وصلنا إلى تكوين بثلاث بيئات - الاختبار ، والتجهيز المسبق ، والإنتاج (الرئيسي).

في سحابة خاصة ، تم تخصيص خوادم لتنظيم بيئتين - البيئة الرئيسية والاختبارية. يتم عرض مواصفات الوسائط في الجدول أدناه:

التعيين	الكمية	vCPU	vRAM ، غيغابايت	أقراص ، غيغابايت
البيئة الرئيسية والخدمات Cloudera	3	8	64	2،200
البيئة الأولية ، HDFS	3	22	288	5000
البيئة الأساسية وأدوات اكتشاف البيانات	1	16	128	2200
بيئة الاختبار ، خدمات Cloudera	1	8	64	2200
بيئة الاختبار ، HDFS	2	22	256	4000
البيئة الأساسية وأدوات اكتشاف البيانات	1	16	128	2200
Ci	2	6	48	1000

في وقت لاحق ، تم ترحيل البيئة الرئيسية إلى Oracle BDA ، واستخدمت الخوادم لتنظيم بيئة إعداد مسبق.

كان قرار الترحيل مبررًا - كانت الموارد المخصصة لخوادم HDFS غير كافية بشكل موضوعي. كانت الاختناقات عبارة عن أقراص صغيرة (ما هو 5 تيرا بايت للبيانات الضخمة؟) ومعالجات قوية بشكل غير كافٍ ، والتي تم تحميلها بشكل ثابت بنسبة 95٪ أثناء العمل المنتظم لمهام تحميل البيانات. مع الخوادم الأخرى ، فإن الوضع هو العكس - في جميع الأوقات تقريبًا خاملاً ويمكن استخدام مواردها لتحقيق فائدة كبيرة في المشاريع الأخرى.

مع البرامج ، لم تكن الأمور سهلة - نظرًا لحقيقة أن التطوير تم في سحابة خاصة دون الوصول إلى الإنترنت ، كان يجب نقل جميع الملفات من خلال خدمة الأمان وفقط بالاتفاق. في هذا الصدد ، كان عليّ تحميل جميع التوزيعات والحزم والتبعيات الضرورية مسبقًا.

ساعد إعداد keepcache = 1 في ملف /etc/yum.conf (تم استخدام RHEL 7.3 كنظام تشغيل) كثيرًا في هذه المهمة الصعبة - تثبيت البرنامج الضروري على جهاز مزود بوصول إلى الشبكة أسهل بكثير من تنزيله يدويًا من المستودعات جنبًا إلى جنب مع التبعيات ؛)

ما تحتاج لنشره:

Oracle JDK (لا يوجد Java في أي مكان).
قاعدة بيانات لتخزين المعلومات التي تم إنشاؤها واستخدامها بواسطة خدمات CDH (على سبيل المثال ، Hive Metastore). في حالتنا ، تم تثبيت إصدار PostgreSQL الإصدار 9.2.18 ، ولكن يمكن استخدام أي من خدمات Cloudera المدعومة (تختلف القائمة لإصدارات مختلفة من التوزيع ، راجع قسم المتطلبات والإصدارات المدعومة من الموقع الرسمي). هنا تجدر الإشارة إلى أن اختيار قاعدة البيانات لم يكن ناجحًا تمامًا - يأتي Oracle BDA مع قاعدة بيانات MySQL (أحد منتجاتها ، والتي ذهبت إليها مع شراء Sun) وسيكون من المنطقي أكثر استخدام قاعدة بيانات مماثلة لبيئات أخرى ، مما يبسط عملية الترحيل. يوصى باختيار توزيع بناءً على حل الأجهزة الهدف.
برنامج Chrony لمزامنة الوقت على الخوادم.
Cloudera Manager Server.
مدير الشياطين Cloudera.

التحضير للتثبيت

قبل البدء في تركيب CDH ، يجب القيام بعدد من الأعمال التحضيرية. جزء واحد مفيد أثناء التثبيت ، والآخر سوف يبسط العملية.

تثبيت وإعداد نظام التشغيل

بادئ ذي بدء ، يجدر إعداد الأجهزة الافتراضية (والحقيقية) التي ستستضيف النظام: تثبيت الإصدار المدعوم على كل منها (تختلف القائمة لإصدارات مختلفة من التوزيع ، راجع قسم "المتطلبات والإصدارات المدعومة" من الموقع الرسمي) ، قم بتعيين أسماء المضيف هي أسماء مفهومة (على سبيل المثال ، <system_name> master1،2،3 ... ، <system_name> slave1،2،3 ...) ، بالإضافة إلى علامات الأقراص لتخزين الملفات والملفات المؤقتة التي تم إنشاؤها أثناء تشغيل النظام.

توصيات الترميز هي كما يلي:

على الخوادم المزودة بـ HDFS ، قم بإنشاء وحدة تخزين لا تقل عن 500 جيجابايت للملفات التي ينشئها YARN أثناء العمل ووضعه في دليل / yarn (حيث يجب تحميل هذا المجلد بعد تثبيت CDH). يجب تخصيص حجم صغير (حوالي 100 جيجابايت) لنظام التشغيل وخدمات Cloudera والسجلات وغيرها من المرافق. يجب دمج جميع المساحة الخالية التي ستبقى بعد هذه التلاعبات في حجم واحد كبير وتثبيتها في دليل / dfs قبل تحميل البيانات في التخزين. يخزن HDFS البيانات في شكل كتل صغيرة نوعًا ما ومن الأفضل عدم الانخراط في نقلها مرة أخرى. أيضًا ، من أجل راحة إضافة الأقراص لاحقًا ، يوصى باستخدام LVM - سيكون من الأسهل توسيع التخزين (خاصة عندما تصبح كبيرة حقًا).
على الخوادم التي تحتوي على خدمات Cloudera ، يمكنك تحميل كل المساحة المتاحة في الدليل الجذر - لن تكون هناك مشاكل في الكميات الكبيرة من الملفات ، خاصة إذا قمت بتنظيف السجلات بانتظام. الاستثناء الوحيد هو الخادم بقاعدة البيانات ، التي تستخدمها خدمات Cloudera لاحتياجاتها - على هذا الخادم ، من المنطقي وضع علامة على وحدة تخزين منفصلة تحت الدليل الذي يتم فيه تخزين ملفات قاعدة البيانات هذه (ستعتمد على التوزيع المحدد). تكتب الخدمات بشكل معتدل إلى حد ما ويجب أن تكون 500 جيجابايت أكثر من كافية. للأمان ، يمكنك أيضًا استخدام LVM.

إعداد خادم http والتثبيت دون اتصال لحزم yum و CDH

نظرًا لأن البرنامج مثبت دون الوصول إلى الإنترنت ، لتبسيط تثبيت الحزم ، يوصى برفع خادم HTTP واستخدامه لإنشاء مستودع محلي يمكن الوصول إليه عبر الشبكة. يمكنك تثبيت جميع البرامج محليًا باستخدام ، على سبيل المثال ، دورة في الدقيقة ، ولكن مع وجود عدد كبير من الخوادم وظهور العديد من البيئات ، من السهل أن يكون لديك مستودع واحد يمكنك من خلاله تثبيت الحزم دون الحاجة إلى نقلها يدويًا من جهاز إلى جهاز.

تم إجراء التثبيت على نظام التشغيل Red Hat 7.3 ، وبالتالي ، ستحتوي المقالة على أوامر خاصة به وأنظمة تشغيل أخرى تستند إلى CentOS. عند التثبيت على أنظمة تشغيل أخرى ، سيكون التسلسل مشابهًا ، وسيختلف فقط مديرو الحزم.
حتى لا نكتب sudo في كل مكان ، نفترض أن التثبيت من الجذر.

إليك ما عليك القيام به:
1. يتم تحديد الجهاز الذي سيتم وضع خادم HTTP والتوزيعات عليه.
2. على جهاز يعمل بنظام تشغيل مشابه ، ولكنه متصل بالإنترنت ، قم بتعيين إشارة keepcache = 1 في الملف /etc/yum.conf ويتم تثبيت httpd مع كل التبعيات:

yum install httpd

إذا لم ينجح هذا الأمر ، فأنت بحاجة إلى إضافة مستودع إلى قائمة مستودعات yum يحتوي على هذه الحزم ، على سبيل المثال ، هذا هو centos.excellmedia.net/7/os/x86_64 :

 echo -e "\n[centos.excellmedia.net]\nname=excellmedia\nbaseurl=http://centos.excellmedia.net/7/os/x86_64/\nenabled=1\ngpgcheck=0" > /etc/yum.repos.d/excell.repo

بعد ذلك ، باستخدام الأمر yum repolist ، نتحقق من تشديد المستودع - يجب أن يظهر مستودع إضافي في قائمة المستودعات (repo id - centos.excellmedia.net ؛ اسم الريبو - اكسيلميديا).
تحقق الآن من أن yum شاهدت الحزم التي نحتاجها:

 yum list | grep httpd

إذا كان الإخراج يحتوي على الحزم اللازمة ، فيمكنك تثبيتها باستخدام الأمر أعلاه.

3. لإنشاء مستودع yum ، نحتاج إلى حزمة carterepo. يوجد أيضًا في المستودع أعلاه ويتم تعيينه بالمثل:

 yum install createrepo

4. كما قلت من قبل ، تتطلب خدمات CDH قاعدة بيانات للعمل. قم بتثبيت PostgreSQL لهذه الأغراض:

 yum install postgresql-server

5. أحد الشروط الأساسية للتشغيل الصحيح لـ CDH هو مزامنة الوقت على جميع الخوادم المدرجة في المجموعة. لهذه الأغراض ، يتم استخدام حزمة chronyd (على أنظمة التشغيل هذه حيث كان علي نشر CDH ، تم تثبيتها بشكل افتراضي). تحقق من توفره:

 chronyd -v

إذا لم يكن مثبتًا ، فقم بتثبيت:

 yum install chrony

إذا تم التثبيت ، فما عليك سوى تنزيل:

 yumdownloader --destdir=/var/cache/yum/x86_64/7Server/<repo id>/packages chrony

6. في الوقت نفسه ، قم بتنزيل الحزم اللازمة لتثبيت CDH على الفور. وهي متوفرة على archive.cloudera.com - archive.cloudera.com/cm <إصدار رئيسي من CDH> / <اسم نظام التشغيل الخاص بك> / <إصدار نظام التشغيل الخاص بك> / x86_64 / سم / <النسخة الكاملة من CDH> / RPMS / x86_64 /. يمكنك تنزيل الحزم يدويًا (cloudera-manager-server و cloudera-manager-daemons) ، أو إضافة مستودع عن طريق القياس وتثبيتها:

 yum install cloudera-manager-daemons cloudera-manager-server

7. بعد التثبيت ، يتم تخزين الحزم وتوابعها مؤقتًا في المجلد / var / cache / yum / x86_64 / 7Server / \ <repo id \> / package. نقوم بنقلها إلى الجهاز المحدد لخادم HTTP والتوزيعات ، وتثبيت:

 rpm -ivh < >

8. قم بتشغيل httpd ، واجعله مرئيًا من مضيفين آخرين في مجموعتنا ، وأضفه أيضًا إلى قائمة الخدمات التي تبدأ تلقائيًا بعد التحميل:

 systemctl start httpd systemctl enable httpd systemctl stop firewalld #       systemctl disable firewalld #       setenforce 0

9. لدينا الآن خادم HTTP يعمل. دليل عملها هو / var / www / html . قم بإنشاء مجلدين فيه - أحدهما لمستودع yum ، والآخر لمحللي Cloudera (المزيد عن ذلك لاحقًا):

 cd /var/www/html mkdir yum_repo parcels

10. لخدمات Cloudera نحتاج جافا . تتطلب جميع الأجهزة تثبيت الإصدار نفسه من JDK ؛ توصي Cloudera ببرنامج Oracle's Hot Spot. قم بتنزيل مجموعة التوزيع من الموقع الرسمي (http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html) وقم بنقلها إلى مجلد yum_repo .

11. قم بإنشاء مستودع yum في مجلد yum_repo باستخدام الأداة المساعدة carterepo بحيث تكون حزمة JDK متاحة للتثبيت من أجهزة المجموعة:

 createrepo -v /var/www/html/yum_repo/

12. بعد إنشاء مستودعنا المحلي على كل من المضيفين ، تحتاج إلى إضافة وصفه ، على غرار الفقرة 2:

 echo -e "\n[yum.local.repo]\nname=yum_repo\nbaseurl=http://<   httpd>/yum_repo/\nenabled=1\ngpgcheck=0" > /etc/yum.repos.d/yum_repo.repo

يمكنك أيضًا إجراء فحوصات مماثلة للفقرة 2.

13. JDK متاح ، قم بتثبيت:

 yum install jdk1.8.0_161.x86_64

لاستخدام Java ، تحتاج إلى تعيين متغير JAVA_HOME. أوصي بتصديرها فورًا بعد التثبيت ، وكذلك كتابتها إلى ملفات / etc / environment و / etc / default / bigtop-utils بحيث يتم تصديرها تلقائيًا بعد إعادة تشغيل الخوادم ويتم توفير موقعها لخدمات CDH:

 export JAVA_HOME=/usr/java/jdk1.8.0_161 echo "JAVA_HOME=/usr/java/jdk1.8.0_161" >> /etc/environment export JAVA_HOME=/usr/java/jdk1.8.0_144 >> /etc/default/bigtop-utils

14. بنفس الطريقة ، قم بتثبيت chronyd على جميع الأجهزة في المجموعة (إلا إذا كانت غائبة بالطبع):

 yum install chrony

15. حدد المضيف الذي ستعمل عليه PostgreSQL وقم بتثبيته:

 yum install postgresql-server

16. وبالمثل ، حدد المضيف الذي سيتم تشغيل Cloudera Manager عليه ، وقم بتثبيته:

 yum install cloudera-manager-daemons cloudera-manager-server

17. يتم تثبيت الحزم ، يمكنك البدء في تكوين البرنامج قبل التثبيت.

إضافة:

أثناء تطوير النظام وتشغيله ، ستحتاج إلى إضافة حزم إلى مستودع yum لتثبيتها على مضيفي الكتلة (على سبيل المثال ، توزيع Anaconda). للقيام بذلك ، بالإضافة إلى نقل الملفات إلى مجلد yum_repo ، تحتاج إلى تنفيذ الإجراءات التالية:

على الجهاز باستخدام httpd ، قم بتشغيل الأمر yum repository update:
```
 createrepo -v --update /var/www/html/yum_repo/ 
```
على جميع الأجهزة التي تريد تثبيت الحزم فيها ، قم بإجراء مسح لذاكرة التخزين المؤقت yum:
```
 yum clean all 
```
```
 rm -rf /var/cache/yum 
```

تكوين البرامج المساعدة

حان الوقت لتكوين PostgreSQL وإنشاء قواعد بيانات لخدماتنا المستقبلية. هذه الإعدادات ذات صلة بالإصدار 5.12.1 من CDH ، عند تثبيت إصدارات أخرى من التوزيع ، يوصى بقراءة قسم "Cloudera Manager و Managed Service Datastores" على الموقع الرسمي.

للبدء ، دعنا نهيئ قاعدة البيانات:

 postgresql-setup initdb

الآن قمنا بإعداد تفاعل الشبكة مع قاعدة البيانات. في ملف /var/lib/pgsql/data/pg_hba.conf في قسم الاتصالات المحلية IPv4 ، قم بتغيير طريقة العنوان 127.0.0.1/32 إلى طريقة md5 ، وأضف طريقة الثقة وأضف الشبكة الفرعية للكتلة مع طريقة الثقة :

 vi /var/lib/pgsql/data/pg_hba.conf pg_hba.conf: ----------------------------------------------------------------------- # TYPE DATABASE USER ADDRESS METHOD # "local" is for Unix domain socket connections only local all all peer # IPv4 local connections: host all all 127.0.0.1/32 md5 host all all 127.0.0.1/32 trust host all all <cluster_subnet> trust -----------------------------------------------------------------------

ثم سنقوم ببعض التعديلات على الملف /var/lib/pgsql/data/postgres.conf (سأعطي فقط الأسطر التي تحتاج إلى تغيير أو التحقق من الامتثال:

 vi /var/lib/pgsql/data/postgres.conf postgres.conf: ----------------------------------------------------------------------- listen_addresses = '*' max_connections = 100 shared_buffers = 256MB checkpoint_segments = 16 checkpoint_completion_target = 0.9 logging_collector = on log_filename = 'postgresql-%a.log' log_truncate_on_rotation = on log_rotation_age = 1d log_rotation_size = 0 log_timezone = 'W-SU' datestyle = 'iso, mdy' timezone = 'W-SU' lc_messages = 'en_US.UTF-8' lc_monetary = 'en_US.UTF-8' lc_numeric = 'en_US.UTF-8' lc_time = 'en_US.UTF-8' default_text_search_config = 'pg_catalog.english' -----------------------------------------------------------------------

بعد اكتمال التكوين ، تحتاج إلى إنشاء قواعد بيانات (لأولئك الأقرب إلى مصطلحات أو مخططات أوراكل) للخدمات التي سنقوم بتثبيتها. في حالتنا ، تم تثبيت الخدمات التالية: Cloudera Management Service و HDFS و Hive و Hue و Impala و Oozie و Yarn و ZooKeeper. من بين هؤلاء ، يحتاج Hive و Hue و Oozie إلى قواعد بيانات ، وهناك حاجة إلى قاعدتين لتلبية احتياجات خدمات Cloudera - واحدة لخادم Cloudera Manager ، والأخرى لمدير التقارير ، وهو جزء من خدمة Cloudera Management Service. شغّل PostgreSQL وأضفه إلى التحميل التلقائي:

 systemctl start postgresql systemctl enable postgresql

الآن يمكننا الاتصال وإنشاء قواعد البيانات اللازمة:

 sudo -u postgres psql > CREATE ROLE scm LOGIN PASSWORD '<password>'; > CREATE DATABASE scm OWNER scm ENCODING 'UTF8'; #    Cloudera Manager > CREATE ROLE rman LOGIN PASSWORD '<password>'; > CREATE DATABASE rman OWNER rman ENCODING 'UTF8'; #      > CREATE ROLE hive LOGIN PASSWORD '<password>'; > CREATE DATABASE metastore OWNER hive ENCODING 'UTF8'; #    Hive Metastore > ALTER DATABASE metastore SET standard_conforming_strings = off; #   PostgreSQL   8.2.23 > CREATE ROLE hue_u LOGIN PASSWORD '<password>'; > CREATE DATABASE hue_d OWNER hue_u ENCODING 'UTF8'; #    Hue > CREATE ROLE oozie LOGIN ENCRYPTED PASSWORD '<password>' NOSUPERUSER INHERIT CREATEDB NOCREATEROLE; > CREATE DATABASE "oozie" WITH OWNER = oozie ENCODING = 'UTF8' TABLESPACE = pg_default LC_COLLATE = 'en_US.UTF-8' LC_CTYPE = 'en_US.UTF-8' CONNECTION LIMIT = -1; #    Oozie    : > \q

بالنسبة للخدمات الأخرى ، يتم إنشاء قواعد البيانات بنفس الطريقة.

لا تنس تشغيل النص البرمجي لإعداد قاعدة بيانات خادم Cloudera Manager ، وتمريرها بيانات الإدخال للاتصال بقاعدة البيانات التي تم إنشاؤها لها:

 . /usr/share/cmf/schema/scm_prepare_database.sh postgresql scm scm <password>

إنشاء مستودع بملفات CDH

يوفر Cloudera طريقتين لتثبيت CDH - باستخدام الحزم واستخدام الطرود. يتضمن الخيار الأول تنزيل مجموعة من الحزم مع خدمات الإصدارات المطلوبة وتثبيتها لاحقًا. توفر هذه الطريقة مرونة كبيرة في تكوين الكتلة ، لكن Cloudera لا تضمن توافقها. لذلك ، فإن الإصدار الثاني من التثبيت باستخدام البارسيلز أكثر شيوعًا - مجموعات مكونة مسبقًا من حزم الإصدارات المتوافقة. أحدث الإصدارات متاحة على الرابط التالي: archive.cloudera.com/cdh5/parcels/latest . في وقت سابق يمكن العثور على مستوى أعلى. بالإضافة إلى البارسيل من CDH ، تحتاج إلى تنزيل manifest.json من نفس دليل المستودع.

لاستخدام الوظيفة المطورة ، احتجنا أيضًا إلى Spark 2.2 ، والذي لم يتم تضمينه في طرد CDH (يتوفر الإصدار الأول من هذه الخدمة هناك). لتثبيته ، تحتاج إلى تنزيل طرد منفصل مع هذه الخدمة والبيان المقابل . json ، المتوفر أيضًا في أرشيف Cloudera .

بعد تحميل البارسيل والبيان ، يجب عليك نقلها إلى المجلدات المناسبة في مستودعنا. إنشاء مجلدات منفصلة لملفات CDH و Spark:

 cd /var/www/html/parcels mkdir cdh spark

انقل ملفات parsels و manifest.json إلى المجلدات التي تم إنشاؤها. لإتاحتها للتثبيت عبر الشبكة ، نصدر مجلد أذونات الوصول المقابل مع البارسيل:

 chmod -R ugo+rX /var/www/html/parcels

يمكنك البدء في تثبيت CDH ، الذي سأناقشه في المنشور التالي.

مستودع البيانات الموزعة في مفهوم بحيرة البيانات: من أين نبدأ