🛒 🙌🏿 🏝️ Gudang Data Terdistribusi dalam Konsep Danau Data: Memasang CDH 👬 🎊 ✈️

Kami terus berbagi pengalaman dalam mengatur data warehouse, yang mulai kami bicarakan di posting sebelumnya . Kali ini kami ingin berbicara tentang bagaimana kami menyelesaikan tugas instalasi CDH.

Instalasi CDH

Kami memulai server Cloudera Manager, menambahkannya ke pengisian otomatis dan memeriksa apakah telah beralih ke status aktif:

systemctl start cloudera-scm-server systemctl enable cloudera-scm-server systemctl status cloudera-scm-server

Setelah naik, kita ikuti tautan "hostname: 7180 /", login (admin / admin) dan lanjutkan instalasi dari GUI. Setelah otorisasi, instalasi akan dimulai secara otomatis dan transisi akan dilakukan ke halaman untuk menambahkan host ke cluster:

Disarankan untuk menambahkan semua host yang entah bagaimana akan terhubung dengan lingkungan yang digunakan (bahkan jika mereka tidak akan meng-host layanan Cloudera). Ini bisa berupa mesin dengan alat integrasi berkelanjutan, alat BI atau ETL, atau alat Penemuan Data. Dimasukkannya mesin ini dalam cluster akan memungkinkan Anda untuk menginstal gateway layanan cluster (Gateway) yang berisi file dengan konfigurasi dan lokasi layanan cluster, yang akan menyederhanakan integrasi dengan program pihak ketiga. Cloudera Manager juga menyediakan alat pemantauan yang nyaman dan pembuatan monitor metrik utama untuk semua mesin cluster dalam satu jendela, yang akan menyederhanakan lokalisasi masalah selama operasi. Host ditambahkan menggunakan tombol "Pencarian Baru" - transisi dibuat ke halaman untuk menambahkan mesin ke cluster, di mana ia diusulkan untuk memberikan mereka data untuk terhubung melalui SSH:

Setelah menambahkan host, kami melanjutkan ke tahap memilih metode instalasi. Karena kami mengunduh parsel, kami memilih metode "Gunakan Paket (Disarankan)", dan sekarang kami perlu menambahkan repositori kami. Kami klik pada tombol “More options”, hapus semua repositori default yang diinstal di sana dan tambahkan alamat repositori dengan CDH parsel - “hostname / parcels / cdh /”. Setelah konfirmasi, di sebelah kanan tulisan "Pilih versi CDH", versi CDH yang disajikan dalam parsel yang diunduh harus ditampilkan. Untuk metode instalasi ini, tidak ada yang dapat dikonfigurasi pada tab ini:

Tab selanjutnya akan meminta Anda untuk menginstal JDK. Karena kami sudah melakukan ini dalam persiapan untuk instalasi, kami lewati langkah ini:

Ketika Anda pergi ke tab berikutnya, pemasangan komponen kluster pada host yang ditentukan dimulai. Setelah instalasi selesai, transisi ke langkah berikutnya akan tersedia. Jika selama kesalahan instalasi ditemukan (saya mengalami situasi ini ketika menginstal lingkungan Dev lokal), Anda dapat melihat detailnya menggunakan perintah “tail -f /var/log/cloudera-scm-server/cloudera-scm-server.log” dan dengan mengklik tombol Detail di sisi kanan tabel:

Pada langkah instalasi berikutnya, Anda akan diminta untuk memilih salah satu set layanan yang disiapkan untuk instalasi. Di masa mendatang, layanan dan perannya dapat dikonfigurasikan secara manual, jadi tidak terlalu penting apa yang harus dipilih pada tab ini. Dalam kasus kami, "Core with Impala" biasanya dipasang. Juga di sini Anda dapat menunjukkan perlunya menginstal Cloudera Navigator. Jika Anda menginstal versi Perusahaan, maka Anda harus menginstal alat yang berguna ini:

Pada tab berikutnya untuk layanan dari set yang dipilih, diusulkan untuk memilih peran dan host di mana mereka akan diinstal. Di bawah ini adalah beberapa pedoman untuk menginstal peran pada host.

Peran HDFS

NameNode - ditempatkan dalam satu salinan pada salah satu Master Nodes, lebih disukai yang paling tidak dibongkar, karena sangat penting untuk operasi cluster dan memberikan kontribusi yang signifikan untuk pemanfaatan sumber daya.
SecondaryNameNode - ditempatkan dalam satu salinan pada salah satu Master Nodes, lebih disukai tidak pada node yang sama dengan NameNode (untuk memastikan toleransi kesalahan).
Balancer - ditempatkan dalam satu salinan di salah satu Master Nodes.
HttpFS - API tambahan untuk HDFS, Anda tidak dapat menginstalnya.
NFS Gateway - peran yang sangat berguna, memungkinkan Anda untuk memasang HDFS sebagai drive jaringan. Itu ditempatkan dalam satu salinan di salah satu Master Nodes.
DataNode - pakai semua Data Nodes.

Peran Sarang

Gateway - Sarang file konfigurasi. Itu diletakkan di semua host cluster.
Hive Metastore Server - server metadata, diinstal dalam satu salinan pada salah satu Master Nodes (misalnya, yang mana PostgreSQL diinstal - ia menyimpan datanya di sana).
WebHCat - tidak perlu menginstal.
HiveServer2 - diinstal dalam satu salinan pada Master Node yang sama dengan Server Hive Metastore (persyaratan untuk kerja bersama mereka).

Peran rona

Hue Server - GUI untuk HDFS, diinstal dalam satu salinan di salah satu Master Nodes.
Load Balancer - penyeimbang beban pada GUI untuk HDFS, dipasang dalam satu salinan di salah satu Master Nodes.

Peran Impala

Impala StateStore - ditempatkan dalam satu salinan di salah satu Master Nodes.
Server Katalog Impala - dimasukkan ke dalam satu salinan di salah satu Master Nodes.
Impala Daemon - pakai semua Data Nodes (Anda dapat meninggalkan nilai default).

Peran Layanan Manajer Cloudera

Monitor Layanan, Monitor Aktivitas, Monitor Host, Manajer Laporan, Server Acara, Penerbit Peringatan dipasang dalam satu salinan di salah satu Master Nodes.

Peran Oozie

Oozie Server - dimasukkan ke dalam satu salinan di salah satu Master Nodes.

Benang Peran

ResourceManager - dimasukkan ke dalam satu salinan di salah satu Master Nodes.
JobHistory Server - diinstal dalam satu salinan di salah satu Master Nodes.
NodeManager - pakai semua Data Node (Anda dapat meninggalkan nilai default).

Peran ZooKeeper

ZooKeeper Server - untuk memastikan toleransi kesalahan, ia dipasang rangkap tiga pada Master Nodes.

Peran Cloudera Navigator

Navigator Audit Server - diinstal dalam satu salinan di salah satu Master Nodes.
Navigator Metadata Server - dimasukkan ke dalam satu salinan di salah satu Master Nodes.

Setelah pembagian peran, ada tab dengan daftar pendek pengaturan untuk layanan yang diinstal. Perubahan mereka akan tersedia setelah instalasi dan pada tahap ini mereka dapat dibiarkan tidak berubah:

Mengikuti pengaturan layanan, ada konfigurasi database untuk layanan yang membutuhkannya. Kami memasukkan nama lengkap host tempat PostgreSQL diinstal, dalam kotak daftar "Tipe Basis Data", pilih item yang sesuai dan di bidang yang tersisa tentukan data untuk menghubungkan ke database yang sesuai. Setelah semua data dimasukkan, klik tombol "Uji Koneksi" dan periksa apakah databasenya tersedia. Jika demikian, maka di sisi kanan tabel di sebelah masing-masing database, tulisan "Berhasil" akan muncul:

Semuanya siap untuk penyebaran layanan. Buka tab berikutnya dan amati proses ini. Jika kami melakukan semuanya dengan benar, maka semua langkah akan selesai dengan sukses. Jika tidak, proses akan terganggu di salah satu langkah dan log kesalahan akan tersedia dengan menekan panah:

Selamat - CDH sudah aktif!

Anda dapat melanjutkan dengan instalasi parsel tambahan.

Pengaturan parsel tambahan

Dalam kasus di mana set dasar layanan CHD tidak cukup atau jika versi yang lebih baru diperlukan, Anda dapat menginstal parsel tambahan yang memperluas daftar layanan yang tersedia yang dapat digunakan dalam cluster. Selama proyek kami, kami membutuhkan layanan Spark versi 2.2 untuk meluncurkan tugas yang dikembangkan dan berfungsinya alat Penemuan Data. Ini bukan bagian dari CDH, jadi instal secara terpisah. Untuk melakukan ini, klik tombol “Hosts” dan pilih item daftar drop-down “Parsels”:

Tab dengan parsel terbuka, menampilkan daftar cluster yang dikelola oleh Cloudera Manager ini dan parsel yang diinstal pada mereka. Untuk menambahkan parsel dengan Spark 2.2, pilih cluster yang diinginkan dan klik tombol "Konfigurasi" di sudut kanan atas.

Kami klik pada tombol "+", pada baris yang muncul kami menunjukkan alamat repositori dengan parsel Spark 2.2 ("hostname / parcels / spark /") dan klik pada tombol "Simpan Perubahan":

Setelah manipulasi ini, yang baru dengan nama SPARK2 akan muncul di daftar parsel pada tab sebelumnya. Awalnya, ini muncul sebagai tersedia untuk diunduh, jadi langkah selanjutnya adalah mengunduhnya dengan mengklik tombol "Unduh":

Parsel yang diunduh harus tersebar di node cluster sehingga layanan dapat diinstal darinya. Untuk melakukan ini, klik tombol “Distribute” yang muncul di sisi kanan baris dengan parsel SPARK2:

Langkah terakhir dalam bekerja dengan paket adalah mengaktifkannya. Kami mengaktifkannya dengan mengklik tombol "Activate", yang muncul di sisi kanan baris dengan parsel:

Setelah konfirmasi, layanan yang kami butuhkan tersedia untuk instalasi. Namun ada nuansa. Untuk menginstal beberapa layanan di cluster, Anda perlu melakukan tindakan tambahan selain menginstal parsel. Biasanya ini ditulis di situs web resmi di bagian tentang menginstal dan memperbarui layanan ini (di sini adalah contohnya untuk Spark 2 - www.cloudera.com/documentation/spark2/latest/topics/spark2_installing.html ). Dalam hal ini, Anda perlu mengunduh file CSD Spark 2 (tersedia di halaman Versi dan Informasi Pengemasan - www.cloudera.com/documentation/spark2/latest/topics/spark2_packaging.html ), instal di host dengan Cloudera Manager, dan mulai kembali yang terakhir. Mari kita lakukan - unduh file ini, transfer ke host yang diinginkan dan jalankan perintah dari instruksi:

 mv SPARK2_ON_YARN-2.1.0.cloudera1.jar /opt/cloudera/csd/ chown cloudera-scm:cloudera-scm /opt/cloudera/csd/SPARK2_ON_YARN-2.1.0.cloudera1.jar chmod 644 /opt/cloudera/csd/SPARK2_ON_YARN-2.1.0.cloudera1.jar systemctl restart cloudera-scm-server

Ketika Cloudera Manager naik, semuanya akan siap untuk menginstal Spark 2. Di layar utama, klik panah di sebelah kanan nama kluster dan pilih item "Tambahkan Layanan" di menu drop-down:

Dalam daftar layanan yang tersedia untuk instalasi, pilih yang kami butuhkan:

Pada tab berikutnya, pilih set dependensi untuk layanan baru. Misalnya, yang daftarnya lebih luas:

Selanjutnya muncul tab dengan pilihan peran dan host di mana mereka akan diinstal, mirip dengan yang selama instalasi CDH. Disarankan agar Anda menempatkan peran Server Sejarah dalam satu salinan di salah satu Master Nodes, dan Gateway di semua server cluster:

Setelah memilih peran, diusulkan untuk memeriksa dan mengonfirmasi perubahan yang dilakukan pada klaster selama instalasi layanan. Di sini Anda dapat membiarkan semuanya secara default:

Konfirmasi perubahan memulai pemasangan layanan di cluster. Jika semuanya dilakukan dengan benar, instalasi akan selesai dengan sukses:

Selamat! Spark 2 telah berhasil diinstal di cluster:

Anda harus memulai kembali kluster untuk menyelesaikan proses instalasi. Setelah itu, semuanya siap.

Kesalahan dapat terjadi selama tahap pemasangan layanan. Misalnya, ketika menginstal di salah satu lingkungan, tidak mungkin untuk menggunakan peran Gateway Spark 2. Solusi untuk masalah ini dibantu dengan menyalin konten file / var / lib / alternative / spark2-conf dari host di mana peran ini berhasil diinstal ke file serupa di mesin masalah. Untuk mendiagnosis kesalahan instalasi, lebih mudah menggunakan file log dari proses terkait, yang disimpan di folder / var / run / cloudera-scm-agent / proses /.

Itu saja untuk hari ini. Posting selanjutnya dalam seri ini akan membahas topik administrasi cluster CDH.

Gudang Data Terdistribusi dalam Konsep Danau Data: Memasang CDH