Masa depan telah tiba, kecerdasan buatan dan teknologi pembelajaran mesin sudah berhasil digunakan oleh toko-toko favorit Anda, perusahaan transportasi dan bahkan peternakan yang menumbuhkan kalkun.

Dan jika ada sesuatu, maka di Internet tentang hal itu sudah ada ... proyek terbuka! Lihat bagaimana Open Data Hub membantu meningkatkan teknologi baru dan menghindari kesulitan dalam mengimplementasikannya.
Dengan semua manfaat kecerdasan buatan (AI) dan pembelajaran mesin (ML), organisasi sering mengalami kesulitan meningkatkan teknologi ini. Masalah utama dengan ini, sebagai suatu peraturan, adalah sebagai berikut:
- Pertukaran informasi dan kerja sama - hampir mustahil untuk bertukar informasi tanpa upaya yang tidak perlu dan bekerja sama dalam mode iterasi cepat.
- Akses ke data - untuk setiap tugas perlu dibangun kembali dan secara manual, yang memakan waktu.
- Akses atas permintaan - tidak ada cara untuk mendapatkan akses atas permintaan ke alat dan platform pembelajaran mesin, serta infrastruktur komputasi.
- Produksi - model tetap pada tahap prototipe dan tidak dibawa ke eksploitasi industri.
- Melacak dan menjelaskan hasil AI - reproduksibilitas, pelacakan, dan menjelaskan hasil AI / ML sulit.
Dibiarkan tidak terselesaikan, masalah-masalah ini mempengaruhi kecepatan, efisiensi dan produktivitas spesialis pengolahan dan analisis data yang berharga. Hal ini menyebabkan frustrasi, kekecewaan mereka dalam pekerjaan, dan sebagai hasilnya, harapan bisnis tentang AI / ML menjadi sia-sia.
Tanggung jawab untuk menyelesaikan masalah ini terletak pada profesional TI yang perlu menyediakan analis data - benar, seperti cloud. Jika lebih berkembang, maka kita membutuhkan platform yang memberikan kebebasan memilih dan memiliki akses yang nyaman dan mudah. Pada saat yang sama, ia cepat, mudah dikonfigurasi ulang, dapat disesuaikan sesuai permintaan dan tahan terhadap kegagalan. Membangun platform semacam itu berdasarkan teknologi open source membantu untuk tidak menjadi tergantung pada vendor dan mempertahankan keunggulan strategis jangka panjang dalam hal pengendalian biaya.
Beberapa tahun yang lalu, sesuatu yang serupa terjadi dalam pengembangan aplikasi dan menyebabkan munculnya layanan-layanan microser, lingkungan cloud hybrid, otomatisasi IT dan proses-proses yang gesit. Untuk mengatasi semua ini, para profesional TI mulai menggunakan wadah, Kubernetes, dan cloud hybrid terbuka.
Sekarang pengalaman ini diterapkan untuk menjawab tantangan Al. Oleh karena itu, profesional TI membuat platform yang didasarkan pada wadah, memungkinkan Anda untuk membuat layanan AI / ML sebagai bagian dari proses lincah, mempercepat inovasi dan dibangun dengan mata pada cloud hybrid.
Kami akan mulai membangun platform seperti itu dengan Red Hat OpenShift, platform Kubernetes kontainer kami untuk cloud hybrid yang memiliki ekosistem solusi perangkat lunak dan perangkat keras ML yang berkembang cepat (NVIDIA, H2O.ai, Starburst, PerceptiLabs, dll.). Beberapa pelanggan Red Hat, seperti BMW Group, ExxonMobil, dan lain-lain, telah mengerahkan rantai alat-alat ML dan proses DevOps kemas berdasarkan platform ini dan ekosistemnya untuk membawa arsitektur ML-nya ke operasi komersial dan mempercepat pekerjaan analis data.
Alasan lain mengapa kami meluncurkan proyek Open Data Hub adalah untuk mendemonstrasikan arsitektur contoh berdasarkan beberapa proyek sumber terbuka dan menunjukkan bagaimana menerapkan seluruh siklus hidup solusi ML berdasarkan pada platform OpenShift.
Buka Proyek Hub Data
Ini adalah proyek sumber terbuka yang berkembang dalam kerangka komunitas pengembangan yang sesuai dan menerapkan siklus operasi penuh - mulai dari memuat dan mengonversi data awal hingga pembentukan, pelatihan, dan pemeliharaan model - saat menyelesaikan tugas AI / ML menggunakan wadah dan Kubernet pada platform OpenShift. Proyek ini dapat dianggap sebagai implementasi referensi, contoh bagaimana membangun AI / ML terbuka sebagai solusi Layanan berdasarkan OpenShift dan alat sumber terbuka terkait seperti Tensorflow, JupyterHub, Spark dan lainnya. Penting untuk dicatat bahwa Red Hat sendiri menggunakan proyek ini untuk menyediakan layanan AI / ML-nya. Selain itu, OpenShift terintegrasi dengan perangkat lunak utama dan solusi ML perangkat keras dari NVIDIA, Seldon, Starbust dan vendor lainnya, yang memfasilitasi pembangunan dan peluncuran sistem pembelajaran mesin mereka sendiri.
Proyek Open Data Hub berfokus pada kategori pengguna dan kasus penggunaan berikut:
- Seorang analis data yang membutuhkan solusi untuk mengimplementasikan proyek-proyek ML, yang diselenggarakan oleh jenis cloud dengan fungsi swalayan.
- Seorang analis data yang membutuhkan seleksi maksimum dari berbagai alat dan platform AI / ML open source terbaru.
- Seorang analis data yang membutuhkan akses ke sumber data saat melatih model.
- Analis data yang membutuhkan akses ke sumber daya komputasi (CPU, GPU, memori).
- Date adalah seorang analis yang membutuhkan kesempatan untuk berkolaborasi dan berbagi hasil kerja dengan kolega, menerima umpan balik dan memperkenalkan peningkatan menggunakan metode iterasi cepat.
- Seorang analis data yang ingin berinteraksi dengan pengembang (dan tim devops) sehingga model ML dan hasil kerjanya masuk ke produksi.
- Seorang insinyur data yang perlu menyediakan analitik data dengan akses ke berbagai sumber data sesuai dengan standar dan persyaratan keselamatan.
- Seorang administrator / operator sistem TI yang membutuhkan kemampuan untuk dengan mudah mengontrol siklus hidup (instalasi, konfigurasi, pembaruan) komponen dan teknologi open source. Kami juga membutuhkan alat manajemen dan kuota yang tepat.
Proyek Open Data Hub menggabungkan sejumlah alat sumber terbuka untuk mengimplementasikan operasi AI / ML yang lengkap. Notebook Jupyter digunakan di sini sebagai alat kerja utama untuk analisis data. Toolkit ini sekarang populer di kalangan profesional pengolah data dan analisis, dan Open Data Hub memungkinkan mereka untuk dengan mudah membuat dan mengelola ruang kerja Notebook Jupyter menggunakan JupyterHub bawaan. Selain membuat dan mengimpor notebook Jupyter, proyek Open Data Hub juga berisi sejumlah notebook yang sudah jadi dalam bentuk AI Library.
Perpustakaan ini adalah kumpulan komponen pembelajaran mesin sumber terbuka dan solusi skrip sampel yang menyederhanakan prototipe cepat. JupyterHub terintegrasi dengan model akses OpenShift RBAC, yang memungkinkan Anda untuk menggunakan akun OpenShift yang ada dan menerapkan sistem masuk tunggal. Selain itu, JupyterHub menawarkan antarmuka pengguna yang nyaman yang disebut spawner, yang dengannya pengguna dapat dengan mudah mengkonfigurasi jumlah sumber daya komputasi (inti prosesor, memori, GPU) untuk Jupyter Notebook yang dipilih.
Setelah analis data membuat dan mengatur laptop, penjadwal Kubernetes, yang merupakan bagian dari OpenShift, menangani sisanya. Pengguna hanya dapat melakukan eksperimen, menyimpan, dan membagikan hasil pekerjaan mereka. Selain itu, pengguna tingkat lanjut dapat secara langsung mengakses shell OpenShift CLI langsung dari notebook Jupyter untuk mengaktifkan primitif Kubernetes, seperti Pekerjaan, atau fungsionalitas OpenShift, seperti Tekton atau Knative. Atau Anda dapat menggunakan OpenShift GUI yang nyaman yang disebut "OpenShift Web Console" untuk ini.


Beralih ke langkah berikutnya, Open Data Hub menyediakan kemampuan untuk mengelola jalur pipa data. Untuk ini, objek Ceph digunakan, yang disediakan sebagai gudang data objek S3-kompatibel. Apache Spark mengalirkan data dari sumber eksternal atau penyimpanan internal Ceph S3, dan juga memungkinkan Anda untuk melakukan konversi data awal. Apache Kafka menyediakan manajemen jaringan pipa data tingkat lanjut (di mana Anda dapat melakukan banyak unduhan, serta operasi transformasi, analisis, dan penyimpanan data).
Jadi, analis data mendapat akses ke data dan membangun model. Sekarang ia memiliki keinginan untuk membagikan hasilnya dengan kolega atau pengembang aplikasi, dan untuk memberi mereka model prinsip layanannya. Untuk melakukan ini, Anda memerlukan server output, dan Open Data Hub memiliki server seperti itu, disebut Seldon dan memungkinkan Anda untuk menerbitkan model sebagai layanan yang tenang.
Pada beberapa titik, ada beberapa model seperti itu di server Seldon, dan ada kebutuhan untuk memantau bagaimana mereka digunakan. Untuk melakukan ini, Open Data Hub menawarkan koleksi metrik yang relevan dan mesin laporan berdasarkan pada alat pemantauan sumber terbuka yang banyak digunakan Prometheus dan Grafana. Sebagai hasilnya, kami mendapatkan umpan balik untuk memantau penggunaan model AI, khususnya di lingkungan produksi.
Dengan demikian, Open Data Hub menyediakan pendekatan seperti awan di seluruh siklus operasi AI / ML, dari akses dan persiapan data hingga pelatihan dan operasi industri dari model.
Menyatukan semuanya
Sekarang pertanyaannya adalah bagaimana mengatur ini untuk administrator OpenShift. Dan inilah operator Kubernetes khusus untuk proyek Open Data Hub.
Operator ini mengelola instalasi, konfigurasi, dan siklus hidup proyek Open Data Hub, termasuk penyebaran alat-alat seperti JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus, dan Grafana. Proyek Open Data Hub dapat ditemukan di konsol web OpenShift, di bagian komunitas-operator. Dengan demikian, administrator OpenShift dapat menentukan bahwa proyek OpenShift yang sesuai dikategorikan sebagai "Open Data Hub Project". Ini dilakukan sekali. Setelah itu, analis data melalui konsol web OpenShift memasuki ruang proyeknya dan melihat bahwa operator Kubernet yang sesuai telah diinstal dan tersedia untuk proyek-proyeknya. Dia kemudian membuat sebuah instance dari proyek Open Data Hub dengan satu klik dan segera mengakses alat yang dijelaskan di atas. Dan semua ini dapat dikonfigurasi dalam mode ketersediaan tinggi dan toleransi kesalahan.
Jika Anda ingin mencoba proyek Open Data Hub dengan tangan Anda sendiri, mulailah dengan
instruksi instalasi dan tutorial pengantar . Rincian teknis arsitektur Open Data Hub dapat ditemukan di
sini , rencana pengembangan proyek ada di
sini . Di masa depan, direncanakan untuk mengimplementasikan integrasi tambahan dengan Kubeflow, menyelesaikan sejumlah masalah dengan regulasi dan keamanan data, dan mengatur integrasi dengan sistem berdasarkan aturan Drools dan Optaplanner. Anda dapat mengekspresikan pendapat Anda dan menjadi anggota proyek
Open Data Hub di halaman
komunitas .
Kami meringkas: masalah serius dengan penskalaan mencegah organisasi dari sepenuhnya menyadari potensi kecerdasan buatan dan pembelajaran mesin. Red Hat OpenShift telah lama berhasil digunakan untuk memecahkan masalah serupa di industri perangkat lunak. Proyek Open Data Hub, yang diimplementasikan dalam komunitas pengembangan sumber terbuka, menawarkan arsitektur referensi untuk mengatur siklus operasi AI / ML penuh berdasarkan pada cloud hybrid OpenShift. Kami memiliki rencana pengembangan yang jelas dan bijaksana untuk proyek ini, dan kami serius menciptakan komunitas yang aktif dan bermanfaat untuk mengembangkan solusi AI terbuka pada platform OpenShift di sekitarnya.