🦓 🗄️ 😣 Open Data Hub-Projekt - Eine offene Plattform für maschinelles Lernen basierend auf Red Hat OpenShift 🤳🏻 🈶 🧖

Die Zukunft ist gekommen. Künstliche Intelligenz und Technologien für maschinelles Lernen werden bereits erfolgreich von Ihren Lieblingsgeschäften, Transportunternehmen und sogar Bauernhöfen eingesetzt, auf denen Truthähne wachsen.

Und wenn etwas existiert, dann existiert es im Internet bereits darüber ... ein offenes Projekt! Erfahren Sie, wie der Open Data Hub zur Skalierung neuer Technologien beiträgt, und vermeiden Sie die Schwierigkeiten bei deren Implementierung.

Mit all den Vorteilen der künstlichen Intelligenz (KI) und des maschinellen Lernens (ML) haben Unternehmen häufig Schwierigkeiten, diese Technologien zu skalieren. Die Hauptprobleme dabei sind in der Regel folgende:

Informationsaustausch und Zusammenarbeit - Es ist fast unmöglich, Informationen ohne unnötigen Aufwand auszutauschen und im schnellen Iterationsmodus zusammenzuarbeiten.
Zugriff auf Daten - für jede Aufgabe muss sie neu und manuell erstellt werden, was zeitaufwändig ist.
On-Demand-Zugriff - Es gibt keine Möglichkeit, On-Demand-Zugriff auf Tools und Plattformen für maschinelles Lernen sowie auf die Computerinfrastruktur zu erhalten.
Produktion - Die Modelle befinden sich noch im Prototypenstadium und werden nicht industriell genutzt.
Verfolgen und Erklären von AI-Ergebnissen - Reproduzierbarkeit, Verfolgen und Erklären von AI / ML-Ergebnissen sind schwierig.

Diese Probleme bleiben ungelöst und beeinträchtigen die Geschwindigkeit, Effizienz und Produktivität wertvoller Datenverarbeitungs- und Analysespezialisten. Dies führt zu Frustration, Enttäuschung bei der Arbeit und infolgedessen werden die Geschäftserwartungen in Bezug auf AI / ML zunichte gemacht.

Die Verantwortung für die Lösung dieser Probleme liegt bei IT-Fachleuten, die Datenanalysten bereitstellen müssen - richtig, so etwas wie eine Cloud. Wenn es weiter entwickelt ist, brauchen wir eine Plattform, die Wahlfreiheit bietet und einen bequemen und einfachen Zugang bietet. Gleichzeitig ist es schnell, einfach zu rekonfigurieren, bei Bedarf skalierbar und ausfallsicher. Der Aufbau einer solchen Plattform auf Basis von Open-Source-Technologien trägt dazu bei, nicht vom Anbieter abhängig zu werden und einen langfristigen strategischen Vorteil in Bezug auf die Kostenkontrolle zu erhalten.

Vor einigen Jahren geschah etwas Ähnliches in der Anwendungsentwicklung und führte zur Entstehung von Microservices, Hybrid-Cloud-Umgebungen, IT-Automatisierung und agilen Prozessen. Um all dies zu bewältigen, begannen IT-Experten, Container, Kubernetes und offene Hybrid-Clouds zu verwenden.

Jetzt wird diese Erfahrung angewendet, um Al's Herausforderungen zu beantworten. Daher erstellen IT-Experten Plattformen, die auf Containern basieren, die es Ihnen ermöglichen, AI / ML-Services als Teil agiler Prozesse zu erstellen, Innovationen zu beschleunigen und mit Blick auf eine Hybrid-Cloud zu erstellen.

Wir werden mit dem Aufbau einer solchen Plattform mit Red Hat OpenShift beginnen, unserer Container-Kubernetes-Plattform für eine Hybrid-Cloud mit einem schnell wachsenden Ökosystem von Software- und Hardware-ML-Lösungen (NVIDIA, H2O.ai, Starburst, PerceptiLabs usw.). Einige Kunden von Red Hat, wie die BMW Group, ExxonMobil und andere, haben bereits containerisierte ML-Toolketten und DevOps-Prozesse auf Basis dieser Plattform und ihres Ökosystems eingesetzt, um ihre ML-Architekturen in den kommerziellen Betrieb zu bringen und die Arbeit von Datenanalysten zu beschleunigen.

Ein weiterer Grund, warum wir das Open Data Hub-Projekt gestartet haben, besteht darin, eine Beispielarchitektur zu demonstrieren, die auf mehreren Open Source-Projekten basiert, und zu zeigen, wie der gesamte Lebenszyklus einer ML-Lösung basierend auf der OpenShift-Plattform implementiert wird.

Öffnen Sie das Data Hub-Projekt

Dies ist ein Open-Source-Projekt, das im Rahmen der entsprechenden Entwicklergemeinschaft entwickelt wird und einen vollständigen Betriebszyklus implementiert - vom Laden und Konvertieren der Anfangsdaten bis zur Erstellung, Schulung und Wartung des Modells -, wenn AI / ML-Aufgaben mithilfe von Containern und Kubernetes auf der OpenShift-Plattform gelöst werden. Dieses Projekt kann als Referenzimplementierung betrachtet werden, ein Beispiel für die Erstellung einer offenen AI / ML als Servicelösung auf Basis von OpenShift und verwandten Open Source-Tools wie Tensorflow, JupyterHub, Spark und anderen. Es ist wichtig zu beachten, dass Red Hat selbst dieses Projekt verwendet, um seine AI / ML-Dienste bereitzustellen. Darüber hinaus lässt sich OpenShift in wichtige Software- und Hardware-ML-Lösungen von NVIDIA, Seldon, Starbust und anderen Anbietern integrieren, was den Aufbau und die Einführung eigener maschineller Lernsysteme erleichtert.

Das Open Data Hub-Projekt konzentriert sich auf die folgenden Kategorien von Benutzern und Anwendungsfällen:

Ein Datenanalyst, der eine Lösung für die Implementierung von ML-Projekten benötigt, die nach Cloud-Typ mit Self-Service-Funktionen organisiert ist.
Ein Datenanalyst, der die maximale Auswahl aus der Vielzahl der neuesten Open Source AI / ML-Tools und -Plattformen benötigt.
Ein Datenanalyst, der beim Training von Modellen Zugriff auf Datenquellen benötigt.
Datenanalyst, der Zugriff auf Computerressourcen (CPU, GPU, Speicher) benötigt.
Date ist ein Analyst, der die Möglichkeit benötigt, zusammenzuarbeiten und die Arbeitsergebnisse mit Kollegen zu teilen, Feedback zu erhalten und Verbesserungen mithilfe der schnellen Iterationsmethode einzuführen.
Ein Datenanalyst, der mit Entwicklern (und Entwicklerteams) interagieren möchte, damit seine ML-Modelle und Arbeitsergebnisse in die Produktion gehen.
Ein Dateningenieur, der Datenanalysen den Zugriff auf eine Vielzahl von Datenquellen gemäß Sicherheitsstandards und -anforderungen ermöglichen muss.
Ein Administrator / Betreiber von IT-Systemen, der die Fähigkeit benötigt, den Lebenszyklus (Installation, Konfiguration, Aktualisierung) von Open Source-Komponenten und -Technologien einfach zu steuern. Wir brauchen auch geeignete Management- und Quoten-Tools.

Das Open Data Hub-Projekt kombiniert eine Reihe von Open Source-Tools, um eine vollständige AI / ML-Operation zu implementieren. Das Jupyter-Notizbuch wird hier als Hauptwerkzeug für die Datenanalyse verwendet. Dieses Toolkit ist mittlerweile bei Fachleuten für Datenverarbeitung und -analyse weit verbreitet. Mit dem Open Data Hub können sie Jupyter Notebook-Arbeitsbereiche mithilfe des integrierten JupyterHub auf einfache Weise erstellen und verwalten. Neben dem Erstellen und Importieren von Notebooks Jupyter enthält das Open Data Hub-Projekt auch eine Reihe vorgefertigter Notebooks in Form einer AI-Bibliothek.

Diese Bibliothek ist eine Sammlung von Open-Source-Komponenten für maschinelles Lernen und Beispielskriptlösungen, die das Rapid Prototyping vereinfachen. JupyterHub ist in das OpenShift RBAC-Zugriffsmodell integriert, mit dem Sie vorhandene OpenShift-Konten verwenden und Single Sign-On implementieren können. Darüber hinaus bietet JupyterHub eine praktische Benutzeroberfläche namens Spawner, mit der der Benutzer die Menge der Rechenressourcen (Prozessorkerne, Speicher, GPU) für das ausgewählte Jupyter-Notebook einfach konfigurieren kann.

Nachdem der Datenanalyst den Laptop erstellt und eingerichtet hat, kümmert sich der Kubernetes-Scheduler, der Teil von OpenShift ist, um den Rest. Benutzer können nur ihre Experimente durchführen, die Ergebnisse ihrer Arbeit speichern und teilen. Darüber hinaus können fortgeschrittene Benutzer direkt von Jupyter-Notizbüchern aus direkt auf die OpenShift CLI-Shell zugreifen, um Kubernetes-Grundelemente wie Job oder OpenShift-Funktionen wie Tekton oder Knative zu aktivieren. Oder Sie können hierfür die praktische OpenShift-GUI verwenden, die als „OpenShift Web Console“ bezeichnet wird.

Wenn Sie mit dem nächsten Schritt fortfahren, bietet der Open Data Hub die Möglichkeit, Datenpipelines zu verwalten. Hierzu wird ein Ceph-Objekt verwendet, das als S3-kompatibles Objekt-Data-Warehouse bereitgestellt wird. Apache Spark überträgt Daten aus externen Quellen oder dem integrierten Ceph S3-Speicher und ermöglicht Ihnen außerdem die Durchführung vorläufiger Datenkonvertierungen. Apache Kafka bietet eine erweiterte Verwaltung von Datenpipelines (bei denen Sie mehrere Downloads sowie Operationen zur Transformation, Analyse und Speicherung von Daten durchführen können).

Der Datenanalyst erhielt also Zugriff auf die Daten und erstellte ein Modell. Jetzt hat er den Wunsch, die Ergebnisse mit Kollegen oder Anwendungsentwicklern zu teilen und ihnen sein Modell von Service-Prinzipien zur Verfügung zu stellen. Dazu benötigen Sie einen Ausgabeserver, und der Open Data Hub verfügt über einen solchen Server namens Seldon, mit dem Sie das Modell als RESTful-Service veröffentlichen können.

Irgendwann gibt es mehrere solcher Modelle auf dem Seldon-Server, und es muss überwacht werden, wie sie verwendet werden. Zu diesem Zweck bietet der Open Data Hub eine Sammlung relevanter Metriken und eine Berichts-Engine, die auf den weit verbreiteten Open-Source-Überwachungstools Prometheus und Grafana basiert. Als Ergebnis erhalten wir Feedback zur Überwachung der Verwendung von KI-Modellen, insbesondere in der Produktionsumgebung.

Somit bietet der Open Data Hub einen Cloud-ähnlichen Ansatz während des gesamten AI / ML-Betriebszyklus, vom Zugriff über die Datenaufbereitung bis hin zur Schulung und zum industriellen Betrieb des Modells.

Alles zusammenfügen

Die Frage ist nun, wie dies für den OpenShift-Administrator organisiert werden kann. Und hier kommt der spezielle Kubernetes-Operator für Open Data Hub-Projekte.

Dieser Bediener verwaltet die Installation, Konfiguration und den Lebenszyklus des Open Data Hub-Projekts, einschließlich der Bereitstellung von Tools wie JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus und Grafana. Das Open Data Hub-Projekt finden Sie in der OpenShift-Webkonsole im Abschnitt Community-Operatoren. Somit kann der OpenShift-Administrator festlegen, dass die entsprechenden OpenShift-Projekte als „Open Data Hub-Projekt“ kategorisiert werden. Dies wird einmal gemacht. Danach betritt der Datenanalyst über die OpenShift-Webkonsole seinen Projektbereich und stellt fest, dass der entsprechende Kubernetes-Operator installiert und für seine Projekte verfügbar ist. Anschließend erstellt er mit einem Klick eine Instanz des Open Data Hub-Projekts und greift sofort auf die oben beschriebenen Tools zu. All dies kann im Hochverfügbarkeits- und Fehlertoleranzmodus konfiguriert werden.

Wenn Sie das Open Data Hub-Projekt mit Ihren eigenen Händen ausprobieren möchten, beginnen Sie mit den Installationsanweisungen und einem Einführungs-Tutorial . Technische Details zur Open Data Hub-Architektur finden Sie hier . Projektentwicklungspläne finden Sie hier . In Zukunft ist geplant, eine zusätzliche Integration in Kubeflow zu implementieren, eine Reihe von Problemen mit der Datenregulierung und -sicherheit zu lösen und die Integration in Systeme auf der Grundlage der Drools- und Optaplanner-Regeln zu organisieren. Sie können Ihre Meinung äußern und Mitglied des Open Data Hub- Projekts auf der Community- Seite werden.

Wir fassen zusammen: Schwerwiegende Probleme bei der Skalierung hindern Unternehmen daran, das Potenzial künstlicher Intelligenz und maschinellen Lernens voll auszuschöpfen. Red Hat OpenShift wird seit langem erfolgreich zur Lösung ähnlicher Probleme in der Softwareindustrie eingesetzt. Das Open Data Hub-Projekt, das in der Open Source-Entwicklergemeinschaft implementiert ist, bietet eine Referenzarchitektur für die Organisation eines vollständigen AI / ML-Betriebszyklus basierend auf der OpenShift-Hybrid-Cloud. Wir haben einen klaren und durchdachten Entwicklungsplan für dieses Projekt und es ist uns ein ernstes Anliegen, eine aktive und fruchtbare Community für die Entwicklung offener KI-Lösungen auf der OpenShift-Plattform zu schaffen.

Open Data Hub-Projekt - Eine offene Plattform für maschinelles Lernen basierend auf Red Hat OpenShift

Öffnen Sie das Data Hub-Projekt

Alles zusammenfügen

More articles: