Erleben Sie die Installation von Apache Airflow unter Windows 10

Präambel : Durch den Willen des Schicksals aus der Welt der akademischen Wissenschaft (Medizin) bin ich in die Welt der Informationstechnologie gekommen, wo ich mein Wissen über die Methodik des Aufbaus eines Experiments und Strategien zur Analyse experimenteller Daten nutzen muss, aber einen neuen Technologie-Stack für mich anwenden muss. Bei der Beherrschung dieser Technologien stoße ich auf eine Reihe von Schwierigkeiten, die zum Glück bisher überwunden wurden. Vielleicht ist dieser Beitrag für diejenigen nützlich, die gerade erst anfangen, mit Apache-Projekten zu arbeiten.

Also auf den Punkt . Inspiriert von einem Artikel von Yuri Emelyanov über die Möglichkeiten von Apache Airflow im Bereich der Automatisierung von Analyseverfahren wollte ich die vorgeschlagenen Bibliotheken in meiner Arbeit verwenden. Diejenigen, die mit Apache Airflow überhaupt nicht vertraut sind, könnten an einem kurzen Übersichtsartikel auf der Website der nach ihm benannten Nationalbibliothek interessiert sein N. E. Bauman.

Da die üblichen Anweisungen zum Starten von Airflow anscheinend nicht in der Windows-Umgebung gelten und es in meinem Fall überflüssig wäre, Docker zur Lösung dieses Problems zu verwenden, habe ich nach anderen Lösungen gesucht. Zum Glück war ich nicht der erste auf diesem Weg, daher konnte ich ein wunderbares Video-Tutorial zur Installation von Apache Airflow in Windows 10 ohne Docker finden. Aber wie so oft treten bei der Ausführung der empfohlenen Schritte Schwierigkeiten auf, und ich glaube, nicht nur für mich. Daher möchte ich über meine Erfahrungen bei der Installation von Apache Airflow sprechen. Vielleicht spart dies jemandem Zeit.

Lassen Sie uns die Schritte der Anleitung durchgehen (Spoiler - der 5. Schritt, alles ging gut):

1. Installieren des Windows-Subsystems für Linux für die anschließende Installation von Linux-Distributionen

Dies ist das geringere Problem, wie sie sagen:

Systemsteuerung → Programme → Programme und Komponenten → Aktivieren und Deaktivieren von Windows-Komponenten → Windows-Subsystem für Linux

2. Installieren einer Linux-Distribution Ihrer Wahl

Ich habe die Ubuntu- Anwendung verwendet.

3. Installation und Aktualisierung von pip

sudo apt-get install software-properties-common sudo apt-add-repository universe sudo apt-get update sudo apt-get install python-pip 

4. Installieren Sie Apache Airflow

 export SLUGIFY_USES_TEXT_UNIDECODE=yes pip install apache-airflow 

5. Datenbankinitialisierung

Und hier begannen meine kleinen Schwierigkeiten. Die Anweisung weist Sie an, den Befehl airflow initdb und mit dem nächsten Schritt airflow initdb . Ich habe jedoch immer airflow: command not found Antwort airflow: command not found . Es ist logisch anzunehmen, dass während der Installationsphase von Apache Airflow Schwierigkeiten aufgetreten sind und einfach keine erforderlichen Dateien vorhanden sind. Nachdem ich sichergestellt hatte, dass alles dort ist, wo es sein sollte, entschied ich mich, den vollständigen Pfad zur Luftstromdatei anzugeben (es sollte folgendermaßen aussehen: ////airflow initdb ). Aber das Wunder geschah nicht und die Antwort war der gleiche airflow: command not found . Ich habe versucht, den relativen Pfad zur Datei ( ./.local/bin/airflow initdb ) zu verwenden, was zum Auftreten eines neuen Fehlers führte. ModuleNotFoundError: No module named json' , der durch Aktualisierung der werkzeug- Bibliothek (in meinem Fall auf Version 0.15.4) behoben werden kann. ::

 pip install werkzeug==0.15.4 

Lesen Sie hier mehr über werkzeug.

Nach dieser einfachen Manipulation wurde der Befehl ./.local/bin/airflow initdb erfolgreich ausgeführt.

6. Starten Sie den Airflow Server

Die Schwierigkeiten beim Zugang zum Luftstrom sind noch nicht vorbei. Das Ausführen des ./.local/bin/airflow webserver -p 8080 führte zu einem Fehler " No such file or directory . Wahrscheinlich würde ein erfahrener Ubuntu-Benutzer sofort versuchen, solche Schwierigkeiten beim Zugriff auf die Datei zu überwinden, indem er den Befehl export PATH=$PATH:~/.local/bin/ anwendet (dh das Verzeichnis /.local zum vorhandenen Suchpfad für ausführbare Dateien hinzufügt, die durch die Variable PATH definiert sind / bin /), aber dieser Beitrag ist für diejenigen gedacht, die hauptsächlich mit Windows arbeiten und diese Lösung möglicherweise nicht offensichtlich finden.

Nach der oben beschriebenen Manipulation wurde der ./.local/bin/airflow webserver -p 8080 erfolgreich ausgeführt.

7. URL: localhost : 8080 /

Wenn in den vorherigen Phasen alles gut gelaufen ist, sind Sie bereit, die analytischen Peaks zu erobern.

Ich hoffe, dass die oben beschriebenen Erfahrungen mit der Installation von Apache Airflow unter Windows 10 für Anfänger nützlich sind und ihren Einstieg in das Universum moderner Analysetools beschleunigen.

Das nächste Mal möchte ich das Thema fortsetzen und über die Erfahrungen mit der Verwendung von Apache Airflow im Bereich der Analyse des Verhaltens von Benutzern mobiler Anwendungen sprechen.

Source: https://habr.com/ru/post/de462161/


All Articles