Expérience d'installation d'Apache Airflow sur Windows 10

Préambule : par la volonté du destin du monde des sciences académiques (médecine), je suis entré dans le monde des technologies de l'information, où je dois utiliser mes connaissances sur la méthodologie de construction d'une expérience et les stratégies d'analyse des données expérimentales, cependant, appliquez une nouvelle pile technologique pour moi. Dans le processus de maîtrise de ces technologies, je rencontre un certain nombre de difficultés, heureusement surmontées jusqu'à présent. Peut-être que ce message sera utile à ceux qui commencent également à travailler avec des projets Apache.

Donc au point . Inspiré par un article de Yuri Emelyanov sur les capacités d'Apache Airflow dans le domaine de l'automatisation des procédures analytiques, j'ai voulu commencer à utiliser l'ensemble de bibliothèques proposé dans mon travail. Ceux qui ne connaissent pas du tout Apache Airflow peuvent être intéressés par un court article sur le site Web de la Bibliothèque nationale nommé d'après N.E. Bauman.

Étant donné que les instructions habituelles pour démarrer Airflow ne s'appliquent apparemment pas dans l'environnement Windows et qu'il serait redondant d'utiliser Docker pour résoudre ce problème dans mon cas, j'ai commencé à rechercher d'autres solutions. Heureusement pour moi, je n'étais pas le premier sur ce chemin, j'ai donc réussi à trouver un merveilleux tutoriel vidéo sur l'installation d'Apache Airflow dans Windows 10 sans utiliser de docker. Mais, comme cela arrive souvent, lors de l'exécution des étapes recommandées, des difficultés surviennent et, je crois, pas seulement pour moi. Par conséquent, je voudrais parler de mon expérience d'installation d'Apache Airflow, peut-être que cela fera gagner du temps à quelqu'un.

Passons en revue les étapes des instructions (spoiler - la 5ème étape, tout s'est bien passé):

1. Installation du sous-système Windows pour Linux pour l'installation ultérieure des distributions Linux

C'est le moindre des problèmes, comme on dit:

Panneau de configuration → Programmes → Programmes et composants → Activation et désactivation des composants Windows → Sous-système Windows pour Linux

2. Installer une distribution Linux de votre choix

J'ai utilisé l'application Ubuntu .

3. Installation et mise à jour pip

sudo apt-get install software-properties-common sudo apt-add-repository universe sudo apt-get update sudo apt-get install python-pip 

4. Installez Apache Airflow

 export SLUGIFY_USES_TEXT_UNIDECODE=yes pip install apache-airflow 

5. Initialisation de la base de données

Et c'est là que mes petites difficultés ont commencé. L'instruction vous demande d'entrer la commande airflow initdb et de passer à l'étape suivante. Cependant, j'ai toujours eu la réponse airflow: command not found . Il est logique de supposer qu'il y a eu des difficultés lors de la phase d'installation d'Apache Airflow et qu'il n'y a tout simplement pas de fichiers nécessaires. Après m'être assuré que tout est là où il devrait être, j'ai décidé d'essayer de spécifier le chemin d'accès complet au fichier airflow (il devrait ressembler à ceci: ////airflow initdb ). Mais le miracle ne s'est pas produit et la réponse a été le même airflow: command not found . J'ai essayé d'utiliser le chemin relatif vers le fichier ( ./.local/bin/airflow initdb ), ce qui a conduit à l'apparition d'une nouvelle erreur ModuleNotFoundError: No module named json' , qui peut être surmonté en mettant à jour la bibliothèque werkzeug (dans mon cas, vers la version 0.15.4) :

 pip install werkzeug==0.15.4 

En savoir plus sur werkzeug ici .

Après cette manipulation simple, la commande ./.local/bin/airflow initdb s'est terminée avec succès.

6. Démarrage du serveur Airflow

Les difficultés d'accès au flux d'air ne sont pas encore terminées. L'exécution de la commande ./.local/bin/airflow webserver -p 8080 No such file or directory entraîné No such file or directory erreur de No such file or directory . Probablement, un utilisateur Ubuntu expérimenté essaierait immédiatement de surmonter ces difficultés d'accès au fichier en utilisant la commande d' export PATH=$PATH:~/.local/bin/ (c'est-à-dire en ajoutant le répertoire /.local au chemin de recherche existant pour les fichiers exécutables définis par la variable PATH / bin /), mais ce message est destiné à ceux qui travaillent principalement avec Windows et peuvent ne pas trouver cette solution évidente.

Après la manipulation décrite ci-dessus, la commande ./.local/bin/airflow webserver -p 8080 été exécutée avec succès.

7. URL: localhost : 8080 /

Si tout s'est bien passé dans les étapes précédentes, alors vous êtes prêt à conquérir les pics analytiques.

J'espère que l'expérience de l'installation d'Apache Airflow sur Windows 10 décrite ci-dessus sera utile pour les débutants et accélérera leur entrée dans l'univers des outils d'analyse modernes.

La prochaine fois, je voudrais poursuivre le sujet et parler de l'expérience d'utilisation d'Apache Airflow dans le domaine de l'analyse du comportement des utilisateurs pour les applications mobiles.

Source: https://habr.com/ru/post/fr462161/


All Articles