Experiencia instalando Apache Airflow en Windows 10

Preámbulo : por voluntad del destino del mundo de la ciencia académica (medicina), entré en el mundo de la tecnología de la información, donde tengo que usar mi conocimiento sobre la metodología de construcción de un experimento y estrategias para analizar datos experimentales, sin embargo, aplicar una nueva pila de tecnología para mí. En el proceso de dominar estas tecnologías, me encuentro con una serie de dificultades, que hasta ahora, afortunadamente, se han superado. Quizás esta publicación sea útil para aquellos que también están comenzando a trabajar con proyectos de Apache.

Así que al punto . Inspirado en un artículo de Yuri Emelyanov sobre las capacidades de Apache Airflow en el campo de la automatización de procedimientos analíticos, quería comenzar a usar el conjunto de bibliotecas propuesto en mi trabajo. Aquellos que no estén familiarizados con Apache Airflow pueden estar interesados ​​en un breve artículo de revisión en el sitio web de la Biblioteca Nacional que lleva el nombre N.E. Bauman.

Dado que las instrucciones habituales para iniciar Airflow, aparentemente, no se aplican en el entorno de Windows, y sería redundante usar Docker para resolver este problema en mi caso, comencé a buscar otras soluciones. Afortunadamente para mí, no fui el primero en este camino, así que logré encontrar un video tutorial maravilloso sobre la instalación de Apache Airflow en Windows 10 sin usar un docker. Pero, como sucede a menudo, al realizar los pasos recomendados, surgen dificultades y, creo, no solo para mí. Por lo tanto, me gustaría hablar sobre mi experiencia instalando Apache Airflow, tal vez le ahorrará algo de tiempo a alguien.

Veamos los pasos de las instrucciones (spoiler: el quinto paso, todo salió bien):

1. Instalación del subsistema de Windows para Linux para la posterior instalación de distribuciones de Linux

Este es el menor de los problemas, como dicen:

Panel de control → Programas → Programas y componentes → Activar y desactivar componentes de Windows → Subsistema de Windows para Linux

2. Instalar una distribución de Linux de su elección

Usé la aplicación Ubuntu .

3. Instalación y actualización de pip

sudo apt-get install software-properties-common sudo apt-add-repository universe sudo apt-get update sudo apt-get install python-pip 

4. Instalar Apache Airflow

 export SLUGIFY_USES_TEXT_UNIDECODE=yes pip install apache-airflow 

5. Inicialización de la base de datos.

Y aquí es donde comenzaron mis pequeñas dificultades. La instrucción le indica que ingrese el comando airflow initdb y vaya al siguiente paso. Sin embargo, siempre tengo airflow: command not found respuesta. Es lógico suponer que hubo dificultades durante la fase de instalación de Apache Airflow y que simplemente no hay archivos necesarios. Después de asegurarme de que todo está donde debería estar, decidí intentar especificar la ruta completa al archivo de flujo de aire (debería verse así: ////airflow initdb ). Pero el milagro no sucedió y la respuesta fue el mismo airflow: command not found . Intenté usar la ruta relativa al archivo ( ./.local/bin/airflow initdb ), lo que condujo a la aparición de un nuevo error ModuleNotFoundError: No module named json' , que puede superarse actualizando la biblioteca werkzeug (en mi caso, a la versión 0.15.4) :

 pip install werkzeug==0.15.4 

Lea más sobre werkzeug aquí .

Después de esta simple manipulación, el comando ./.local/bin/airflow initdb se completó con éxito.

6. Inicio del servidor de flujo de aire

Las dificultades para acceder al flujo de aire aún no han terminado. La ejecución del ./.local/bin/airflow webserver -p 8080 resultó en un error de No such file or directory . Probablemente, un usuario experimentado de Ubuntu trataría de superar de inmediato tales dificultades para acceder al archivo aplicando el comando export PATH=$PATH:~/.local/bin/ export (es decir, agregando el directorio /.local a la ruta de búsqueda existente para archivos ejecutables definidos por la variable PATH / bin /), pero esta publicación está destinada a quienes trabajan principalmente con Windows y es posible que esta solución no sea obvia.

Después de la manipulación descrita anteriormente, el ./.local/bin/airflow webserver -p 8080 se ejecutó con éxito.

7. URL: localhost : 8080 /

Si todo salió bien en las etapas anteriores, entonces estás listo para conquistar los picos analíticos.

Espero que la experiencia de instalar Apache Airflow en Windows 10 descrita anteriormente sea útil para los principiantes y acelere su entrada en el universo de las herramientas de análisis modernas.

La próxima vez me gustaría continuar con el tema y hablar sobre la experiencia de usar Apache Airflow en el campo del análisis del comportamiento de los usuarios de aplicaciones móviles.

Source: https://habr.com/ru/post/462161/


All Articles