Experiência na instalação do Apache Airflow no Windows 10

Preâmbulo : pela vontade do destino do mundo da ciência acadêmica (medicina), entrei no mundo da tecnologia da informação, onde tenho que usar meu conhecimento sobre a metodologia de construção de um experimento e estratégias para analisar dados experimentais, no entanto, aplicar uma nova pilha de tecnologia para mim. No processo de dominar essas tecnologias, encontro uma série de dificuldades que, até agora, felizmente, foram superadas. Talvez este post seja útil para aqueles que também estão começando a trabalhar com projetos Apache.

Então, ao ponto . Inspirado em um artigo de Yuri Emelyanov sobre os recursos do Apache Airflow no campo da automação de procedimentos analíticos, eu queria começar a usar o conjunto de bibliotecas proposto em meu trabalho. Aqueles que não estão familiarizados com o Apache Airflow podem estar interessados ​​em um pequeno artigo de revisão no site da Biblioteca Nacional, com o nome de N.E. Bauman.

Como as instruções usuais para iniciar o Airflow, aparentemente, não se aplicam no ambiente Windows, e seria redundante usar o docker para resolver esse problema no meu caso, comecei a procurar outras soluções. Felizmente para mim, eu não fui o primeiro nesse caminho, então consegui encontrar um maravilhoso tutorial em vídeo sobre a instalação do Apache Airflow no Windows 10 sem usar uma janela de encaixe. Mas, como costuma acontecer, ao executar as etapas recomendadas, surgem dificuldades e, acredito, não apenas para mim. Portanto, gostaria de falar sobre minha experiência na instalação do Apache Airflow, talvez isso economize algum tempo para alguém.

Vamos seguir as etapas das instruções (spoiler - a quinta etapa, tudo correu bem):

1. Instalando o Windows Subsystem for Linux para a instalação subsequente das distribuições Linux

Este é o menor dos problemas, como eles dizem:

Painel de controle → Programas → Programas e Componentes → Ativando e Desativando Componentes do Windows → Windows Subsystem for Linux

2. Instalando uma distribuição Linux de sua escolha

Eu usei o aplicativo Ubuntu .

3. Instalação e atualização do pip

sudo apt-get install software-properties-common sudo apt-add-repository universe sudo apt-get update sudo apt-get install python-pip 

4. Instale o Apache Airflow

 export SLUGIFY_USES_TEXT_UNIDECODE=yes pip install apache-airflow 

5. Inicialização do banco de dados

E é aí que minhas pequenas dificuldades começaram. A instrução instrui você a inserir o comando airflow initdb do airflow initdb e ir para a próxima etapa. No entanto, sempre obtive resposta de airflow: command not found . É lógico supor que houve dificuldades durante a fase de instalação do Apache Airflow e simplesmente não há arquivos necessários. Depois de me certificar de que tudo está onde deveria estar, decidi tentar especificar o caminho completo para o arquivo de fluxo de ar (deve ficar assim: ////airflow initdb ). Mas o milagre não aconteceu e a resposta foi o mesmo airflow: command not found . Tentei usar o caminho relativo para o arquivo ( ./.local/bin/airflow initdb ), que levou ao aparecimento de um novo erro ModuleNotFoundError: No module named json' , que pode ser superado com a atualização da biblioteca werkzeug (no meu caso, para a versão 0.15.4) :

 pip install werkzeug==0.15.4 

Leia mais sobre o werkzeug aqui .

Após essa manipulação simples, o comando ./.local/bin/airflow initdb foi concluído com êxito.

6. Iniciando o servidor de fluxo de ar

As dificuldades para acessar o fluxo de ar ainda não terminaram. A execução do ./.local/bin/airflow webserver -p 8080 resultou em um erro de No such file or directory ./.local/bin/airflow webserver -p 8080 . Provavelmente, um usuário experiente do Ubuntu tentaria imediatamente superar essas dificuldades ao acessar o arquivo usando o comando export PATH=$PATH:~/.local/bin/ (ou seja, adicionando o diretório /.local ao caminho existente para procurar arquivos executáveis / bin /), mas esta postagem é direcionada para quem trabalha principalmente com o Windows e pode não achar essa solução óbvia.

Após a manipulação descrita acima, o ./.local/bin/airflow webserver -p 8080 foi executado com êxito.

7. URL: localhost : 8080 /

Se tudo correu bem nas etapas anteriores, você está pronto para conquistar os picos analíticos.

Espero que a experiência de instalação do Apache Airflow no Windows 10 descrita acima seja útil para iniciantes e acelere sua entrada no universo das modernas ferramentas de análise.

Na próxima vez, gostaria de continuar o tópico e falar sobre a experiência do uso do Apache Airflow no campo de análise do comportamento do usuário para aplicativos móveis.

Source: https://habr.com/ru/post/pt462161/


All Articles