Plano de nivelamento para a profissão Data Engineer

Nos últimos oito anos, tenho trabalhado como gerente de projetos (não escrevo código no trabalho), o que naturalmente afeta negativamente meu back-end de tecnologia. Decidi reduzir meu atraso tecnológico e adquirir a profissão de engenheiro de dados. A principal habilidade de um engenheiro de dados é a capacidade de projetar, construir e manter data warehouses.

Fiz um plano de treinamento, acho que será útil não apenas para mim. O plano é focado em cursos de auto-estudo. É dada prioridade aos cursos gratuitos em russo.

Seções:

  • Algoritmos e estruturas de dados. Seção chave. Se você estudá-lo, tudo funcionará. É importante saber escrever código e usar estruturas e algoritmos básicos.
  • Bancos de dados e data warehouses, Business Intelligence. Passamos de algoritmos para armazenamento e processamento de dados.
  • Hadoop e Big Data. Quando o banco de dados não está incluído no disco rígido ou quando os dados precisam ser analisados, mas o Excel não pode mais carregá-los, o big data é iniciado. Na minha opinião, a transição para esta seção é necessária somente após um estudo aprofundado das duas anteriores.

Algoritmos e estruturas de dados


No meu plano, incluí o aprendizado de Python, repetindo os conceitos básicos de matemática e algoritmos.


Bancos de Dados e Armazéns, Business Intelligence



Os tópicos relacionados à criação de data warehouses, ETLs e cubos OLAP são altamente dependentes de ferramentas, por isso não dou links para cursos neste documento. É aconselhável estudar esses sistemas ao trabalhar em um projeto específico em uma empresa específica. Para uma introdução ao ETL, você pode tentar o Talend ou o Airflow .

Na minha opinião, é importante estudar a metodologia moderna para projetar armazéns de dados no Data Vault link 1 , link 2 . E a melhor maneira de aprender é pegá-lo e implementá-lo com um exemplo simples. O GitHub tem vários exemplos de implementação do link do Data Vault. Livro moderno sobre data warehouse: modelando o data warehouse ágil com o Data Vault de Hans Hultgren.

Para se familiarizar com as ferramentas de Business Intelligence para usuários finais, você pode usar o Designer de Relatório do Power BI Desktop, os Painéis e os Mini Data Warehouses gratuitos. Materiais de treinamento: link 1 , link 2 .

Hadoop e big data



Conclusão


Nem tudo que você estuda acaba sendo aplicado no trabalho. Portanto, é necessário um projeto de graduação no qual você tenta aplicar novos conhecimentos.

Não há tópicos relacionados à análise de dados e Machine Learning, pois isso se aplica mais à profissão de cientista de dados. Além disso, não há tópicos relacionados à AWS, nuvens do Azure. esses tópicos são altamente dependentes da plataforma.

Perguntas para a comunidade:
Quão adequado é o meu plano de bombeamento? O que remover ou adicionar?
Que projeto você recomenda como tese?

Source: https://habr.com/ru/post/pt472622/


All Articles