Mitap em São Petersburgo: Engenharia de Dados e mais



Os engenheiros de data são pessoas sem as quais os analistas adormecem antes do final da consulta ao banco de dados e a data em que os cientistas se afogam nos dados. É hora de contar aos outros e a nós mesmos, por que e como trabalhamos.

Infelizmente, quase a única conferência especializada para analistas e engenheiros de dados em São Petersburgo foi cancelada este ano, mas nós, no Wrike Tech Club, decidimos não ficar tristes por muito tempo e organizar uma reunião de tubo aconchegante com oradores elegantes no dia 15 de novembro.

Você trabalha com dados que não cabem na RAM? Tem que usar computação distribuída? Parabéns, você é um engenheiro de dados. Para muitos em TI, esse termo parece apenas mais uma das pechinchas entre o Lean Analytics e a Inteligência Artificial. Queremos falar sobre os engenheiros de dados como uma especialidade separada, e não como parte de uma pequena conversa no próximo Big Data Meet Up.

Programa e palestrantes:

Alexander Eliseev, Wrike - Engenharia de dados: como passar de dados para engenharia


Falaremos sobre as abordagens de processamento da Clicksteam e como nossas idéias mudaram de analítica para engenharia de dados, quais princípios de engenharia violamos e como parar de violá-las na engenharia de dados. Vou falar sobre os problemas que encontramos, como um exemplo de erros no design de fontes de dados (de ETL com data marts a um esquema mais complexo), pipelines usando o AirFlow como exemplo, limitações de nossas tecnologias (ORC, Tableau, falta de recursos, pipelines no Jenkins ) Você aprenderá como mudamos nossa abordagem para projetar pipelines e processamento de dados.

Vitaliy Khudobakhshov, JetBrains - Teste de Aplicação no Apache Spark


O custo do erro nos aplicativos de análise de dados geralmente é muito alto. Mas, ao mesmo tempo, o papel dos dados nas falhas é muito maior do que o habitual comparado ao código. Como minimizar erros em aplicativos difíceis de testar e depurar? Como escrever código e testes nesse caso, para que várias horas de tempo caro da máquina não sejam desperdiçadas? É sobre isso que quero falar um pouco.

Sergey Isaev, DataFabric - Como gerenciar dados e armazenar conhecimento usando tecnologias semânticas.


Vou falar sobre:

  • coleta, transformação e gerenciamento de dados;
  • gráficos de conhecimento;
  • modelagem ontológica da área temática;
  • dados relacionados;
  • aplicação de tecnologias semânticas para a construção de sistemas de informação inteligentes.

Registro

Source: https://habr.com/ru/post/pt428103/


All Articles