
Os engenheiros de data são pessoas sem as quais os analistas adormecem antes do final da consulta ao banco de dados e a data em que os cientistas se afogam nos dados. É hora de contar aos outros e a nós mesmos, por que e como trabalhamos.
Infelizmente, quase a única conferência especializada para analistas e engenheiros de dados em São Petersburgo foi cancelada este ano, mas nós, no Wrike Tech Club, decidimos não ficar tristes por muito tempo e organizar uma reunião de tubo aconchegante com oradores elegantes no dia 15 de novembro.
Você trabalha com dados que não cabem na RAM? Tem que usar computação distribuída? Parabéns, você é um engenheiro de dados. Para muitos em TI, esse termo parece apenas mais uma das pechinchas entre o Lean Analytics e a Inteligência Artificial. Queremos falar sobre os engenheiros de dados como uma especialidade separada, e não como parte de uma pequena conversa no próximo Big Data Meet Up.
Programa e palestrantes:
Alexander Eliseev, Wrike - Engenharia de dados: como passar de dados para engenharia
Falaremos sobre as abordagens de processamento da Clicksteam e como nossas idéias mudaram de analítica para engenharia de dados, quais princípios de engenharia violamos e como parar de violá-las na engenharia de dados. Vou falar sobre os problemas que encontramos, como um exemplo de erros no design de fontes de dados (de ETL com data marts a um esquema mais complexo), pipelines usando o AirFlow como exemplo, limitações de nossas tecnologias (ORC, Tableau, falta de recursos, pipelines no Jenkins ) Você aprenderá como mudamos nossa abordagem para projetar pipelines e processamento de dados.
Vitaliy Khudobakhshov, JetBrains - Teste de Aplicação no Apache Spark
O custo do erro nos aplicativos de análise de dados geralmente é muito alto. Mas, ao mesmo tempo, o papel dos dados nas falhas é muito maior do que o habitual comparado ao código. Como minimizar erros em aplicativos difíceis de testar e depurar? Como escrever código e testes nesse caso, para que várias horas de tempo caro da máquina não sejam desperdiçadas? É sobre isso que quero falar um pouco.
Sergey Isaev, DataFabric - Como gerenciar dados e armazenar conhecimento usando tecnologias semânticas.
Vou falar sobre:
- coleta, transformação e gerenciamento de dados;
- gráficos de conhecimento;
- modelagem ontológica da área temática;
- dados relacionados;
- aplicação de tecnologias semânticas para a construção de sistemas de informação inteligentes.
→
Registro