Mitap en San Petersburgo: ingeniería de datos y más



Los ingenieros de fechas son personas sin las cuales los analistas se quedarán dormidos antes del final de la consulta a la base de datos, y la fecha en que los científicos se ahogarán en los datos. Es hora de decirles a los demás y a nosotros mismos, por qué y cómo trabajamos.

Desafortunadamente, casi la única conferencia especializada para analistas de datos e ingenieros de datos en San Petersburgo se canceló este año, pero en Wrike Tech Club decidimos no estar tristes por mucho tiempo y organizar una acogedora reunión en tubo con oradores con clase el 15 de noviembre.

¿Trabaja con datos que no caben en la RAM? ¿Tienes que usar computación distribuida? Enhorabuena, eres ingeniero de datos. Para muchos en TI, este término suena como una de las gangas entre Lean Analytics e Inteligencia Artificial. Queremos hablar sobre ingenieros de datos como una especialidad separada, y no como parte de una pequeña charla en el próximo Big Data Meet Up.

Programa y ponentes:

Alexander Eliseev, Wrike - Ingeniería de datos: cómo pasar de datos a ingeniería


Hablaremos sobre los enfoques de procesamiento de Clicksteam y cómo nuestras ideas han cambiado de analítica a ingeniería de datos, qué principios de ingeniería hemos violado y cómo dejar de violarlos en Ingeniería de Datos. Hablaré sobre los problemas que encontramos, por ejemplo, errores en el diseño de fuentes de datos (desde ETL con data marts a un esquema más complejo), tuberías que usan AirFlow como ejemplo, limitaciones de nuestras tecnologías (ORC, Tableau, falta de recursos, tuberías en Jenkins) ) Aprenderá cómo cambiamos nuestro enfoque para diseñar tuberías y procesamiento de datos.

Vitaliy Khudobakhshov, JetBrains - Pruebas de aplicación en Apache Spark


El costo del error en las aplicaciones de análisis de datos a menudo es muy alto. Pero al mismo tiempo, el papel de los datos en las fallas es mucho mayor que el habitual en comparación con el código. ¿Cómo minimizar los errores en aplicaciones que son difíciles de probar y depurar? ¿Cómo escribir código y pruebas en tal caso, para que no se desperdicien varias horas de costoso tiempo en la máquina? De eso es de lo que quiero hablar un poco.

Sergey Isaev, DataFabric - Cómo administrar datos y almacenar conocimiento utilizando tecnologías semánticas.


Te contaré sobre:

  • recopilación, transformación y gestión de datos;
  • gráficos de conocimiento;
  • modelado ontológico del área temática;
  • datos relacionados;
  • Aplicación de tecnologías semánticas para la construcción de sistemas inteligentes de información.

Registro

Source: https://habr.com/ru/post/es428103/


All Articles