
Les ingénieurs de date sont des personnes sans lesquelles les analystes s'endormiront avant la fin de la requête dans la base de données, et la date à laquelle les scientifiques se noieront dans les données. Il est temps de dire aux autres et à nous-mêmes, pourquoi et comment nous travaillons.
Malheureusement, presque la seule conférence spécialisée pour les analystes de données et les ingénieurs de données à Saint-Pétersbourg a été annulée cette année, mais nous, au Wrike Tech Club, avons décidé de ne pas être tristes pendant longtemps et d'organiser une réunion confortable avec des conférenciers de haut niveau le 15 novembre.
Travaillez-vous avec des données qui ne rentrent pas dans la RAM? Vous devez utiliser l'informatique distribuée? Félicitations, vous êtes un ingénieur de données. Pour de nombreux informaticiens, ce terme ressemble à une autre des bonnes affaires entre le Lean Analytics et l'intelligence artificielle. Nous voulons parler des ingénieurs de données en tant que spécialité distincte, et non dans le cadre d'une petite discussion lors du prochain Big Data Meet Up.
Programme et conférenciers:
Alexander Eliseev, Wrike - Data Engineering: comment passer des données à l'ingénierie
Nous parlerons des approches de traitement de Clicksteam et de la façon dont nos idées sont passées de l'analyse à l'ingénierie des données, des principes d'ingénierie que nous avons violés et de la façon de cesser de les violer dans l'ingénierie des données. Je parlerai des problèmes que nous avons rencontrés, comme exemple d'erreurs dans la conception de sources de données (d'ETL avec data marts à un schéma plus complexe), des pipelines utilisant AirFlow comme exemple, des limites de nos technologies (ORC, Tableau, manque de ressources, pipelines sur Jenkins ) Vous apprendrez comment nous avons changé notre approche en matière de conception de pipelines et de traitement des données.
Vitaliy Khudobakhshov, JetBrains - Test d'application dans Apache Spark
Le coût des erreurs dans les applications d'analyse de données est souvent très élevé. Mais en même temps, le rôle des données dans les pannes est beaucoup plus élevé que d'habitude par rapport au code. Comment minimiser les erreurs dans les applications difficiles à tester et à déboguer? Comment écrire du code et des tests dans un tel cas, afin que plusieurs heures de temps machine coûteux ne soient pas gaspillées? C'est de cela que je veux parler un peu.
Sergey Isaev, DataFabric - Comment gérer les données et stocker les connaissances à l'aide de technologies sémantiques.
Je vais vous parler de:
- collecte, transformation et gestion des données;
- graphiques des connaissances;
- modélisation ontologique du domaine;
- données connexes;
- application des technologies sémantiques pour la construction de systèmes d'information intelligents.
→
Inscription