
Datumsingenieure sind Personen, ohne die Analysten vor dem Ende der Abfrage an die Datenbank einschlafen, und das Datum, an dem Wissenschaftler in den Daten ertrinken. Es ist Zeit, anderen und uns selbst zu sagen, warum und wie wir arbeiten.
Leider wurde in diesem Jahr fast die einzige Fachkonferenz für Datenanalysten und Dateningenieure in St. Petersburg abgesagt, aber wir vom Wrike Tech Club haben beschlossen, lange nicht traurig zu sein und am 15. November ein gemütliches Röhrentreffen mit hochkarätigen Rednern zu arrangieren.
Arbeiten Sie mit Daten, die nicht in den Arbeitsspeicher passen? Müssen Sie verteiltes Computing verwenden? Herzlichen Glückwunsch, Sie sind ein Dateningenieur. Für viele IT-Mitarbeiter klingt dieser Begriff wie ein weiteres Schnäppchen zwischen Lean Analytics und künstlicher Intelligenz. Wir möchten über Dateningenieure als separate Spezialität sprechen und nicht als Teil eines Small Talks beim nächsten Big Data Meet Up.
Programm und Referenten:
Alexander Eliseev, Wrike - Data Engineering: Wie kommt man von Data zu Engineering?
Wir werden über die Verarbeitungsansätze von Clicksteam sprechen und darüber, wie sich unsere Ideen von analytischem zu Data Engineering geändert haben, gegen welche Engineering-Prinzipien wir verstoßen haben und wie wir aufhören können, sie im Data Engineering zu verletzen. Ich werde über die Probleme sprechen, auf die wir gestoßen sind, zum Beispiel Fehler beim Entwerfen von Datenquellen (von ETL mit Data Marts bis zu einem komplexeren Schema), Pipelines am Beispiel von AirFlow, Einschränkungen unserer Technologien (ORC, Tableau, Ressourcenmangel, Pipelines auf Jenkins). ) Sie erfahren, wie wir unseren Ansatz zum Entwerfen von Pipelines und zur Datenverarbeitung geändert haben.
Vitaliy Khudobakhshov, JetBrains - Anwendungstests in Apache Spark
Die Fehlerkosten in Datenanalyseanwendungen sind häufig sehr hoch. Gleichzeitig ist die Rolle von Daten bei Fehlern im Vergleich zu Code viel höher als gewöhnlich. Wie minimiere ich Fehler in Anwendungen, die schwer zu testen und zu debuggen sind? Wie schreibe ich in einem solchen Fall Code und Tests, damit nicht mehrere Stunden teure Maschinenzeit verschwendet werden? Darüber möchte ich ein wenig sprechen.
Sergey Isaev, DataFabric - Verwalten von Daten und Speichern von Wissen mithilfe semantischer Technologien.
Ich erzähle dir von:
- Datenerfassung, -transformation und -verwaltung;
- Graphen des Wissens;
- ontologische Modellierung des Themenbereichs;
- verwandte Daten;
- Anwendung semantischer Technologien zum Aufbau intelligenter Informationssysteme.
→
Registrierung