
Ich habe zwei Interessengebiete. Das erste: die Gesellschaft anonymer
fauler Datenanalysten, das zweite: die Gesellschaft anonymer Geeks. Und wenn mit dem zweiten alles in Ordnung ist, dann ist mit dem ersten alles komplizierter. Wenn Sie den Leuten sagen, welche Aufgaben Datenanalysten lösen, was repräsentieren sie? Für das Experiment führte sie die Definition in Google ein und die allererste:
Ein Datenanalyst ist ein vielseitiger Spezialist mit Kenntnissen in Mathematik, Statistik, Informatik, Informatik, Wirtschaftswissenschaften. Der Big Data-Analyst untersucht große Datenmengen mit unterschiedlichen Informationen, z. B. Forschungsergebnisse, Markttrends, Kundenpräferenzen usw. Die Recherche und Analyse solcher Informationen kann zu neuen wissenschaftlichen Entdeckungen führen, die Effizienz des Unternehmens steigern, neue Möglichkeiten zur Umsatzgenerierung schaffen und den Kundenservice verbessern. usw. Die Hauptkompetenz von Datenwissenschaftlern besteht darin, logische Zusammenhänge im System der gesammelten Informationen zu erkennen und auf dieser Grundlage bestimmte Geschäftslösungen und -modelle zu entwickeln.
Definition von buduguru.org/profession/39 .
Universeller Spezialist, okay. Gemessen an der Beschreibung von etwas zwischen Dr. Manhattan und Stephen Hawking.

Ich werde jedoch nicht auf die Semantik dieser Definition eingehen, sondern auf das schmerzhafte Thema der Datenanalysten eingehen (nein, nicht das, bei dem die
Nörgelei über den Mangel an Daten spricht). Und was ist, wenn die Daten sind?
Und hier gehen wir zu folgenden Problemen:
- Mit welchen Tools kann ich diese Daten untersuchen?
- Wie konvertiere ich diese Datenfelder?
- Wie lagere ich sie? Muss ich sie aufbewahren?
- Was ist, wenn es viele Quellen gibt und alle heterogen sind?
Okay Wir haben einen Pool von Problemen gebildet, aber was tun als nächstes? In diesem Artikel werde ich über das Tool sprechen, das unser Entwicklungsteam implementiert hat, nämlich das
SaaS- Cloud-System
iDVP.Data .
Was ist das?
iDVP.Data SaaS ist ein multifunktionales Tool für die Arbeit mit Daten in der Cloud, mit dem Sie verschiedene Daten verbinden, konvertieren und an externe Systeme wie Webdienste senden können.
Unendlichkeitskrieg
Hier überschneiden wir uns unwillkürlich mit dem zweiten Interessenbereich: Als Beispiel habe ich beschlossen, offene Marvel-Daten mit
iDVP.Data SaaS zu verbinden. Hat jeder einen neuen Film über den Unendlichkeitskrieg gesehen? Nachdem ich den Film gesehen hatte, konnte ich nicht anders, als mich an andere große Konflikte im Marvel-Universum zu erinnern, die globale Veränderungen im Franchise erfahren haben. Es wurde für mich interessant, mich daran zu erinnern, wie viele Charaktere aus der Comic-Linie am Infinity War teilgenommen haben und wie viele daran gestorben sind. Um diese Fragen zu beantworten, habe ich mich an die zuverlässigste Quelle gewandt - die offizielle
Marvel- Website.

Gehen Sie zunächst zur
iDVP.Data SaaS- Website und registrieren Sie sich.
Danach gelangen wir zur Arbeitsseite des Benutzers, auf der es Arbeitsbereiche mit Testdemofällen gibt. Sie präsentieren Datenströme aus der Verbindung einer Datenquelle mit einer Datenspeicherfront.

Nachdem Sie die Testfälle untersucht und einen neuen Arbeitsbereich hinzugefügt haben, können Sie mit der Erstellung unseres eigenen Datenstroms fortfahren. Als Quellen habe ich folgende Daten ausgewählt:
- REST-Service, der Informationen zu allen Charakteren im Marvel-Universum zurückgibt;
- REST-Service, der Informationen zu allen Ereignissen des Marvel-Universums zurückgibt;
- Datei im CSV-Format, die die Hauptteilnehmer am Bürgerkrieg angibt.
Schritt 1. VerbindenWir verbinden die Daten einzeln:

Als Ergebnis erhalten wir drei verbundene Datenquellen:

- teilnehmer_marvel_raw - service;
- zeichen_marvel_raw - service;
- events_marvel_raw - Datei im CSV-Format.
Schritt 2. KonvertierenNach dem Verbinden der Daten erstellen wir Datensätze (Datasets), in denen wir die erforderlichen Transformationen (Datenbereinigung, Berechnungen oder beispielsweise Parsen von Daten aus JSON) mithilfe von SQL-Skripten durchführen.
select k.id, k.name, k.com.name as comics_name, k.ser.name as series_name, k.stor.name as stories_name, k.event.name as events_name from ( select a.id, a.name, flatten(a.comics) as com, flatten(a.series) as ser, flatten(a.stories) as stor, flatten(a.events) as event from ( select c.`data`.id as id, c.`data`.name as name, c.`data`.comics.`items` as comics, c.`data`.series.`items` as series, c.`data`.stories.`items` as stories, c.`data`.events.`items` as events from ( select t.res.`data`.`results` as `data` from ( select convert_from(a.content, 'JSON') res from `characters_marvel_raw` a ) t ) c ) a ) k
Als Ergebnis erhalten wir analysierte Daten:

Und eine solche Kette von Datenströmen:

Nach dem Verbinden und Konvertieren der Daten kann die Zugriffsgeschwindigkeit auf die empfangenen Informationen immer noch niedrig sein (aufgrund der langen Antwort der Quelle oder aufgrund der großen Datenmenge). Hier funktioniert der Mechanismus der „Materialisierung“ (Speicherung) von Daten im
iDVP.Data SaaS selbst. Der Zugriff auf gespeicherte Daten ist extrem schnell, selbst wenn mit BigData-Technologien mit großen Informationsmengen gearbeitet wird. Gespeicherte Daten können jederzeit (ganz oder teilweise) aktualisiert und der Zeitplan angepasst werden, nach dem das System sie automatisch aktualisiert.
Somit ist es möglich, historische Daten zu akkumulieren, auch wenn die Quelle selbst dies nicht unterstützt. Die Materialisierung hilft auch dabei, weiter mit Daten zu arbeiten, wenn auf die Quelle nicht mehr
zugegriffen werden kann, indem
iDVP.Data SaaS im Dateisystem gespeichert wird.
Schritt 3. PostenWir erstellen eine Datenpräsentation (Webdienst), die auch eine SQL-Abfrage darstellt. In der Datenpräsentation können Sie die Eingabe- und Ausgabeparameter definieren.

Sobald die Data Marts erstellt sind, können sie öffentlich veröffentlicht und in ihren externen Systemen verwendet werden.


Der resultierende Service kann zum Erstellen von Berichten und 3D-Anwendungen verwendet werden. So haben wir beispielsweise die Daten der
Wahlen 2018 visualisiert.
PS Schlussfolgerungen
Erste SchlussfolgerungWir haben uns an die Comic-Reihe erinnert, in der der Unendlichkeitskrieg erwähnt wird, und hier ist, was wir bekommen haben:
- 57 Charaktere nahmen teil;
- 5 nicht bestätigt;
- 15 starben.
Zweite SchlussfolgerungWenn Sie schnell und einfach mit den Daten umgehen müssen, können Sie das
SaaS- System
iDVP.Data verwenden, das sich derzeit im Betatest befindet. Unser Team hofft, dass unter Ihnen, die diese Geschichte bis zum Ende gelesen haben, diejenigen sind, die die ersten Tester unseres neuen Tools sein werden.
Damit können Sie selbständig:
- Verbindung zu verschiedenen Quellen herstellen;
- einheitlich Daten aus beliebigen Quellen empfangen;
- Führen Sie ETL-Datentransformationen mit SQL durch
- Erhöhen Sie die Datenverarbeitungsgeschwindigkeit mithilfe von BigData-Technologien.
- Daten analysieren;
- Bereitstellung von Daten für externe Systeme;
- Führen Sie diese Vorgänge in einer bequemen und einfachen Oberfläche aus.
Vielen Dank im Voraus für Ihr Feedback!
Ein Beispiel für die Verwendung der Kommentare zum Beitrag:Statistiken zu Kommentaren .