Marvel: Infinity War atau Cara mengumpulkan data untuk proyek Anda dalam beberapa menit



Saya memiliki dua bidang minat. Yang pertama: masyarakat analis data malas anonim, yang kedua: masyarakat Geeks anonim. Dan jika semuanya baik-baik saja dengan yang kedua, maka dengan yang pertama semuanya lebih rumit. Ketika Anda memberi tahu orang-orang tugas apa yang dipecahkan oleh analis data, apa yang mereka wakili? Demi percobaan, dia memperkenalkan definisi ke Google dan yang pertama:
Seorang analis data adalah spesialis serbaguna yang memiliki pengetahuan dalam matematika, statistik, ilmu komputer, ilmu komputer, bisnis dan ekonomi. Analis Big Data mempelajari kumpulan data besar yang berisi informasi yang berbeda, misalnya: hasil penelitian, tren pasar, preferensi pelanggan, dll. Penelitian dan analisis informasi tersebut dapat mengarah pada penemuan ilmiah baru, meningkatkan efisiensi perusahaan, peluang baru untuk menghasilkan pendapatan, dan layanan pelanggan yang lebih baik. dll. Keahlian utama para ilmuwan data adalah untuk melihat koneksi logis dalam sistem informasi yang dikumpulkan dan atas dasar ini untuk mengembangkan solusi, model bisnis tertentu.

Definisi dari buduguru.org/profession/39 .

Spesialis universal, oke. Dilihat oleh deskripsi sesuatu antara Dr. Manhattan dan Stephen Hawking.


Namun, saya tidak akan masuk ke dalam semantik definisi ini, saya ingin berbicara tentang topik yang menyakitkan dari analis data (tidak, bukan yang mana omelan berbicara tentang kurangnya data). Dan bagaimana jika datanya IS?

Dan di sini kita pergi ke masalah-masalah berikut:

  • Alat apa yang dapat saya gunakan untuk mempelajari data ini?
  • Bagaimana cara mengubah susunan data ini?
  • Bagaimana cara menyimpannya? Apakah saya perlu menyimpannya?
  • Bagaimana jika ada banyak sumber, dan semuanya heterogen?

Baiklah Kami membentuk kumpulan masalah, tetapi apa yang harus dilakukan selanjutnya? Dalam artikel ini, saya akan berbicara tentang alat yang diterapkan tim pengembangan kami, yaitu sistem cloud SaaS iDVP.Data .

Apa ini

iDVP.Data SaaS adalah alat multifungsi untuk bekerja dengan data di cloud, yang memungkinkan Anda untuk menghubungkan berbagai data, mengonversinya, dan mengirimkannya ke sistem eksternal, seperti layanan web.

Perang tanpa batas


Di sini kami tanpa sadar berpotongan dengan bidang minat kedua: sebagai contoh, saya memutuskan untuk menghubungkan data Marvel terbuka ke iDVP . Data SaaS . Apakah semua orang menonton film baru tentang Perang Infinity? Setelah menonton film itu, saya tidak bisa tidak mengingat konflik besar-besaran lainnya di alam semesta Marvel, yang telah mengalami perubahan global dalam waralaba. Menjadi menarik bagi saya untuk mengingat berapa banyak karakter dari komik yang berpartisipasi dalam Perang Infinity, dan berapa banyak yang mati di dalamnya? Untuk menjawab pertanyaan-pertanyaan ini, saya beralih ke sumber yang paling dapat diandalkan - situs web resmi Marvel .



Pertama-tama, mari pergi ke situs web SaD iDVP.Data dan mendaftar.

Setelah itu, kita sampai ke halaman kerja pengguna, di mana ada ruang kerja dengan kasus demo uji. Mereka menyajikan aliran data dari menghubungkan sumber data ke etalase data.



Setelah memeriksa kasus uji dan menambahkan ruang kerja baru, mari beralih ke membuat aliran data kami sendiri. Sebagai sumber, saya memilih data berikut:

  • Layanan REST yang mengembalikan informasi tentang semua karakter di alam semesta Marvel;
  • Layanan REST yang mengembalikan informasi tentang semua peristiwa alam semesta Marvel;
  • file dalam format CSV, yang menunjukkan peserta utama dalam perang saudara.

Langkah 1. Hubungkan

Kami menghubungkan data satu per satu:



Akibatnya, kami mendapatkan tiga sumber data yang terhubung:



  • peserta_marvel_raw - layanan;
  • karakter_marvel_raw - layanan;
  • events_marvel_raw - file dalam format CSV.

Langkah 2. Konversi

Setelah menghubungkan data, kami membuat kumpulan data (Kumpulan Data), tempat kami melakukan transformasi yang diperlukan (pembersihan data, perhitungan, atau, misalnya, mem-parsing data dari JSON) menggunakan skrip SQL.

select k.id, k.name, k.com.name as comics_name, k.ser.name as series_name, k.stor.name as stories_name, k.event.name as events_name from ( select a.id, a.name, flatten(a.comics) as com, flatten(a.series) as ser, flatten(a.stories) as stor, flatten(a.events) as event from ( select c.`data`.id as id, c.`data`.name as name, c.`data`.comics.`items` as comics, c.`data`.series.`items` as series, c.`data`.stories.`items` as stories, c.`data`.events.`items` as events from ( select t.res.`data`.`results` as `data` from ( select convert_from(a.content, 'JSON') res from `characters_marvel_raw` a ) t ) c ) a ) k 

Akibatnya, kami mendapatkan data yang diuraikan:



Dan serangkaian aliran data:



Setelah menghubungkan data dan mengonversinya, kecepatan akses ke informasi yang diterima masih bisa rendah (karena respon panjang dari sumber atau karena jumlah data yang besar). Di sini mekanisme "materialisasi" (penyimpanan) data di SaaS iDVP.Data itu sendiri dipicu . Akses ke data yang tersimpan sangat cepat, bahkan ketika bekerja dengan volume besar informasi melalui penggunaan teknologi BigData. Data yang disimpan dapat diperbarui kapan saja (seluruhnya atau sebagian), serta menyesuaikan jadwal kapan sistem akan memperbaruinya secara otomatis.

Dengan demikian, dimungkinkan untuk mengumpulkan data historis, bahkan jika sumbernya sendiri tidak mendukung ini. Materialisasi juga membantu untuk terus bekerja dengan data jika sumber menjadi tidak dapat diakses dengan menyimpan SaaS iDVP. Data dalam sistem file.



Langkah 3. Posting

Kami membuat showcase data (layanan web), yang juga mewakili kueri SQL. Di showcase data, Anda dapat menentukan parameter input dan output.



Setelah data mart dibuat, mereka dapat dipublikasikan dalam domain publik dan digunakan dalam sistem eksternal mereka.




Layanan yang dihasilkan dapat digunakan untuk membuat laporan dan aplikasi 3D, seperti, misalnya, kami melakukan ini untuk memvisualisasikan data Pemilu 2018 .

Kesimpulan PS




Kesimpulan pertama

Kami ingat garis komik di mana Perang Infinity disebutkan, dan inilah yang kami dapatkan:

  • 57 karakter berpartisipasi;
  • 5 tidak dikonfirmasi;
  • 15 meninggal.

Kesimpulan kedua

Jika Anda perlu dengan cepat dan mudah mengatasi data, Anda dapat menggunakan sistem SaaS iDVP.Data , yang saat ini dalam pengujian beta. Tim kami berharap bahwa di antara Anda yang telah membaca kisah ini sampai akhir, ada orang-orang yang akan menjadi penguji pertama dari alat baru kami.

Dengan itu, Anda dapat secara mandiri:

  • terhubung ke berbagai sumber;
  • secara seragam menerima data dari sumber apa pun;
  • Lakukan transformasi data ETL menggunakan SQL
  • meningkatkan kecepatan pemrosesan data menggunakan teknologi BigData;
  • menganalisis data;
  • menyediakan data ke sistem eksternal;
  • melakukan operasi ini dalam antarmuka yang mudah dan sederhana.

Terima kasih sebelumnya atas tanggapan Anda!

Contoh penggunaan pada komentar ke pos:

Statistik pada komentar .

Source: https://habr.com/ru/post/id412579/


All Articles