Analis data tumpukan penuh

Analisis data sering diselenggarakan seperti ini: di sini kami memiliki pengembang repositori, dan di sini kami memiliki analis. Di DWH (gudang data, penyimpanan) mereka bisa SQL, dan analis kami dapat bekerja dengan Excel. Jika kita perlu menganalisis sesuatu, maka pergi ke analis, dan mereka pergi untuk data ke DWH untuk data. Tampaknya logis. Dan banyak yang menganggap bahwa ini adalah pembagian kerja yang normal. Dalam artikel ini saya ingin menyampaikan gagasan bahwa pembagian kerja ini keliru dan secara dramatis mengurangi efisiensi dan produktivitas seluruh proses analisis data.


Siklus kerja khas pada masalah analitis terlihat seperti ini:


  1. Sebuah bisnis muncul dengan masalah dan meminta jawaban.
  2. Analis sedang mendiskusikan dengan bisnis apa yang perlu dilakukan.
  3. Analis menyadari bahwa mereka menginginkan bisnis dari mereka dan memahami apa yang secara kasar mereka butuhkan dalam data.
  4. Analis menulis kueri dalam DWH untuk mendapatkan data.
  5. DWH mengambil permintaan, membaca, bertanya, mengklarifikasi, mengambil data, memberi.
  6. Analis memahami bahwa mereka tidak mengambil semuanya atau salah paham, mereka menulis permintaan lagi di DWH untuk mendapatkan data.
  7. DWH mengambil permintaan, membaca, bertanya, mengklarifikasi, mengambil data, memberi.
  8. Analis memahami bahwa mereka tidak mengambil semuanya atau salah paham, mereka menulis permintaan lagi di DWH untuk mendapatkan data.
  9. Ulangi langkah 7 dan 8

Suatu ketika, orang-orang di DWH mengatakan mereka tidak dapat memberikan data atau tidak siap untuk memproses begitu banyak permintaan dari analis. Sebagai tanggapan, analis mulai mengumpulkan data mereka jauh dari DWH dalam beberapa jenis excel. Di sana mereka mulai mengumpulkan proses ETL mereka, yang mereka bisa, berdasarkan apa yang bisa mereka dapatkan dari DWH "tanpa perlawanan".


Apa yang kita miliki sebagai hasilnya:


  1. DWH tidak cukup menutupi kebutuhan konsumen (yah, pada bagian DWH, sepertinya pengguna tidak tahu apa yang mereka inginkan).
  2. Analis mulai menulis proses ETL yang buruk dan membuat DWH semu menurut volume data mereka, tetapi tanpa cadangan, kontrol akses, kinerja rendah, dll.
  3. Interaksi DWH dan analis menderita karena Seseorang tidak peduli tentang bisnis, dan yang kedua tidak mengerti "bahasa burung" yang lazim.
  4. Proses mendapatkan jawaban untuk pertanyaan bisnis tertunda, karena sekarang proses pemrosesan data adalah sekelompok pekerjaan manual di luar DWH. Dan mengapa kami membangun DWH, kecuali untuk satu repositori?
  5. Perubahan kecil dalam pernyataan masalah dari bisnis memulai siklus analisis data dari hampir nol, karena DWH sekali lagi tidak akan menunjukkan fleksibilitas, dan analis tidak akan memiliki data dalam konteks baru.

Apa yang bisa menjadi solusinya? Jika Anda ingin menyingkirkan masalah interaksi antara DWH dan analis, maka Anda harus mendekatkan kompetensi DWH dan analis. Seseorang yang menggabungkan kompetensi ini dapat disebut analis data.


Apa yang harus dilakukan oleh Analis Data Stack Lengkap?


  1. Bekerja dengan sumber data mentah, memahami cara kerja penyimpanan data.
  2. Untuk merumuskan apa yang perlu diubah dalam repositori dalam hal konten data, data apa yang akan ditambahkan dan bagaimana memprosesnya secara metodologis sehingga pengembang DWH hardcore dapat mengimplementasikannya.
  3. Memahami kebutuhan bisnis, mendiskusikan persyaratan dan membantu pelanggan Anda, internal atau eksternal, merumuskan masalah dan solusi untuk itu.
  4. Mampu merancang solusi analitis, mis. memahami bagaimana menyelesaikan masalah, data apa yang dibutuhkan, apa yang perlu β€œditemukan”, asumsi apa yang perlu dibuat
  5. Mampu memvisualisasikan hasil Anda dan melaporkan kepada pelanggan Anda (internal atau eksternal)
  6. Untuk dapat membuat studi "direproduksi", ini adalah analisis yang selalu dapat diulang pada data yang sama dan mendapatkan hasil yang sama. Untuk melakukan ini, Anda harus dapat bekerja dengan R / python atau sistem yang memungkinkan Anda memformalkan proses analisis.

Jika Anda menggabungkan kompetensi teknis dan analitik dalam satu analitik, maka Anda mendapatkan karyawan yang benar-benar integral yang dapat menyelesaikan masalah ujung ke ujung. Dan ini sangat penting untuk tugas analitis, seperti hanya analis ini yang memiliki pemahaman tentang apa yang dia lakukan dan mengapa. Pembagian menjadi mereka yang "menganalisis" dan mereka yang "memproses data" mengarah pada fakta bahwa masing-masing karyawan ini dinonaktifkan: analis tidak memiliki tangan, karena tidak bisa mendapatkan dan memproses apa pun pada skala, dan insinyur data "tanpa otak", seolah-olah. Dia tidak berpikir bagaimana itu akan digunakan dan hipotesis apa yang ada.


Pembagian kerja sangat penting, tetapi harus dilakukan dalam bidang yang sedikit berbeda. Analis harus bisa mendapatkan semua yang dia butuhkan untuk analisis, dan tugas Insinyur Data adalah membangun sistem yang secara efektif menyediakan data di setiap bagian yang mungkin menarik bagi analis. Untuk Insinyur Data, ini berarti bahwa data harus disimpan dalam bentuk yang agak fleksibel, tetapi pada saat yang sama dalam bentuk yang nyaman untuk digunakan: didenormalisasi sebagian, sebagian dengan akses melalui kubus, sebagian diagregasi dan dihitung sebagian.


Dan jika Anda tidak dapat menemukan Full Stack Analyst untuk Anda sendiri, maka paling tidak sertakan Data Engeneer dalam tim analisis sehingga kompetensi dalam bekerja dengan data tidak ditransfer dari analisis ke layanan eksternal.


Bukan urusan analis data untuk mendukung pengambilan data dari google adwords API, tetapi bukan urusan Data Engeneer untuk menulis pilih untuk mendapatkan data pendapatan selama sebulan terakhir.

Source: https://habr.com/ru/post/id427999/


All Articles