Mengukur tujuh kali, sekali menerapkan alat BI

Belum lama ini, saya dihadapkan dengan tugas untuk beralih ke sistem BI baru untuk perusahaan kami. Karena saya harus menyelam lebih dalam dan menyeluruh ke dalam masalah ini, saya memutuskan untuk berbagi pemikiran saya tentang hal ini dengan komunitas terkemuka.

gambar
Di Internet ada banyak artikel tentang topik ini, tetapi, yang sangat mengejutkan saya, mereka tidak menjawab banyak pertanyaan saya tentang memilih alat yang tepat dan agak dangkal. Dalam 3 minggu pengujian, kami menguji 4 alat: Tableau, Looker, Periscope / Sisense, Mode analytics . Alat-alat ini terutama akan dibahas dalam artikel ini. Saya harus segera mengatakan bahwa artikel yang diusulkan adalah pendapat pribadi penulis, yang mencerminkan kebutuhan perusahaan IT yang kecil tetapi berkembang sangat pesat :)

Beberapa kata tentang pasar


Sekarang, perubahan yang cukup menarik sedang terjadi di pasar BI, konsolidasi sedang berlangsung, pemain teknologi cloud besar berusaha memperkuat posisi mereka dengan mengintegrasikan secara vertikal semua aspek kerja dengan data (penyimpanan data, pemrosesan, visualisasi). Selama beberapa bulan terakhir, ada 5 pengambilalihan besar: Google membeli Looker, Salesforce membeli Tableau, Sisense membeli Periscope Data, Logi Analytics membeli Zoomdata, Alteryx membeli ClearStory Data. Kami tidak akan terjun lebih jauh ke dunia korporat merger dan akuisisi, perlu dicatat bahwa perubahan lebih lanjut baik dalam kebijakan penetapan harga dan proteksionis dari pemilik baru alat BI dapat diharapkan (seperti alat Alooma baru-baru ini memuaskan kami, tak lama setelah pembelian mereka oleh Google, mereka berhenti mendukung semua sumber data kecuali Google BigQuery :)).

Sedikit teori


Jadi, saya ingin memulai dengan bagian teoritis kecil, karena sekarang di mana tanpa teori. Seperti yang dikatakan Gartner kepada kami, sistem BI adalah istilah yang menggabungkan produk perangkat lunak, alat, infrastruktur, dan praktik terbaik, yang memungkinkan kami meningkatkan dan mengoptimalkan keputusan [1]. Definisi ini juga termasuk penyimpanan data dan ETL. Dalam artikel ini, saya mengusulkan fokus pada segmen yang lebih sempit, yaitu, produk perangkat lunak untuk visualisasi dan analisis data.

Dalam piramida menciptakan nilai bagi perusahaan (saya memiliki keberanian untuk mengusulkan presentasi lain dari struktur yang jelas ini pada Gambar. 0), alat BI terletak setelah blok untuk menyimpan catatan dan pemrosesan data awal (ETL).

Ini penting untuk dipahami - praktik terbaik dalam hal ini adalah pemisahan tugas ETL dan BI . Selain proses kerja data yang lebih transparan, Anda juga tidak akan terikat pada satu solusi perangkat lunak dan akan dapat memilih alat yang paling cocok untuk masing-masing tugas ETL dan BI. Dengan proses ETL yang terstruktur dengan baik dan arsitektur tabel data yang optimal, Anda umumnya dapat menutup 80% dari semua masalah bisnis yang mendesak tanpa menggunakan perangkat lunak khusus. Ini, tentu saja, akan membutuhkan keterlibatan yang signifikan dari para analis dan DS. Oleh karena itu, kita sampai pada pertanyaan utama: apa yang sebenarnya kita butuhkan pertama-tama dari produk perangkat lunak BI?

gambar
Fig. 0

Kriteria utama untuk memilih produk perangkat lunak BI


Seperti yang telah kita pahami, semua metrik utama dan indikator kinerja perusahaan secara keseluruhan dapat diambil langsung dari tabel analitis dalam database yang sebelumnya disiapkan sebagai bagian dari proses ETL (Saya akan memberi tahu Anda di artikel berikutnya cara membangun proses ETL secara optimal. Sementara itu, saya akan memberikan alasan mengapa ini sangat penting: menurut jajak pendapat Kaggle, kesulitan utama yang setengah dari wajah DS adalah data kotor [2]). Masalah utama dalam kasus ini, tentu saja, adalah kompleksitas dan ketidakefisienan dalam menggunakan waktu analis. Alih-alih membuat produk lengkap, analis / DS akan menyiapkan indikator setiap saat, menghitung metrik, memeriksa perbedaan dalam angka, mencari kesalahan dalam kode SQL dan melakukan kegiatan tidak membantu lainnya. Di sini saya yakin bahwa hal utama yang harus dilakukan oleh analis / DS adalah menciptakan produk yang membawa nilai bagi perusahaan dalam jangka panjang. Ini dapat berupa layanan penyelesaian / prediksi, yang hasilnya merupakan bagian dari produk utama perusahaan (misalnya, algoritme untuk menghitung biaya / waktu perjalanan) atau, misalnya, algoritme untuk mendistribusikan pesanan di antara pelanggan, atau laporan analitik lengkap yang mengidentifikasi alasan keluarnya pengguna dan penurunan MAU .

Oleh karena itu, kriteria utama untuk memilih sistem analitis harus kemampuan untuk membongkar analis sebanyak mungkin dari masalah ad hoc dan fluiditas. Bagaimana ini bisa dicapai? Sebenarnya, ada dua opsi: a) mengotomatiskan, b) mendelegasikan. Dengan paragraf kedua, maksud saya ungkapan Self Service yang sekarang populer - untuk memberi peluang pada bisnis menggali data itu sendiri.

Artinya, analis mengatur produk perangkat lunak sekali: membuat kubus data, mengatur pembaruan kubus otomatis (misalnya, setiap malam), secara otomatis mengirim laporan, menyiapkan beberapa penyihir dashboard dan mengajari pengguna cara menggunakan produk. Lebih jauh, bisnis menyediakan kebutuhan tambahannya secara independen, dengan menghitung indikator yang diperlukan untuknya dalam berbagai agregasi data dan penyaringan menggunakan opsi seret & lepas yang sederhana dan dapat dipahami.

Selain kesederhanaan proses pelaporan, kecepatan eksekusi permintaan juga penting . Tidak ada yang akan menunggu 15 menit untuk bulan sebelumnya untuk memuat data atau metrik untuk kota lain. Untuk mengatasi masalah ini, ada beberapa pendekatan yang diterima secara umum. Salah satunya adalah pembuatan kubus data OLAP (pemrosesan analitik online). Di kubus OLAP, tipe data dibagi menjadi dimensi (dimensi) - ini adalah bidang yang dengannya agregasi dapat dilakukan (misalnya, kota, negara, produk, interval waktu, jenis pembayaran ...), dan ukuran dihitung metrik untuk pengukuran (mis. jumlah perjalanan, pendapatan, jumlah pengguna baru, rata-rata cek, ...). Kubus data adalah alat yang agak kuat yang memungkinkan Anda untuk dengan cepat menghasilkan hasil menggunakan data pra-agregat dan metrik terhitung. Sisi lain dari kubus OLAP adalah kenyataan bahwa semua data telah dikumpulkan sebelumnya dan tidak berubah hingga kubus berikutnya dibuat. Jika Anda memerlukan agregasi data atau metrik yang awalnya tidak dihitung, atau jika Anda membutuhkan data yang lebih baru, maka Anda perlu membuat ulang kubus data.

Solusi lain untuk meningkatkan kecepatan bekerja dengan data adalah solusi dalam memori . In Memory Database (IMDB) dirancang untuk memberikan kinerja maksimum ketika ada cukup RAM untuk menyimpan data. Sementara basis data relasional dirancang untuk memberikan kinerja maksimum ketika data tidak sepenuhnya ditempatkan dalam RAM, dan I / O disk yang lambat harus dilakukan secara real time. Banyak alat modern menggabungkan kedua solusi ini (misalnya, Sisense, Tableau, IBM Cognos, MicroStrategy, dll.).

Sebelum itu, kami berbicara tentang kesederhanaan dan kenyamanan menggunakan alat BI untuk pengguna bisnis. Penting untuk menyiapkan pengembangan dasbor yang nyaman dan proses rilis untuk analis / DS. Di sini situasinya mirip dengan produk TI lainnya - Anda memerlukan proses penyebaran yang cepat dan nyaman ( waktu pemasangan cepat ), serta proses pengembangan yang bijaksana, pengujian, tinjauan kode, rilis, kontrol versi, kontrol tim, kolaborasi tim. Semua ini dikombinasikan dengan konsep alur kerja.

Dengan demikian, kami sampai pada persyaratan utama untuk produk perangkat lunak BI . Persyaratan yang sama membentuk dasar dari peta kecepatan, yang pada dasarnya kami akhirnya memilih pemasok produk.

Tabel 1. Kriteria pemilihan alat BI.
Tidak.PersyaratanDeskripsiSignifikansi (min = 1, maks = 5)
1UX + seret & lepasDiperlukan antarmuka seret & lepas yang mudah diakses dan dapat diakses oleh pengguna untuk pengguna bisnis.5
2Penanganan dataBagaimana data disimpan dan diproses oleh sistem. Ini adalah mekanisme seperti OLAP dan solusi dalam memori yang telah kita bicarakan di atas. Semakin cepat dan mudah akses ke data diatur, semakin baik.5
3Alur kerjaDiperlukan waktu penyebaran yang cepat dan nyaman. Juga ulasan kode, kontrol versi, pengembangan & rilis.5
4VisualisasiHimpunan visualisasi data tersedia. Pilihan yang lebih berbeda untuk menyajikan data - semakin baik.4
5DukunganKetersediaan dukungan, SLA untuk menanggapi permintaan.3
6StatistikKemampuan untuk menggunakan metode statistik, integrasi dengan Python.2
7HargaSemuanya jelas di sini, Lebowski :)4


Tabel akhir hasil pemungutan suara dalam tim kami adalah sebagai berikut:

Tabel 2. Hasil voting untuk memilih alat BI.
Tidak.PersyaratanRelevansiTabloPenampilPeriskopMode
1UX + seret & lepas54.34.62.72.8
2Penanganan data54.43.53.62.3
3Alur kerja53.14.83.83.3
4Visualisasi43.83.73.42.1
5Dukungan33.74.23.83.4
6Statistik22.32.22.52.8
7Harga44243
Total3.773.793.432.79

Pada bagian dari pengguna bisnis (mereka juga mengambil bagian dalam pemilihan produk), suara dibagi kira-kira sama antara Tableau dan Looker. Alhasil, pilihan itu dibuat demi Looker. Mengapa Looker dan apa perbedaan mendasar antara alat, sekarang kita akan membahas.

Deskripsi alat terperinci


Jadi, mari kita mulai dengan deskripsi BI-tools.

  1. Tablo

    (di sini kita akan berbicara tentang paket layanan tambahan: Tableau Online)
    1. UX + seret & lepas.
      Tableau adalah alat yang cukup lama di pasaran sejak 2003, dan ada perasaan bahwa antarmuka tidak banyak berubah sejak itu. Anda mungkin takut dengan opsi pop-up dan drop-down dengan gaya Windows XP (Gbr. 1, Gbr. 2). Tetapi cukup cepat Anda dapat membiasakan diri dan menguasai fungsionalitas dasar alat ini. Tableau mengingatkan banyak versi Excel yang canggih, ia memiliki tab (lembar kerja) dan dasbor (Dasbor) - kombinasi visualisasi yang diperoleh di lembar kerja. Opsi seret & lepas cukup mudah digunakan, filter pada grafik mudah dikonfigurasikan dan diubah (Gbr. 3, Gbr. 4). Tableau memiliki dua versi layanan: Desktop dan Desktop + Online. Desktop lebih kuno - sebenarnya, Excel canggih. Versi online untuk periode pengujian sering kali dipertimbangkan dan kadang-kadang berakhir dengan memperbarui halaman tanpa menyimpan pekerjaan Anda.

      gambar
      Fig. 1

      gambar
      Fig. 2


      Fig. 3


      Fig. 4

    2. Penanganan data.
      Tableau menangani data dengan sangat cepat, mengubah filter waktu atau agregasi terjadi dalam hitungan detik bahkan pada volume data yang besar (lebih dari 20 juta catatan). Seperti yang telah kami katakan, untuk ini, Tableau menggunakan kubus data OLAP dan mesin data in-memory. Tableau mengklaim bahwa berkat solusi internal dalam memori Hyper, kecepatan eksekusi kueri telah meningkat 5 kali lipat .

      Kubus data dapat dikonfigurasi pada versi lokal Tableau Desktop dan diunduh atau diperbarui pada server jaringan, dalam hal ini semua dasbor yang dibangun pada versi sebelumnya dari rakitan kubus akan diperbarui secara otomatis. Pembaruan kubus dapat dikonfigurasi secara otomatis, misalnya, pada malam hari. Semua pengukuran dan ukuran (dimensi dan ukuran) ditetapkan di muka saat merakit kubus dan tidak berubah hingga versi rakitan berikutnya. Bersama dengan penggunaan kubus data di Tableau, adalah mungkin untuk mengakses database secara langsung, ini disebut koneksi langsung, dalam hal ini kecepatan akan jauh lebih rendah, tetapi data akan lebih relevan. Proses merakit kubus data cukup sederhana, hal utama adalah memilih bidang yang benar untuk merakit beberapa tabel (bergabung) (Gbr. 5).

      gambar
      Fig. 5

    3. Alur kerja
      Karena titik inilah kami tidak memilih Tableau di masa depan. Menurut parameter ini, Tableau cukup tertinggal di belakang industri dan tidak bisa menawarkan alat apa pun untuk menyederhanakan pengembangan dan pelepasan dasbor. Tableau tidak menyediakan kontrol versi, tinjauan kode, kolaborasi tim, juga tidak ada pengembangan yang dipikirkan dengan baik dan lingkungan pengujian. Justru karena ini bahwa perusahaan sering meninggalkan Tableau demi alat yang lebih maju. Sudah dengan beberapa karyawan yang terlibat dalam membuat kubus dan dasbor data, kebingungan dapat muncul - di mana menemukan versi terbaru dari data, metrik mana yang dapat digunakan dan mana yang tidak bisa. Ada kurangnya integritas data, yang mengarah pada ketidakpercayaan bisnis pada metrik yang dilihatnya dalam sistem.

    4. Visualisasi
      Dalam hal visualisasi data, Tableau adalah alat yang sangat kuat. Anda dapat menemukan bagan dan grafik untuk setiap rasa dan warna (Gbr. 6). Visualisasi data - halaman, seperti di Excel, Anda dapat beralih antar tab.

      gambar
      Fig. 6

    5. Dukungan
      Dari sudut pandang dukungan Tableau, bagi saya tampaknya tidak terlalu berorientasi pada pelanggan , saya harus menemukan jawabannya sendiri untuk sebagian besar pertanyaan. Untungnya, Tableau memiliki komunitas yang agak besar di mana Anda dapat menemukan jawaban untuk sebagian besar pertanyaan.

    6. Statistik
      Tableau memiliki kemampuan untuk berintegrasi dengan Python, lebih banyak detail dapat ditemukan.

    7. Harga
      Harga yang cukup standar untuk pasar, dapat ditemukan di situs web resmi. Harga tergantung pada tingkat pengguna (Pengembang, Explorer, Penampil), deskripsi dapat ditemukan di sana . Saat menghitung 10 Pengembang, 25 Penjelajah dan 100 Pemirsa, $ 39.000 / tahun keluar per tahun.


  2. Penampil


    1. UX + seret & lepas.
      Looker adalah perusahaan yang relatif muda, didirikan pada 2012. UX jelas dan sederhana bagi pengguna, drag & drop mudah diterapkan (Gbr. 7).

      gambar
      Fig. 7

    2. Penanganan data.
      Bekerja dengan data di Looker terasa lebih lambat daripada di Tableau . Alasan utamanya adalah bahwa Looker membuat kueri langsung ke database tanpa membuat kubus OLAP. Seperti yang kita diskusikan, pendekatan ini memiliki kelebihan - fakta bahwa data selalu segar dan agregasi data apa pun dapat dilakukan. Looker juga menyediakan alat untuk mempercepat kueri kompleks - Cached Queries , yaitu kemampuan untuk men-cache kueri.

    3. Alur kerja
      Keunggulan utama Looker dibandingkan dengan semua alat BI yang kami uji adalah pengembangan dasbor dan proses rilis yang dipikirkan dengan baik . Looker mengintegrasikan kontrol versi menggunakan github . Lingkungan pengembangan ( mode Produksi) dan lingkungan produktif (Gbr. 8) juga terpisah dengan baik. Keuntungan lain dari Looker adalah bahwa akses ke pemodelan data tetap di tangan yang sama - hanya ada satu versi master dari model data, yang menjamin integritas.
      Masuk akal di sini untuk juga menyebutkan bahwa Looker memiliki analog sendiri dari bahasa SQL dengan fitur tambahan untuk pemodelan data - LookML. Ini adalah alat yang cukup sederhana dan fleksibel yang memungkinkan Anda untuk menyesuaikan fungsionalitas drag & drop dan menambahkan banyak opsi baru (Gbr. 9).

      gambar
      Fig. 8

      gambar
      Fig. 9

    4. Visualisasi
      Dari sudut pandang visualisasi, Looker tidak jauh lebih rendah daripada Tableau, di dalamnya Anda dapat menemukan bagan dan bagan sesuai selera Anda. Pengorganisasian bagan adalah vertikal, tidak seperti Tableau, di mana pengorganisasian diberi paginasi (Gbr. 10, Gbr. 11). Salah satu fitur yang bermanfaat bagi pengguna bisnis adalah menelusuri - kemampuan untuk mengelompokkan data yang dipilih dalam dimensi yang telah ditentukan.

      gambar
      Fig. 10

      gambar
      Fig. 11

    5. Dukungan
      Dukungan dari konsultan bisnis dan pakar teknis di Looker, harus saya katakan, mengejutkan - kami dapat menjadwalkan panggilan video dalam waktu setengah jam untuk masalah apa pun dan mendapatkan jawaban lengkap. Tampaknya Looker benar-benar menghargai pelanggan mereka dan mencoba menyederhanakan hidup mereka.

    6. Statistik
      Looker memiliki API - Look API dan SDK untuk Python, dengan bantuan mereka Anda dapat terhubung ke Looker dari Python dan mengunduh informasi yang diperlukan, kemudian melakukan transformasi dan analisis statistik yang diperlukan dalam Python dan memuat hasilnya kembali ke dalam database dengan output berikutnya kepada para pengunjung di dashboard.

    7. Harga
      Biaya Looker jauh lebih besar daripada Tableau , untuk pengguna yang serupa Looker keluar hampir 2 kali lebih mahal daripada Tableau - sekitar $ 60.000 / tahun.


  3. Periskop


    1. UX + seret & lepas.
      Periscope adalah alat yang cukup mudah digunakan dengan fungsi terbatas . Ada juga fungsi seret & lepas, tetapi filter untuk bagan yang berbeda harus dibuat secara terpisah, yang tidak nyaman (Gbr. 12). Anda tidak dapat melakukannya tanpa SQL untuk membuat kueri yang sedikit lebih rumit.

      gambar
      Fig. 12

    2. Penanganan data.
      Periscope memiliki persilangan antara kubus OLAP dan caching permintaan. Di dalamnya, Anda dapat membuat Tampilan dan menyimpannya. View adalah sembarang SQL-query, untuk caching-nya perlu untuk mengklik tombol 'materialize' dalam pengaturan View ini (Gbr. 13). Anda juga dapat menerbitkan Tampilan 'terbitkan' sehingga Anda dapat menggunakannya untuk menarik & melepas.

      gambar
      Fig. 13

    3. Alur kerja
      Periscope Pro mengintegrasikan kontrol versi menggunakan git. Ada juga peluang untuk melihat riwayat perubahan pada dasbor apa pun dan memutar kembali ke versi sebelumnya.

    4. Visualisasi
      Kumpulan bagan dan bagan sangat terbatas, Anda tidak dapat menemukan variasi di sini seperti di Tableau atau Looker.

    5. Dukungan
      Dukungan cukup operasional, jika Anda membuat amandemen bahwa pusat dukungan beroperasi pada Waktu Standar Pasifik. Dalam 24 jam, Anda pasti akan menerima respons.

    6. Statistik
      Periscope memiliki integrasi dengan Python. Rincian lebih lanjut dapat ditemukan di sini .

    7. Harga
      Periscope Pro akan menelan biaya kira-kira seperti Tableau: $ 35.000.


  4. Analisis mode


    1. UX + seret & lepas.
      Mode adalah alat yang paling sederhana. Perbedaan utamanya adalah integrasi dengan Python dan kemampuan untuk membuat laporan analitis berdasarkan pada Notebook Jupyter (Gbr. 14). Jika Anda belum membangun proses pembuatan laporan analitik menggunakan Jupyter Notebook, maka alat ini mungkin berguna bagi Anda. Mode lebih merupakan tambahan dari sistem BI penuh, fungsinya sangat terbatas, untuk tujuan membuat dasbor, Anda dapat menggunakan tabel tidak lebih dari 27 ribu baris, yang sangat membatasi kemampuan alat (Gbr. 15). Jika tidak, Anda perlu menulis kueri SQL terpisah untuk setiap grafik untuk mengumpulkan data dan mendapatkan tabel dimensi yang lebih kecil untuk visualisasi (Gbr. 16).

      gambar
      Fig. 14

      gambar
      Fig. 15

      gambar
      Fig. 16

    2. Penanganan data.
      Dalam Mode seperti itu, penanganan data tidak ada. Semua pertanyaan dibuat langsung ke database, tidak ada cara untuk men-cache tabel utama.

    3. Alur kerja
      Mode memiliki integrasi dengan Github, detail lebih lanjut dapat ditemukan di sini .

    4. Visualisasi
      Himpunan visualisasi data sangat terbatas, ada 6-7 jenis grafik.

    5. Dukungan
      Selama periode pengujian, dukungan cukup operasional.

    6. Statistik
      Seperti yang telah disebutkan, Mode terintegrasi dengan Python, yang memungkinkan Anda membuat laporan analitik yang ramah pengguna menggunakan Jupyter Notebook.

    7. Harga
      Mode, anehnya, cukup mahal untuk kemampuannya - sekitar $ 50.000 / tahun.




Kesimpulan


Pilihan penyedia alat BI harus didekati dengan seksama, dengan dukungan pengguna bisnis dan menentukan kriteria utama untuk memilih alat (lebih disukai dalam bentuk peta kecepatan). Kriteria yang disajikan dalam artikel ini terutama ditujukan untuk meningkatkan efisiensi bekerja dengan data, menyederhanakan proses penggalian informasi, meningkatkan kualitas visualisasi data dan mengurangi beban analis.


Sumber


  1. Gartner, Kecerdasan Bisnis - BI - Gartner IT Glosarium
  2. Kaggle
  3. Tablo - Hiper
  4. ZDNet - Salesforce-Tableau, aliran transaksi BI lainnya
  5. Situs web Tableau
  6. Situs web pencari
  7. Situs web Periscope
  8. Situs web analitik mode

Source: https://habr.com/ru/post/id460807/


All Articles