Bagaimana teknologi di dalam memori telah mengubah kecerdasan bisnis

Sekitar 5 milidetik beralih dari permintaan ke respons jika data disimpan di hard drive. SSD merespons 30 kali lebih cepat - dalam 150 mikrodetik. RAM membutuhkan waktu 300.000 kali lebih sedikit - hanya 15 nanodetik. *



Anda dapat berbicara lama tentang bagaimana intelijen bisnis membantu keuangan atau logistik. Ada banyak cara untuk menerapkan informasi, yang baru muncul setiap saat. Tetapi prinsip operasi dari solusi analitis yang berbeda adalah sama dan terdiri dari penggabungan data dari sumber yang berbeda dan melihat mereka bersama - yaitu, secara keseluruhan.

Untuk menggunakan informasi dari beberapa sumber, Anda perlu menghubungkannya dan mengekstrak data. Tetapi data dibuat dengan cara yang berbeda, dengan frekuensi yang berbeda dan disimpan dalam format yang berbeda. Oleh karena itu, sebelum memvisualisasikan data atau mentransfernya ke sistem lain untuk diproses lebih lanjut, mereka harus dikombinasikan menggunakan beberapa operasi matematika - transformasi.

Teknologi dalam memori terdiri dari kenyataan bahwa semua data dari sumber yang berbeda dimuat sekaligus ke dalam RAM. Setelah ini, transformasi dapat dilakukan "on the fly", tanpa meminta disk. Misalnya, klik untuk memilih dimensi dan segera mendapatkan grafik yang akan menampilkan nilai indikator di bagian yang diinginkan. Karena semua data sudah ada dalam RAM, aplikasi analitis tidak perlu membuat permintaan ke hard disk untuk mendapatkan informasi baru.

Pendahuluan ini seharusnya membantu saya berbicara tentang bagaimana dan mengapa teknologi yang mendasari solusi analitis modern telah berubah.

Awalnya mahal


"Memori adalah drive baru," kata peneliti Microsoft Jim Gray pada awal 2000-an. Pada tahun 2003, ia menerbitkan sebuah artikel, "Ekonomi Komputasi Terdistribusi," ** di mana ia membandingkan biaya berbagai tahapan pemrosesan data komputer. Jim Gray menunjukkan bahwa perhitungannya harus di tempat yang sama dengan data - agar tidak dipindahkan lagi. Dia menyarankan untuk memindahkan perhitungan sedekat mungkin ke sumber data. Yaitu, filter data sedini mungkin dan simpan sebagai hasilnya.

Selama beberapa tahun ke depan, DBMS dalam memori muncul di pasar dari beberapa pemimpin industri, termasuk Oracle, IBM, dan SAP, serta beberapa proyek sumber terbuka - misalnya, Redis dan MemcacheDB.

Tugas pertama yang diselesaikan oleh memori DBMS bukanlah analitik bisnis atau bahkan aplikasi bisnis, tetapi peluang e-commerce yang terbuka sehubungan dengan ekstraksi informasi instan. Misalnya, DBMS dalam memori dapat memungkinkan toko online secara real time menawarkan produk kepada pelanggan berdasarkan preferensi mereka, atau untuk menampilkan iklan.

Pasar untuk solusi analisis data perusahaan telah berkembang di sepanjang jalur yang berbeda. Sebagian besar perusahaan terkait erat dengan sistem menggunakan DBMS transaksional, yang didasarkan pada prinsip-prinsip yang dikembangkan kembali di tahun 80-an abad terakhir. Tugas mereka adalah untuk terus-menerus menyimpan sebagian kecil data yang mengalir ke disk ke dan segera mengkonfirmasi integritas mereka (skenario kerja OLTP). Di antara sistem yang menggunakan DBMS tersebut adalah solusi ERP, sistem perbankan otomatis, penagihan, terminal POS.

Tetapi tugas analitis membutuhkan database yang sama sekali berbeda. Di sini Anda perlu cepat mengambil informasi yang disimpan sebelumnya. Selain itu, dalam jumlah besar - untuk setiap laporan analitis, mutlak semua data yang harus tercermin di dalamnya akan dibutuhkan. Bahkan jika laporan itu sendiri terdiri dari satu digit.

Selain itu, akan baik untuk mengunggah data sesering mungkin, karena volumenya bisa besar, dan memuat kumpulan data besar menggunakan kueri analitik akan mengalami beberapa kendala.

Pertama, hard drive yang menyimpan informasi adalah drive yang lambat. Kedua, struktur penyimpanan data dalam DBMS tradisional tidak akan memungkinkannya untuk dengan cepat melakukan kueri analitik. Data disimpan baris demi baris - saat diterima, sehingga secara fisik terdekat adalah nilai-nilai yang dimiliki oleh satu baris. Dan sebagai tanggapan terhadap permintaan analitis, database perlu mengembalikan nilai satu kolom, tetapi dari baris yang berbeda. Oleh karena itu, permintaan seperti itu lambat dan membuat beban besar pada sistem penyimpanan. Artinya, lokasi informasi pada disk diatur dengan cara yang tidak pantas.

Dengan demikian, DBMS tradisional, di mana semua informasi awal untuk analisis awalnya disimpan, kurang cocok untuk memainkan peran sumber data yang terhubung dengan sistem analitik. Oleh karena itu, pada abad yang lalu, untuk tugas analitis, praktik standar adalah dengan menggunakan model data perantara di mana semua nilai sudah dihitung pada beberapa titik waktu. Model data ini disebut "kubus analitik," atau kubus OLAP. Untuk membuat kubus OLAP, apa yang disebut proses ETL (ekstrak, transformasi, beban) dikembangkan - permintaan basis data dalam sistem sumber dan aturan yang dengannya transformasi data harus dilakukan. Jelas, jika tidak ada informasi dalam kubus OLAP, maka itu tidak dapat muncul dalam laporan.

Masalah dengan pendekatan ini adalah mahalnya solusi. Pertama, gudang data diperlukan, di mana indikator yang sudah dihitung sebelumnya akan ditempatkan. Kedua, jika kita membutuhkan indikator tertentu dalam konteks yang berbeda, maka untuk mendapatkannya, semua proses transformasi data dari sistem sumber ke kubus OLAP harus dibuat ulang dengan menulis ulang pertanyaan analitis. Kemudian hitung ulang seluruh kubus OLAP, yang membutuhkan waktu beberapa jam.

Misalkan kubus OLAP berisi informasi penjualan untuk berbagai negara. Tetapi CFO tiba-tiba ingin melihat penjualan berdasarkan kota, dan kemudian mengelompokkannya berdasarkan tagihan rata-rata. Untuk menerima laporan seperti itu, ia harus menghubungi departemen TI untuk membangun kembali kubus OLAP. Atau dia bisa memaksakan sesuatu dan menarik ahli MS Excel, yang akan membuat laporan seperti itu secara manual. Untuk melakukan ini, ia harus membongkar data dari sistem sumber ke dalam tabel menggunakan kueri analitik dan melakukan sejumlah manipulasi yang melelahkan dan tidak diumumkan bersama mereka.

Dalam kasus pertama, CFO harus menunggu. Di kedua, ia menerima angka yang sulit dipercaya.

Selain itu, solusinya ternyata sangat mahal. Itu perlu untuk menghabiskan uang untuk membuat repositori, yang harus dikelola. Itu perlu untuk menyewa spesialis DBMS untuk melakukan ETL - membangun kembali kubus OLAP untuk setiap tugas. Secara paralel, analis khusus biasanya muncul di perusahaan, yang membuat laporan permintaan (yang disebut laporan ad-hoc). Bahkan, mereka menemukan berbagai cara untuk mendapatkan laporan yang diinginkan menggunakan MS Excel dan mengatasi kesulitan yang terkait dengan fakta bahwa program ini dirancang untuk tugas-tugas lain.

Akibatnya, jalur pelaporannya mahal bahkan untuk perusahaan besar. Manajer dari usaha kecil dan menengah harus puas dengan peluang yang tersedia di MS Excel.

Solusinya ditemukan di tempat lain.


Pada tahun 1994, perusahaan QlikTech yang saat itu Swedia dari kota kecil Lund merilis program QuikView, yang kemudian dinamai QlikView. Aplikasi ini dirancang untuk mengoptimalkan produksi. Itu memungkinkan untuk mengetahui penggunaan bagian dan bahan mana yang saling berhubungan dan mana yang tidak. Artinya, program itu diperlukan untuk memvisualisasikan hubungan logis antara bagian, bahan, rakitan dan produk. Untuk melakukan ini, ia memuat ke set data memori RAM dari berbagai sumber, membandingkannya dan langsung menunjukkan koneksi.

Misalnya, ada beberapa meja dengan aktor, peran mereka dalam film, sutradara, genre, tanggal rilis, biaya - dengan apa pun. Semuanya dimuat ke dalam RAM. Sekarang Anda dapat mengklik parameter apa pun untuk memilihnya dan segera melihat semua yang terkait dengannya. Kami mengklik Brad Pitt - kami mendapatkan box office dari semua film yang dibintanginya. Pilih komedi - dapatkan jumlah komedi box office bersama Brad Pitt. Semua ini terjadi secara instan, dalam waktu nyata.

Meskipun pada tahun-tahun itu di pasar sistem informasi perusahaan tugas analitis diselesaikan dengan menggunakan model data menengah - OLAP cubes, pendekatan QlikTech ternyata jauh lebih nyaman. Itu diizinkan untuk meninggalkan tahap menengah dalam bentuk menghitung kubus OLAP dan sebagai hasilnya menghemat banyak.

Aplikasi analitik terhubung langsung ke sumber dan secara berkala memuat semua data yang diperlukan untuk laporan ke dalam RAM. Kebutuhan untuk mengubah proses ETL setiap kali untuk mendapatkan nilai-nilai indikator di bagian baru telah hilang - sekarang mereka dihitung secara real time pada saat permintaan. Tidak perlu lagi membuat dan mengelola data warehouse. Biaya kepemilikan solusi analitik telah anjlok.

Dengan proliferasi server 64-bit yang memungkinkan untuk bekerja dengan sejumlah besar RAM, teknologi dalam memori dengan cepat mulai mengubah kecerdasan bisnis. Ini diilustrasikan dengan baik oleh laporan dari perusahaan riset Magic Quadrant Gartner. Pada 2016, enam pengembang platform BI meninggalkan kuadran pemimpin sekaligus, termasuk veteran industri seperti IBM, Oracle dan SAP. Hanya ada tiga pemain yang mengandalkan teknologi di memori dan OLAP kubus yang ditinggalkan. Ini adalah Microsoft, Qlik dan Tableau.


Posisi Pemain di Magic Quadrant Gartner untuk Analisis dan Platform Intelejensi Bisnis ***

Kita dapat mengatakan bahwa Qlik telah menjadi pelopor dan pemimpin dalam transformasi pasar. Pada 2016, platform analisis data QlikView digunakan oleh pelanggan di seluruh dunia, dan penjualan tahunan melebihi $ 600 juta.

Dari laporan hingga manajemen berbasis data


Dengan penyebaran solusi analitis berbasis teknologi dalam memori, sejumlah besar perusahaan membuka cara yang sebelumnya tidak dapat diakses untuk menggunakan data perusahaan. Ada peluang untuk tidak terbatas pada laporan manajemen, yang merupakan standar untuk masing-masing industri. Berbagai proses mulai "mengukur" - untuk memperkenalkan metrik dan menggunakannya untuk menggambarkan proses. Menjadi lebih mudah menggunakan informasi objektif untuk membuat keputusan yang lebih tepat. Jumlah pengguna bisnis yang bekerja dengan data telah meningkat tajam.

Pengaruh besar pada minat dalam penggunaan data dibuat oleh perubahan perilaku konsumen dan pemasaran, yang menjadi digital - yaitu, berdasarkan metrik. Banyak orang baru tertarik pada Ilmu Data dengan harapan bagaimana dunia akan mengubah Big Data.

Sebagai hasil dari semua proses ini, "demokratisasi" data perusahaan dengan cepat terjadi. Sebelumnya, data milik layanan TI. Pemasaran, penjualan, intelijen bisnis, dan eksekutif menghubungi departemen TI untuk mendapatkan laporan. Sekarang karyawan bekerja dengan data sendiri. Ternyata akses langsung karyawan ke data dapat meningkatkan produktivitas dan memberikan keunggulan kompetitif.

Namun, solusi analitik berbasis teknologi memori dalam generasi pertama memberi peluang bisnis yang sangat terbatas kepada pengguna bisnis untuk menggunakan data. Mereka hanya bisa bekerja dengan panel dan dasbor siap pakai. Teknologi dalam memori memungkinkan mereka untuk "jatuh" jauh ke dalam indikator apa pun dan melihat apa yang terbuat dari apa. Tetapi selalu tentang indikator-indikator yang ditentukan sebelumnya. Studi ini terbatas pada visualisasi yang sudah ada di dashboard. Metode penggunaan data ini disebut "directional analytics" dan dia tidak berasumsi bahwa pengguna bisnis akan secara mandiri menghubungkan sumber-sumber baru dan membuat indikator dan visualisasi sendiri.

Langkah selanjutnya dalam demokratisasi data adalah swalayan. Gagasan swalayan adalah bahwa pengguna bisnis mengeksplorasi data, membuat visualisasi dan memperkenalkan indikator baru sendiri.

Perlu dicatat bahwa pada saat teknologi di dalam memori mulai mengubah analitik bisnis, tidak ada hambatan teknologi yang serius sebelum memberikan pengguna akses ke semua data. Mungkin pelanggan yang paling konservatif memiliki pertanyaan tentang kesesuaian fungsi tersebut. Tetapi dunia telah berbalik ke arah keinginan untuk "menghitung segalanya." Sekarang manajer yang tidak memiliki pendidikan matematika dan keterampilan pemrograman, juga membutuhkan alat yang akan memungkinkan mereka berbicara bahasa data.

Akses langsung ke data untuk analis bisnis telah membuka banyak peluang baru. Mereka dapat mengajukan dan menguji hipotesis apa pun, menerapkan metode Ilmu Data, mengidentifikasi ketergantungan seperti itu, yang keberadaannya sulit diprediksi sebelumnya. Sekarang Anda dapat menggabungkan data perusahaan internal dengan data eksternal yang diperoleh dari sumber pihak ketiga.

Pada September 2014, Qlik merilis generasi kedua platformnya, yang disebut Qlik Sense. Qlik Sense menggunakan arsitektur dan teknologi yang sama. Perbedaannya terletak pada pendekatan baru untuk menciptakan visualisasi. Sekarang visualisasi standar dapat dibuat dengan cepat hanya dengan menyeret dan menjatuhkan bidang dengan dimensi yang diinginkan ke lembar kerja. Penambangan data ini disederhanakan karena pengurangan yang sangat tajam dalam siklus penelitian. Tes hipotesis mulai hanya memakan waktu beberapa detik.

Mungkin pertumbuhan pesat dalam penjualan platform analitik swalayan sebagian besar disebabkan oleh kemudahan demonstrasi. Jika sebelumnya pelanggan harus membuat keputusan pembelian, mengingat slide presentasi, sekarang ia dapat menginstal program di komputernya, terhubung ke sumber dan dalam beberapa jam, mulai dari membuat dashboard hingga membukanya di datanya.

Ada data. Apa sekarang?


Teknologi dalam memori telah berdampak besar pada bagaimana bisnis menggunakan informasi saat ini. Menggabungkan dan mengeksplorasi data menjadi lebih mudah, dan itu adalah dorongan bisnis yang kuat menuju transformasi digital. Namun, bodoh untuk mengatakan bahwa transformasi digital telah menjadi hal biasa dan sekarang setiap perusahaan dapat dengan mudah mengimplementasikannya.

Dari sudut pandang teknologi, semuanya sederhana selama jumlah data yang dipelajari terbatas pada beberapa tabel Excel. Jika menyangkut penggabungan milyaran catatan, maka kemungkinan besar tugas akan terus sulit dari sudut pandang teknis, dan solusinya akan membutuhkan keahlian di bidang BI dan temuan-temuan teknik. Terutama jika Anda masih perlu mengelola kualitas data, yang merupakan tugas umum bagi sebagian besar perusahaan menengah dan besar.

Dari sudut pandang bisnis, semuanya sederhana selama Anda membutuhkan pelaporan atau dasbor dengan indikator standar industri. Jika kita berbicara tentang sistem analitis, di mana sumber-sumber baru terus ditambahkan, metrik baru diperkenalkan, dan para ahli dari berbagai bidang terlibat dalam semua ini, maka juga tidak ada kesederhanaan.

Namun, ini bukan kesulitan yang diatasi pelanggan beberapa tahun yang lalu. Tingkat kematangan platform analitik saat ini sedemikian rupa sehingga bahkan jika ada banyak data awal, maka Anda tidak perlu lagi menunggu perhitungan indikator, dan Anda dapat mempercayai angka yang diperoleh. Inti dari transformasi adalah komputasi dalam memori.

Teknologi selanjutnya yang akan mengubah pasar untuk solusi analitis kemungkinan adalah platform cloud. Infrastruktur penyedia layanan cloud (CSP), bersama dengan serangkaian layanan di atasnya, berubah menjadi platform manajemen data.



Sumber:

* IDC, "Panduan Pasar untuk Teknologi Komputasi Dalam Memori", www.academia.edu/20067779/Market_Guide_for_In-Memory_Computing_Technologies

** Jim Gray "Ekonomi Komputasi Terdistribusi", www.microsoft.com/en-us/research/wp-content/uploads/2016/02/tr-2003-24.doc

*** Anda dapat melihat bagaimana situasi pengembang platform BI dalam laporan Gartner Magic Quadrant berubah dari 2010 menjadi 2019 pada visualisasi interaktif: qap.bitmetric.nl/extensions/magicquadrant/index.html

Source: https://habr.com/ru/post/id470113/


All Articles