Kualitas data dalam penyimpanan

Kualitas data dalam repositori adalah prasyarat penting untuk mendapatkan informasi yang berharga. Kualitas yang buruk menyebabkan reaksi berantai negatif dalam jangka panjang.
Pertama, kepercayaan terhadap informasi yang diberikan hilang. Orang-orang mulai menggunakan aplikasi Business Intelligence lebih sedikit, potensi aplikasi tetap tidak diklaim.
Akibatnya, investasi lebih lanjut dalam proyek analitik dipertanyakan.

Tanggung jawab untuk kualitas data


Aspek yang terkait dengan peningkatan kualitas data adalah masalah besar dalam proyek-proyek BI. Namun, itu bukan hak istimewa hanya spesialis teknis.
Kualitas data juga dipengaruhi oleh aspek-aspek seperti

Budaya perusahaan

  • Apakah pekerja sendiri tertarik untuk menghasilkan kualitas yang baik?
  • Jika tidak, mengapa? Mungkin ada konflik kepentingan.
  • Mungkin ada aturan perusahaan yang mendefinisikan mereka yang bertanggung jawab atas kualitas?

Prosesnya

  • Data apa yang dibuat di akhir rantai ini?
  • Mungkin sistem operasi dikonfigurasi sehingga Anda perlu "keluar" untuk mencerminkan situasi ini atau itu pada kenyataannya.
  • Apakah sistem operasi melakukan validasi dan verifikasi data sendiri?

Setiap orang di organisasi bertanggung jawab atas kualitas data dalam sistem pelaporan.

Definisi dan makna


Kualitas adalah kepuasan yang dikonfirmasi dari harapan pelanggan.

Tetapi kualitas data tidak mengandung definisi. Itu selalu mencerminkan konteks penggunaan. Gudang data dan sistem BI melakukan tujuan yang berbeda dari sistem operasi, tempat data diambil.

Misalnya, pada sistem operasi, atribut klien mungkin bukan bidang yang wajib diisi. Dalam repositori, atribut ini dapat digunakan sebagai dimensi dan isinya wajib. Yang, pada gilirannya, memperkenalkan kebutuhan untuk mengisi dengan nilai-nilai default.

Persyaratan data warehouse terus berubah dan biasanya lebih tinggi dari sistem operasi. Tetapi bisa sebaliknya, ketika tidak diharuskan untuk menyimpan informasi rinci dari sistem operasi di penyimpanan.

Agar kualitas data dapat diukur, standarnya harus dijelaskan. Orang yang menggunakan informasi dan angka untuk pekerjaan mereka harus dilibatkan dalam proses deskripsi. Hasil dari keterlibatan ini dapat berupa aturan, yang mengikuti, sekilas, Anda dapat mengatakan apakah ada kesalahan atau tidak. Aturan ini perlu dikeluarkan dalam bentuk skrip / kode untuk verifikasi selanjutnya.

Peningkatan kualitas data


Tidak mungkin untuk membersihkan dan memperbaiki semua kesalahan hipotetis dalam proses memuat data ke dalam repositori. Kualitas data yang baik hanya dapat dicapai melalui kerja keras semua peserta. Orang yang memasukkan data ke sistem operasi harus mencari tahu tindakan apa yang menyebabkan kesalahan.

Kualitas data adalah suatu proses. Sayangnya, di banyak organisasi tidak ada strategi untuk perbaikan berkelanjutan. Banyak yang membatasi diri hanya untuk menyimpan data dan tidak menggunakan potensi penuh dari sistem analitik. Sebagai aturan, ketika mengembangkan gudang data, 70-80% dari anggaran dihabiskan untuk integrasi data. Proses kontrol dan peningkatan tetap belum selesai, jika tidak ada sama sekali.

Alat-alatnya


Penggunaan alat perangkat lunak dapat membantu dalam proses peningkatan dan pemantauan otomatis kualitas data. Misalnya, mereka dapat sepenuhnya mengotomatiskan verifikasi teknis struktur penyimpanan: format bidang, nilai default, kepatuhan dengan persyaratan nama bidang tabel.

Mungkin lebih sulit untuk memeriksa isinya. Sebagai persyaratan penyimpanan berubah, interpretasi data dapat berubah. Alat itu sendiri dapat berubah menjadi proyek besar yang membutuhkan dukungan.

Kiat


Database relasional, di mana repositori biasanya dirancang, memiliki peluang besar untuk membuat tampilan (views). Mereka dapat digunakan untuk memeriksa data dengan cepat jika Anda mengetahui fitur konten. Setiap kasus menemukan kesalahan atau masalah dalam data dapat direkam dalam bentuk kueri ke database.

Dengan demikian, basis pengetahuan konten akan dibentuk. Tentu saja, permintaan seperti itu harus cepat. Sebagai aturan, pandangan servis membutuhkan waktu manusia lebih sedikit daripada alat yang diatur dalam tabel. Tampilan selalu siap untuk menampilkan hasil cek.
Dalam kasus laporan penting, tampilan dapat berisi kolom dengan penerima. Masuk akal untuk menggunakan alat BI yang sama untuk melaporkan status kualitas data dalam repositori.

Contoh


Permintaan ditulis untuk database Oracle. Dalam contoh ini, tes mengembalikan nilai numerik yang dapat diartikan sesuai kebutuhan. Nilai-nilai T_MIN dan T_MAX dapat digunakan untuk menyesuaikan tingkat alarm. Bidang LAPORAN pernah digunakan sebagai pesan dalam produk ETL komersial yang tidak tahu cara mengirim email secara memadai, sehingga rpad adalah "penopang".

Dalam kasus tabel besar, Anda dapat menambahkan, misalnya, DAN ROWNUM <= 10, yaitu jika ada 10 kesalahan, maka ini cukup untuk alarm.

CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS SELECT CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX THEN 'OK' ELSE 'ERROR' END AS RESULT, DESCRIPTION, TABLE_NAME, OUTPUT, T_MIN, T_MAX, rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT FROM (-- Test itself SELECT 'DIM_PRODUCT' AS TABLE_NAME, 'Count of blanks' AS DESCRIPTION, COUNT(*) AS OUTPUT, 0 AS T_MIN, 10 AS T_MAX FROM DIM_PRODUCT WHERE DIM_PRODUCT_ID != -1 -- not default value AND ATTRIBUTE IS NULL ); -- count blanks 

Publikasi menggunakan bahan buku
Ronald Bachmann, Dr. Guido Kemper
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird

Source: https://habr.com/ru/post/id459682/


All Articles