Basis data acak. Kualitas Data Oracle Enterprise - Perisai dan Pedang untuk Penyimpanan Perusahaan

Proses berpikir setiap orang sulit untuk membuat matematika. Setiap tugas bisnis menghasilkan seperangkat dokumen formal dan informal, informasi yang darinya tercermin dalam repositori perusahaan. Setiap tugas yang menghasilkan proses informasi menciptakan serangkaian dokumen dan logika pemrosesan mereka, yang sedikit diformalkan dalam lingkungan penyimpanan perusahaan. Harus ada struktur di dalam gudang data untuk menghapus arus informasi. Produk Oracle Data Enterprise Quality, yang dirancang untuk menyelesaikan tugas membersihkan data "kotor", dapat membantu. Tetapi ini tidak terbatas pada penggunaannya.

1. Konsep database acak.

Koneksi bisnis pertama seseorang dijelaskan oleh dokumen formal dan informal seperti pernyataan, pernyataan, kontrak kerja, aplikasi untuk penempatan, aplikasi untuk sumber daya. Dokumen-dokumen ini menciptakan koneksi logis antara proses bisnis, tetapi, sebagai suatu peraturan, adalah produk pemikiran manajer kantor dan diformalkan dengan buruk.

Tugas dari setidaknya beberapa optimasi rumit tidak hanya untuk memahami aturan formal dan informal, tetapi, seringkali, membawa pengetahuan yang berbeda ke basis informasi umum.

Definisi Basis data acak adalah kumpulan fakta, dokumen, catatan manual, dokumen formal yang diproses oleh seseorang untuk proses bisnis tertentu, tetapi tidak dapat sepenuhnya diproses secara otomatis karena pengaruh kuat dari faktor manusia.

Sebuah contoh Sekretaris secara resmi menerima panggilan. Penelepon tertarik pada suatu produk atau layanan. Penelepon tidak dikenal untuk CRM. Pertanyaan: apa yang harus dikatakan penelepon agar didengar oleh spesialis?

Untuk lebih tepatnya: berapa banyak instruksi bisnis sekretaris memungkinkan dialog formal tentang bisnis jika spesialis yang bertanggung jawab tidak siap untuk jenis kegiatan ini?

Ternyata kita kembali ke definisi database acak.

Mungkin mengandung lebih banyak fakta dari yang bisa diketahui oleh sekretaris. Tetapi informasi yang diterima di dalamnya tidak boleh berlebihan. Secara umum, ketika fakta acak dari basis data acak tiba pada input dari sistem yang diformalkan, maka hal seperti itu muncul informasi yang berlebihan - dan semua informasi yang berlebihan dapat mempengaruhi kinerja tidak hanya sekretaris, tetapi seluruh perusahaan.

Jika digunakan untuk keperluan pemrosesan, maka sebuah mesin yang membaca keadaan informasi ini datang atas dasar kesimpulan logis ke keadaan sebaliknya dari seseorang - kelebihan informasi. Logika manusia lebih fleksibel.

2. Penerapan definisi untuk tugas nyata.

Bayangkan sebuah toko di mana label harga untuk barang-barang acak terlihat tinggi atau rendah. Ketika Anda meninggalkan toko ini, di kepala seorang pelanggan yang tidak berpengalaman dengan daftar belanja akan menjadi harga 5-7 (atau bahkan 3) dari barang-barang paling populer, harga yang dapat mempengaruhi ukuran total cek. Ternyata jika memungkinkan untuk mengetahui daftar barang, harga yang paling sering diingat pembeli, maka sisa harga bisa bervariasi dalam kisaran yang relatif luas.

Pernahkah Anda bertanya-tanya mengapa, sebelum Prapaskah, daging pada awalnya menjadi lebih murah, dan kemudian harganya dapat naik dengan tajam, dan kemudian menghilang? Harga suatu produk, permintaan yang mungkin jatuh ke nol, pertama kali dipanaskan secara artifisial, kemudian, melewati tingkat permintaan tertentu, ia mulai diperbaiki, dan setelah beberapa saat ia naik dengan kuat, karena keserakahan tidak mengizinkan pemberian barang-barang yang tidak likuid dengan harga yang wajar.

Situasi yang hampir serupa ada di pasar data. Informasi yang paling berguna hampir selalu disembunyikan oleh hipotesis sekunder tentang penerapannya dan kemampuan mengekstraknya.
Cukup dengan memaparkan informasi yang menarik bagi 5000-7000 orang tentang sumber daya yang relatif tidak terlindungi, pasti ada situs salin-tempel.

Atau game terkenal dengan kode telepon "Siapa yang memanggilku?". Sekitar seribu situs di Runet hanya terdiri dari nomor telepon dari berbagai operator agar menjadi sedikit lebih tinggi dalam hasil pencarian, mencoba entah bagaimana menjual nama domain dan iklan lebih mahal.

3. Harga masalah saat bekerja dengan data "kotor".

Menurut penelitian penulis artikel, hingga 10% dari sumber daya tenaga kerja dari setiap proyek dialihkan untuk menulis prosedur pembersihan data tertentu. Jika Anda tidak memikirkan jenis dan panjang yang benar-benar dangkal, yaitu pengidentifikasi unik, aturan integritas basis data, dan aturan integritas bisnis, skala unit kuantitatif dan kualitatif, sistem unit intensitas tenaga kerja, dan kondisi lainnya, pengaruh, transisi, persiapan yang memerlukan statistik biasa seperti biasa analisis bisnis yang logis dan serius. Formalisasi persyaratan datang ke kebutuhan untuk memformalkan hubungan fakta-dimensi baik untuk membangun repositori dan untuk menyelesaikan masalah di front-end.

Setuju, jika proses ETL menempati 70% waktu kerja penyimpanan apa pun, maka menghemat 5-7% sumber daya untuk pembersihan data yang benar pada penyimpanan bersyarat 200.000 pelanggan sudah merupakan bonus yang baik?

Kami akan membahas sedikit masalah data "kotor" dalam sistem yang siap pakai. Katakanlah Anda mengirim ucapan selamat pada hari libur nasional kepada 10.000 pelanggan melalui surat. Berapa banyak orang yang akan melemparkan surat Anda dengan kartu pos terbaik di kotak surat, jika Anda membuat kesalahan dalam nama, nama keluarga, atau mengisi formulir dengan salah dalam formulir? Harga upaya Anda dapat mengurangi mood pengguna mana pun menjadi nol!

4. Kualitas Data Perusahaan Oracle - perisai dan pedang penyimpanan perusahaan.

Tangkapan layar yang kami sediakan menggambarkan kemampuan Oracle Enterprise Data Quality.

Jadi, biarkan seseorang menumpahkan air ke database atau dokumen teks Anda.


Berikut adalah daftar prosesor standar (unit logis yang memungkinkan Anda untuk menggunakannya
ke data satu atau hipotesis lain, atau cari yang diperlukan)


Tindakan Profiler Database Acak:


Audit dasar solvabilitas keuangan:


Bekerja dengan kode pos:


Membersihkan alamat surat:


Menghapus data pengguna:


Penugasan catatan untuk satu atau beberapa interval kepercayaan lain:


Menentukan jenis kelamin pengguna dari data tidak langsung:


Definisi kota dan negara, negara:


Pencarian kunci paling sederhana dalam database acak:


Deduplikasi data pengguna:


5. Pengamatan lucu dilakukan pada hasil kerja pada Oracle EDQ.

Salah satu prinsip membandingkan kontribusi penulis dan penyair dengan sastra adalah dengan membandingkan kamus puitis dan sastra mereka. Kami memberikan sejumlah kamus yang dikompilasi dalam waktu luang untuk pengujian solusi yang sudah jadi di Oracle EDQ, Python, Java. Kami akan berterima kasih jika para filolog di komentar memposting hasil mereka.

Nomor p.p.


Kata


Frekuensi kejadian


Singa
Tolstoy, War and Peace. Fragmen dari tabel frekuensi
kamus hak cipta.



Saya
Brodsky, Urania.



Saya
Brodsky Complete works, sebuah fragmen dari kamus frekuensi
penulis.



N.
Nekrasov, sebuah fragmen dari kamus frekuensi untuk koleksi lengkap
esai.



1.


dan


10351


masuk
1037


masuk
5745


dan
3420


3.


masuk


5185


dan
647


dan
4500


masuk
2108


4.


tidak


4292


tidak
391


tidak
3022


tidak
1726


5.


apa


3845


pada
341


pada
2239


saya
1040


6.


dia adalah


3730


bagaimana
329


bagaimana
1758


dengan
883


7.


pada


3305


dengan
237


dengan
1674


pada
854


8.


dengan


3030


apa
168


apa
1531


bagaimana
763


9.


bagaimana


2097


untuk
148


Dan
1200


apa
693


10.


saya


1896


dari
147


saya
1040


dia adalah
644


11.


miliknya


1882


dari
104


untuk
922


kamu
475


12.


untuk


1771


saya
90


dari
810


tapi
472


13.


lalu


1600


dimana
88


semua
748


tapi
449


14.


dia adalah


1564


dari
88


oleh
744


jadi
383


15.


tapi


1234


untuk
76


kamu
721


untuk
367


16.


itu


1208


oleh
74


Masuk
713


semua
344


17.


kata


1135


Tapi
72


untuk
687


untuk
313


18.


adalah


1125


tidak juga
70


dari
635


kepada saya
309


19.


jadi


1032


akan
69


tapi
617


iya
294


20.


sang pangeran


1012


lalu
67


dia adalah
592


miliknya
275


21


untuk


985


kamu
67


Tapi
584


lalu
232


22.


tapi


962


tentang
66


lalu
540


adalah
229


23.


untuknya


918


tapi
63


tentang
538


oleh
224


24.


semua


908


ada disana
61


itu
524


tidak
223


25.


oleh


895


Saya
61


Saya
489


tidak juga
222


26.


dia


885



tapi
463


tentang
213


27.


dari


845



dimana
449


mereka
212


28.





dari
443


dari
209


29.





A
428


dari
207


30.





sama
422


kami adalah
206




Kesimpulan: statistik bahasa Rusia selama seratus tahun terakhir dalam hal frekuensi kata individu tidak banyak berubah, di antara para penyair - kata-kata lebih "merdu". Omong-omong, statistik Daria Dontsova dalam banyak hal bertepatan dengan Leo Tolstoy di bidang kamus frekuensi karya lengkap.

6. Beberapa perhitungan formal sebagai kesimpulan.

Sekitar 60 ribu Ivanov Ivanov Ivanovich tinggal di negara kita. Dengan asumsi bahwa di suatu tempat secara hipotetis, 100 tabel disimpan dalam database rata-rata, 10 bidang kunci di setiap tabel, dan setiap kunci dapat mengambil 60 ribu nilai, kami mendapatkan bahwa jumlah status kunci unik di dalam database adalah sekitar 60 juta. Bahkan jika dua kunci tercampur dalam satu tabel, mereka dapat menghasilkan hingga 20 status unik dalam satu tabel. Secara total, hingga beberapa ribu dapat berjalan ke dasar negara bagian yang unik. Setuju bahwa menghabiskan 10% dari waktu pengembangan dan 5-7% dari waktu eksekusi ETL untuk menangkap hal-hal sepele itu merupakan kemewahan yang tidak dapat diterima?

UPD1 Jika Anda lelah menyeret sistem kontrol untuk setiap direktori yang kurang lebih penting dalam pekerjaan Anda, maka sistem MDM (Master Data Management) akan membantu Anda. Tentu saja, kami memberikan sistem seperti itu ke pasar, termasuk versi perangkat lunak bebas.

UPD2 Sangat sering di konferensi pertanyaan yang diajukan: "Bagaimana cara membuat sistem manajemen kualitas data yang lebih murah". Saya meminta Anda untuk menganggap artikel ini sebagai pengantar kecil untuk masalah ini, dengan beberapa penyederhanaan fungsi EDQ. Ya, namun, Anda dapat mengambil banyak ODI + EDQ dan melakukannya dengan sangat baik, tetapi ini adalah subjek narasi lebih lanjut.

Source: https://habr.com/ru/post/id444700/


All Articles