Proses berpikir setiap orang sulit untuk membuat matematika. Setiap tugas bisnis menghasilkan seperangkat dokumen formal dan informal, informasi yang darinya tercermin dalam repositori perusahaan. Setiap tugas yang menghasilkan proses informasi menciptakan serangkaian dokumen dan logika pemrosesan mereka, yang sedikit diformalkan dalam lingkungan penyimpanan perusahaan. Harus ada struktur di dalam gudang data untuk menghapus arus informasi. Produk Oracle Data Enterprise Quality, yang dirancang untuk menyelesaikan tugas membersihkan data "kotor", dapat membantu. Tetapi ini tidak terbatas pada penggunaannya.
1. Konsep database acak.Koneksi bisnis pertama seseorang dijelaskan oleh dokumen formal dan informal seperti pernyataan, pernyataan, kontrak kerja, aplikasi untuk penempatan, aplikasi untuk sumber daya. Dokumen-dokumen ini menciptakan koneksi logis antara proses bisnis, tetapi, sebagai suatu peraturan, adalah produk pemikiran manajer kantor dan diformalkan dengan buruk.
Tugas dari setidaknya beberapa optimasi rumit tidak hanya untuk memahami aturan formal dan informal, tetapi, seringkali, membawa pengetahuan yang berbeda ke basis informasi umum.
Definisi Basis data acak adalah kumpulan fakta, dokumen, catatan manual, dokumen formal yang diproses oleh seseorang untuk proses bisnis tertentu, tetapi tidak dapat sepenuhnya diproses secara otomatis karena pengaruh kuat dari faktor manusia.Sebuah contoh Sekretaris secara resmi menerima panggilan. Penelepon tertarik pada suatu produk atau layanan. Penelepon tidak dikenal untuk CRM. Pertanyaan: apa yang harus dikatakan penelepon agar didengar oleh spesialis?
Untuk lebih tepatnya: berapa banyak instruksi bisnis sekretaris memungkinkan dialog formal tentang bisnis jika spesialis yang bertanggung jawab tidak siap untuk jenis kegiatan ini?
Ternyata kita kembali ke definisi database acak.
Mungkin mengandung lebih banyak fakta dari yang bisa diketahui oleh sekretaris. Tetapi informasi yang diterima di dalamnya tidak boleh berlebihan. Secara umum, ketika fakta acak dari basis data acak tiba pada input dari sistem yang diformalkan, maka hal seperti itu muncul informasi yang berlebihan - dan semua informasi yang berlebihan dapat mempengaruhi kinerja tidak hanya sekretaris, tetapi seluruh perusahaan.
Jika digunakan untuk keperluan pemrosesan, maka sebuah mesin yang membaca keadaan informasi ini datang atas dasar kesimpulan logis ke keadaan sebaliknya dari seseorang - kelebihan informasi. Logika manusia lebih fleksibel.
2. Penerapan definisi untuk tugas nyata.Bayangkan sebuah toko di mana label harga untuk barang-barang acak terlihat tinggi atau rendah. Ketika Anda meninggalkan toko ini, di kepala seorang pelanggan yang tidak berpengalaman dengan daftar belanja akan menjadi harga 5-7 (atau bahkan 3) dari barang-barang paling populer, harga yang dapat mempengaruhi ukuran total cek. Ternyata jika memungkinkan untuk mengetahui daftar barang, harga yang paling sering diingat pembeli, maka sisa harga bisa bervariasi dalam kisaran yang relatif luas.
Pernahkah Anda bertanya-tanya mengapa, sebelum Prapaskah, daging pada awalnya menjadi lebih murah, dan kemudian harganya dapat naik dengan tajam, dan kemudian menghilang? Harga suatu produk, permintaan yang mungkin jatuh ke nol, pertama kali dipanaskan secara artifisial, kemudian, melewati tingkat permintaan tertentu, ia mulai diperbaiki, dan setelah beberapa saat ia naik dengan kuat, karena keserakahan tidak mengizinkan pemberian barang-barang yang tidak likuid dengan harga yang wajar.
Situasi yang hampir serupa ada di pasar data. Informasi yang paling berguna hampir selalu disembunyikan oleh hipotesis sekunder tentang penerapannya dan kemampuan mengekstraknya.
Cukup dengan memaparkan informasi yang menarik bagi 5000-7000 orang tentang sumber daya yang relatif tidak terlindungi, pasti ada situs salin-tempel.
Atau game terkenal dengan kode telepon "Siapa yang memanggilku?". Sekitar seribu situs di Runet hanya terdiri dari nomor telepon dari berbagai operator agar menjadi sedikit lebih tinggi dalam hasil pencarian, mencoba entah bagaimana menjual nama domain dan iklan lebih mahal.
3. Harga masalah saat bekerja dengan data "kotor".Menurut penelitian penulis artikel, hingga 10% dari sumber daya tenaga kerja dari setiap proyek dialihkan untuk menulis prosedur pembersihan data tertentu. Jika Anda tidak memikirkan jenis dan panjang yang benar-benar dangkal, yaitu pengidentifikasi unik, aturan integritas basis data, dan aturan integritas bisnis, skala unit kuantitatif dan kualitatif, sistem unit intensitas tenaga kerja, dan kondisi lainnya, pengaruh, transisi, persiapan yang memerlukan statistik biasa seperti biasa analisis bisnis yang logis dan serius. Formalisasi persyaratan datang ke kebutuhan untuk memformalkan hubungan fakta-dimensi baik untuk membangun repositori dan untuk menyelesaikan masalah di front-end.
Setuju, jika proses ETL menempati 70% waktu kerja penyimpanan apa pun, maka menghemat 5-7% sumber daya untuk pembersihan data yang benar pada penyimpanan bersyarat 200.000 pelanggan sudah merupakan bonus yang baik?
Kami akan membahas sedikit masalah data "kotor" dalam sistem yang siap pakai. Katakanlah Anda mengirim ucapan selamat pada hari libur nasional kepada 10.000 pelanggan melalui surat. Berapa banyak orang yang akan melemparkan surat Anda dengan kartu pos terbaik di kotak surat, jika Anda membuat kesalahan dalam nama, nama keluarga, atau mengisi formulir dengan salah dalam formulir? Harga upaya Anda dapat mengurangi mood pengguna mana pun menjadi nol!
4. Kualitas Data Perusahaan Oracle - perisai dan pedang penyimpanan perusahaan.Tangkapan layar yang kami sediakan menggambarkan kemampuan Oracle Enterprise Data Quality.
Jadi, biarkan seseorang menumpahkan air ke database atau dokumen teks Anda.

Berikut adalah daftar prosesor standar (unit logis yang memungkinkan Anda untuk menggunakannya
ke data satu atau hipotesis lain, atau cari yang diperlukan)

Tindakan Profiler Database Acak:

Audit dasar solvabilitas keuangan:

Bekerja dengan kode pos:

Membersihkan alamat surat:

Menghapus data pengguna:

Penugasan catatan untuk satu atau beberapa interval kepercayaan lain:

Menentukan jenis kelamin pengguna dari data tidak langsung:

Definisi kota dan negara, negara:

Pencarian kunci paling sederhana dalam database acak:

Deduplikasi data pengguna:
5. Pengamatan lucu dilakukan pada hasil kerja pada Oracle EDQ.Salah satu prinsip membandingkan kontribusi penulis dan penyair dengan sastra adalah dengan membandingkan kamus puitis dan sastra mereka. Kami memberikan sejumlah kamus yang dikompilasi dalam waktu luang untuk pengujian solusi yang sudah jadi di Oracle EDQ, Python, Java. Kami akan berterima kasih jika para filolog di komentar memposting hasil mereka.
Nomor p.p.
| Kata
| Frekuensi kejadian
|
Singa Tolstoy, War and Peace. Fragmen dari tabel frekuensi kamus hak cipta.
| Saya Brodsky, Urania.
| Saya Brodsky Complete works, sebuah fragmen dari kamus frekuensi penulis.
| N. Nekrasov, sebuah fragmen dari kamus frekuensi untuk koleksi lengkap esai.
|
1.
| dan
| 10351
| masuk 1037
| masuk 5745
| dan 3420
|
3.
| masuk
| 5185
| dan 647
| dan 4500
| masuk 2108
|
4.
| tidak
| 4292
| tidak 391
| tidak 3022
| tidak 1726
|
5.
| apa
| 3845
| pada 341
| pada 2239
| saya 1040
|
6.
| dia adalah
| 3730
| bagaimana 329
| bagaimana 1758
| dengan 883
|
7.
| pada
| 3305
| dengan 237
| dengan 1674
| pada 854
|
8.
| dengan
| 3030
| apa 168
| apa 1531
| bagaimana 763
|
9.
| bagaimana
| 2097
| untuk 148
| Dan 1200
| apa 693
|
10.
| saya
| 1896
| dari 147
| saya 1040
| dia adalah 644
|
11.
| miliknya
| 1882
| dari 104
| untuk 922
| kamu 475
|
12.
| untuk
| 1771
| saya 90
| dari 810
| tapi 472
|
13.
| lalu
| 1600
| dimana 88
| semua 748
| tapi 449
|
14.
| dia adalah
| 1564
| dari 88
| oleh 744
| jadi 383
|
15.
| tapi
| 1234
| untuk 76
| kamu 721
| untuk 367
|
16.
| itu
| 1208
| oleh 74
| Masuk 713
| semua 344
|
17.
| kata
| 1135
| Tapi 72
| untuk 687
| untuk 313
|
18.
| adalah
| 1125
| tidak juga 70
| dari 635
| kepada saya 309
|
19.
| jadi
| 1032
| akan 69
| tapi 617
| iya 294
|
20.
| sang pangeran
| 1012
| lalu 67
| dia adalah 592
| miliknya 275
|
21
| untuk
| 985
| kamu 67
| Tapi 584
| lalu 232
|
22.
| tapi
| 962
| tentang 66
| lalu 540
| adalah 229
|
23.
| untuknya
| 918
| tapi 63
| tentang 538
| oleh 224
|
24.
| semua
| 908
| ada disana 61
| itu 524
| tidak 223
|
25.
| oleh
| 895
| Saya 61
| Saya 489
| tidak juga 222
|
26.
| dia
| 885
|
| tapi 463
| tentang 213
|
27.
| dari
| 845
|
| dimana 449
| mereka 212
|
28.
|
|
|
| dari 443
| dari 209
|
29.
|
|
|
| A 428
| dari 207
|
30.
|
|
|
| sama 422
| kami adalah 206
|
Kesimpulan: statistik bahasa Rusia selama seratus tahun terakhir dalam hal frekuensi kata individu tidak banyak berubah, di antara para penyair - kata-kata lebih "merdu". Omong-omong, statistik Daria Dontsova dalam banyak hal bertepatan dengan Leo Tolstoy di bidang kamus frekuensi karya lengkap.
6. Beberapa perhitungan formal sebagai kesimpulan.Sekitar 60 ribu Ivanov Ivanov Ivanovich tinggal di negara kita. Dengan asumsi bahwa di suatu tempat secara hipotetis, 100 tabel disimpan dalam database rata-rata, 10 bidang kunci di setiap tabel, dan setiap kunci dapat mengambil 60 ribu nilai, kami mendapatkan bahwa jumlah status kunci unik di dalam database adalah sekitar 60 juta. Bahkan jika dua kunci tercampur dalam satu tabel, mereka dapat menghasilkan hingga 20 status unik dalam satu tabel. Secara total, hingga beberapa ribu dapat berjalan ke dasar negara bagian yang unik. Setuju bahwa menghabiskan 10% dari waktu pengembangan dan 5-7% dari waktu eksekusi ETL untuk menangkap hal-hal sepele itu merupakan kemewahan yang tidak dapat diterima?
UPD1 Jika Anda lelah menyeret sistem kontrol untuk setiap direktori yang kurang lebih penting dalam pekerjaan Anda, maka sistem MDM (Master Data Management) akan membantu Anda. Tentu saja, kami memberikan sistem seperti itu ke pasar, termasuk versi perangkat lunak bebas.
UPD2 Sangat sering di konferensi pertanyaan yang diajukan: "Bagaimana cara membuat sistem manajemen kualitas data yang lebih murah". Saya meminta Anda untuk menganggap artikel ini sebagai pengantar kecil untuk masalah ini, dengan beberapa penyederhanaan fungsi EDQ. Ya, namun, Anda dapat mengambil banyak ODI + EDQ dan melakukannya dengan sangat baik, tetapi ini adalah subjek narasi lebih lanjut.