عملية التفكير لأي شخص من الصعب الرياضيات. تنشئ أي مهمة عمل مجموعة من الوثائق الرسمية وغير الرسمية ، والتي تنعكس المعلومات منها في مستودع الشركة. تخلق كل مهمة تنشئ أي عملية معلومات من حولها مجموعة من المستندات ومنطق معالجتها ، والتي يتم إضفاء طابع رسمي عليها قليلاً في بيئة تخزين الشركة. يجب أن تكون هناك هياكل داخل مستودع البيانات لمسح تدفق المعلومات. يمكن أن يساعد منتج Oracle Enterprise Data Quality المصمم لحل مهام تنظيف البيانات "القذرة". ولكن هذا لا يقتصر على استخدامه.
1. مفهوم قاعدة بيانات عشوائية.يتم وصف الروابط التجارية الأولى للشخص في وثائق رسمية وغير رسمية مثل بيان ، إعلان ، عقد عمل ، طلب توظيف ، طلب مورد. تقوم هذه المستندات بإنشاء اتصالات منطقية بين العمليات التجارية ، ولكنها ، كقاعدة عامة ، هي نتاج تفكير مديري المكاتب وتصبح سيئة الشكل.
لا تتمثل مهمة أي تحسين معقد على الأقل في فهم القواعد الرسمية وغير الرسمية فحسب ، بل في كثير من الأحيان ، جلب معرفة متباينة إلى قاعدة معلومات مشتركة.
تعريف. قاعدة البيانات العشوائية عبارة عن مجموعة من الحقائق والمستندات والملاحظات اليدوية والمستندات الرسمية التي تتم معالجتها من قبل شخص لعملية تجارية معينة ، ولكن لا يمكن معالجتها بشكل تلقائي بالكامل بسبب التأثير القوي للعامل البشري.مثال سكرتير يتلقى رسميا الدعوة. يهتم المتصل بمنتج أو خدمة. المتصل غير معروف لـ CRM. سؤال: ما الذي يجب أن يقوله المتصل ليتم سماعه من قبل متخصص؟
أن تكون أكثر دقة: إلى أي مدى تسمح تعليمات الوزير الخاصة بالأعمال بإجراء حوار رسمي حول العمل إذا كان المتخصص المسؤول غير مستعد لهذا النوع من النشاط؟
اتضح أننا وصلنا مرة أخرى إلى تعريف قاعدة بيانات عشوائية.
ربما تحتوي على حقائق أكثر مما يعرف الوزير. لكن المعلومات الواردة فيه لا يمكن أن تكون غير ضرورية. بشكل عام ، عندما تصل الحقائق العشوائية لقاعدة البيانات العشوائية إلى مدخلات نظام رسمي ، فإن شيئًا كهذا هو زيادة الحمل الزائد للمعلومات - وكل المعلومات الزائدة يمكن أن تؤثر على أداء ليس فقط السكرتير ، ولكن الشركة بأكملها.
إذا تم استخدامه لأغراض المعالجة ، فإن الجهاز الذي يقرأ حالات هذه المعلومات يأتي ، على أساس الاستنتاجات المنطقية ، إلى الحالة المقابلة للحمل الزائد للمعلومات الشخصية. المنطق البشري هو أكثر مرونة.
2. تطبيق التعريف على المهام الحقيقية.تخيل متجرًا تكون فيه أسعار المنتجات العشوائية مرتفعة أو منخفضة بشكل ملحوظ. عندما تغادر هذا المتجر ، في رأس عميل غير متمرس لديه قائمة تسوق ، سيكون سعر 5-7 (أو حتى 3) من السلع الأكثر شعبية ، والتي يمكن أن يؤثر سعرها على حجم الشيك الإجمالي. اتضح أنه إذا كان من الممكن معرفة قائمة السلع ، التي يتذكرها معظم المشترين ، فيمكن أن تتغير بقية الأسعار في نطاق واسع نسبيًا.
هل تساءلت يوما لماذا ، قبل الصوم ، يصبح اللحم في البداية أرخص بشكل حاد ، ومن ثم يمكن أن يرتفع سعره بشكل حاد ، ثم يختفي؟ يتم تسخين سعر المنتج ، الذي قد ينخفض الطلب عليه إلى الصفر ، أولاً ، بشكل مصطنع ، ثم يتجاوز مستوى معين من الطلب ، يبدأ في الثبات ، وبعد فترة يرتفع بقوة ، لأن الجشع لا يسمح بالتخلي عن البضائع غير السائلة بسعر عادل.
يوجد موقف مماثل تقريبا في سوق البيانات. يتم إخفاء معظم المعلومات المفيدة دائمًا من خلال فرضيات ثانوية حول قابليتها للتطبيق والاستخراج.
يكفي وضع أي معلومات مثيرة للاهتمام لـ 5000-7000 شخص على أي مورد غير محمي نسبيًا ، وهناك بالتأكيد مواقع لصق النسخ.
أو اللعبة الشهيرة مع رموز الهاتف "من اتصل بي؟". يتكون حوالي ألف موقع في Runet فقط من أرقام هواتف العديد من المشغلين من أجل أن تكون أعلى قليلاً في نتائج البحث ، في محاولة لبيع اسم المجال والإعلانات بطريقة أكثر تكلفة.
3. سعر المشكلة عند العمل مع البيانات "القذرة".وفقًا للبحث الذي أجراه مؤلف المقال ، يتم تحويل ما يصل إلى 10٪ من موارد العمل لكل مشروع لكتابة بعض إجراءات تنظيف البيانات. إذا كنت لا تتحدث عن نوع وطول عاديين تمامًا ، فهناك معرفات فريدة وقواعد تكامل قاعدة البيانات وقواعد النزاهة التجارية ومقاييس الوحدات الكمية والنوعية وأنظمة وحدة العمل وأي حالات أخرى والتأثيرات والانتقالات التي يتطلب إعدادها كإحصائية معتادة تحليل الأعمال المنطقي والجاد. يأتي إضفاء الطابع الرسمي على المتطلبات إلى الحاجة إلى إضفاء الطابع الرسمي على العلاقة بين الواقع والواقع لبناء المستودعات ولحل المشكلات في الواجهة الأمامية.
توافق ، إذا كانت عمليات ETL تشغل 70٪ من وقت العمل في أي وحدة تخزين ، فإن توفير 5-7٪ من الموارد على التنظيف الصحيح للبيانات على التخزين الشرطي لـ 200،000 عميل يعد بالفعل مكافأة جيدة؟
سوف نغطي قليلاً قضايا البيانات "القذرة" في الأنظمة الجاهزة. لنفترض أنك أرسلت تهنئة بمناسبة عطلة وطنية إلى 10000 عميل عبر البريد. كم عدد الأشخاص الذين سيرسلون رسالتكم مع أفضل بطاقة بريدية في صندوق البريد ، إذا قمت بخطأ في الاسم أو اللقب أو ملء النموذج بشكل غير صحيح في النموذج؟ سعر جهودك يمكن أن يقلل من مزاج أي مستخدم إلى الصفر!
4. Oracle Enterprise Data Quality - درع وسيف تخزين الشركة.تصف لقطات الشاشة التي نقدمها قدرات Oracle Enterprise Data Quality.
لذا ، دع شخصًا ما يسكب الماء في قاعدة البيانات أو المستند النصي.

فيما يلي قائمة بالمعالجات القياسية (الوحدات المنطقية التي تسمح لك باستخدامها)
إلى بيانات فرضية واحدة أو أخرى ، أو ابحث عن المطلوب):

إجراء منشئ قواعد البيانات العشوائية:

مراجعة أولية للملاءة المالية:

العمل برمز بريدي:

تنظيف العنوان البريدي:

مسح بيانات المستخدم:

تعيين سجل إلى فاصل ثقة واحد أو آخر:

تحديد جنس المستخدم من البيانات غير المباشرة:

تعريف المدينة والبلد ، الولاية:

أبسط مفتاح البحث في قاعدة بيانات عشوائية:

إلغاء البيانات المكررة:
5. ملاحظات مضحكة حول نتائج العمل على Oracle EDQ.أحد مبادئ مقارنة مساهمات الكتاب والشعراء في الأدب هو مقارنة قواميسهم الشعرية والأدبية. نقدم عددًا من القواميس التي تم تجميعها في وقت الفراغ لاختبار الحلول الجاهزة لـ Oracle EDQ و Python و Java. سنكون ممتنين إذا قام علماء اللغة في التعليقات بنشر نتائجهم.
الرقم ص.
| الكلمة
| تواتر حدوث
|
الأسد تولستوي ، الحرب والسلام. جزء من جدول التردد قاموس حقوق التأليف والنشر.
| I. برودسكي ، أورانيا.
| I. Brodsky Complete يعمل ، جزء من قاموس التردد المؤلف.
| N. Nekrasov ، جزء من قاموس التردد للمجموعة الكاملة يعمل.
|
1.
| و
| 10351
| في 1037
| في 5745
| و 3420
|
3.
| في
| 5185
| و 647
| و 4500
| في 2108
|
4.
| ليس
| 4292
| ليس 391
| ليس 3022
| ليس 1726
|
5.
| أن
| 3845
| في 341
| في 2239
| أنا 1040
|
6.
| هو
| 3730
| كيف 329
| كيف 1758
| مع 883
|
7.
| في
| 3305
| مع 237
| مع 1674
| في 854
|
8.
| مع
| 3030
| أن 168
| أن 1531
| كيف 763
|
9.
| كيف
| 2097
| إلى 148
| و 1200
| أن 693
|
10.
| أنا
| 1896
| من 147
| أنا 1040
| هو 644
|
11.
| له
| 1882
| من 104
| إلى 922
| أنت 475
|
12.
| إلى
| 1771
| أنا 90
| من 810
| لكن 472
|
13.
| ال
| 1600
| حيث 88
| جميع 748
| و 449
|
14.
| هي هي
| 1564
| من 88
| في 744
| هكذا 383
|
15.
| لكن
| 1234
| إلى 76
| أنت 721
| إلى 367
|
16.
| إنه كذلك
| 1208
| في 74
| ال 713
| جميع 344
|
17.
| وقال
| 1135
| لكن 72
| إلى 687
| إلى 313
|
18.
| كان
| 1125
| أو 70
| من 635
| لي 309
|
19.
| هكذا
| 1032
| هل كان 69
| لكن 617
| نعم 294
|
20.
| الأمير
| 1012
| ال 67
| هو 592
| له 275
|
21.
| إلى
| 985
| أنت 67
| لكن 584
| ال 232
|
22.
| و
| 962
| حول 66
| ال 540
| كان عليه 229
|
23.
| له
| 918
| لكن 63
| حول 538
| في 224
|
24.
| جميع
| 908
| هل هناك 61
| إنه كذلك 524
| لا 223
|
25.
| في
| 895
| أنا كذلك 61
| أنا كذلك 489
| أو 222
|
26.
| لها
| 885
|
| و 463
| حول 213
|
27.
| من
| 845
|
| حيث 449
| هم 212
|
28.
|
|
|
| من 443
| من 209
|
29.
|
|
|
| A 428
| من 207
|
30.
|
|
|
| نفس 422
| نحن 206
|
الخلاصة: إن إحصائيات اللغة الروسية على مدار المائة عام الماضية من حيث تواتر الكلمات الفردية لم تتغير كثيرًا ، بين الشعراء - الكلمات أكثر إيقاعًا. بالمناسبة ، تتوافق إحصاءات داريا دونتسوفا في نواح كثيرة مع ليو تولستوي في مجال قاموس التكرار للأعمال الكاملة.
6. عدة حسابات رسمية كخلاصة.حوالي 60 ألف ايفانوف ايفانوف ايفانوفيتش يعيشون في بلدنا. على افتراض أنه في مكان ما ، من الناحية الافتراضية ، يتم تخزين 100 جدول في قاعدة البيانات المتوسطة ، و 10 حقول رئيسية في كل جدول ، ويمكن لكل مفتاح أن يأخذ 60 ألف قيمة ، ونصل إلى أن إجمالي عدد حالات المفتاح الفريدة داخل قاعدة البيانات يبلغ حوالي 60 مليون. حتى إذا تم خلط مفتاحين في جدول واحد ، فيمكنهما إنشاء ما يصل إلى 20 حالة فريدة في جدول واحد. في المجموع ، يمكن أن يصل إلى عدة آلاف في قاعدة الحالات الفريدة. هل توافق على أن قضاء 10 ٪ من وقت التطوير و 5-7 ٪ من وقت تنفيذ ETL للقبض على مثل هذه التافهات هو ترف غير مقبول؟
UPD1 إذا سئمت من سحب نظام التحكم لكل دليل أكثر أو أقل أهمية في عملك ، فإن أنظمة MDM (إدارة البيانات الرئيسية) سوف
تساعدك . بالطبع ، نحن نقدم هذه النظم إلى السوق ، بما في ذلك إصدار على البرمجيات الحرة.
UPD2 غالبًا ما يتم طرح السؤال في المؤتمرات: "كيفية إنشاء نظام أرخص لإدارة جودة البيانات". أطلب منك أن تعتبر هذه المقالة مقدمة صغيرة لهذه المشكلة ، مع بعض التبسيط لوظيفة EDQ. نعم ، ومع ذلك ، يمكنك أن تأخذ مجموعة من ODI + EDQ وتفعلها جيدًا ، لكن هذا موضوع مزيد من السرد.