قواعد بيانات عشوائية. Oracle Enterprise Data Quality - Shield and Sword for Enterprise Storage

عملية التفكير لأي شخص من الصعب الرياضيات. تنشئ أي مهمة عمل مجموعة من الوثائق الرسمية وغير الرسمية ، والتي تنعكس المعلومات منها في مستودع الشركة. تخلق كل مهمة تنشئ أي عملية معلومات من حولها مجموعة من المستندات ومنطق معالجتها ، والتي يتم إضفاء طابع رسمي عليها قليلاً في بيئة تخزين الشركة. يجب أن تكون هناك هياكل داخل مستودع البيانات لمسح تدفق المعلومات. يمكن أن يساعد منتج Oracle Enterprise Data Quality المصمم لحل مهام تنظيف البيانات "القذرة". ولكن هذا لا يقتصر على استخدامه.

1. مفهوم قاعدة بيانات عشوائية.

يتم وصف الروابط التجارية الأولى للشخص في وثائق رسمية وغير رسمية مثل بيان ، إعلان ، عقد عمل ، طلب توظيف ، طلب مورد. تقوم هذه المستندات بإنشاء اتصالات منطقية بين العمليات التجارية ، ولكنها ، كقاعدة عامة ، هي نتاج تفكير مديري المكاتب وتصبح سيئة الشكل.

لا تتمثل مهمة أي تحسين معقد على الأقل في فهم القواعد الرسمية وغير الرسمية فحسب ، بل في كثير من الأحيان ، جلب معرفة متباينة إلى قاعدة معلومات مشتركة.

تعريف. قاعدة البيانات العشوائية عبارة عن مجموعة من الحقائق والمستندات والملاحظات اليدوية والمستندات الرسمية التي تتم معالجتها من قبل شخص لعملية تجارية معينة ، ولكن لا يمكن معالجتها بشكل تلقائي بالكامل بسبب التأثير القوي للعامل البشري.

مثال سكرتير يتلقى رسميا الدعوة. يهتم المتصل بمنتج أو خدمة. المتصل غير معروف لـ CRM. سؤال: ما الذي يجب أن يقوله المتصل ليتم سماعه من قبل متخصص؟

أن تكون أكثر دقة: إلى أي مدى تسمح تعليمات الوزير الخاصة بالأعمال بإجراء حوار رسمي حول العمل إذا كان المتخصص المسؤول غير مستعد لهذا النوع من النشاط؟

اتضح أننا وصلنا مرة أخرى إلى تعريف قاعدة بيانات عشوائية.

ربما تحتوي على حقائق أكثر مما يعرف الوزير. لكن المعلومات الواردة فيه لا يمكن أن تكون غير ضرورية. بشكل عام ، عندما تصل الحقائق العشوائية لقاعدة البيانات العشوائية إلى مدخلات نظام رسمي ، فإن شيئًا كهذا هو زيادة الحمل الزائد للمعلومات - وكل المعلومات الزائدة يمكن أن تؤثر على أداء ليس فقط السكرتير ، ولكن الشركة بأكملها.

إذا تم استخدامه لأغراض المعالجة ، فإن الجهاز الذي يقرأ حالات هذه المعلومات يأتي ، على أساس الاستنتاجات المنطقية ، إلى الحالة المقابلة للحمل الزائد للمعلومات الشخصية. المنطق البشري هو أكثر مرونة.

2. تطبيق التعريف على المهام الحقيقية.

تخيل متجرًا تكون فيه أسعار المنتجات العشوائية مرتفعة أو منخفضة بشكل ملحوظ. عندما تغادر هذا المتجر ، في رأس عميل غير متمرس لديه قائمة تسوق ، سيكون سعر 5-7 (أو حتى 3) من السلع الأكثر شعبية ، والتي يمكن أن يؤثر سعرها على حجم الشيك الإجمالي. اتضح أنه إذا كان من الممكن معرفة قائمة السلع ، التي يتذكرها معظم المشترين ، فيمكن أن تتغير بقية الأسعار في نطاق واسع نسبيًا.

هل تساءلت يوما لماذا ، قبل الصوم ، يصبح اللحم في البداية أرخص بشكل حاد ، ومن ثم يمكن أن يرتفع سعره بشكل حاد ، ثم يختفي؟ يتم تسخين سعر المنتج ، الذي قد ينخفض ​​الطلب عليه إلى الصفر ، أولاً ، بشكل مصطنع ، ثم يتجاوز مستوى معين من الطلب ، يبدأ في الثبات ، وبعد فترة يرتفع بقوة ، لأن الجشع لا يسمح بالتخلي عن البضائع غير السائلة بسعر عادل.

يوجد موقف مماثل تقريبا في سوق البيانات. يتم إخفاء معظم المعلومات المفيدة دائمًا من خلال فرضيات ثانوية حول قابليتها للتطبيق والاستخراج.
يكفي وضع أي معلومات مثيرة للاهتمام لـ 5000-7000 شخص على أي مورد غير محمي نسبيًا ، وهناك بالتأكيد مواقع لصق النسخ.

أو اللعبة الشهيرة مع رموز الهاتف "من اتصل بي؟". يتكون حوالي ألف موقع في Runet فقط من أرقام هواتف العديد من المشغلين من أجل أن تكون أعلى قليلاً في نتائج البحث ، في محاولة لبيع اسم المجال والإعلانات بطريقة أكثر تكلفة.

3. سعر المشكلة عند العمل مع البيانات "القذرة".

وفقًا للبحث الذي أجراه مؤلف المقال ، يتم تحويل ما يصل إلى 10٪ من موارد العمل لكل مشروع لكتابة بعض إجراءات تنظيف البيانات. إذا كنت لا تتحدث عن نوع وطول عاديين تمامًا ، فهناك معرفات فريدة وقواعد تكامل قاعدة البيانات وقواعد النزاهة التجارية ومقاييس الوحدات الكمية والنوعية وأنظمة وحدة العمل وأي حالات أخرى والتأثيرات والانتقالات التي يتطلب إعدادها كإحصائية معتادة تحليل الأعمال المنطقي والجاد. يأتي إضفاء الطابع الرسمي على المتطلبات إلى الحاجة إلى إضفاء الطابع الرسمي على العلاقة بين الواقع والواقع لبناء المستودعات ولحل المشكلات في الواجهة الأمامية.

توافق ، إذا كانت عمليات ETL تشغل 70٪ من وقت العمل في أي وحدة تخزين ، فإن توفير 5-7٪ من الموارد على التنظيف الصحيح للبيانات على التخزين الشرطي لـ 200،000 عميل يعد بالفعل مكافأة جيدة؟

سوف نغطي قليلاً قضايا البيانات "القذرة" في الأنظمة الجاهزة. لنفترض أنك أرسلت تهنئة بمناسبة عطلة وطنية إلى 10000 عميل عبر البريد. كم عدد الأشخاص الذين سيرسلون رسالتكم مع أفضل بطاقة بريدية في صندوق البريد ، إذا قمت بخطأ في الاسم أو اللقب أو ملء النموذج بشكل غير صحيح في النموذج؟ سعر جهودك يمكن أن يقلل من مزاج أي مستخدم إلى الصفر!

4. Oracle Enterprise Data Quality - درع وسيف تخزين الشركة.

تصف لقطات الشاشة التي نقدمها قدرات Oracle Enterprise Data Quality.

لذا ، دع شخصًا ما يسكب الماء في قاعدة البيانات أو المستند النصي.


فيما يلي قائمة بالمعالجات القياسية (الوحدات المنطقية التي تسمح لك باستخدامها)
إلى بيانات فرضية واحدة أو أخرى ، أو ابحث عن المطلوب):


إجراء منشئ قواعد البيانات العشوائية:


مراجعة أولية للملاءة المالية:


العمل برمز بريدي:


تنظيف العنوان البريدي:


مسح بيانات المستخدم:


تعيين سجل إلى فاصل ثقة واحد أو آخر:


تحديد جنس المستخدم من البيانات غير المباشرة:


تعريف المدينة والبلد ، الولاية:


أبسط مفتاح البحث في قاعدة بيانات عشوائية:


إلغاء البيانات المكررة:


5. ملاحظات مضحكة حول نتائج العمل على Oracle EDQ.

أحد مبادئ مقارنة مساهمات الكتاب والشعراء في الأدب هو مقارنة قواميسهم الشعرية والأدبية. نقدم عددًا من القواميس التي تم تجميعها في وقت الفراغ لاختبار الحلول الجاهزة لـ Oracle EDQ و Python و Java. سنكون ممتنين إذا قام علماء اللغة في التعليقات بنشر نتائجهم.

الرقم ص.


الكلمة


تواتر حدوث


الأسد
تولستوي ، الحرب والسلام. جزء من جدول التردد
قاموس حقوق التأليف والنشر.



I.
برودسكي ، أورانيا.



I.
Brodsky Complete يعمل ، جزء من قاموس التردد
المؤلف.



N.
Nekrasov ، جزء من قاموس التردد للمجموعة الكاملة
يعمل.



1.


و


10351


في
1037


في
5745


و
3420


3.


في


5185


و
647


و
4500


في
2108


4.


ليس


4292


ليس
391


ليس
3022


ليس
1726


5.


أن


3845


في
341


في
2239


أنا
1040


6.


هو


3730


كيف
329


كيف
1758


مع
883


7.


في


3305


مع
237


مع
1674


في
854


8.


مع


3030


أن
168


أن
1531


كيف
763


9.


كيف


2097


إلى
148


و
1200


أن
693


10.


أنا


1896


من
147


أنا
1040


هو
644


11.


له


1882


من
104


إلى
922


أنت
475


12.


إلى


1771


أنا
90


من
810


لكن
472


13.


ال


1600


حيث
88


جميع
748


و
449


14.


هي هي


1564


من
88


في
744


هكذا
383


15.


لكن


1234


إلى
76


أنت
721


إلى
367


16.


إنه كذلك


1208


في
74


ال
713


جميع
344


17.


وقال


1135


لكن
72


إلى
687


إلى
313


18.


كان


1125


أو
70


من
635


لي
309


19.


هكذا


1032


هل كان
69


لكن
617


نعم
294


20.


الأمير


1012


ال
67


هو
592


له
275


21.


إلى


985


أنت
67


لكن
584


ال
232


22.


و


962


حول
66


ال
540


كان عليه
229


23.


له


918


لكن
63


حول
538


في
224


24.


جميع


908


هل هناك
61


إنه كذلك
524


لا
223


25.


في


895


أنا كذلك
61


أنا كذلك
489


أو
222


26.


لها


885



و
463


حول
213


27.


من


845



حيث
449


هم
212


28.





من
443


من
209


29.





A
428


من
207


30.





نفس
422


نحن
206




الخلاصة: إن إحصائيات اللغة الروسية على مدار المائة عام الماضية من حيث تواتر الكلمات الفردية لم تتغير كثيرًا ، بين الشعراء - الكلمات أكثر إيقاعًا. بالمناسبة ، تتوافق إحصاءات داريا دونتسوفا في نواح كثيرة مع ليو تولستوي في مجال قاموس التكرار للأعمال الكاملة.

6. عدة حسابات رسمية كخلاصة.

حوالي 60 ألف ايفانوف ايفانوف ايفانوفيتش يعيشون في بلدنا. على افتراض أنه في مكان ما ، من الناحية الافتراضية ، يتم تخزين 100 جدول في قاعدة البيانات المتوسطة ، و 10 حقول رئيسية في كل جدول ، ويمكن لكل مفتاح أن يأخذ 60 ألف قيمة ، ونصل إلى أن إجمالي عدد حالات المفتاح الفريدة داخل قاعدة البيانات يبلغ حوالي 60 مليون. حتى إذا تم خلط مفتاحين في جدول واحد ، فيمكنهما إنشاء ما يصل إلى 20 حالة فريدة في جدول واحد. في المجموع ، يمكن أن يصل إلى عدة آلاف في قاعدة الحالات الفريدة. هل توافق على أن قضاء 10 ٪ من وقت التطوير و 5-7 ٪ من وقت تنفيذ ETL للقبض على مثل هذه التافهات هو ترف غير مقبول؟

UPD1 إذا سئمت من سحب نظام التحكم لكل دليل أكثر أو أقل أهمية في عملك ، فإن أنظمة MDM (إدارة البيانات الرئيسية) سوف تساعدك . بالطبع ، نحن نقدم هذه النظم إلى السوق ، بما في ذلك إصدار على البرمجيات الحرة.

UPD2 غالبًا ما يتم طرح السؤال في المؤتمرات: "كيفية إنشاء نظام أرخص لإدارة جودة البيانات". أطلب منك أن تعتبر هذه المقالة مقدمة صغيرة لهذه المشكلة ، مع بعض التبسيط لوظيفة EDQ. نعم ، ومع ذلك ، يمكنك أن تأخذ مجموعة من ODI + EDQ وتفعلها جيدًا ، لكن هذا موضوع مزيد من السرد.

Source: https://habr.com/ru/post/ar444700/


All Articles