ZufĂ€llige Datenbanken. Oracle Enterprise Data Quality - Schutzschild und Schwert fĂŒr Enterprise Storage

Der Denkprozess einer Person ist schwer zu mathematisieren. Jede GeschÀftsaufgabe generiert eine Reihe formeller und informeller Dokumente, deren Informationen sich im Unternehmens-Repository widerspiegeln. Jede Aufgabe, die einen Informationsprozess generiert, erstellt um sich herum eine Reihe von Dokumenten und die Logik ihrer Verarbeitung, die in der Unternehmensspeicherumgebung wenig formalisiert ist. Im Data Warehouse sollten Strukturen vorhanden sein, um den Informationsfluss zu löschen. Das Oracle Enterprise Data Quality-Produkt, mit dem die Aufgaben der Bereinigung "schmutziger" Daten gelöst werden sollen, kann Abhilfe schaffen. Dies ist jedoch nicht auf seine Verwendung beschrÀnkt.

1. Das Konzept einer zufÀlligen Datenbank.

Die allerersten GeschĂ€ftsbeziehungen einer Person werden durch formelle und informelle Dokumente wie eine ErklĂ€rung, eine ErklĂ€rung, einen Arbeitsvertrag, einen Antrag auf Vermittlung und einen Antrag auf eine Ressource beschrieben. Diese Dokumente stellen logische Verbindungen zwischen GeschĂ€ftsprozessen her, sind jedoch in der Regel ein Produkt des Denkens von BĂŒroleitern und schlecht formalisiert.

Die Aufgabe einer zumindest komplizierten Optimierung besteht nicht nur darin, die formellen und informellen Regeln zu verstehen, sondern hÀufig ungleiches Wissen in eine gemeinsame Informationsbasis zu bringen.

Definition Eine zufĂ€llige Datenbank besteht aus einer Reihe von Fakten, Dokumenten, manuellen Notizen und formalen Dokumenten, die von einer Person fĂŒr einen bestimmten GeschĂ€ftsprozess verarbeitet werden, jedoch aufgrund des starken Einflusses des menschlichen Faktors nicht vollstĂ€ndig automatisch verarbeitet werden können.

Ein Beispiel. Die SekretĂ€rin erhĂ€lt den Anruf offiziell. Der Anrufer interessiert sich fĂŒr ein Produkt oder eine Dienstleistung. Der Anrufer ist fĂŒr CRM nicht bekannt. Frage: Was soll der Anrufer sagen, um von einem Spezialisten gehört zu werden?

Genauer gesagt: Inwieweit ermöglichen die GeschĂ€ftsanweisungen der SekretĂ€rin einen formellen Dialog ĂŒber das GeschĂ€ft, wenn der zustĂ€ndige Spezialist fĂŒr diese Art von TĂ€tigkeit nicht bereit ist?

Es stellt sich heraus, dass wir wieder zur Definition einer zufÀlligen Datenbank kommen.

Vielleicht enthĂ€lt es mehr Fakten, als die SekretĂ€rin wissen kann. Die darin erhaltenen Informationen können jedoch nicht ĂŒberflĂŒssig sein. Wenn zufĂ€llige Fakten einer zufĂ€lligen Datenbank bei der Eingabe eines formalisierten Systems eintreffen, entsteht im Allgemeinen eine InformationsĂŒberflutung - und jede InformationsĂŒberflutung kann die Leistung nicht nur des SekretĂ€rs, sondern des gesamten Unternehmens beeintrĂ€chtigen.

Wenn es zu Verarbeitungszwecken verwendet wird, kommt eine Maschine, die die ZustĂ€nde dieser Informationen liest, auf der Grundlage logischer Schlussfolgerungen zu dem Zustand, der der Überlastung von Menscheninformationen entgegengesetzt ist. Die menschliche Logik ist flexibler.

2. Anwendung der Definition auf reale Aufgaben.

Stellen Sie sich ein GeschĂ€ft vor, in dem die Preise fĂŒr zufĂ€llige Waren spĂŒrbar hoch oder niedrig sind. Wenn Sie dieses GeschĂ€ft verlassen, wird im Kopf eines unerfahrenen Kunden mit einer Einkaufsliste der Preis von 5-7 (oder sogar 3) der beliebtesten Waren angegeben, dessen Preis die GrĂ¶ĂŸe des Gesamtschecks beeinflussen kann. Es stellt sich heraus, dass, wenn es möglich wĂ€re, die Liste der Waren zu kennen, an deren Preis sich die KĂ€ufer am hĂ€ufigsten erinnern, der Rest der Preise in einem relativ großen Bereich variieren könnte.

Haben Sie sich jemals gefragt, warum das Fleisch vor der Fastenzeit zunĂ€chst stark billiger wird und dann stark im Preis steigen und dann verschwinden kann? Der Preis eines Produkts, dessen Nachfrage auf Null fallen kann, wird zuerst kĂŒnstlich erwĂ€rmt, dann, wenn er eine bestimmte Nachfrage ĂŒberschreitet, beginnt er festgesetzt zu werden, und nach einer Weile steigt er krĂ€ftig an, da die Gier es nicht erlaubt, illiquide Waren zu einem fairen Preis zu verschenken.

Eine fast Ă€hnliche Situation besteht auf dem Datenmarkt. Die nĂŒtzlichsten Informationen werden fast immer von sekundĂ€ren Hypothesen ĂŒber ihre Anwendbarkeit und Extrahierbarkeit verborgen.
Es reicht aus, alle Informationen, die fĂŒr 5000-7000 Personen interessant sind, auf einer relativ ungeschĂŒtzten Ressource bereitzustellen. Es gibt sicherlich Websites zum Kopieren und EinfĂŒgen.

Oder das berĂŒhmte Spiel mit den Telefoncodes „Wer hat mich angerufen?“. UngefĂ€hr tausend Websites in Runet bestehen nur aus den Telefonnummern verschiedener Betreiber, um in den Suchergebnissen etwas höher zu sein, um den Domainnamen irgendwie zu verkaufen und Werbung teurer zu machen.

3. Der Preis des Problems bei der Arbeit mit "schmutzigen" Daten.

Nach den Recherchen des Autors des Artikels werden bis zu 10% der Arbeitsressourcen jedes Projekts fĂŒr das Schreiben bestimmter Datenbereinigungsverfahren verwendet. Wenn Sie sich nicht mit einem völlig banalen Typ und einer völlig banalen LĂ€nge befassen, dh mit eindeutigen Kennungen, DatenbankintegritĂ€tsregeln und GeschĂ€ftsintegritĂ€tsregeln, quantitativen und qualitativen Einheitenskalen, Arbeitseinheitensystemen und anderen ZustĂ€nden, EinflĂŒssen, ÜbergĂ€ngen, deren Erstellung wie ĂŒblich statistische Daten erfordert logische und seriöse GeschĂ€ftsanalyse. Bei der Formalisierung von Anforderungen muss die Beziehung zwischen Fakten und Dimensionen sowohl fĂŒr den Aufbau von Repositorys als auch fĂŒr die Lösung von Problemen im Front-End formalisiert werden.

Stimmen Sie zu, wenn ETL-Prozesse 70% der Arbeitszeit eines Speichers beanspruchen, ist es bereits ein guter Bonus, 5-7% der Ressourcen fĂŒr die korrekte Bereinigung von Daten bei einem bedingten Speicher von 200.000 Kunden einzusparen?

Wir werden uns ein wenig mit den Problemen "schmutziger" Daten in vorgefertigten Systemen befassen. Angenommen, Sie gratulieren 10.000 Kunden per Post zu einem Nationalfeiertag per Post. Wie viele Personen werfen Ihren Brief mit der besten Postkarte in die Mailbox, wenn Sie einen Fehler im Vor- oder Nachnamen machen oder das Formular im Formular falsch ausfĂŒllen? Der Preis Ihrer BemĂŒhungen kann die Stimmung eines jeden Benutzers auf Null reduzieren!

4. Oracle Enterprise Data Quality - Schutzschild und Schwert des Unternehmensspeichers.

Die von uns bereitgestellten Screenshots beschreiben die Funktionen von Oracle Enterprise Data Quality.

Lassen Sie also jemanden Wasser auf Ihre Datenbank oder Ihr Textdokument verschĂŒtten.


Hier ist eine Liste von Standardprozessoren (logische Einheiten, die Sie verwenden können
zu den Daten der einen oder anderen Hypothese oder zur Suche nach der erforderlichen):


ZufÀllige Datenbank-Profiler-Aktion:


GrundprĂŒfung der ZahlungsfĂ€higkeit:


Arbeiten Sie mit einer Postleitzahl:


Postanschrift reinigen:


Benutzerdaten löschen:


Zuordnung eines Datensatzes zu dem einen oder anderen Konfidenzintervall:


Ermittlung des Geschlechts des Benutzers anhand indirekter Daten:


Definition einer Stadt und eines Landes, Bundesland:


Die einfachste SchlĂŒsselsuche in einer zufĂ€lligen Datenbank:


Deduplizierung von Benutzerdaten:


5. Lustige Beobachtungen zu den Ergebnissen der Arbeit an Oracle EDQ.

Eines der Prinzipien fĂŒr den Vergleich der BeitrĂ€ge von Schriftstellern und Dichtern zur Literatur ist der Vergleich ihrer poetischen und literarischen WörterbĂŒcher. Wir bieten eine Reihe von WörterbĂŒchern, die in der Freizeit zusammengestellt wurden, um vorgefertigte Lösungen fĂŒr Oracle EDQ, Python und Java zu testen. Wir werden dankbar sein, wenn die Philologen in den Kommentaren ihre Ergebnisse veröffentlichen.

Nummer p.p.


Wort


HĂ€ufigkeit des Auftretens


Löwe
Tolstoi, Krieg und Frieden. Fragment der HĂ€ufigkeitstabelle
Copyright-Wörterbuch.



I.
Brodsky, Urania.



I.
Brodsky Complete Works, ein Fragment des Frequenzwörterbuchs
der Autor.



N.
Nekrasov, ein Fragment des Frequenzwörterbuchs fĂŒr die gesamte Sammlung
Essays.



1.


und


10351


in
1037


in
5745


und
3420


3.


in


5185


und
647


und
4500


in
2108


4.


nicht


4292


nicht
391


nicht
3022


nicht
1726


5.


was


3845


auf
341


auf
2239


ich
1040


6.


er ist


3730


wie
329


wie
1758


mit
883


7.


auf


3305


mit
237


mit
1674


auf
854


8.


mit


3030


was
168


was
1531


wie
763


9.


wie


2097


zu
148


Und
1200


was
693


10.


ich


1896


von
147


ich
1040


er ist
644


11.


sein


1882


von
104


zu
922


du
475


12.


zu


1771


ich
90


von
810


aber
472


13.


dann


1600


wo
88


alle
748


aber
449


14.


sie ist


1564


als
88


von
744


so
383


15.


aber


1234


fĂŒr
76


du
721


zu
367


16.


Das


1208


von
74


In
713


alle
344


17.


sagte


1135


Aber
72


fĂŒr
687


fĂŒr
313


18.


war


1125


auch nicht
70


von
635


mir
309


19.


so


1032


wĂŒrde
69


aber
617


ja
294


20.


der Prinz


1012


dann
67


er ist
592


sein
275


21.


fĂŒr


985


du
67


Aber
584


dann
232


22.


aber


962


ĂŒber
66


dann
540


war
229


23.


zu ihm


918


aber
63


ĂŒber
538


von
224


24.


alle


908


ist da
61


Das
524


Nein
223


25.


von


895


Ich bin
61


Ich bin
489


auch nicht
222


26.


sie


885



aber
463


ĂŒber
213


27.


von


845



wo
449


ihre
212


28.





als
443


von
209


29.





A.
428


von
207


30.





das gleiche
422


wir sind
206




Fazit: Die Statistik der russischen Sprache in den letzten hundert Jahren in Bezug auf die HĂ€ufigkeit einzelner Wörter hat sich bei Dichtern nicht wesentlich geĂ€ndert - Wörter sind „melodiöser“. Übrigens stimmen die Statistiken von Daria Dontsova in vielerlei Hinsicht mit denen von Leo Tolstoi im Bereich des Frequenzwörterbuchs der gesamten Werke ĂŒberein.

6. Mehrere formale Berechnungen als Schlussfolgerung.

UngefĂ€hr 60 Tausend Iwanow Iwanow Iwanowitsch leben in unserem Land. Unter der Annahme, dass irgendwo hypothetisch 100 Tabellen in der durchschnittlichen Datenbank gespeichert sind, 10 SchlĂŒsselfelder in jeder Tabelle und jeder SchlĂŒssel 60.000 Werte annehmen kann, ergibt sich eine Gesamtzahl von 60 Millionen eindeutigen SchlĂŒsselzustĂ€nden in der Datenbank. Selbst wenn zwei SchlĂŒssel in einer Tabelle verwechselt werden, können sie bis zu 20 eindeutige ZustĂ€nde in einer Tabelle generieren. Insgesamt können bis zu mehreren Tausend auf die Basis eindeutiger ZustĂ€nde stoßen. Stimmen Sie zu, dass es ein unzulĂ€ssiger Luxus ist, 10% der Entwicklungszeit und 5-7% der ETL-AusfĂŒhrungszeit fĂŒr das Fangen solcher Kleinigkeiten aufzuwenden?

UPD1 Wenn Sie es satt haben, das Steuerungssystem fĂŒr jedes mehr oder weniger wichtige Verzeichnis in Ihrer Arbeit zu ziehen, helfen Ihnen MDM-Systeme (Master Data Management). NatĂŒrlich liefern wir solche Systeme auf den Markt, einschließlich einer Version mit freier Software.

UPD2 Sehr oft wird auf Konferenzen die Frage gestellt: „Wie schafft man ein billigeres DatenqualitĂ€tsmanagementsystem ? “. Ich bitte Sie, diesen Artikel als kleine EinfĂŒhrung in dieses Problem mit einer gewissen Vereinfachung der EDQ-FunktionalitĂ€t zu betrachten. Ja, und dennoch können Sie eine Menge ODI + EDQ nehmen und es sehr gut machen, aber dies ist das Thema weiterer ErzĂ€hlungen.

Source: https://habr.com/ru/post/de444700/


All Articles