Der Denkprozess einer Person ist schwer zu mathematisieren. Jede GeschÀftsaufgabe generiert eine Reihe formeller und informeller Dokumente, deren Informationen sich im Unternehmens-Repository widerspiegeln. Jede Aufgabe, die einen Informationsprozess generiert, erstellt um sich herum eine Reihe von Dokumenten und die Logik ihrer Verarbeitung, die in der Unternehmensspeicherumgebung wenig formalisiert ist. Im Data Warehouse sollten Strukturen vorhanden sein, um den Informationsfluss zu löschen. Das Oracle Enterprise Data Quality-Produkt, mit dem die Aufgaben der Bereinigung "schmutziger" Daten gelöst werden sollen, kann Abhilfe schaffen. Dies ist jedoch nicht auf seine Verwendung beschrÀnkt.
1. Das Konzept einer zufĂ€lligen Datenbank.Die allerersten GeschĂ€ftsbeziehungen einer Person werden durch formelle und informelle Dokumente wie eine ErklĂ€rung, eine ErklĂ€rung, einen Arbeitsvertrag, einen Antrag auf Vermittlung und einen Antrag auf eine Ressource beschrieben. Diese Dokumente stellen logische Verbindungen zwischen GeschĂ€ftsprozessen her, sind jedoch in der Regel ein Produkt des Denkens von BĂŒroleitern und schlecht formalisiert.
Die Aufgabe einer zumindest komplizierten Optimierung besteht nicht nur darin, die formellen und informellen Regeln zu verstehen, sondern hÀufig ungleiches Wissen in eine gemeinsame Informationsbasis zu bringen.
Definition Eine zufĂ€llige Datenbank besteht aus einer Reihe von Fakten, Dokumenten, manuellen Notizen und formalen Dokumenten, die von einer Person fĂŒr einen bestimmten GeschĂ€ftsprozess verarbeitet werden, jedoch aufgrund des starken Einflusses des menschlichen Faktors nicht vollstĂ€ndig automatisch verarbeitet werden können.Ein Beispiel. Die SekretĂ€rin erhĂ€lt den Anruf offiziell. Der Anrufer interessiert sich fĂŒr ein Produkt oder eine Dienstleistung. Der Anrufer ist fĂŒr CRM nicht bekannt. Frage: Was soll der Anrufer sagen, um von einem Spezialisten gehört zu werden?
Genauer gesagt: Inwieweit ermöglichen die GeschĂ€ftsanweisungen der SekretĂ€rin einen formellen Dialog ĂŒber das GeschĂ€ft, wenn der zustĂ€ndige Spezialist fĂŒr diese Art von TĂ€tigkeit nicht bereit ist?
Es stellt sich heraus, dass wir wieder zur Definition einer zufÀlligen Datenbank kommen.
Vielleicht enthĂ€lt es mehr Fakten, als die SekretĂ€rin wissen kann. Die darin erhaltenen Informationen können jedoch nicht ĂŒberflĂŒssig sein. Wenn zufĂ€llige Fakten einer zufĂ€lligen Datenbank bei der Eingabe eines formalisierten Systems eintreffen, entsteht im Allgemeinen eine InformationsĂŒberflutung - und jede InformationsĂŒberflutung kann die Leistung nicht nur des SekretĂ€rs, sondern des gesamten Unternehmens beeintrĂ€chtigen.
Wenn es zu Verarbeitungszwecken verwendet wird, kommt eine Maschine, die die ZustĂ€nde dieser Informationen liest, auf der Grundlage logischer Schlussfolgerungen zu dem Zustand, der der Ăberlastung von Menscheninformationen entgegengesetzt ist. Die menschliche Logik ist flexibler.
2. Anwendung der Definition auf reale Aufgaben.Stellen Sie sich ein GeschĂ€ft vor, in dem die Preise fĂŒr zufĂ€llige Waren spĂŒrbar hoch oder niedrig sind. Wenn Sie dieses GeschĂ€ft verlassen, wird im Kopf eines unerfahrenen Kunden mit einer Einkaufsliste der Preis von 5-7 (oder sogar 3) der beliebtesten Waren angegeben, dessen Preis die GröĂe des Gesamtschecks beeinflussen kann. Es stellt sich heraus, dass, wenn es möglich wĂ€re, die Liste der Waren zu kennen, an deren Preis sich die KĂ€ufer am hĂ€ufigsten erinnern, der Rest der Preise in einem relativ groĂen Bereich variieren könnte.
Haben Sie sich jemals gefragt, warum das Fleisch vor der Fastenzeit zunĂ€chst stark billiger wird und dann stark im Preis steigen und dann verschwinden kann? Der Preis eines Produkts, dessen Nachfrage auf Null fallen kann, wird zuerst kĂŒnstlich erwĂ€rmt, dann, wenn er eine bestimmte Nachfrage ĂŒberschreitet, beginnt er festgesetzt zu werden, und nach einer Weile steigt er krĂ€ftig an, da die Gier es nicht erlaubt, illiquide Waren zu einem fairen Preis zu verschenken.
Eine fast Ă€hnliche Situation besteht auf dem Datenmarkt. Die nĂŒtzlichsten Informationen werden fast immer von sekundĂ€ren Hypothesen ĂŒber ihre Anwendbarkeit und Extrahierbarkeit verborgen.
Es reicht aus, alle Informationen, die fĂŒr 5000-7000 Personen interessant sind, auf einer relativ ungeschĂŒtzten Ressource bereitzustellen. Es gibt sicherlich Websites zum Kopieren und EinfĂŒgen.
Oder das berĂŒhmte Spiel mit den Telefoncodes âWer hat mich angerufen?â. UngefĂ€hr tausend Websites in Runet bestehen nur aus den Telefonnummern verschiedener Betreiber, um in den Suchergebnissen etwas höher zu sein, um den Domainnamen irgendwie zu verkaufen und Werbung teurer zu machen.
3. Der Preis des Problems bei der Arbeit mit "schmutzigen" Daten.Nach den Recherchen des Autors des Artikels werden bis zu 10% der Arbeitsressourcen jedes Projekts fĂŒr das Schreiben bestimmter Datenbereinigungsverfahren verwendet. Wenn Sie sich nicht mit einem völlig banalen Typ und einer völlig banalen LĂ€nge befassen, dh mit eindeutigen Kennungen, DatenbankintegritĂ€tsregeln und GeschĂ€ftsintegritĂ€tsregeln, quantitativen und qualitativen Einheitenskalen, Arbeitseinheitensystemen und anderen ZustĂ€nden, EinflĂŒssen, ĂbergĂ€ngen, deren Erstellung wie ĂŒblich statistische Daten erfordert logische und seriöse GeschĂ€ftsanalyse. Bei der Formalisierung von Anforderungen muss die Beziehung zwischen Fakten und Dimensionen sowohl fĂŒr den Aufbau von Repositorys als auch fĂŒr die Lösung von Problemen im Front-End formalisiert werden.
Stimmen Sie zu, wenn ETL-Prozesse 70% der Arbeitszeit eines Speichers beanspruchen, ist es bereits ein guter Bonus, 5-7% der Ressourcen fĂŒr die korrekte Bereinigung von Daten bei einem bedingten Speicher von 200.000 Kunden einzusparen?
Wir werden uns ein wenig mit den Problemen "schmutziger" Daten in vorgefertigten Systemen befassen. Angenommen, Sie gratulieren 10.000 Kunden per Post zu einem Nationalfeiertag per Post. Wie viele Personen werfen Ihren Brief mit der besten Postkarte in die Mailbox, wenn Sie einen Fehler im Vor- oder Nachnamen machen oder das Formular im Formular falsch ausfĂŒllen? Der Preis Ihrer BemĂŒhungen kann die Stimmung eines jeden Benutzers auf Null reduzieren!
4. Oracle Enterprise Data Quality - Schutzschild und Schwert des Unternehmensspeichers.Die von uns bereitgestellten Screenshots beschreiben die Funktionen von Oracle Enterprise Data Quality.
Lassen Sie also jemanden Wasser auf Ihre Datenbank oder Ihr Textdokument verschĂŒtten.

Hier ist eine Liste von Standardprozessoren (logische Einheiten, die Sie verwenden können
zu den Daten der einen oder anderen Hypothese oder zur Suche nach der erforderlichen):

ZufÀllige Datenbank-Profiler-Aktion:

GrundprĂŒfung der ZahlungsfĂ€higkeit:

Arbeiten Sie mit einer Postleitzahl:

Postanschrift reinigen:

Benutzerdaten löschen:

Zuordnung eines Datensatzes zu dem einen oder anderen Konfidenzintervall:

Ermittlung des Geschlechts des Benutzers anhand indirekter Daten:

Definition einer Stadt und eines Landes, Bundesland:

Die einfachste SchlĂŒsselsuche in einer zufĂ€lligen Datenbank:

Deduplizierung von Benutzerdaten:
5. Lustige Beobachtungen zu den Ergebnissen der Arbeit an Oracle EDQ.Eines der Prinzipien fĂŒr den Vergleich der BeitrĂ€ge von Schriftstellern und Dichtern zur Literatur ist der Vergleich ihrer poetischen und literarischen WörterbĂŒcher. Wir bieten eine Reihe von WörterbĂŒchern, die in der Freizeit zusammengestellt wurden, um vorgefertigte Lösungen fĂŒr Oracle EDQ, Python und Java zu testen. Wir werden dankbar sein, wenn die Philologen in den Kommentaren ihre Ergebnisse veröffentlichen.
Nummer p.p.
| Wort
| HĂ€ufigkeit des Auftretens
|
Löwe Tolstoi, Krieg und Frieden. Fragment der HÀufigkeitstabelle Copyright-Wörterbuch.
| I. Brodsky, Urania.
| I. Brodsky Complete Works, ein Fragment des Frequenzwörterbuchs der Autor.
| N. Nekrasov, ein Fragment des Frequenzwörterbuchs fĂŒr die gesamte Sammlung Essays.
|
1.
| und
| 10351
| in 1037
| in 5745
| und 3420
|
3.
| in
| 5185
| und 647
| und 4500
| in 2108
|
4.
| nicht
| 4292
| nicht 391
| nicht 3022
| nicht 1726
|
5.
| was
| 3845
| auf 341
| auf 2239
| ich 1040
|
6.
| er ist
| 3730
| wie 329
| wie 1758
| mit 883
|
7.
| auf
| 3305
| mit 237
| mit 1674
| auf 854
|
8.
| mit
| 3030
| was 168
| was 1531
| wie 763
|
9.
| wie
| 2097
| zu 148
| Und 1200
| was 693
|
10.
| ich
| 1896
| von 147
| ich 1040
| er ist 644
|
11.
| sein
| 1882
| von 104
| zu 922
| du 475
|
12.
| zu
| 1771
| ich 90
| von 810
| aber 472
|
13.
| dann
| 1600
| wo 88
| alle 748
| aber 449
|
14.
| sie ist
| 1564
| als 88
| von 744
| so 383
|
15.
| aber
| 1234
| fĂŒr 76
| du 721
| zu 367
|
16.
| Das
| 1208
| von 74
| In 713
| alle 344
|
17.
| sagte
| 1135
| Aber 72
| fĂŒr 687
| fĂŒr 313
|
18.
| war
| 1125
| auch nicht 70
| von 635
| mir 309
|
19.
| so
| 1032
| wĂŒrde 69
| aber 617
| ja 294
|
20.
| der Prinz
| 1012
| dann 67
| er ist 592
| sein 275
|
21.
| fĂŒr
| 985
| du 67
| Aber 584
| dann 232
|
22.
| aber
| 962
| ĂŒber 66
| dann 540
| war 229
|
23.
| zu ihm
| 918
| aber 63
| ĂŒber 538
| von 224
|
24.
| alle
| 908
| ist da 61
| Das 524
| Nein 223
|
25.
| von
| 895
| Ich bin 61
| Ich bin 489
| auch nicht 222
|
26.
| sie
| 885
|
| aber 463
| ĂŒber 213
|
27.
| von
| 845
|
| wo 449
| ihre 212
|
28.
|
|
|
| als 443
| von 209
|
29.
|
|
|
| A. 428
| von 207
|
30.
|
|
|
| das gleiche 422
| wir sind 206
|
Fazit: Die Statistik der russischen Sprache in den letzten hundert Jahren in Bezug auf die HĂ€ufigkeit einzelner Wörter hat sich bei Dichtern nicht wesentlich geĂ€ndert - Wörter sind âmelodiöserâ. Ăbrigens stimmen die Statistiken von Daria Dontsova in vielerlei Hinsicht mit denen von Leo Tolstoi im Bereich des Frequenzwörterbuchs der gesamten Werke ĂŒberein.
6. Mehrere formale Berechnungen als Schlussfolgerung.UngefĂ€hr 60 Tausend Iwanow Iwanow Iwanowitsch leben in unserem Land. Unter der Annahme, dass irgendwo hypothetisch 100 Tabellen in der durchschnittlichen Datenbank gespeichert sind, 10 SchlĂŒsselfelder in jeder Tabelle und jeder SchlĂŒssel 60.000 Werte annehmen kann, ergibt sich eine Gesamtzahl von 60 Millionen eindeutigen SchlĂŒsselzustĂ€nden in der Datenbank. Selbst wenn zwei SchlĂŒssel in einer Tabelle verwechselt werden, können sie bis zu 20 eindeutige ZustĂ€nde in einer Tabelle generieren. Insgesamt können bis zu mehreren Tausend auf die Basis eindeutiger ZustĂ€nde stoĂen. Stimmen Sie zu, dass es ein unzulĂ€ssiger Luxus ist, 10% der Entwicklungszeit und 5-7% der ETL-AusfĂŒhrungszeit fĂŒr das Fangen solcher Kleinigkeiten aufzuwenden?
UPD1 Wenn Sie es satt haben, das Steuerungssystem fĂŒr jedes mehr oder weniger wichtige Verzeichnis in Ihrer Arbeit zu ziehen,
helfen Ihnen MDM-Systeme (Master Data Management). NatĂŒrlich liefern wir solche Systeme auf den Markt, einschlieĂlich einer Version mit freier Software.
UPD2 Sehr oft wird auf Konferenzen die Frage gestellt: âWie schafft man ein billigeres DatenqualitĂ€tsmanagementsystem
? â. Ich bitte Sie, diesen Artikel als kleine EinfĂŒhrung in dieses Problem mit einer gewissen Vereinfachung der EDQ-FunktionalitĂ€t zu betrachten. Ja, und dennoch können Sie eine Menge ODI + EDQ nehmen und es sehr gut machen, aber dies ist das Thema weiterer ErzĂ€hlungen.