Die Qualität der Daten im Repository ist eine wichtige Voraussetzung, um wertvolle Informationen zu erhalten. Schlechte Qualität führt langfristig zu einer negativen Kettenreaktion.
Erstens geht das Vertrauen in die bereitgestellten Informationen verloren. Die Leute beginnen, Business Intelligence-Anwendungen weniger zu verwenden, das Potenzial von Anwendungen wird nicht beansprucht.
Dadurch werden weitere Investitionen in das Analyseprojekt in Frage gestellt.
Verantwortung für die Datenqualität
Der Aspekt der Verbesserung der Datenqualität spielt in BI-Projekten eine große Rolle. Es ist jedoch nicht das Privileg nur technischer Spezialisten.
Die Datenqualität wird auch durch Aspekte wie beeinflusst
Unternehmenskultur- Sind die Arbeitnehmer selbst daran interessiert, gute Qualität zu produzieren?
- Wenn nicht, warum? Möglicherweise liegt ein Interessenkonflikt vor.
- Vielleicht gibt es Unternehmensregeln, die die Verantwortlichen für Qualität definieren?
Die Prozesse- Welche Daten werden am Ende dieser Ketten erstellt?
- Möglicherweise sind die Betriebssysteme so konfiguriert, dass Sie "raus" müssen, um diese oder jene Situation in der Realität widerzuspiegeln.
- Führen Betriebssysteme die Datenvalidierung und -verifizierung selbst durch?
Jeder in der Organisation ist für die Qualität der Daten in den Berichtssystemen verantwortlich.
Definition und Bedeutung
Qualität ist eine bestätigte Zufriedenheit der Kundenerwartungen.
Die Qualität der Daten enthält jedoch keine Definition. Es spiegelt immer den Nutzungskontext wider. Das Data Warehouse und das BI-System erfüllen andere Zwecke als das Betriebssystem, aus dem die Daten stammen.
Beispielsweise ist unter einem Betriebssystem ein Clientattribut möglicherweise kein erforderliches Feld. Im Repository kann dieses Attribut als Dimension verwendet werden, und seine Füllung ist obligatorisch. Dies führt wiederum dazu, dass Standardwerte aufgefüllt werden müssen.
Die Anforderungen an Data Warehouse ändern sich ständig und sind normalerweise höher als bei Betriebssystemen. Es kann jedoch auch umgekehrt sein, wenn keine detaillierten Informationen des Betriebssystems im Speicher gespeichert werden müssen.
Um die Datenqualität messbar zu machen, müssen ihre Standards beschrieben werden. Personen, die Informationen und Zahlen für ihre Arbeit verwenden, sollten in den Beschreibungsprozess einbezogen werden. Das Ergebnis dieser Beteiligung kann eine Regel sein, nach der Sie auf einen Blick feststellen können, ob ein Fehler vorliegt oder nicht. Diese Regel muss zur späteren Überprüfung in Form eines Skripts / Codes ausgegeben werden.
Verbesserung der Datenqualität
Es ist unmöglich, alle hypothetischen Fehler beim Laden von Daten in das Repository zu bereinigen und zu beheben. Eine gute Datenqualität kann nur durch die enge Zusammenarbeit aller Teilnehmer erreicht werden. Personen, die Daten in Betriebssysteme eingeben, sollten herausfinden, welche Aktionen zu Fehlern führen.
Datenqualität ist ein Prozess. Leider gibt es in vielen Organisationen keine Strategie zur kontinuierlichen Verbesserung. Viele beschränken sich nur auf das Speichern von Daten und nutzen nicht das volle Potenzial von Analysesystemen. Bei der Entwicklung von Data Warehouses werden in der Regel 70-80% des Budgets für die Datenintegration ausgegeben. Der Prozess der Kontrolle und Verbesserung bleibt, wenn überhaupt, noch nicht abgeschlossen.
Die Werkzeuge
Die Verwendung von Softwaretools kann bei der Automatisierung der Verbesserung und Überwachung der Datenqualität hilfreich sein. Beispielsweise können sie die technische Überprüfung von Speicherstrukturen vollständig automatisieren: Format von Feldern, Vorhandensein von Standardwerten, Einhaltung der Anforderungen von Tabellenfeldnamen.
Es kann schwieriger sein, den Inhalt zu überprüfen. Wenn sich die Speicheranforderungen ändern, kann sich die Dateninterpretation ändern. Das Tool selbst kann zu einem riesigen Projekt werden, das Unterstützung benötigt.
Tipp
Relationale Datenbanken, in denen normalerweise Repositorys entworfen werden, bieten eine hervorragende Möglichkeit, Ansichten (Ansichten) zu erstellen. Sie können verwendet werden, um Daten schnell zu überprüfen, wenn Sie die Funktionen des Inhalts kennen. Jeder Fall, in dem ein Fehler oder ein Problem in den Daten gefunden wird, kann in Form einer Abfrage an die Datenbank aufgezeichnet werden.
Auf diese Weise wird eine Wissensbasis für Inhalte gebildet. Natürlich sollten solche Anfragen schnell sein. Das Bearbeiten von Ansichten nimmt in der Regel weniger Zeit in Anspruch als das auf Tabellen organisierte Tools. Die Ansicht ist immer bereit, das Ergebnis der Prüfung anzuzeigen.
Bei wichtigen Berichten kann die Ansicht eine Spalte mit dem Adressaten enthalten. Es ist sinnvoll, dieselben BI-Tools zu verwenden, um über den Status der Datenqualität im Repository zu berichten.
Beispiel
Die Anforderung wird für die Oracle-Datenbank geschrieben. In diesem Beispiel geben Tests einen numerischen Wert zurück, der nach Bedarf interpretiert werden kann. Mit den Werten T_MIN und T_MAX kann der Alarmgrad eingestellt werden. Das Feld REPORT wurde einst als Nachricht in einem kommerziellen ETL-Produkt verwendet, das nicht wusste, wie E-Mails angemessen gesendet werden können. Daher ist rpad eine „Krücke“.
Im Fall einer großen Tabelle können Sie beispielsweise AND ROWNUM <= 10 hinzufügen, d. H. Wenn 10 Fehler vorliegen, reicht dies für einen Alarm aus.
CREATE OR REPLACE VIEW V_QC_DIM_PRODUCT_01 AS SELECT CASE WHEN OUTPUT>=T_MIN AND OUTPUT<=T_MAX THEN 'OK' ELSE 'ERROR' END AS RESULT, DESCRIPTION, TABLE_NAME, OUTPUT, T_MIN, T_MAX, rpad(DESCRIPTION,60,' ') || rpad(OUTPUT,8,' ') || rpad(T_MIN,8,' ') || rpad(T_MAX,8,' ') AS REPORT FROM (
Die Veröffentlichung verwendete Buchmaterialien
Ronald Bachmann, Dr. Guido kemper
Raus aus der BI-Falle
Wie Business Intelligence zum Erfolg wird