DQM Data Quality Manager DOAG Hochschul-Regionaltreffen Münster 03.12.2009 Johannes Tomasoni
Die Informationsfabrik Gründungsjahr: 2000 Sitz in Münster 15 angestellte Mitarbeiter: Wirtschaftsinformatiker, Informatiker, Mathematiker oder Ingenieure Experten für: Business Intelligence, Datenintegration und Informationsmanagement Unsere Kunden sind Banken, Finanzdienstleiter und Industrieunternehmen 2
Die Informationsfabrik Datenbewirtschaftung und Datenintegration [mit Informatica PowerCenter] Individuelle Business Intelligence Lösungen [mit der Cognos Toolpalette] Entwicklung, Vertrieb und Customizing von STAS CONTROL CPM [Controlling Software] IT Consulting für Softwareprojekte: Konzeption, Implementierung und Test Coaching, Training, Expertisen 3
Agenda Einführung DQM Regeln DQM in der Praxis Implementierung Diskussion 4
Agenda Einführung DQM Regeln DQM in der Praxis Implementierung Diskussion 5
Einführung Wofür steht DQM? Was ist DQM? Wozu Datenqualität? Wieso muss man das managen? 6
DQM - Anwendungsgebiete Datenintegration Daten auf Konsistenz und Korrektheit prüfen Vortest ob Daten in andere Systeme übernommen werden können Vorstufe zur Bereinigung der Daten Kundendaten - Adressprüfung Erfassung von Vertragsdaten / Konten Überschreitung von Schwellwerten Betrugserkennung Welche Kunden haben überdurchschnittlich viele Schadensfälle mit überdurchschnittlicher Schadenshöhe gemeldet? Qualitätssicherung Welche Lieferanten liefern häufiger Produkte mit höherem Ausschuss als vereinbart? Controlling Welche Unternehmensbereiche liegen in den KPI s hinter dem Plan? 7
DQM in a nutshell Aufgabe von DQM Hinterlegung von wiederholbaren Regeln auf Datenbestand Ergebnis wird auf Instanzebene geloggt Umsetzung Aus Regel wird SQL-Statement erzeugt Filter erzeugen zusätzliche WHERE-Bedingung Ergebnis des SQL-Statements beinhaltet Regelbrüche (Regelverstöße) Regelformulierung Wertebereich 0bis1 auf Attribut Prod.Risiko.WS Problembeschreibung Tabellenspalte Prod.Risiko.WS muss zwischen 0 und 1 sein Code-Generierung SELECT ProRisiko.ID, FROM Prod.Risiko ProRisiko WHERE ProRisiko.WS NOT BETWEEN 0 AND 1; 8
Agenda Einführung DQM Regeln DQM in der Praxis Implementierung Diskussion 9
DQM Regelbaum Aufbau Regeln werden über (Regel)Konnektoren beliebig verschachtelt Komplexe Bäume Filter(bäume) für jede Regel definierbar Ausführung von Regeln Regelkonnektoren (rekursiv) Logging (via LogGruppe) Definierte Gruppe von Attributen Bei Regelverstoß werden alle Attribute geloggt Filterkonnektor Regelkonnektor 10
DQM Regeln - Übersicht NotNullRegel UniqueRegel Längenregel Datentypregel Wertelistenregel Wertebereichregel Abhängigkeitsregel Integritätsregel Aggregationsprüfung 11
DQM Regel: Aggregationsprüfung Prüfe, ob zwei aggregierte Werte miteinander übereinstimmen (Analytical SQL) Regelverstoß: Erfolgreich: Werte stimmen nicht überein Werte stimmen überein Bsp.: Eine Bank möchte alle Kunden identifizieren, die ihren Dispo-Kredit über einen Zeitraum von 3 Tagen überziehen. Konto Kontonr 111 222 222 222 222 Der Auswertung liegen zwei Kontotabellen zugrunde: Kundennr 11100 22200 22200 22200 22200 Saldo -25-11 -14-49 -2 Datum 04.03.2008 02.03.2008 03.03.2008 04.03.2008 05.03.2008 Dispo Konto 111 222 222 222 222 Kundennr 11100 22200 22200 22200 22200 Dispo -10-5 -5-5 -5 Datum 04.03.2008 02.03.2008 03.03.2008 04.03.2008 05.03.2008 12
Agenda Einführung DQM Regeln DQM in der Praxis Implementierung Diskussion 13
Anwendungsbeispiel: Datenintegration Datenintegration Risikomanagementsystem ETL ETL 14
Anwendungsbeispiel: Datenintegration ETL ETL 15
Anwendungsbeispiel: Fondssparen Störfälle beim Fondssparen Welche Kunden haben nach Abbuchung des Fondsparbetrags das Konto überzogen? 16
DQM im DWH-Kontext 17
Agenda Einführung DQM Regeln DQM in der Praxis Implementierung Diskussion 18
Architektur 19
DQM-Core Regeldefinitionen Attribute Auswertungsergebnisse Auswertungslogik Query-Engine Auswertungssteuerung 20
Prüfvorgang Attribute, Log-Gruppe und Regeln definieren Regelprüfung starten Durchlaufnr. wird erzeugt (falls nicht übergeben) Abfrage wird mit Query-Engine erstellt Ausführung der Abfrage Ergebnisse werden geloggt Bei Regelverstoß werden Daten entsprechend der Log-Gruppe gespeichert. Ergebnisse interpretieren bzw. weiterverarbeiten 21
Wieso Umsetzung in Oracle PL/SQL? Weite Verbreitung von Oracle Unsere Kunden setzen alle Oracle ein Verbreitete Programmiersprache im DWH-Umfeld Nahtlose Einbettung in bestehende Systeme Keine neuen Server (HW & SW) notwendig Technologie bei DBAs bekannt Vereinfacht Einführung Revision lässt sich schneller überzeugen Packages & Procedures lassen sich von gängigen ETL- & Reporting-Tools aufrufen. einfache Einbettung in Datenintegrations-& BI-Prozesse 22
DQM-GUI 23
DQM-GUI 24
DQM-GUI 25
Agenda Einführung DQM Regeln DQM in der Praxis Implementierung Diskussion 26
Diskussion Fragen und Diskussion 27
Ihr Ansprechpartner Bleiben wir in Kontakt: Johannes Tomasoni Consulting Scheibenstraße 117 48153 Münster Telefon +49 251 919979 64 Telefax +49 251 919979 74 jtomasoni@informationsfabrik.com www.informationsfabrik.com 28