6. Oracle Data Warehouse Konferenz 29./30. März 2011, Atrium Mainz Erfolgreiche BI / DWH Projektmethodik Datenqualitätssicherung und Datenstrukturierung im Data Warehouse Alexander Jochum DATA MART Consulting
Aufwandverteilung im Projekt Auswertung, Berichtswesen, Analyse (BI-Frontends) 10-25% Datenbewirtschaftung: Extraktion, Transformation, Laden, Strukturaufbau, Prüfungen, Verarbeitung 75-90%
BI-Frontends brauchen eine Basis Endanwender-clients (BI-tools) Planung clients Analyse clients Office Integration Portal Quellschicht für BI-Tools Daten + Strukturen.
BI-Frontends brauchen eine Basis Endanwender-clients (BI-tools) Planung clients Analyse clients Office Integration Portal Quellschicht für BI-Tools Daten + Strukturen. Datenbewirtschaftung? Quellsysteme ReWe WaWi Vertrieb KoRe Fuhrpark Etc..
BI-Frontends brauchen eine Basis Endanwender-clients (BI-tools) Planung clients Analyse clients Office Integration Portal OLAP-Ebene / Data Marts Zentraler Datenpool mit Datenbewirtschaftungsprozessen ETL-Tool / Prozess Datenpool - Analyse Datenbewirtschaftung - ETL Datenpool - Basisdaten Ladeprozess - ETL Quellsysteme ReWe WaWi Vertrieb KoRe Fuhrpark Etc..
Datenbewirtschaftung Hauptaufgaben der Datenbewirtschaftung Datenübernahme aus Vorsystemen (Ladeprozesse) Steuern und Überwachen der Verarbeitungsprozesse Daten- und Strukturprüfungen (syntaktisch, semantisch) Fehlerbehandlung Historisierung der Rohdaten Bereitstellung der Analysestrukturen
Datenbewirtschaftung Hauptaufgaben der Datenbewirtschaftung Datenqualitätsmanagement Schaffen von Vergleichbarkeiten Synchronisation der Strukturen aus verschiedenen Quellen und Strukturierung der Analysedaten Abbildung von übergreifenden Sichten und Kennzahlen Kombination von Quelldaten in einem abgeleiteten oder neuen Prozess (Business-Prozesslogik)
Arten der Datenstrukturierung Abgeleitet / vorbereitet für Berichte/Analysen (Analysestrukturen / Stammdaten) Ad-hoc / explorativ => auf Analysestrukturen Prozessstrukturen für Informationsgewinnung in der Datenbewirtschaftung (Prozess-Logik) Material wirtschaft Plan Markt Vertrieb/ Faktura Personal Datenbewirtschaftung Strukturierung Kostenrechnung
Arten der Datenstrukturierung Die Bildung von übergreifenden Kennzahlen bedingt mindestens eine Struktursynchronisation, meist aber auch die Abbildung oder Nachbildung von Geschäftsprozessen. => Prozessmodellierung im DWH Beispiele: - Produktdeckungsbeiträge und Produkterfolg - Nachkalkulation - Kampagnenerfolgsrechnung - Kostenallokationen / Planverteilung
Datenqualität in BI-Systemen Die Qualität eines BI-Systems kann daran gemessen werden, wie gut die Lösung zur schnellen, verständlichen und zuverlässigen Beantwortung der jeweiligen betriebswirtschaftlichen Fragestellungen geeignet ist. Qualität nach DIN 55350-11: Gesamtheit von Merkmalen (und Merkmalswerten) einer Einheit bezüglich ihrer Eignung, festgelegte und vorausgesetzte Erfordernisse zu erfüllen. (Quelle: http://www.quality.de/lexikon/qualitaet.htm.) Gängige Qualitätsattribute: Vollständigkeit der Daten Genauigkeit / Korrektheit der Zahlen Konsistenz (Übereinstimmung) Strukturintegrität (Interpretierbarkeit) Aktualität
Datenqualität Datenqualität ist relativ! Die Anforderungen verschiedener Nutzergruppen können unterschiedlich sein => z.b. Vertriebsleiter und Tax-Manager Die Qualitätsattribute können konkurrierende Ziele beschreiben Genauigkeit vs. Interpretierbarkeit => z.b.: Abstraktion schafft Vergleichbarkeit. Vollständigkeit vs. Aktualität => z.b.: Tagesaktuelle Zahlen, die 90% des Geschäftes abbilden, können durchaus für die kurzfristige Steuerung geeignet sein.
Datenqualität Datenqualitätsmaßstäbe sind systemabhängig! Die Qualitätsanforderungen an ein operatives System sind nicht gleich zu setzten mit denen an ein System zur dispositiven Informationsbereitstellung. Bei dispositiven Systemen (Data Warehouse, BI-Systeme) ist der Begriff der Datenqualität noch weiter zu fassen! Die Qualität einer Entscheidungsgrundlage kann weitere, in operativen Systemen nicht genutzte Methoden in der Datenaufbereitung erfordern => z.b.: Ermöglichen komparativer, währungsbereinigter Analysen => z.b.: Verbinden von Ist-Zahlen mit Planung, Simulation, Forecast => z.b.: Synchronisieren von unterschiedlichsten Quellsystemen => z.b.: Abbildung übergreifender Business-Prozesse
Datenqualität Qualitätsmanagement im Data Warehouse muss nachhaltig sein, eine einmalige Qualitätssicherung im Aufbau des DWH ist nicht ausreichend. Qualitätsmanagement im Data Warehouse ist als kontinuierlicher Prozess zu definieren, als Teilprozess des Data Warehousing Der Prozess des Datenqualitätsmanagements ist in der Spezifikationsphase eines Data Warehouse zu definieren und ist in allen Phasen des Aufbaus bis hin zum Betrieb relevant.
Datenqualität schaffen Qualitätsanforderungen und Qualitätsprozesse früh definieren! Qualität Ziele Projektierung Nutzen Anforderungsanalyse Anwender-Akzeptanz Zeit Fachliche Spezifikation und Kriterien Funktionaler Test Auswahl / Systemdesign System- /Integrationstest Detailspezifikation der Module Modul-test Implementierung und Unit-Test
Maßnahmen für Qualität Maßnahmen in der Projektierung eines Data Warehouse, um das Ziel der Datenqualität dauerhaft zu sichern
Maßnahmen für Qualität (1) Technologieauswahl Wahl einer durchgängigen technischen Architektur mit hoher Integration der Komponenten Einsatz eines passenden und leistungsfähigen tools für die Datenbewirtschaftung (ETL)
Maßnahmen für Qualität Technische Architektur eines Data Warehouse (Schichtenmodell) Technische Integration im backend (kein Technologiemix oder best of breed ) Standardisierung
Maßnahmen für Qualität (2) Maßnahmen in der Spezifikation ( Designqualität ) Fachkonzept, welches die Qualitätsanforderungen als auch die Prozesse des Qualitätsmanagement berücksichtigt Qualifikation der Daten- und Strukturquellen, ggf. Qualitätsmanagement für vorgelagerte Systeme definieren ( prevent errors at source ) Identifikation der einheitlichen Quellen für Stammdaten für ein zentrales Stammdatenmanagement Definition des Schichtenmodells Definition aller syntaktischen und semantischen Prüfungen Definition der ETL-Prozesse mit allen Fehlerbehandlungen (Protokollierung, Mailgenerierung etc.) Evtl. regulatorische Anforderungen (z.b. SOX) berücksichtigen.
Maßnahmen für Qualität (3) Massnahmen im Bereich Organisation Die Prozesse des Qualitätsmanagement sind (früh) zu definieren und Verantwortliche zu benennen. Es bedarf der Management-Unterstützung, da die QM-Prozesse von den Verantwortlichen zunächst als Belastung und als nachrangig im Projekt betrachtet werden. Prüfungen sind zu automatisieren wo möglich, um die Verantwortlichen zu entlasten Interne Prozessbeschreibungen müssen erstellt werden, um die Aufgaben organisatorisch verteilen (und abgrenzen) zu können
Maßnahmen für Qualität (4) Maßnahmen in der ETL-Implementierung Nutzung eines ETL-Tools für die Implementierung und die Dokumentation Implementierung von syntaktischen Prüfungen bei der Datenübernahme aus den Quellen, d.h. z.b. Datentypen, Feldlängen, not-null-prüfungen etc. (idealerweise schon im Vorsystem / in der Meldeplattform) Implementieren eines Systems der Fehlerklassen mit dazugehörigen Alerting und Abbruchkriterien. Definition von Fehlertabellen für fehlerhafte Datensätze und von Fehlerlog-Tabellen für die Protokollierung und Mail-Generierung
Maßnahmen für Qualität (4) Maßnahmen in der ETL-Implementierung (Fortsetzung) Permanente Speicherung der Rohdaten nach syntaktischer Prüfung (erlaubt Strukturkorrekturen) Historisierung der Stammdaten (erlaubt Analyse in Strukturen mit Zeitbezug) Umsetzung von semantischen Prüfungen Stammdatenentsprechung (z.b. valides Produkt) Valider Strukturaufbau aus Bewegungsdaten (z.b. Kunde <> Auftrag) Plausibilitätsprüfungen (z.b. Verkaufspreis > 0 etc.) Statistik-Generierung (Prüfsummen) Automatischer Prüfsummenabgleich beim Laden über verschiedene Ebenen des DWH
Maßnahmen für Qualität (4) Maßnahmen in der ETL-Implementierung (Fortsetzung) Automatisierung der Datenbewirtschaftung = Vermeidung menschlicher Fehler Zentrale Prozesssteuerung für die Datenbewirtschaftung Monitoring der Datenbewirtschaftung mit statistischen Funktionen (z.b. Alert-Funktion bei zuwenig / zuviel Datensätzen oder Leerlauf)
Maßnahmen für Qualität (5) Maßnahmen in der Modellierung der Business-Schicht Das sogenannte Metadatenmodell als Basis für die Zugriffe mit Analyse- und Berichtswerkzeugen ist einheitlich und zentral zu realisieren Idealerweise wird das Meta-Datenmodell des DWH ohne weitere Bearbeitung von Analyse- und Berichtswerkzeugen genutzt. Berechnete Kennzahlen, Verdichtungsstrukturen (Hierarchien) und Attribute sollten einheitlich für alle Informationsnutzer vorgegeben sein. Qualität kann nur erreicht werden, wenn auch die Berechnungsmethoden in einem DWH standardisiert und zentralisiert werden ( single source of truth )
Maßnahmen für Qualität Übersicht Zentrale Metadaten Toolauswahl Zentrale Modellierung Standardisierung Monitoring Beschreibung der Prüfungsschritte Historisieren von Rohdaten Beschreibung der Prüfungsschritte Prozesskontrolle Alerting Schnittstellenbeschreibung Qualifikation der Quellen
Maßnahmen für Qualität Datenqualitätsmanagement im Betrieb eines Data Warehouse: Qualitätsmanagement als laufenden Prozess betreiben und neuen Gegebenheiten anpassen Change Management und periodische Gesundheitschecks sind wichtig Idealerweise gibt es eine Rückkopplung in die vor- und nachgelagerten Systeme, um nachhaltig die Qualität zu verbessern (in der Quelle). Automation und Monitoring der Qualitätssicherungsmaßnahmen Erweiterungen des Systems überwachen
Qualität als Ergebnis Datenqualitätsmanagement - die Reifestufen des QM-Prozesses Reifestufe Merkmale Verbesserungsmöglichkeiten 5 optimiert 4 geführt 3 definiert 2 unkontrolliert 1 initial Kontinuierliche Prozessverbesserung, Strukturgetrieben (dynamisch), Monitoring zur Schwachstellen-Erkennung Quantitativ, messbare und kontrollierte Prozesse etabliert, Prozeßerfahrung, automatisiert Qualitativ, statische QM-Maßnahmen Prozesse und Verantwortliche sind definiert und institutionalisiert Intuitiv, Sporadische Prüfungen, fokussiert auf Einzelpersonen Kaum Prozesskontrolle, unvollständig ad-hoc, ungeplant, als Reaktion im Fehlerfalle Quelle: Dr. Walter Wintersteiger Kontinuierliche Prozeßpflege Einführung change management, proaktive Problemverhütung Definition von Vollständigkeit Aufstellen von Qualitätsplänen Automatisierung Definition von QM-Prozessen, Dokumentation und Schulung Analyse und Spezifikation von Qualitätssicherungsmaßnahmen
Zusammenfassung Datenqualitätsmanagement - Fazit Datenqualitätsmanagement ist schon in der Spezifikationsphase einer DWH-Anwendung zu berücksichtigen Ein kontinuierlicher Prozess ist technisch und organisatorisch zu etablieren Schwerpunkt ist die Datenbewirtschaftung, dort ist eine automatisierte, möglichst vollständige und messbare Qualitätsprüfung das geeignete Mittel. Für Datenqualität im BI-Umfeld ist der Begriff weiter zu fassen, z.b. für Metadatenbereitstellung, Berechnungsmethoden und einheitliche Kennzahlenbereitstellung
Fazit Rolle der Datenqualität in der Entscheidungsunterstützung Datenqualität ist das Fundament der Systeme zur Entscheidungsunterstützung Payback von Investition in Datenqualität wird durch Wartbarkeit, niedrigere Betriebskosten und sichere Entscheidungsgrundlagen gebildet Qualität in der Entscheidungsunterstützung = gesicherte Datenqualität der Geschäftsdaten + intelligente Strukturierung / Anreicherung der Daten + Qualität der Datenpräsentation und analyse Datenqualität ist unsichtbar wenn sie vorhanden ist.
Der wahre Nutzen eines Data Warehouse liegt in den Entscheidungen, die es ermöglicht Stephen Graham, IDC
Fragen?