DATENQUALITÄT IM DWH IST AUTOMATISCH AUCH GLEICH BESSER? Edgar Kaemper Robert Bosch GmbH AA-AS/EIS3-EU Plochingen
Umfeld: Unternehmen und Geschäftsbereich Geschäftsbereich Automotive Aftermarket (AA) Angebot für Handel und Werkstätten weltweit komplette Diagnose- und Werkstatttechnik umfassendes Kfz- und Nfz-Ersatzteilsortiment (Neuteile, instandgesetzte Austauschteile, Reparaturlösungen) Produktportfolio von AA Erzeugnisse der Bosch Erstausrüstung eigenentwickelte und -gefertigte Aftermarket-spezifische Produkte und Dienstleistungen. Über 18 000 Mitarbeiter in 150 Ländern weltweiter Logistikverbund (650.000 verschiedene Ersatzteile) Werkstattkonzepte Bosch Service (rund 16.500 Betriebe weltweit) AutoCrew mit über 800 Betrieben 2
Umfeld: Unternehmen und Geschäftsbereich Automotive Service Solutions (AA/AS) Prüf- und Werkstatttechnik Software für Diagnose Service-Training technische Informationen und Serviceleistungen http://bosch-automotive-aftermarket.com/de/home/ 3
Umfeld: Branche Die wachsende Anzahl und die steigende Komplexität der im Fahrzeug installierten Systeme und Komponenten bedeutet, dass Service-Werkstätten einen Zugang zu breitem Wissen haben müssen. Informationssysteme (z.b. ESI[tronic]) müssen das Fahrzeugmodell erkennen und umfassende Informationen für die Werkstätten liefern. 4
Einführung: Architektur des CDW 5
Datenqualitäts-Konzept Source 1 Auslieferung Daten? Source 2 ETL CDW Automated Testing Source DQ DQ CDW QS Reporting 6
Datenqualitäts-Konzept Eingangskontrolle : QS Reports der Datenquellen Source 1 Auslieferung Daten? Source 2 ETL CDW Automated Testing Source DQ DQ CDW QS Reporting 7
Datenqualitäts-Konzept Reject im ETL: Sicherung Datenmodel Sicherung Datenformate Source 1 Technische Datenqualität Auslieferung Daten? Source 2 ETL CDW Automated Testing Source DQ DQ CDW QS Reporting 8
Datenqualitäts-Konzept Domain Experten: Fachliche Datenqualität Inhalte (Datenquellen/Lieferanten) Source 1 Definition Testfälle Auslieferung Daten? Source 2 ETL CDW Automated Testing Source DQ DQ CDW QS Reporting 9
Datenqualitäts-Konzept Testframework: Technische Datenqualität Komplexe Regeln Source 1 Automatisierung Auslieferung Daten? Source 2 ETL CDW Automated Testing Source DQ DQ CDW QS Reporting 10
Testframework: Prozess 11
Testframework: Datenmodell 12
Testframework: Datenmodell Signifikanz (für Berechnungsmodel zur Freigabe der Daten) Daten sind falsch Es fehlen Daten Testcase Typen (automatische Bewertung der Testcases mit Grenzwerten): absolutes Maximum not OK (Wenn x Datensätze nicht OK sind, dann ist der Testcase nicht bestanden.) relatives Maximum not OK (Wenn x % der Datensätze nicht OK sind, dann ist der Testcase nicht bestanden.) absolutes Minimum OK (Wenn x Datensätze OK sind, dann ist der Testcase bestanden.) relatives Minimum OK (Wenn x % der Datensätze OK sind, dann ist der Testcase bestanden.) Vergleich Anzahl zum letzten Datenstand: (Wenn min x % mehr Datensätze, dann ist der Testcase bestanden.) 13
Testframework: Funktionen Testcase: Einlesen aus Datei via External Table Testresult: Anlegen Ändern: Update Records getestet, Records OK, Records nicht OK, Details zu Fehlern, Ende und Dauer Bewertung: Berechnung auf Basis der Grenzwerte ob passed oder not passed Testresultset Anlegen Ändern: Timestamps und Dauer Je Testcase eine Procedure, die den Testcase abarbeitet 14
Testframework: weitere Schritte What else? Automatische Datenfreigabe ETL Test Release Get the lead (Fein-)Justierung Grenzwerte Regelwerk/Berechnung QS Ampel close gap Mehr Testfälle Aber: Wie viele Testfälle sind genug? 15
Testcases: Erläuterungen X-Achse: verschiedene ETL Ladeläufe über die Zeit Y-Achse: Anzahl der im Testcase getesteten Datensätze Unterer Teil der Säule: Anzahl Datensätze, die den Testcase nicht bestanden haben Oberer Teil der Säule: Anzahl Datensätze, die den Testcase bestanden haben Blaue Linie: Grenzwert für den Testcase Farbe der Säule: Grüne Farbe: Testcase wurde bestanden Rote Farbe, Testcase wurde nicht bestanden 16
Testcase 1: Besser ist noch nicht gut genug nicht erfolgreich Verbesserungen erreicht Grenzwert zu anspruchsvoll? 17
Testcase 2: Alles OK Grenzwert anspruchsvoll immer erfüllt wachsende Datenmengen 18
Testcase 3: Es lohnt sich inzwischen erfolgreich Weiterhin Records not OK Grenzwert zu einfach? 19
Testcase 4: Der Ausreißer Paradebeispiel für automatisches Testen Absicherung der erreichten Qualität 20
Testcase 5: Besser geht immer immer erfolgreich weiter verbessert Aufwand? 21
Fazit Einfaches Framework Einfach, aber offen für Erweiterungen Jeder ETL Entwickler kann damit und daran arbeiten Mit PL/SQL nah an der Datenbank Performance 22
Fazit Einfaches Framework Einfach, aber offen für Erweiterungen Jeder ETL Entwickler kann damit und daran arbeiten Mit PL/SQL nah an der Datenbank Performance Visualisierung Start mit einfachem ASCII Report für Product Owner Nach Aufbau Reporting Umgebung Nutzung auch für QS Reporting Transparenz der Datenqualität 23
Fazit Einfaches Framework Einfach, aber offen für Erweiterungen Jeder ETL Entwickler kann damit und daran arbeiten Mit PL/SQL nah an der Datenbank Performance Visualisierung Start mit einfachem ASCII Report für Product Owner Nach Aufbau Reporting Umgebung Nutzung auch für QS Reporting Transparenz der Datenqualität Prozesse 24 Domain Experten finden und etablieren Datenqualität ist kein Selbstläufer
Fazit Einfaches Framework Einfach, aber offen für Erweiterungen Jeder ETL Entwickler kann damit und daran arbeiten Mit PL/SQL nah an der Datenbank Performance Visualisierung Start mit einfachem ASCII Report für Product Owner Nach Aufbau Reporting Umgebung Nutzung auch für QS Reporting Transparenz der Datenqualität Automatisch = besser? Nicht automatisch, aber es hilft ungemein. Prozesse 25 Domain Experten finden und etablieren Datenqualität ist kein Selbstläufer
VIELEN DANK Edgar Kaemper Robert Bosch GmbH Automotive Aftermarket AA-AS/EIS3-EU Postfach 11 29 73201 Plochingen www.bosch.com Edgar.Kaemper@de.bosch.com