Data Warehousing. Modellierung im DWH Das multidimensionale Datenmodell. Ulf Leser Wissensmanagement in der Bioinformatik

Transkript

1 Data Warehousing Modellierung im DWH Das multidimensionale Datenmodell Ulf Leser Wissensmanagement in der Bioinformatik

2 Zusammenfassung: Hubs and Spokes Mart 1 Mart 2 Mart 3 Mart 4 DWH Quelle 1 RDBMS Quelle 2 IMS Quelle 3 Textfile Jahresumsatz: Pro Monat Januar: Februar Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

3 DWH Architektur Data Warehouse Manager Analysewerkzeuge Qrt l. Qrt l. Qrt l. Qrt l. Ost West Nord Metadaten Quelle 1 RDBMS Staging Area Mart 2 Quelle 2 IMS Staging Area Cube Mart 1 Datenquellen Basisdaten Abgeleitete Sichten Arbeitsbereich Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

4 DWH Prozesse O t W e E xtraction T ransformation L oad View Maintenance Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

5 Parameter von Extraktionskomponenten Extraktor Komponente zum Extrahieren der Daten aus den Quellen Wann liefert der Extraktor die Daten? Periodisch Synchron Ereignisgesteuert Welche Daten liefert der Extraktor? Kompletten Datenbestand (Snapshot) Alle Änderungen (Logfile) Nettoänderungen zu fix. Zeitpunkten (Snapshot-Diff) In welcher Art liefert der Extraktor die Daten SQL Befehle (synchron/logfile: Replication) Flatfiles Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

6 Transformationen in Staging Area Benutzte SQL Effiziente mengenorientierte Berechnungen möglich Vergleiche über Zeilen hinaus möglich Schlüsseleigenschaft, Namensduplikaterkennung,... Vergleiche mit Daten in Basisdatenbank möglich Duplikate, Plausibilität (Ausreißer), Konsistenz (Artikel-Ids) Typisch: Tagging von Datensätzen durch Prüf-Regeln UPDATE sales SET price=price/mwst; UPDATE sales SET cust_name= (SELECT cust_name FROM customer WHERE id=cust_id);... UPDATE sales SET flag1=false WHERE cust_name IS NULL;... INSERT INTO DWH SELECT * FROM sales WHERE f1=true & f2=true &... Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

7 BULK Uploads Für große Datenmengen einzige ausreichend performante Schnittstelle Kritischer Prozess Load-Vorgänge blockieren i.d.r. die komplette DB (Schreibzugriff auf komplette Tabelle) Konsistenz, Trigger, ICs i.d.r. deaktiviert Indexaktualisierung Update oder Insert? (Upsert!) Performance von LOAD oft limitierender Faktor Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

8 Inhalt dieser Vorlesung Das Multidimensionale Datenmodell (MDDM) Grundidee Formale Definition der Modellelemente Beispiel Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

9 MDDM Grundidee Unterscheidung von Fakten(Measures) Gemessene Werte Dimensionen Beschreibung der Messwerte in Raum, Zeit, Organisation,... Klassifikationshierarchien Dimensionen haben hierarchische Struktur Metapher: Würfel (Cube) bzw. Hypercube Fakten: Punkte im multidimensionalen Raum Analyse durch Operationen auf dem Cube Dimensionen erhöhen/verringern Auswahl von Subwürfeln (Flächen, Punkten,...) Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

10 Beispiel Verkäufe von Autos pro Marke, Kontinent und Jahr gemessen in Euro Measures: Verkäufe in Euro Dimensionen Automarke Kontinent Jahr Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

11 Beispiel: Auswahl (Slicing) Verkäufe von Peugeot pro Jahr und Kontinent Verkäufe in Asien pro Jahr und Marke Jahr Asien Südamerika Kontinent BMW Peugeot VW Ford Automarke Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

12 Dimensionen Eindeutige Strukturierung des Datenraums Hoffentlich orthogonal Abhängigkeiten zwischen Dimensionen bereiten an vielen Stellen Probleme später Eine Dimension hat ein Schema Tag, Woche, Jahr Landkreis, Land, Staat Produktgruppe, Produktklasse, Produktfamilie... und Werte (1, 2, 3,..., 31), (1,... 52), (1900,..., 2003) (...), (Berlin, NRW, Department-1,...), (BRD, F,...) Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

13 Dimension Dimension Top Jahr Quartal I II III IV I II III IV Klassifikationsstufen Monat Jan Feb Mar Okt Nov Dez Tag Klassifikationsknoten Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

14 Produkthierarchien Aus: Geppert, ETZ Zürich, Vorlesung Data Warehouse Elemente einer Stufe können geordnet sein Geordnet: Zeit Ungeordnet: Produkte Elemente sind immer über Hierarchie angeordnet Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

15 Formale Definition Ziel Operationen auf einem MDDM sind Aggregationen / Verdichtungen Aus dem Modell muss man ersehen können, welche Verdichtungen sinnvoll sind und welche nicht Tools bieten dann nur die sinnvollen Operationen an Optimierer können die Informationen für schnellere Anfragen benutzen Mit E/R nicht erreichbar zu wenig Semantik Konzern Sparte Region Bereich Unternehmen Abteilung Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

16 Klassifikationsschema Definition. Ein Klassifikationsschema K (einer Dimension D) ist ein 5-Tupel {k 0, k 1,... k n },, M, stufe(), knoten()) mit Menge von Klassifikationsstufen {k 0,... k n } Menge M von Klassifikationsknoten Halbordnung auf {k 0,... k n } mit Größtem Element k n : k i, 0 i n-1: k n k i Stufe() weist jedem Klassifikationsknoten genau eine Klassifikationsstufe zu Knoten()=stufe -1 () berechnet für eine Klassifikationsstufe die Menge aller ihr zugeordneten Klassifikationsknoten Bemerkung Die Halbordnung überträgt sich natürlich auf Klassifikationsknoten Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

17 Erläuterung Klassifikationsstufen Die Klassifikationsstufen sind die Schemaelemente der Dimension Das größte Element k n ist artifiziell es steht für alles, also die Verdichtung in einen einzelnen Wert Wir nennen es TOP Interpretation von : Funktionale Abhängigkeit Aggregierbarkeit Tag bestimmt Monat bestimmt Jahr bestimmt TOP TOP Produkt Produktfamilie Produktgruppe TOP Asus M2400N Notebooks Büroelektronik TOP Beachte: Halbordnung ist immer zyklusfrei Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

18 Beispiel Ordnung Tag Monat Monat Quartal Quartal Jahr Tag Woche Woche Jahr Alle Top Keine Ordnung Quartal? Woche Monat? Woche Transitivität Tag Jahr Quartal Monat Top Jahr Tag Tatsächlich? Woche Saison Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

19 Knotenattribute Name Staat... Name Depot Manager Logistics Bundesland Region Name... Name Address Jede Klassifikationsstufe hat eine Menge von Attributen, die Knotenattribute Shop Supplier Facilities Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

20 Erläuterung Klassifikationsknoten Klassifikationsknoten Klassifikationsknoten sind die Werte der Schemaelemente (Stufen) einer Dimension Jeder Knoten ist über die Funktion stufe() genau einer Stufe zugeordnet Kein Produkt darf zu zwei Produktgruppen gehören Die größte Stufe TOP hat nur einen Knoten TOP M zerfällt also in die disjunkten Menge knoten(k i ) Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

21 Beispiel Top Top Jahr Quartal I II III IV I II III IV Monat Jan Feb Mar Okt Nov Dez Tag Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

22 Klassifikationspfade Definition. Ein Klassifikationspfad P in einem Klassifikationsschema K ist eine Menge von Klassifikationsstufen {p 0,..., p m } mit {p 0,...,p m-1 } {k 0,..., k n-1 } p m = k n p i, 1 i m: p i-1 p i Die Länge des Pfades ist P =m+1 Der Klassifikationslevel von p i in P ist i Bedeutung Ein Pfad ist damit eine voll geordnete Teilmenge von {k 1,..., k n } Jeder Pfad beinhaltet das größte Element TOP Zweck: Verdichtung ist nur entlang von Klassifikationspfaden sinnvoll Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

23 Beispielpfade Klassifikationsschema Pfad 1 Pfad 2 Top Top Top Jahr Jahr Jahr Quartal Woche Quartal Woche Monat Monat Tag Tag Tag Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

24 Klassifikationsstufen und Pfade Level 4 Top Level 3 Top Der Klassifikationslevel einer Stufe ist nur eindeutig in einem Pfad Der Level des größten Elements TOP ist nicht konstant Level 3 Level 2 Level 1 Jahr Quartal Monat Level 2 Level 1 Jahr Woche Level 0 Tag Level 0 Tag Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

25 Klassifikationshierarchie Definition. Die Klassifikationshierarchie K P zu einem Klassifikationsschema K und Pfad P ist der Baum mit Knoten N und Kanten E wie folgt: N = U knoten( pi ) p P i M E = ( n, n ) 1 2 n, n 1 2 N n j : n 1 1 n 2 knoten ( p ) ( ) j n2 knoten p j + 1 Beachte Klassifikationshierarchie = Knotenhierarchie in einem Pfad Jede Klassifikationshierarchie ist balanciert: Alle Pfade Wurzel- Blatt haben die selbe Länge P Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

26 Dimension Definition. Eine Dimension D=(K, {P 1,...,P j }) besteht aus Einem Klassifikationsschema K Einer Menge von Pfaden P i aus K Jedes k K muss in mindestens einem Pfad in D enthalten sein Bemerkungen Für jedes k K gibt es mindestens einen Pfad, nämlich k TOP D muss nicht alle Pfade enthalten, die es in K gibt Designentscheidung Schreibweise: D.k bezeichnet die Klassifikationsstufe k aus D Jedes D.k kann in mehreren Pfaden vorkommen Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

27 Granularität Definition. Gegeben eine Menge U von n Dimensionen D 1,..., D n. Eine Granularität G über U ist eine Menge {D 1.k k1,...,d n.k kn } für die gilt k ki ist eine Klassifikationsstufe in D i Es gibt keine funktionalen Abhängigkeiten zwischen den Klassifikationsstufen D 1.k k1,..., D n.k kn Bemerkungen Beispiel: Nicht gleichzeitig Dimensionen Zeit und Fiskalisches Jahr in einer Granularität betrachten Mit einer Granularität legt man fest, in welcher Detailstufe Fakten in den einzelnen Dimensionen beschrieben werden Abkürzung: Lässt man in U eine Dimension D i weg, mein dies implizit D i.top Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

28 Halbordnung auf Granularitäten Definition. Auf der Menge aller Granularitäten zu einer Menge U von Dimensionen ist eine Halbordnung < wie folgt definiert Sei G 1 ={D 11.k k11,...,d n1.k kn1 } und G 2 ={D 12.k k12,...,d n2.k kn2 } Ordne die Dimensionen in G 1 und G 2 beliebig, aber gleich Es gilt G 1 <G 2 genau dann wenn Benutzung i: D i1.k ki1 D i2.k 2i2 oder D i1.k ki1 =D i2.k ki 2 Beschreibung der Transformation von Granularitäten Anfrageoptimierung: Wiederverwendung von Aggregaten Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

29 Bereich Beispiel Region Zeit TOP Top Top Konzern Staat Jahr Sparte Bundesland Monat Abteilung Shop Tag (B.Sparte, R.Shop, Z.Tag) < (B.Sparte, R.Shop, Z.Monat) < (B.Sparte, R.Top, Z.Monat) < (B.Top, R.Top, Z.Top) (B.Sparte, R.Staat, Z.Tag)? (B.Konzern, R.Shop, Z.Tag) Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

30 Würfelschema Definition. Ein Würfelschema WS=(G,F) besteht aus Einer Granularität G Einer Menge F von unterschiedlichen Fakten F i Definition. Ein Würfel W ist eine Instanz eines Würfelschema (G,F) W = dom( G) dom( F) = knoten( D. k )... knoten( D dom( F ) dom( F Bemerkung Die Werte dom(g) geben die Koordinaten der Werte dom(f) an Verhältnis Würfelschema zu Würfel ist wie Relationenschema zu Relation. k ) 1 k1 n kn 1 j ) Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

31 Kein Würfelschema Autoverkäufe pro Zeit (Monat, Jahr), Händler und Region (Kreis, Land) Drei Dimensionen Monat Jahr Händler Kreis Land Jahr Monat Land Kreis Händler Aber: EU Recht! Händler Land Jahr Monat Land Kreis Händler Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

32 Kein Würfelschema Autoverkäufe pro Zeit (Monat, Jahr), Händler und Region (Kreis, Land) Drei Dimensionen Monat Jahr Händler Jahr Land Kreis Land Monat Kreis Händler Aber: EU Recht! Händler Land Modellierung ist anwendungsabhängig Jahr Land Monat Kreis Händler Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

33 Semantik von Kanten Die Hierarchie von Klassifikationsstufen wird durch funktionale Abhängigkeiten bestimmt Das beinhaltet zunächst keine Bestimmung der Semantik der Kanten Bereich Komm.Elektronik Land Brandenburg Top Güter Hauptabt. Mobilfunk Kreis Potsdam P.gruppe Kleidung Abteilung Dualband Stadt Golm Produkt Hose Part-Of Topologisch IS-A Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

34 Ein längeres Beispiel Wir bauen ein DWH zur Verwaltung von Lagerbeständen Fakten Bestand und Delta von Artikeln Dimensionen Zeit Klassifikationsstufen: Monat, Quartal, Woche, Jahr Ort Klassifikationsstufen: Region, Land Produkt Klassifikationsstufen: Artikel, Artikelgruppe, Bereich Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

35 Klassifikationsschema Halbordnung Top Jahr Jahr Quartal Quartal Monat Jahr Woche Top Land Land Region Top Bereich Bereich Artikelgruppe Artikelgruppe Artikel Struktur der Dimensionen Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

36 Pfade P 1 : Top Jahr Quartal Monat P 2 : Top Jahr Woche P 3 : Top Land Region P 4 : Top Bereich Artikelgruppe Artikel Entlang der Pfade sind Verdichtungen im Modell sinnvoll Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

37 Klassifikationsknoten Jahr 1997, 1998, 1999 Quartal I, II, III, IV (pro Jahr) Woche 1-52 (pro Jahr) Monate 1-3 (pro Quartal I), 4-6 (pro Quartal II),... Land Deutschland, Frankreich, Großbritannien,... Region Bayern, Berlin,..., Departament1, Departament2,... Bereich Kleidung, Nahrung, Elektronik,... Artikelgruppe Oberbekleidung, Unterbekleidung, Spirituosen, Kindernahrung, Kleingeräte, TV/Video,... Artikel... Alle möglichen Ausprägungen der Klassifikationsstufen Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

38 Klassifikationshierarchien 1 Klassifikationshierarchie zu P 1 Top I II III IV Jan Feb Mar... Okt Nov Dez Klassifikationshierarchie zu P 2 Top Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

39 Klassifikationshierarchien 2 Klassifikationshierarchie P 3 Top BRD F GB Bayern... Bremen... Wales... N-Irland Klassifikationshierarchie P 4 Top Nahrung Kleidung Elektronik Milchwaren... Spirituosen... Kleingeräte... TV/Video Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

40 Dimensionen Dimension ZEIT ({Monat, Quartal, Woche, Jahr}, {P 1, P 2 }) Dimension ORT ({Region, Land}, {P 3 }) Dimension PRODUKT ({Artikel, Artikelgruppe, Bereich}, {P 4 }) Dimensionen umfassen Stufen und Pfade Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

41 Granularität, Würfel Mögliche Granularitäten G 1 = (Zeit.Woche, Ort.Land, Produkt.Artikel) G 2 = (Zeit.Jahr, Ort.Gebiet, Produkt.TOP) Halbordnung: (Zeit.Woche, Ort.Gebiet, Produkt.Artikel) < (Zeit.Jahr, Ort.Gebiet, Produkt.Bereich) < (Zeit.Jahr, Ort.Top, Produkt.Bereich) < (Zeit.ZOP, Ort.Top, Produkt.Top) =? Würfelschema Granularität plus Menge von Fakten (F 1 =Bestand, F 2 =Delta) Würfel: Instanz des Würfelschemas Operationen auf Würfeln verändern die Granularität Ziel: Nur sinnvolle Operationen zulassen Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

42 Zusammenfassung Dimension Top Jahr Quartal I II III IV I II III IV Klassifikationsstufen Monat Jan Feb Mar Okt Nov Dez Tag Klassifikationsknoten Ulf Leser: Data Warehousing, Vorlesung, Sommersemester