Kapitel 5: Vom relationalen zum multidimensionalen Datenmodell

Transkript

1 Kapitel 5: Vom relationalen zum multidimensionalen Datenmodell Data Warehousing und Mining 1

2 Data Warehousing, Gliederung Dimensionen und Measures Schematypen für Data Warehousing GroupBy und Data Cubes Operatoren für den Data Cube Operatoren in MS-SQL ROLAP vs. MOLAP Data Warehousing und Mining 2

3 Dimensionen vs. Measures Brot Produkt Dimensionen: Produkt, Datum, Filiale Milch 95 Measure: Umsatz 52 Tee Irchel Datum Central Wipkingen Filiale Data Warehousing und Mining 3

4 Dimensionen vs. Measures Klassifizierung der Attribute einer Relation in Dimensionen und Measures: Dimensionen: Attribute, anhand derer man Tupel identifizieren und klassifizieren kann, Measures: Wert, der einem Tupel zugeordnet ist. Beispiel: Filiale Produkt Datum Umsatz Es liegt nicht allein in der Natur des Attributs, ob Dimension oder Measure. Beispiel: Ort Hypothek Alter Kontostand Hypothek kann Measure, aber auch Dimension sein. Data Warehousing und Mining 4

5 Dimensionen vs. Measures Weiteres Beispiel: Filiale Datum Umsatz Gewinn Man kann Umsatz als Funktion von Gewinn oder Gewinn als Funktion von Umsatz darstellen, d. h. Umsatz ist entweder Measure oder Dimension. D. h. mehrere Darstellungsmöglichkeiten für eine Relation, Definition der Relation unterscheidet sich also von der Spezifikation der multidimensionalen Tabelle, Trennung zwischen strukturellen und inhaltlichen Aspekten. Data Warehousing und Mining 5

6 Ein möglicher Ansatz zur Beschreibung einer Tabelle, anhand eines Beispiels Relation R(Part, City, Year, Month, Cost, Sale), Dimensionen Attribute Schema der Tabelle: Sales=<{Category, Time}, {Part, City, Year, Month, Cost, Sale}, par> mit par(category)={part, City} und par(time)={year, Month} Im Gegensatz zur Verwendung des Begriffs Dimension vorher werden jetzt mehrere Attribute zu einer Dimension (mit neuem Namen) zusammengefaßt. par identifiziert die Bestandteile der Dimensionen. SALES TIME Year Month Jan Feb Jan Feb CATEGORY Part City (Cost, Sale) PC Montreal (5,6) (5,7) (4,6) (4,8) Toronto (5,7) (5,8) (4,8) (4,9) Inkjet Montreal (7,8) (7,9) (6,9) (6,8) New York (6,9) (6,9) (5,8) (5,9) Data Warehousing und Mining 6

7 Kleine Unzulänglichkeit des Ansatzes Achtung: Hier wurde zufällig die richtige Darstellung gewählt, daß nämlich Jahr aus Monaten besteht und nicht umgekehrt, unsere Schema-Notation reflektiert das aber nicht. Wir lassen diese Feinheit jetzt außen vor. SALES TIME Year Month Jan Feb Jan Feb CATEGORY Part City (Cost, Sale) PC Montreal (5,6) (5,7) (4,6) (4,8) Toronto (5,7) (5,8) (4,8) (4,9) Inkjet Montreal (7,8) (7,9) (6,9) (6,8) New York (6,9) (6,9) (5,8) (5,9) Data Warehousing und Mining 7

8 Beispiel 2: Gleiche Relation, andere Tabelle Schema der Tabelle: Sales=<{Location, Component}, {Part, City, Year, Month, Cost, Sale}, par> mit par(location)={city} und par(component)={part} Dimensionen, Attribute, par identifiziert die Bestandteile der Dimensionen. SALES LOCA- TION COMPONENT Part PC Inkjet City (Year,Month, Cost,Sale) Montreal (1996, Jan, 5, 6) (1996, Jan, 5, 6) Montreal (1996, Jan, 5, 7) (1996, Jan, 5, 7) Montreal (1997, Jan, 4, 6) (1997, Jan, 4, 6) Montreal (1997, Feb, 4, 8) (1997, Feb, 4, 8) Toronto (1997, Jan, 5,7) / Toronto (1996, Feb, 5, 8) / Data Warehousing und Mining 8

9 Numerische vs. kategorische Dimensionen Klassifizierung von Dimensionen: Numerische Dimensionen Beispiele: Zeit, Einkommen, Alter Kategorische Dimensionen Beispiele: Ort, Produkt. Auch kategorische Attributwerte lassen sich auf Zahlen abbilden. Kriterium für Differenzierung ist, ob Intervalle entlang der Dimension sinnvoll sind. Data Warehousing und Mining 9

10 Dimensionen vs. Measures, weitere Gedanken Beobachtung aus den vorangegangenen Beispielen: Kategorische Dimensionen sind oft keine sinnvollen Measures. Warum ist Differenzierung zwischen Dimensionen und Measures wichtig? Operationen auf Data Cubes differenzieren zwischen Dimensionen und Measures. Bei den meisten OLAP-Werkzeugen muß man fest einstellen, was Dimensionen und was Measures sind. Data Warehousing und Mining 10

11 Typische Anzahl von Dimensionen Versicherung: Industrie: 8 Controlling: Marketing: 5-7 Data Warehousing und Mining 11

13 Star Schema vs. Snowflake Schema Motivation: Im Zusammenhang mit Data Warehousing ist es vorteilhaft, Schemata anhand ihrer Topologie zu klassifizieren, und für regelmäßige Schematypen übersichtlichere und effiziente Werkzeuge und Methoden zu entwickeln. Wichtige Schematypen in diesem Zusammenhang: Star Schema - gängiger Schematyp, der multidimensionalen Datenbanken zugrundeliegt. Paßt zur multidimensionalen Sichtweise mit Dimensionen und Measures. Unterscheidung zwischen Fact Tables und Dimension Tables: Fact Tables: enthalten Dimensionen und Measures, Dimension Tables: beschreiben die Dimensionen. Snowflake Schema - Verfeinerung des Star Schemas, Attribute der Dimension Tables werden durch weitere Relationen beschrieben. Data Warehousing und Mining 13

14 Star Schema vs. Snowflake Schema - Beispiel Filiale F-ID Ort Adresse Anzahl MA Verkäufe T-ID F-ID P-ID V-ID Datum Umsatz Produkt P-ID Name Lieferant Anwendung Preis Verkäufer V-ID... Data Warehousing und Mining 14

16 Operatoren für Relationen Marke Datum Bundesland Anzahl BMW Hessen 28 BMW Bayern 37 BMW Saarland 41 Opel Hessen 48 Opel Bayern 62 Opel Saarland 5 Opel Saarland 95 Audi Hessen 55 Audi Bayern 52 Audi Bayern 27 Audi Bayern 62 - Selektion, - Projektion, - Join. Data Warehousing und Mining 16

17 GROUP BY Der Standard-SQL GROUP BY Operator unterteilt eine Tabelle in Gruppen. Auf jede Gruppe wird dann die Aggregatsfunktion angewendet. Das Resultat ist eine Menge von Werten. Group-by Operator hat als Parameter Gruppierungsattribute, Aggregationsfunktion. Aggregate Values Grouping Values Partitioned Table Sum() Data Warehousing und Mining 17

18 Group-by Operator (2) Marke Datum Bundesland Anzahl BMW Hessen 28 BMW Bayern 37 BMW Saarland 41 Opel Hessen 48 Opel Bayern 62 Opel Saarland 5 Opel Saarland 95 Audi Hessen 55 Audi Bayern 52 Audi Bayern 27 Audi Bayern 62 Measure Dimensions Marke Marke avg Marke max sum sum Bundesland Marke Anzahl BMW 106 Opel 210 Audi 196 Marke Anzahl BMW Opel 52.5 Audi 49 Marke Anzahl BMW 41 Opel 95 Audi 62 Bundesland Anzahl Hessen 131 Bayern 240 Saarland 141 Data Warehousing und Mining 18

19 Group-by Operator (3) Marke Datum Bundesland Anzahl BMW Hessen 28 BMW Bayern 37 BMW Saarland 41 Opel Hessen 48 Opel Bayern 62 Opel Saarland 5 Opel Saarland 95 Audi Hessen 55 Audi Bayern 52 Audi Bayern 27 Audi Bayern 62 Marke, Bundesland sum Marke Bundesland Anzahl BMW Hessen 28 BMW Bayern 37 BMW Saarland 41 Opel Hessen 48 Opel Bayern 62 Opel Saarland 100 Audi Hessen 55 Audi Bayern 141 Data Warehousing und Mining 19

20 Cross-Table Darstellung einer zweidimensionalen Aggregation erfolgt am einfachsten in einer Cross-Table (Pivottabelle): T-Shirt Verkäufe T-Shirt total (ALL) rot blau total (ALL) Data Warehousing und Mining 20

21 Data Cube - Repräsentation aggregierter Werte Opel Marke Audi BMW Bundesland Anzahl Hessen 131 Bayern 240 Saarland Hessen Bayern Saarland Bundesland Datum GroupBy-Operator berechnet Punkte in einer Hyperebene. Data Warehousing und Mining 21

22 Data Cube - Repräsentation aggregierter Werte (2) Opel Marke Audi BMW Marke Bundesland Anzahl BMW Hessen 28 BMW Bayern 37 BMW Saarland 41 Opel Hessen 48 Opel Bayern 62 Opel Saarland 100 Audi Hessen 55 Audi Bayern Hessen Datum Bayern Saarland Bundesland Wofür steht Zahl im Ursprung? Data Warehousing und Mining 22

23 Cube Operator Cube-Operator Bestandteil von SQL, wie der Group-by Operator. Cube-Operator ist n-dimensionale Verallgemeinerung des Group-by Operators. Berechnet n Hyperebenen anstatt nur einer. (Der Group-by Operator aggregiert nur in einer Dimension.) Data Warehousing und Mining 23

24 Cube Operator Marke Datum Bundesland Anzahl BMW Hessen 28 BMW Bayern 37 BMW Saarland 41 Opel Hessen 48 Opel Bayern 62 Opel Saarland 5 Opel Saarland 95 Audi Hessen 55 Audi Bayern 52 Audi Bayern 27 Audi Bayern 62 BMW ALL 69 BMW ALL 37 Opel ALL 48 Opel ALL 67 Audi ALL 55 Audi ALL 52 Audi ALL 27 Audi ALL 62 BMW ALL Hessen 28 BMW ALL Bayern 37 BMW ALL Saarland 41 Opel ALL Hessen 48 BMW ALL ALL 106 Opel ALL ALL 210 Audi ALL ALL 196 ALL ALL Bayern 240 ALL ALL Hessen 131 ALL ALL ALL 512 Data Cube (Group-By Operator berechnet nur einzelne Zeilen dieser Relation.) Data Warehousing und Mining 24

25 CUBE - Operator Data Cube als n-dimensionale Generalisierung von GROUP BY und Aggregaten: 0D: Punkt 1D: Linie mit Punkt 2D: Pivottabelle (Fläche mit zwei Linien und einem Punkt) 3D: Würfel mit drei sich schneidenden 2D-Cubes Data Warehousing und Mining 25

26 Relationale Darstellung der Cross-Table 'ALL' wird verwendet, um Mehrfach-Aggregationen auszudrücken. Verkauf: Zusammenfassung Modell Jahr Farbe Stücke T-Shirt 1996 rot 500 T-Shirt 1996 blau 300 T-Shirt 1997 rot 450 T-Shirt 1997 blau 400 T-Shirt ALL rot 950 T-Shirt ALL blau 700 T-Shirt 1996 ALL 800 T-Shirt 1997 ALL 850 T-Shirt ALL ALL 1650 SELECT Modell, 'ALL', 'ALL', SUM(Stücke) FROM Verkauf WHERE Modell = 'T-Shirt' GROUP BY Modell UNION SELECT Modell, Jahr, 'ALL', SUM(Stücke) FROM Verkauf WHERE Modell = 'T-Shirt' GROUP BY Modell, Jahr UNION SELECT Modell, 'ALL', Farbe, SUM(Stücke) FROM Verkauf WHERE Modell = 'T-Shirt' GROUP BY Modell, Farbe UNION SELECT Modell, Jahr, Farbe, SUM(Stücke) FROM Verkauf WHERE Modell = 'T-Shirt' GROUP BY Modell, Jahr, Farbe; Ziel dieser Folie: Illustration, daß Standard-SQL als Werkzeug für mehrdimensionale Aggregation ungeeignet ist. Data Warehousing und Mining 26

27 Range Queries Was sind Range Queries? Aggregation über Elemente eines Hypercube, den Intervalle entlang numerischer Dimensionen definieren. Für kategorische Dimensionen betrachtet man entweder einzelne Werte oder den ganzen Wertebereich. Begriff Range Queries wird anders verwendet als im Bereich Ähnlichkeitssuche. Dort ermitteln Range Queries alle Punkte, die in einem gegebenen Hypercube oder einer Hypersphere liegen. Data Warehousing und Mining 27

28 Range Queries Opel Marke Audi BMW Hessen Datum Saarland Bayern Bundesland Data Warehousing und Mining 28

29 Group-By (Folie aus vorigem Kapitel) Beispiel Alte Sichtdefinition: CREATE VIEW V(Proj#, Location, Proj_Sal) AS SELECT Proj#, Location, SUM((Salary Hours)/40) FROM E & W & P GROUPBY Proj#, Location Neue Sichtdefinition: CREATE VIEW V (Location, Proj_Sal) AS SELECT Location, SUM((Salary Hours)/40) FROM E & W & P GROUPBY Location Welche Sicht enthält mehr Tupel? Was kann man machen? - Berechnung von V aus V: SELECT Location, SUM(Proj-Sal) FROM V GROUPBY Location Data Warehousing und Mining 29

30 Berechnung des Data Cubes Opel M BDM Audi BM BD DM BMW B D M none Hessen D Saarland Bayern B Cuboid Data Warehousing und Mining 30

31 Begriffe Reduktionsfaktor = Kardinalität (Input-Relation) Kardinalität (Output Relation) Parent A ist Parent von B, wenn B aus A berchnet werden kann, und A genau ein Attribut mehr hat als B. A Modell Jahr Farbe Stück B all 500 all all all GROUP BY Model Modell Jahr Farbe Stück all all 1050 all all 750 all 100 all 200 Input-Relation Output Relation Data Warehousing und Mining 31

33 CubeBy Ein Operator, der bereits vorgestellt wurde, Praktisch aus Endbenutzer-Sicht nicht von so großer Bedeutung, im folgenden werden aber Operatoren vorgestellt, mit denen der Endbenutzer arbeiten kann. Data Warehousing und Mining 33

34 Consolidation Paths Marke Datum Bundesland Anzahl BMW Hessen 28 BMW Bayern 37 BMW Saarland 41 Opel Hessen 48 Opel Bayern 62 Opel Saarland 5 Opel Saarland 95 Audi Hessen 55 Audi Bayern 52 Audi Bayern 27 Audi Bayern 62 BM B BDM BD D none DM M Marke Bundesland Anzahl BMW Hessen 28 BMW Bayern 37 BMW Saarland 41 Opel Hessen 48 Opel Bayern 62 Opel Saarland 100 Audi Hessen 55 Audi Bayern 141 Bundesland Anzahl Hessen 131 Bayern 240 Saarland 141 Data Warehousing und Mining 34

35 Consolidation Paths (2) Marke Datum Bundesland Anzahl BMW Hessen 28 BMW Bayern 37 BMW Saarland 41 Opel Hessen 48 Opel Bayern 62 Opel Saarland 5 Opel Saarland 95 Audi Hessen 55 Audi Bayern 52 Audi Bayern 27 Audi Bayern 62 BM B BDM BD D none DM M Marke Bundesland Anzahl BMW Hessen 28 BMW Bayern 37 BMW Saarland 41 Opel Hessen 48 Opel Bayern 62 Opel Saarland 100 Audi Hessen 55 Audi Bayern 141 Bundesland Anzahl Hessen 131 Bayern 240 Saarland 141 Roll-up (Drill-up) Drill-down Data Warehousing und Mining 35

36 Consolidation Paths (3) Konsolidierung ist nicht nur möglich, indem man Dimensionen ausblendet, sondern auch durch das Zusammenfassen von Werten. Tag Woche Monat Jahr keine Konzepthierarchie Data Warehousing und Mining 36

37 Consolidation Opel Marke Audi BMW Hessen Datum Saarland Bayern Bundesland Data Warehousing und Mining 37

38 Consolidation Paths (4) T BDM - Bundesland - Datum - Marke BDM W Mo BM BD DM J B D M none none BDM BMW BMMo DM BD BM BW MW BMJ MMo BMo D... Anzahl Ebenen? Data Warehousing und Mining 38

39 Consolidation Paths (5) Vorangegangene Folie verdeutlicht zweierlei: - Kombinierbarkeit, - sehr viele Kombinationsmöglichkeiten. Data Warehousing und Mining 39

40 Star Schema vs. Snowflake Schema - Beispiel Filiale F-ID Ort Adresse Anzahl MA Verkäufe T-ID F-ID P-ID V-ID Datum Umsatz Produkt P-ID Name Lieferant Anwendung Preis Verkäufer V-ID... Data Warehousing und Mining 40

41 Symmetrische vs. Asymmetrische Aggregation (Modell, Jahr, Farbe) (Modell, Jahr, ALL) (ALL, Jahr, Farbe) (Modell, ALL, Farbe) (Modell, ALL, ALL) (ALL, Jahr, ALL) (ALL, ALL, Farbe) (ALL, ALL, ALL) Symmetrische Aggregation: Berechne Resultate aller Knoten (CUBE) Asymmetrische (lineare) Aggregation: Berechne nur die Resultate der Knoten entlang eines Pfades (ROLLUP) Data Warehousing und Mining 41

42 Slice & Dice Motivation: Man kann nur 2D-Tabelle auf dem Bildschirm sinnvoll darstellen, unterschiedliche Sichten sinnvoll, je nach Kontext, Anwender soll frei sein im Zugreifen auf Ausschnitte des Cubes. Opel Audi BMW Marke Dice - Drehen am Würfel, Slice - Aufschneiden des Würfels Operationen für Slice und Dice werden später definiert. Hessen Bayern Saarland Bundesland Datum Data Warehousing und Mining 42

43 Cross-Dimensional Operations Verknüpfungen von Werten aus unterschiedlichen Dimensionen Studium Bildungsgrad Beispiel für single-dimensional Berechnung: Anzahl der Angestellten = Belegschaft - Anzahl Arbeiter Allen Werten entspricht die gleiche Position im DataCube. Abitur Hauptschule Beispiel für cross-dimensional Berechnung: Bereinigter projizierter Gewinn = Projizierter Gewinn, verrechnet mit Währungsrisiko des jeweiligen Landes. Hessen Bayern Saarland Ort Datum Data Warehousing und Mining 43

44 Demo Data Warehousing und Mining 44

45 Data Warehousing und Mining 45

56 Algebra für multidimensionale Strukturen Ziel: Algebra, deren Operatoren den DataCube-Operationen entsprechen, präzise Definition der Algebra-Operatoren, Algebra sollte möglichst einfach sein. Ansatz, der im folgenden verfolgt wird: Verwendung des Spezifikationsmechanismus für Tabellen einerseits und des relationalen Modells andererseits. Erster Schritt: Beschreibung der Abbildung eines Datenbestands von einer Sicht in die andere, zweiter Schritt (relativ einfach, gegeben der erste Schritt): Definition der Operatoren mit Hilfe des relationalen Modells. Data Warehousing und Mining 56

57 Vervollständigung der Tupel Ziel: Einfügen von Nullwerten in die Relation r für die multidimensionale Darstellung. Ist Voraussetzung für das problemlose Wechseln zwischen den Modellen. Beispiel: SALES TIME Year Month Jan Feb Jan Feb CATEGORY Part City (Cost, Sale) PC Montreal (5,6) (5,7) (4,6) (4,8) Toronto (5,7) (5,8) (4,8) (4,9) Inkjet Montreal (7,8) (7,9) (6,9) (6,8) New York (6,9) (6,9) (5,8) (5,9) Angenommen, Tupel mit City=Quebec, aber kein Tupel (PC, Quebec, 1996, April, ). Dann ist (PC, Quebec, 1996, April, /) Teil der Vervollständigung. Data Warehousing und Mining 57

58 Beobachtung Für eine gegebene Tabelle mit Schema S=<D,R,par> gibt es eine entsprechende Relation mit Schema R. rep(τ) steht für diese Relation. Von einer Relation kommt man unter Angabe des Table Schemas S zu genau einer Tabelle. tab S (r) identifiziert diese Tabelle. Data Warehousing und Mining 58

59 Algebra-Operatoren Selektion, Projektion, Umbenennung op(τ) := tab S (op(rep(τ))) Mengenoperation, kartesisches Produkt - analog, unfold, fold: gegeben ein Table Schema, macht unfold aus einem oder mehreren Measures eine Dimension; fold ist in der anderen Richtung. Definition von unfold: unfold Xd (τ) (d ist neuer Name, X ist Menge von Measure-Attributen) Table-Schema wird neu definiert: S =<D {d},r,par > mit par (d)=x par (d i )=par(d i ) für alle d i D Neuer Table ist tab S (rep(τ)). Data Warehousing und Mining 59

61 Beispiel eines 3D-Data-Cubes Verkauf Modell Jahr Farbe Stücke T-Shirt 1995 rot 300 T-Shirt 1995 weiß 75 T-Shirt 1995 blau 250 T-Shirt 1996 rot 500 T-Shirt 1996 weiß 100 T-Shirt 1996 blau 300 T-Shirt 1997 rot 450 T-Shirt 1997 weiß 500 T-Shirt 1997 blau 400 Hosen 1995 rot 100 Hosen 1995 weiß 220 Hosen 1995 blau 300 Hosen 1996 rot 50 Hosen 1996 weiß 100 Hosen 1996 blau 420 Hosen 1997 rot 70 Hosen 1997 weiß 60 Hosen 1997 blau 300 CUBE SELECT Modell, Jahr, Farbe, SUM(Stücke) AS Total FROM Verkauf WHERE Modell IN { T-Shirt, Hosen } AND Jahr BETWEEN 1995 AND 1997 GROUP BY Modell, Jahr, Farbe WITH CUBE; DATA CUBE Modell Jahr Farbe Total ALL ALL ALL 4495 T-Shirt ALL ALL 2875 Hosen ALL ALL 1620 ALL 1995 ALL 1245 ALL 1996 ALL 1470 ALL 1997 ALL 1780 ALL ALL rot 1470 ALL ALL weiß 1055 ALL ALL blau 1970 T-Shirt 1995 ALL 625 T-Shirt 1996 ALL 900 T-Shirt 1997 ALL 1350 Hosen 1995 ALL 620 Hosen 1996 ALL 570 Hosen 1997 ALL 430 T-Shirt ALL rot 1250 T-Shirt ALL weiß 675 T-Shirt ALL blau 950 Hosen ALL rot 220 Hosen ALL weiß 380 Hosen ALL blau 1020 ALL 1995 rot 400 ALL 1995 weiß 295 ALL 1995 blau 550 ALL 1996 rot 550 ALL 1996 weiß 200 ALL 1996 blau 720 ALL 1997 rot 520 ALL 1997 weiß 560 ALL 1997 blau 700 Data Warehousing und Mining 61

62 MS-SQL-Server Abweichung zur bisherigen Definition des CUBE-Operators: NULL Wert anstelle des ALL Wertes Neue Funktion GROUPING(): TRUE, falls Element ein ALL Wert FALSE sonst Überall, wo vorher im Resultat der ALL-Wert erschien, kommt jetzt NULL, und das dazugehörige grouping Feld enthält TRUE. Data Warehousing und Mining 62

63 MS-SQL-Server (Beispiel) Select Modell, Jahr, Farbe, SUM(Stücke), GROUPING(Modell),GROUPING(Jahr),GROUPING(Farbe) FROM Verkauf WHERE Modell = 'T-Shirt' AND Jahr BETWEEN 1996 AND 1997 GROUP BY Modell, Jahr, Farbe WITH CUBE; "original" Modell Jahr Farbe Stücke T-Shirt 1996 rot 500 T-Shirt 1996 blau 300 T-Shirt 1997 rot 450 T-Shirt 1997 blau 400 T-Shirt ALL rot 950 T-Shirt ALL blau 700 T-Shirt 1996 ALL 800 T-Shirt 1997 ALL 850 T-Shirt ALL ALL 1650 Version des MS-SQL-Servers Modell Jahr Farbe Stücke Grouping (Modell) Grouping (Jahr) Grouping (Farbe) T-Shirt 1996 rot 500 FALSE FALSE FALSE T-Shirt 1996 blau 300 FALSE FALSE FALSE T-Shirt 1997 rot 450 FALSE FALSE FALSE T-Shirt 1997 blau 400 FALSE FALSE FALSE T-Shirt NULL rot 950 FALSE TRUE FALSE T-Shirt NULL blau 700 FALSE TRUE FALSE T-Shirt 1996 NULL 800 FALSE FALSE TRUE T-Shirt 1997 NULL 850 FALSE FALSE TRUE T-Shirt NULL NULL 1650 FALSE TRUE TRUE Data Warehousing und Mining 63

64 Zugriff auf Elemente des CUBEs Zusätzliche Angabe des Anteils der verkauften Stücke an den insgesamt verkauften Stücken: SELECT v.modell, v.jahr, v.farbe, SUM(Stücke) AS Total, SUM(Stücke) / Total(ALL, ALL, ALL) AS Verhältnis FROM Verkauf v WHERE Modell = 'T-Shirt' AND Jahr BETWEEN 1996 AND 1997 GROUB BY Modell, Jahr, Farbe WITH CUBE v.modell v.jahr v.farbe Total Verhältnis T-Shirt 1996 rot T-Shirt 1996 blau T-Shirt 1997 rot T-Shirt 1997 blau Tabelle nicht vollständig, ALL -Zeilen fehlen Σ=1 Data Warehousing und Mining 64

65 ROLLUP (Beispiel) SELECT Modell, Jahr, Farbe, SUM(Stücke) AS Total, FROM Verkauf WHERE Jahr BETWEEN 1996 AND 1997 GROUB BY Modell, Jahr, Farbe WITH ROLLUP Reihenfolge der Attribute ist relevant. (Modell, Jahr, Farbe) Modell Jahr Farbe Total T-Shirt 1996 rot 500 T-Shirt 1996 blau 300 T-Shirt 1997 rot 450 T-Shirt 1997 blau 400 Hosen 1996 rot 50 Hosen 1996 blau 420 Hosen 1997 rot 70 Hosen 1997 blau 300 T-Shirt 1996 ALL 800 T-Shirt 1997 ALL 850 Hosen 1996 ALL 470 Hosen 1997 ALL 370 T-Shirt ALL ALL 1650 Hosen ALL ALL 840 ALL ALL ALL 2490 (Modell, Jahr, ALL) (ALL, Jahr, Farbe) (Modell, ALL, Farbe) (Modell, ALL, ALL) (ALL, Jahr, ALL) (ALL, ALL, Farbe) (ALL, ALL, ALL) Data Warehousing und Mining 65

66 Data Warehousing warum reichen herkömmliche Datenbank-Konzepte und -Technologie nicht aus? Im Prinzip reichen sie schon, aber: Höheres Abstraktionsniveau der Operatoren, vergleichbar mit Übergang Netzwerkmodell relationales Modell/SQL; neue, mächtige Operatoren, insbesondere: CubeBy, Drill-Down, Roll-Up. Zwei Aspekte: Implementierung dieser neuen Operatoren mit SQL-Operatoren ist i.a. zu umständlich, Beispiel: CubeBy-Operator als Ergebnis von vielen UNIONs von GroupBys Mächtige Primitive machen große Anwendungen erst möglich, Übersichtlichkeit. Query Processing mit herkömmlichen Optimierungstechniken ist hinsichtlich der Laufzeit nicht akzeptabel. Data Warehousing und Mining 66

68 ROLAP vs. MOLAP ROLAP ( Relational OLAP ) Aggregate, z. B. Resultat des CUBE-Operators, werden in relationaler Datenbank gespeichert, MOLAP ( Multidimensional OLAP ) spezielle Speicherstruktur für Inhalte multidimensionaler Datenbank, Schlechte Ausnutzung des Speichers bei sparse Data Sets; Abhilfe: Matrix-Komprimierungstechniken. Komprimierung: Liste von (Offset, Wert)-Paaren. Oft zweistufiges Verfahren: Dichte Subcubes werden identifiziert und ohne Komprimierung gespeichert, Sparse Subcubes Komprimierung. Für die schnelle Evaluierung von Range-Queries existieren spezielle Speicherstrukturen. Data Warehousing und Mining 68

69 Literatur Data Cube: A Relational Aggregation Operator Generalizing Group-By, Cross-Tab, and Sub-Total. Jim Gray, Adam Bosworth, Andrew Layman, Hamid Pirahesh Proc. of International Conference on Data Engineering, 1996 A Foundation for Multi-Dimensional Databases Marc Gyssens, Laks V.S. Lakshmanan Proc. of the 23 rd Int l Conference on Very Large Databases, 1997 Data Warehousing und Mining 69