Data Warehousing. Operationen im multidimensionalen Datenmodell Graphische MDDM Summierbarkeit. Ulf Leser Wissensmanagement in der Bioinformatik

Transkript

1 Data Warehousing Operationen im multidimensionalen Datenmodell Graphische MDDM Summierbarkeit Ulf Leser Wissensmanagement in der Bioinformatik

2 Begriffe Klassifikationsschema Jahr Stufen einer Dimension plus Halbordnung Quartal Monat Woche Saison Klassifikationsstufe Granularität der Verdichtung Klassifikationspfad Tag Verdichtungspfad Dimension Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

3 Klassifikationsschema Definition. Ein Klassifikationsschema K (einer Dimension D) ist ein 5-Tupel {k 0, k 1,... k n },, M, stufe(), knoten()) mit Menge von Klassifikationsstufen {k 0,... k n } Menge M von Klassifikationsknoten Halbordnung auf {k 0,... k n } mit Größtem Element k n : k i, 0 i n-1: k n k i Stufe() weist jedem Klassifikationsknoten genau eine Klassifikationsstufe zu Knoten()=stufe -1 () berechnet für eine Klassifikationsstufe die Menge aller ihr zugeordneten Klassifikationsknoten Bemerkung Die Halbordnung überträgt sich natürlich auf Klassifikationsknoten Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

4 Erläuterung Klassifikationsstufen Die Klassifikationsstufen sind die Schemaelemente der Dimension Das größte Element k n ist artifiziell es steht für alles, also die Verdichtung in einen einzelnen Wert Wir nennen es TOP Interpretation von : Funktionale Abhängigkeit Aggregierbarkeit Tag bestimmt Monat bestimmt Jahr bestimmt TOP TOP Produkt Produktfamilie Produktgruppe TOP Asus M2400N Notebooks Büroelektronik TOP Beachte: Halbordnung ist immer zyklusfrei Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

5 Klassifikations hierarchie Begriffe Top Jahr Quartal I II III IV I II III IV Monat Jan Feb Mar Okt Nov Dez Tag Klassifikationsknoten Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

6 Dimension Definition. Eine Dimension D=(K, {P 1,...,P j }) besteht aus Einem Klassifikationsschema K Einer Menge von Pfaden P i aus K Jedes k K muss in mindestens einem Pfad in D enthalten sein Bemerkungen Für jedes k K gibt es mindestens einen Pfad, nämlich k TOP D muss nicht alle Pfade enthalten, die es in K gibt Designentscheidung Schreibweise: D.k bezeichnet die Klassifikationsstufe k aus D Jedes D.k kann in mehreren Pfaden vorkommen Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

7 Granularität Definition. Gegeben eine Menge U von n Dimensionen D 1,..., D n. Eine Granularität G über U ist eine Menge {D 1.k k1,...,d n.k kn } für die gilt k ki ist eine Klassifikationsstufe in D i Es gibt keine funktionalen Abhängigkeiten zwischen den Klassifikationsstufen D 1.k k1,..., D n.k kn Bemerkungen Beispiel: Nicht gleichzeitig Dimensionen Zeit und Fiskalisches Jahr in einer Granularität betrachten Mit einer Granularität legt man fest, in welcher Detailstufe Fakten in den einzelnen Dimensionen beschrieben werden Abkürzung: Lässt man in U eine Dimension D i weg, ist implizit D i.top gemeint Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

8 Halbordnung auf Granularitäten Definition. Auf der Menge aller Granularitäten zu einer Menge U von Dimensionen ist eine Halbordnung < wie folgt definiert Sei G 1 ={D 11.k k11,...,d n1.k kn1 } und G 2 ={D 12.k k12,...,d n2.k kn2 } Ordne die Dimensionen in G 1 und G 2 beliebig, aber gleich Es gilt G 1 <G 2 genau dann wenn Benutzung i: D i1.k ki1 D i2.k 2i2 oder D i1.k ki1 =D i2.k ki 2 Beschreibung der Transformation von Granularitäten Anfrageoptimierung: Wiederverwendung von Aggregaten Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

9 Bereich Beispiel Region Zeit TOP Top Top Konzern Staat Jahr Sparte Bundesland Monat Abteilung Shop Tag (B.Sparte, R.Shop, Z.Tag) < (B.Sparte, R.Shop, Z.Monat) < (B.Sparte, R.Top, Z.Monat) < (B.Top, R.Top, Z.Top) (B.Sparte, R.Staat, Z.Tag)? (B.Konzern, R.Shop, Z.Tag) Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

10 Inhalt dieser Vorlesung Operationen im multidimensionalen Datenmodell ME/R: Graphische multidimensionale Datenmodellierung Theorie der Summierbarkeit Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

11 1. OLAP Operationen MDDM spricht die Sprache des Analysten Operationen auf dem MDDM sollten die Analysevorgänge abbilden bzw. unterstützen Ziel: Schnelle und intuitive Manipulation der Daten Notwendig Definition der Operationen (Unterstützung durch graphische Werkzeuge) Heute: ME/R (Umsetzung in ausführbare Operationen) Ab nächster Stunde Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

12 Vorgehen Die wichtigsten Operationen im MDDM sind Aggregation (Roll-Up) Verfeinerung (Drill-Down) Weiteres Vorgehen Datenpunkte und Würfelkoordinaten Aggregation in Klassifikationshierarchien Inhalt eines Würfel einer bestimmten Granularität OLAP Operationen: Aggregation und Verfeinerung Weitere OLAP Operationen, Visualisierung Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

13 Übersicht Z.Tag Z.Monat B.Abteilung B.Sparte Skoda.Reparatur Skoda.Ersatzteile Skoda VW München Wedding Nantes Lyon Koordinaten der Datenpunkte R.Shop Bayern Berlin Aggregierte Fakten Department1 Department2 R.Bundesland (1.101, , Wedding, Ersatzteile) (12.400, , Nantes, Reparatur) (1.540, , Wedding, Ersatzteile) Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

14 Datenpunkte und Würfelkoordinaten Definition. Gegeben Würfel W, Dimension D und ein Klassifikationsknoten x aus D Sei z ein Datenpunkt und D(z) seine Koordinate bzgl. D Wir sagen: D(z) liegt in x wenn entweder D(z)=x oder D(z) nachfahren(x) punkte(x) sei die Menge aller Datenpunkte z, für die D(z) in x liegt Bemerkung Erweiterung auf mehrere Koordinaten durch Schnittmengenbildung punkte(x,y,z) = punkte(x) punkte(y) punkte(z) mit x in D 1, y in D 2, z in D punkte(x) x Januar Februar... Dezember 32,50 17, ,50 Viele z Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

15 Aggregation in Hierarchien Definition. Gegeben Dimension D, Pfad P={k 0... k k... TOP} in D Sei x knoten(k) ein Klassifikationsknoten Sei f eine Aggregatfunktion und F ein Measure Sei Y=kinder(x) (die Menge {y 1,...,y n } knoten(k ) von Klassifikationsknoten von k, von denen x abhängt) Die Aggregation von Y nach x bzgl. f und F bezeichnet die Berechnung des aggregierten Faktes F(x)=f(F(y 1 ),..., F(y n )) Die Aggregation von k nach k bzgl. f und F bezeichnet die Berechnung von F(x) für alle x knoten(k) Das schreiben wir kurz als F(k) k Jahr x k Monat Januar Februar... Dezember Y Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

16 Startpunkt Sei P={k 0... k n TOP} Man berechnet F(TOP) aus F(k n ), F(k n ) aus F(k n-1 ), etc. Wie berechnet man aber F(k 0 )? Aus den einzelnen Datenpunkten Definition. Gegeben Dimension D, Pfad P={k 0... TOP} in D und ein Klassifikationsknoten x knoten(k 0 ) Sei punkte(x)={z 1,...,z n }, die Menge aller Datenpunkte, deren D- Koordinate in x liegt Für eine Aggregatfunktion f und Measure F berechnet sich dann das aggregierte Fakt F(x) als F(x)=f(F(z 1 ),...,F(z n )) Mit F(z) als dem Wert des Measures F von Datenpunkt z x punkte(x) Januar Februar... Dezember 32,50 17, ,50 Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

17 Berechnung Die vorherige Definition ist prinzipiell abwendbar für alle Klassifikationsknoten bzw. stufen eines Pfades Bedingt durch...d-koordinate in x... Aber Es schneller, die Aggregation aus der nächstkleineren Stufe zu berechnen Weniger Werte - weniger Arbeit Das setzt voraus, dass man die auch hat Präaggregation OLAP Operationen wandern immer nur eine Stufe in einem Pfad herauf oder herab deshalb definieren wir Aggregation von Ebene zu Ebene Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

18 Wo sind wir? Wir können entlang eines Pfades in einer Dimension für ein Measure mit einer Aggregatfunktion die aggregierten Fakten für höherstufige Knoten berechnen Zwei Möglichkeiten Aggregierte Measures von Knoten einer Stufe aus aggregierten Measures der nächstkleineren Stufe berechnen Aggregierte Measures immer direkt aus den Werten aller Datenpunke mit den entsprechenden Koordinaten berechnen Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

19 Würfelinhalt Ein Würfel W=(G,F) Granularität G=(D 1.k 11,...,D n.k n1 ) Menge von aggregierten Measures F={f 1,...,f m } Schreibweise für Zellen eines Würfels W(x 1, x 2,..., x n ) = (f 1,...,f m ) x i sind die Koordinaten im Würfel: x i knoten(k i1 ) Pro Punkt in W gibt es m aggregierte Measures f 1,..., f m Betrachten wir den einfachen Fall: n=m=1 Eine Dimension D mit Knoten x, ein Measure F Dann: W(x) = (F(kinder(x)) Berechnung rekursiv oder direkt aus Datenpunkten Bemerkung Auf unterster Ebene ist kinder(x)=punkte(x) Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

20 Würfelinhalt, allgemeiner Fall Ein Würfel W=(G,F) Granularität G=(D 1.k 11,...,D n.k n1 ) Menge von aggregierten Measures F={f 1,...,f m } Allgemeiner Fall W(x 1,...,x n ) = (f 1,...,f m ) = (F 1 (kinder(x 1 ) kinder(x 2 )... kinder(x n )), F 2 (kinder(x 1 ) kinder(x 2 )... kinder(x n )),... F m (kinder(x 1 ) kinder(x 2 )... kinder(x n ))) mit Koordinaten x i knoten(k i1 ) Bemerkung Die Schnittmengenbildung berechnet die Menge von Punkten in der Würfelzelle mit Koordinaten x 1,...,x n Jedes Measure wird gesondert aggregiert Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

21 Beispiel Z.Tag Z.Monat B.Abteilung B.Sparte Skoda.Reparatur Skoda.Ersatzteile VW Skoda München Wedding Nantes Koordinaten der Fakten Lyon R.Shop Bayern Aggregierte Fakten Berlin Department1 Department2 R.Bundesland ( , Wedding, Ersatzt.) = (...) ( , Wedding, Ersatzt.) = (...) (1 1999, Berlin, Skoda) = (...) (4 1999, Bayern, VW) = (...) Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

22 Operationen auf Würfeln OLAP Operationen überführen einen Würfel W=(G,F) in einen Würfel W =(G,F ) Dabei gilt Aggregation: G < G Verfeinerung G > G Eine einfache Operation verändert nur die Klassifikationsstufe einer Dimension in G Komplexe Operationen können auf natürliche Weise aus einfachen Operationen durch Verkettung zusammengesetzt werden Wir betrachten deshalb im folgenden nur einfache Operationen Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

23 OLAP Operationen Definition. Geg.: Würfel W=(G,F) mit G=(D 1.k 11,...,D n.k n1 ) und F=(f 1,..,f m ) Sei P={k 0... k i1 k i1 k i1... TOP} ein Pfad in D i Die einfache Aggregation von D i in W entlang P bzgl. Aggregatfunktion f überführt W in W = ( (D 1.k 11,..., D i.k i1,..., D n.k n1 ), (f 1,..., f m )) (f 1,..., f m ) = (F 1 (punkte(k 11 )... punkte(k i1 )... punkte(k n1 )),..., F m (punkte(k 11 )... punkte(k i1 )... punkte(k n1 ))) Die einfache Verfeinerung von D i in W entlang P bzgl. Aggregatfunktion f überführt W in W = ( (D 1.k 11,..., D i.k i1,..., D n.k n1 ), (f 1,..., f m )) Mit (f 1,..., f m ) =... Bemerkung Bei Aggregation kann man die f i per Aggregation berechnen Bei Verfeinerung ist ein Zugriff auf die Datenbank (Datenpunkte oder Ulf Präaggregate) Leser: Data Warehousing, notwendig Vorlesung, Sommersemester

24 Beispiel: Aggregation (Roll-Up) Z.Tag Z.Monat B.Abteilung B.Abt Skoda.Reparatur Skoda.Ersatzteile Skoda.Repa. Skoda.Ersatz München Wedding Nantes Lyon R.Shop München Wedding Nantes Lyon R.Shop Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

25 Beispiel: Verfeinerung (Drill-Down) Z.Tag Z.Monat B.Abteilung B.Abt Skoda.Reparatur Skoda.Ersatzteile Skoda.Repa. Skoda.Ersatz München Wedding Nantes Lyon R.Shop München Wedding Nantes Lyon R.Shop Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

26 Wo sind wir? Das MDDM gibt Klassifikationsstufen, Knoten, Pfade und Dimensionen vor Die Daten bestehen aus verschiedenen Measures, jeweils mit Koordinaten in den jeweiligen Dimensionen Koordinaten (Dimensionen) sind hierarchisch gegliedert (entlang der Pfade); jeder Datenpunkt hat eine Koordinate in jeder Klassifikationsstufe Die Koordinaten in einem Pfad sind voneinander abhängig Würfel stellen aggregierte Daten gemäß der Würfelgranularität dar OLAP Operationen (Aggregation, Verfeinerung) sind entlang der Pfade und gemäß der Granularität möglich Sie verändern die Granularität und die aggregierten Fakten Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

27 Aggregation bis TOP Summe Umsatz pro Tag und Abteilungen über alle Shops Z.Tag B.Abteilung Skoda.Reparatur Skoda.Ersatzteile München Wedding Nantes Lyon R.Shop Summe Umsatz pro Shop und Tag, über alle Abteilungen Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

28 ... in mehreren Dimensionen Z.Tag B.Abteilung Skoda.Reparatur Skoda.Ersatzteile München Wedding Nantes Lyon R.Shop G=(Z.TOP, R.TOP, B.TOP) Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

29 Weitere Operationen Aggregation ist die spannendste OLAP Operation Die restlichen führen keine Berechnungen durch, sondern selektieren bzw. ändern nur Ausschnitte des Würfels In der Literatur werden teilweise noch weitere Operationen angeführt (Drill-Across, Dicing,...) Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

30 Rotation Unterschiedliche Sichtweisen auf einen Datenbestand Jahr Jahr Kontinent Marke Asien Südamerika BMW Ford Peugeo t BMW VW Ford Automarke Asien Europa S-Amerika Australien Kontinent Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

31 Selektion einer Scheibe (Slicing) Verkäufe von Peugeot pro Jahr und Kontinent Verkäufe in Asien pro Jahr und Marke Jahr Asien Südamerika Kontinent BMW Peugeot VW Ford Automarke Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

32 Auswahl von Unterwürfeln Verkäufe von (Peugeot, VW) in (2000, 2001) pro Kontinent Jahr Asien Südamerika Kontinent BMW Peugeot VW Ford Automarke Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

33 2: Grafische Modellierung Grafische Modellierung multidimensionaler Daten Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

34 Datenbankentwurf Konzeptionelles Modell Logisches Modell Implementierung Designer, Requirements Engineering Entwickler, Administrator Administrator Produktsupport E/R, UML: Klassen, Attribute, Assoziationen Relationen, Attribute, Keys, SQL Join-Order, Indexe, Buffermanagement, Sortierung (Halb)Automatisch Vollautomatisch Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

35 ME/R Literatur Sapia at al. Extending the E/R Model for the Multidimensional Paradigm, Workshop DWDM, 1998 Logisches MDDM Fakten, Klassifikationsstufen, Dimensionen,... Konzeptionelles/Graphisches Modell für MDDM? E/R nicht ausreichend Keine Repräsentation von MDDM Konzepten: Fakten, Dimension, Klassifikationsstufen, etc. ME/R: Erweitertes E/R Modell Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

36 Gesamtbild ME/R MDDM ROLAP: Relationales Modell Implementierung MOLAP: multidimensionales Implementierung Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

37 ME/R: Elemente und Notation Neue Elemente Klassifikationsstufe (Dimension Level) Würfel (Fact) Halbordnung zwischen Klassifikationsstufen (Roll-Ups) Constraint: Keine Zyklen in den ROLL-UP Beziehungen Klassifikationsstufe Würfel Roll-Up Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

38 Beispiel Jahr Monat Tag Menge Shop_name Preis Produktgruppe Produkt Verkauf Shop Product_name Top Top Top Kunde Region TOP Land Land Jahr Region Land Produkgruppe Produkt Region Region Monat Land Kunde Shop Tag Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

39 Wiederverwendung von Stufen... Menge Shop_name Preis Produktgruppe Produkt Verkauf Shop Product_name Kunde Region Möglich, aber nicht unproblematisch Wenn Kundenregionen (nach Vertrieb) anders organisiert sind als Shopregionen (nach Logistik) IC nicht überwachbar Wenn Kunden in mehr Regionen wohnen dürfen als es Shops gibt verborgenes Integritätsconstraint Entspricht funk. Abhängigkeiten von unterschiedlichen, aber gleichnamigen Attributen Wird auf unterschiedliche Fremdschlüssel abgebildet Land Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

40 ME/R Bewertung Minimale, konservative Erweiterung Mehrere Würfel sind möglich Flexible Zuordnung Dimensionen Würfel Klare Semantik durch Metamodell in Extended E/R Greift eher kurz Keine Eigenschaften von Fakten (Summierbarkeit) Keine Besonderheiten von Klassifikationspfaden Übersprungene Stufen, unendliche Hierarchien Keine Übersetzungsmethode definiert Toolunterstützung? Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

41 Weitere Ansätze muml UML-Erweiterung basierend auf UML Metamodell (Constraints, Stereotypen) -> Werkzeugunterstützung vorhanden Klassifikationsstufe: <<Dimensional class>> Fakten: <<Fakt class>> Würfel: <<Dimension>> (Assoziationstyp) Hierarchie: <<Roll-Up>> (Assoziationstyp)... Multi-dimensional Modelling Language (MML)... Keine der Methoden hat sich (bisher) durchgesetzt Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

42 3. Summierbarkeit Ziel des MDDM Verdichtung von Daten entlang der Klassifikationspfade Aber das geht nicht immer gut Numerische versus kategorische Fakten Numerisch: Umsatz, Verkäufe, Messwerte,... Kategorisch: Geschlecht, Kundensegment,... Sollte man als Dimension definieren, muss man aber nicht Nicht alle Aggregatsfunktionen sind hierarchisch anwendbar Summe der Umsätze aller Tage Umsatz des Monats Summe der Umsätze aller Monate Umsatz des Jahres Durchschnitt der Umsätze aller Tage Durchschnitt des Monats? Durchschnitt der Umsätze aller Monate Durchschnitt des Jahres? Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

43 Beispiel Level 0 Level 1 Level Summe: 2 Avg: 1 Summe: Summe: 10 Avg: 11/2 12/3 Avg: 10 Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

44 Charakterisierung von Aggregatsfunktionen Lenz, Shoshani: Summarizability in OLAP and Statistical Databases, SSDBM, 1997 Geg.: Set X, Partitionierung (X 1,X 2,..., X n ) X entspricht einem Klassifikationsknoten, (X 1,X 2,..., X n ) sind seine Kinder Definition. Eine Aggregatfunktion f ist distributiv gdw g: f(x) = f( g(x 1 ), g(x 2 ),... g(x n )) Eine Aggregatfunktion f ist algebraisch gdw f(x) berechenbar aus fester Menge von g s Eine Aggregatfunktion f ist holistisch gdw f(x) kann nur aus den Grundelementen von X berechnet werden D.h., dass die Menge von g s nicht begrenzt ist Dann muss man immer auf die Datenpunkte zurück Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

45 Beispiele Distributiv Algebraisch Holistisch Summe, Count, Max, Min,... AVG (mit G 1 =SUM und G 2 =CNT) STDDEV, MaxN,... MEDIAN, RANK, PERCENTILE Highest Frequency,... Highest Frequency Merke Werte und jeweilige Frequenz: ( (v 1,f 1 ), (v 2,f 2 ),...) Merge zweier Sets möglich Aber: Keine feste Grenze für Platzbedarf, da Anzahl unterschiedlicher Werte nicht fest Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

46 Summierbarkeit / Aggregierbarkeit Bisher: Wann darf man Werte hierarchisch summieren? Natürlich nur numerische Fakten Art der Aggregatfunktion beachten Aber Summe der Lagerbestände pro Produkt über Jahre? Gesamtsumme Studenten als Summe über Studenten pro Studiengang? Weitere notwendige Kriterien für Aggregierbarkeit entlang eines Klassifikationspfades Überlappungsfreiheit der Zuordnung von Klassifikationsknoten Vollständigkeit der Zerlegung pro Klassifikationslevel Typverträglich von Fakt und Aggregatfunktion Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

47 Beispiel Studenten pro Jahr und Studiengang Gesamt Informatik BWL Gesamt Wie kann das stimmen? Wie lange dauern Studiengänge? Studenten nur in einem Studiengang eingeschrieben? Summen lassen sich nicht aus den Einzelwerten berechnen Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

48 Überlappungsfreiheit Definition. Eine Klassifikationshierarchie ist überlappungsfrei gdw Jeder Klassifikationsknoten mit Level i ist höchstens einem Klassifikationsknoten in Level i+1 zugeordnet Jeder Datenpunkt ist höchstens einem Klassifikationsknoten mit Level 0 zugeordnet Produktfamilie Bekleidung Produktgruppe Damen Herren Produktart Rock Jeans Anzug Verkauf: ((Rock,Jeans), 79.00,...) Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

49 Vollständigkeit Definition. Eine Klassifikationshierarchie ist vollständig gdw Jeder Klassifikationsknoten mit Level i ist mindestens einem Klassifikationsknoten in Level i+1 zugeordnet Jedes Fakt ist mindestens einem Klassifikationsknoten mit Level 0 zugeordnet Produktfamilie Bekleidung Produktgruppe Damen Herren Produktart Rock Jeans Anzug Verkauf: ((Produkt das zu keiner Produktart passt),...) Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

50 Was tun? Wir sind bisher immer von vollständigen und überlappungsfreien Klassifikationsschemas ausgegangen Summierbarkeit ist ein wichtiger Grund dafür Das entspricht nicht immer der betrieblichen Realität Was tun wenn nicht? Neue Klassifikationsknoten Artifizielle Klassifikationsknoten: Others, Rest, Nicht zugewiesen Knotenaufspaltung: Herrenjeans, Damenjeans Gewichtete Zuordnung Türkei ist 10% Europa, 90% Asien Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

51 Typen von Fakten Flow (Ereignis zu Zeitpunkt T) Verkäufe, Umsatz, Lieferungen, diplomierte Studenten,... Stock (Zustand zu Zeitpunkt T) Lagerbestand, eingeschriebene Studenten, Einwohnerzahlen,... Value-per-Unit (Eigenschaft zu Zeitpunkt T) Preis, Herstellungskurs, Währungskurs,... Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

52 Typverträglichkeit Stock Flow Value-per- Unit MIN/MAX SUM Zeit: nein Sonst: Nie AVG Erkennen von Problemen Nicht automatisch möglich Metadaten Beschreibung der Measures notwendig Ulf Leser: Data Warehousing, Vorlesung, Sommersemester

53 Zusammenfassung OLAP Operationen MDDM Modell Modellierung der Daten in der Sprache des Analysten Einschränkung auf sinnvolle Operationen Roll-Up und Drill-Down Selektion und Rotation Grafische Notationen sind vorhanden, aber noch nicht verbreitet Vorsicht vor Modellierungsfallen Summierung über kategorische Fakten Rekursive Durchschnittsbildung Typunverträgliche Summierung Löchrige Klassifikationshierarchien Ulf Leser: Data Warehousing, Vorlesung, Sommersemester