Kapitel 3 - Das multidimensionale Datenmodell -



Ähnliche Dokumente
Vorlesung Informationssysteme

Kunde. Kontobewegung

2 Vollständige Induktion

15.4 Diskrete Zufallsvariablen

Lerneinheit 2: Grundlagen der Investition und Finanzierung

Statistik mit Excel Themen-Special. Peter Wies. 1. Ausgabe, Februar 2014 W-EX2013S

Qualitätskennzahlen für IT-Verfahren in der öffentlichen Verwaltung Lösungsansätze zur Beschreibung von Metriken nach V-Modell XT

AUFGABENSTELLUNG (ZUSAMMENFASSUNG) 2 SPEZIFIKATION 2. Datenfluß und Programmablauf 2. Vorbedingung 3. Nachbedingung 3. Schleifeninvariante 3

Kapitel 6: Quadratisches Wachstum

Satz Ein Boolescher Term t ist eine Tautologie genau dann, wenn t unerfüllbar ist.

Statistik Einführung // Konfidenzintervalle für einen Parameter 7 p.2/39

Das FSB Geldkonto. Einfache Abwicklung und attraktive Verzinsung. +++ Verzinsung aktuell bis zu 3,7% p.a. +++

Inhaltsverzeichnis. 1 Leistungsbeschreibung... 3

LS Retail. Die Branchenlösung für den Einzelhandel auf Basis von Microsoft Dynamics NAV

Arbeitsplätze in SAP R/3 Modul PP

cubus EV als Erweiterung für Oracle Business Intelligence

KASSENBUCH ONLINE Online-Erfassung von Kassenbüchern

... a ik) i=1...m, k=1...n A = = ( a mn

Innerbetriebliche Leistungsverrechnung

BINOMIALKOEFFIZIENTEN. Stochastik und ihre Didaktik Referentin: Iris Winkler

Übungen zur Vorlesung Funktionentheorie Sommersemester Musterlösung zu Blatt 0

Projektmanagement Solarkraftwerke

Reengineering mit Sniffalyzer

Statistik I/Empirie I

2. Diophantische Gleichungen

3. Tilgungsrechnung Tilgungsarten

Einleitung. Aufgabe 1a/1b. Übung IV

Factoring. Alternative zur Bankfinanzierung?

Gruppe 108: Janina Bär Christian Hörr Robert Rex

BILANZ. Bilanzbericht

Zur Definition. der wirksamen. Wärmespeicherkapazität

Die Instrumente des Personalmanagements

VAIO-Link Kundenservice Broschüre

Übungsblatt 1 zur Vorlesung Angewandte Stochastik

SQL. Grundlagen und Datenbankdesign. Elmar Fuchs. 2. Ausgabe, April 2012 SQL

Nachklausur - Analysis 1 - Lösungen

KUNDENPROFIL FÜR GELDANLAGEN

HONORAR Honorarabrechnung

Beurteilung des Businessplans zur Tragfähigkeitsbescheinigung

Die Gasgesetze. Die Beziehung zwischen Volumen und Temperatur (Gesetz von J.-L. und J. Charles): Gay-Lussac

Datenstruktur : MT940 (Swift)

Finanzmathematische Formeln und Tabellen

2. Datenbankentwurf mittels. Entity-Relationship - Modell (ERM) 2.1. Entities. Definitionen:

Mathematik. Vorlesung im Bachelor-Studiengang Business Administration (Modul BWL 1A) an der FH Düsseldorf im Wintersemester 2008/09

CampusSourceEngine HISLSF

Die allgemeinen Daten zur Einrichtung von md cloud Sync auf Ihrem Smartphone lauten:

Ausgangspunkt: Über einen endlichen Zeitraum wird aus einem Kapital (Rentenbarwert RBW v n,i

CRM Maxx. Die Kundenmanagement-Software. Die innovative Softwarelösung für eine gewinnbringende Gestaltung Ihrer Vertriebsund Marketingprozesse

Private Altersvorsorge. Berufsunfähigkeitsschutz plus Steuerersparnis. Günstig vorsorgen durch Kombination mit unserer fondsgebundenen Basisrente.

Gliederung. Value-at-Risk

LOHN KUG, ATZ, Pfändung, Darlehen und Bescheinigungswesen

Der Durchbruch in der Zusammenarbeit. Health Relations

Aufgaben und Lösungen der Probeklausur zur Analysis I

Korrekturrichtlinie zur Studienleistung Wirtschaftsmathematik am Betriebswirtschaft BB-WMT-S

Versicherungstechnik

Page-Rank: Markov-Ketten als Grundlage für Suchmaschinen im Internet

1 Analysis T1 Übungsblatt 1

Statistische Maßzahlen. Statistik Vorlesung, 10. März, Beispiel. Der Median. Beispiel. Der Median für klassifizierte Werte.

Klausur in 13.1 Thema: Datenbanken (Bearbeitungszeit: 90 Minuten)

Supercom Die komplette Funklösung

Sichtbar im Web! Websites für Handwerksbetriebe. Damit Sie auch online gefunden werden.

Mit Ideen begeistern. Mit Freude schenken.

Kreisabbildungen. S 1 f S 1. Beispiele: (1) f = id, F = id,

Projektmanagement. Changing the way people work together

Institut für Stochastik Prof. Dr. N. Bäuerle Dipl.-Math. S. Urban

Löslichkeitsdiagramm. Grundlagen

Auch im Risikofall ist das Entscheidungsproblem gelöst, wenn eine dominante Aktion in A existiert.

Das Digitale Archiv des Bundesarchivs

Prof. Dr.-Ing. Bernd Kochendörfer. Bauwirtschaft und Baubetrieb. Investitionsrechnung

3. Einführung in die Statistik

Kleines Matrix-ABC. Fachgebiet Regelungstechnik Leiter: Prof. Dr.-Ing. Johann Reger. 1 Elementares

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

PrivatKredit. Direkt ans Ziel Ihrer Wünsche

Allgemeine Lösungen der n-dimensionalen Laplace-Gleichung und ihre komplexe Variable

Stochastik für WiWi - Klausurvorbereitung

Kapitel 4: Stationäre Prozesse

BILANZ Bilanzbericht

evohome Millionen Familien verfolgen ein Ziel: Energie zu sparen ohne auf Komfort zu verzichten

FH Bingen 1 EnDa SS 2003

Wiederkehrende XML-Inhalte in Adobe InDesign importieren

n 1,n 2,n 3,...,n k in der Stichprobe auftreten. Für die absolute Häufigkeit können wir auch die relative Häufigkeit einsetzen:

Wirtschaftsmathematik

Anwendungen der Wahrscheinlichkeit II. Markovketten

2. Einführung in die Geometrische Optik

BERUFSKOLLEG KAUFMÄNNISCHE SCHULEN DES KREISES DÜREN Zweijährige Höhere Handelsschule

Das Multidimensionale Datenmodell

Datenbanksysteme 2 Frühjahr-/Sommersemester Mai 2014

ProjectFinder Der Kommunen Optimierer! Lassen Sie sich ProjectFinder noch heute vorführen. Warum auch Sie ProjectFinder nutzen sollten

Medienzentrum. Bibliothek. Handreichung zur Literatursuche

ASP Application-Service- Providing

FIBU Betriebswirtschaftliche. Controlling

Investitionsentscheidungsrechnung Annuitäten Methode

Stichproben im Rechnungswesen, Stichprobeninventur

Wissenschaftliches Arbeiten Studiengang Energiewirtschaft

Aussagenlogik Schnelldurchlauf

Die Guten ins Töpfchen... Datenmigration einer verteilten Access- und SQLServer-Umgebung in eine JEE-Anwendung innerhalb einer SOA

Aufgabenblatt 4. A1. Definitionen. Lösungen. Zins = Rate Zinskurve = Zinsstruktur Rendite = Yield

Lösungen zu Kontrollfragen

Transkript:

Vorlesugs-Übersicht ) Eiführug ud Defiitioe 2) Architektur eies Data-Warehouse-Systems 3) Das multidimesioale Datemodell 4) ETL: Extraktio, Trasformatio, Lade 5) Afrageverarbeitug ud -optimierug 6) Idexstrukture für das multidimesioale Datemodell 7) Materialisierte Views 8) Metadate 9) OLAP, Data Miig, Process Miig 0) Zusammefassug ud Ausblick Vorlesug Data-Warehouse-Systeme im Sommersemester 2006 Kapitel 3 - Das multidimesioale Datemodell -

Kapitel 3: Überblick 3. Data-Warehouse-Desigprozess 3.2 Kozeptuelle Datemodellierug 3.3 Formalisierug ud Aalyseoperatioe 3.4 Umsetzug des multidimesioale Datemodells 3.5 Zusammefassug 3 3. Motivatio Zetrale Frage: Wie modelliere wir die Date i geeigeter Weise, d.h. für die Awedug im Data-Warehouse-System? Im Fokus: Modellierug sollte Aalyse ermögliche / uterstütze! Afrage beziehe sich meist auf mehrere Aspekte (z.b., Ort, ) Forderug ach mehrdimesioaler Darstellug der Date (z.b. als Würfel). ASPEKT Aalog zu klassische Datebak-Systeme: Nicht sofort Relatioe / Tabelle alege (also z.b. i SQL), soder Erst sematischer / kozeptueller Etwurf (z.b. Etity-Relatioship) Siehe auch Datebak- bzw. Data-Warehouse-Desigprozess 2. ASPEKT 4 2

3. Motivatio (. ASPEKT) Datemodell sollte Aalyse uterstütze Was soll aalysiert werde? Kezahle (Erlöse, Gewie, Verluste, etc.) meist aus betriebswirtschaftlicher Sicht Wie soll aalysiert werde? Kezahle solle aus uterschiedliche Perspektive (zeitlich, regioal, produktbezoge) betrachtet werde köe Dimesioe Dimesioe solle i verschiedeer Graularität betrachtet werde köe (z.b. als, Quartal, Moat) Hierarchie oder Kosolidierugsebee Verfügbare Iformatioe Qualifiziered Repräsetiert durch Kategorieattribute Date zur Nutzug als Navigatiosraster ( Drill-Pfade ) Modelliert als Begriffshierarchie im Rahme vo Dimesioe Quatifiziered Bilde Gegestad der Auswertug ( Summeattribute ) Zelle eies Würfels, mit Dimesioe als Kate 5 3. Motivatio (2. ASPEKT) Prozessmodell: Sammel vo Iformatio Sematische Datemodelleriug Logische Datemodelleriug Datebak- Istallatio Aalyse der Bedeutug Rohmodellierug Präzise Modellierug Kozeptuelles Schema Iterviews Aalyse der Substative Braistormig Aalyse vo Dokumete Etity-Relatioship- Modellierug (ERM) UML hierarchisch Netzwerk relatioal objekt-orietiert XML DB2 ORACLE DBMS uabhägig DBMS abhägig vgl. [HLV00] Kozeptuelles Schemadesig Logisches Schemadesig Physisches Schemadesig 3

3. Data-Warehouse-Desigprozess (2. ASPEKT) Aalyse ud Spezifikatio der Aforderuge Kozeptuelles Desig Logisches Desig Physisches Desig Operatioales Datebakschema Semiformales Geschäftskozept Formales kozeptuelles Schema Operatioales Datebakschema Physisches Datebakschema Iterviews ME/R Aalyse der Substative muml Braistormig graphbasiert Aalyse vo Dokumete multidimesioal relatioal objekt-relatioal vgl. [HLV00] DB2 ORACLE MS Server Essbase MS Aalysis Services 7 3. relatioale vs. multidimesioale Schemaarchitektur (2. ASPEKT) relatioal multidimesioal Kozeptuelles Schema Etity-Relatioship Logisches Schema Relatioe Physisches Schema Speicherstrukture Kozeptuelles Schema ME/R, muml Logisches Schema Dimesioe, Würfel Physisches Schema Relatioe (Faktetabelle, ), MD-Strukture 8 4

Kapitel 3: Überblick 3. Data-Warehouse-Desigprozess 3.2 Kozeptuelle Datemodellierug 3.3 Formalisierug ud Aalyseoperatioe 3.4 Umsetzug des multidimesioale Datemodells 3.5 Zusammefassug 9 3.2 was wir kee. Packugstyp gruppe ist verpackt vo gehört zu Artikel Artikel-Nr. wurde verkauft Datum. m Filiale liegt i Stadt Name Bezirk Auszug eies E/R-Modells für das Kaufhausbeispiel Uterscheidug Klassifikatiosstufe (beschreibede) Attribute Kegröße icht direkt ersichtlich z.b. Klassifikatiosstufe Tag als Attribut modelliert, Klassifikatiosstufe Artikel als Etität Welche Beziehuge sid Klassifikatiosbeziehuge icht direkt ersichtlich z.b. als : Beziehug, aber auch als Attribut (z.b. Bezirk bei Stadt) 0 5

3.2 was wir brauche: Dimesioe ud Hierarchie Dimesio: Mögliche Perspektive, aus der Kezahle betrachtet werde köe edliche Mege vo ( 2) Dimesioselemete (Hierarchieobjekte) Dimesioselemete stehe i Beziehug zueiader (z.b. Quartal ist Uterteilug vo ) diee der orthogoale Strukturierug des Dateraums Beispiele:, Geographie, Dimesioselemete: Kote eier Klassifikatioshierarchie Klassifikatiosstufe beschreibt Verdichtugsgrad Darstellug vo Dimesioe über Klassifikatiosschema (Schema vo Klassifikatioshierarchie) Forme: eifache Hierarchie parallele Hierarchie 3.2 eifache Hierarchie Oberster Kote: Top beschreibt die stärkste Verdichtug (also auf eie eizele Wert der Dimesio) Jede höhere Hierarchieebee ethält jeweils die aggregierte Werte der iedrigere Hierarchiestufe Top kategorie familie gruppe Top Lad Stadt Filiale Artikel 2 6

3.2 parallele Hierarchie Gruppierug ierhalb eier Dimesio muss icht immer eideutig sei mehrere Gruppieruge köe parallel existiere Keie hierarchische Beziehug i de parallele Zweige Typisches Beispiel ist die -Dimesio: Top Quartal Woche Moat Tag 3 3.2 Kozeptuelle Datemodellierug Trasformatio of the semi-formal busiess requiremets specificatio ito a coceptual multidimesioal schema. kozeptuelle Datemodellierug Modellierug relevater Zusammehäge des Awedugsgebietes ER oder UML Diagramme fehlt durch ihre uiverselle Modellierugsaspruch eie DW-spezifische Sematik. daher erfolgt die Modellierug durch ei MD-Desigotatio. z.b. me/r, muml evolutioär: Erweiterug, Spezialisierug besteheder Formalisme vs. revolutioär: eue, maßgescheiderte Methodik Diese uterstütze die Modellierug vo Datestrukture wie Dimesioe, Kegröße, Hierarchie Etwurf eier für de Aweder bedarfsgerechte Auswertugsstruktur 4 7

3.2 me/r-modell multidimesioal Etity/Relatioship Erweiterug des klassische ER-Modells (evolutioär) Etity-Mege Dimesio Level (Klassifikatiosstufe) keie explizite Modellierug vo Dimesioe -äre Beziehugsmege Fact Kezahle als Attribute der Beziehug Biäre Beziehugsmege Classificatio bzw. Roll-Up (Verbidug vo Klassifikatiosstufe) defiiert gerichtete, icht-zyklische Graphe me/r-modell: Notatio FAKT Kegröße Klassifikatiosstufe Klassifkatiosbeziehug 5 3.2 me/r-modell: Beispiel Artikel Gruppe Familie Brache Verkauf Filiale Stadt Bezirk Regio Azahl Umsatz Tag Moat Quartal Woche Faktbeziehug: Verkaufsaalyse Kegröße: Verkaufszahle ud Umsatz Dimesioe:, Geographie, Dimesioe ergebe sich aus de Basisklassifikatiosstufe (z.b. Tag) Alterativpfad i der dimesio 6 8

3.2 muml - Grudlage Multidimesioale Erweiterug der UML durch Eibeziehug multidimesioaler Sprachkostrukte ud dere Sematik aus der Multidimesioal Modelig Laguage (MML) WIE? UML: objektorietierte Notatio Uterstützug durch CASE-Werkzeuge, z.b. Ratioal Rose bietet sprachihärete Erweiterugsmöglichkeite: Costraits, Eigeschaftswerte (tagged values) ud Stereotype Achtug: i UML wird der Begriff Modell statt Schema verwedet! tagged value etspricht Tupel (tag, Datewert), wobei tag eie Elemeteigeschaft beschreibt (z.b. (EizelVK, Preis)) tagged values beschreibe Eigeschafte vo MML-Objekte Stereotype führe eue Modellierugskostrukte auf Basis vo UML- Metaklasse ei ud spiegel damit MML-Klassetype wider: Dimesioale Klasse Fakt- ud Dateklasse Darstellug über UML-Klassediagramme 7 3.2 muml Beispiel StarKauf*.. 2 <<Shared Roll-up>> Quartal Quartal Woche Moat Lad Regio Regio Bezirk Bezirk Stadt Lad Lieferatelad Woche <<Dimesio>> Moat Tag <<Fact-Class>> Verkauf Stadt Filiale.. * Verkaufter Artikel <<Dimesio>> Geographie <<Dimesio>> Artikel gruppe gruppe familie familie kategorie kategorie 9

3.2 muml Modellierug ().. 2 <<Shared Roll-up>> Quartal Quartal Woche Moat Lad Regio Regio Bezirk Bezirk Stadt Lad Lieferatelad Woche Moat Stadt Tag <<Fact-Class>> Filiale Verkauf Azahl:Verkäufe <<Dimesio>> <<Fact-Class>> Geographie EizelVK:Preis Verkauf /Umsatz:Preis{formula= Azahl*EizelVK, parameter= Azahl, EizelVK } Tagged value.. * Verkaufter Artikel <<Dimesio>> <<Dimesio>> Artikel gruppe gruppe familie familie kategorie kategorie 3.2 muml Modellierug (2).. 2 <<Shared Roll-up>> Quartal Quartal Woche Moat Lad Regio Regio Bezirk Bezirk Stadt Lad Roll-up Pfade Lieferatelad Woche <<Dimesio>> Moat Tag <<Fact-Class>> Verkauf Modellierug der Stadt Dimesioe Filiale.. * Verkaufter Artikel <<Dimesio>> Geographie <<Dimesio>> Artikel gruppe gruppe familie familie kategorie kategorie 0

3.2 muml Besoderheite Lad Awedug vo Aufsplittugsregel Letzte Kalederwoche ka zu 2 uterschiedliche e gehöreregio.. 2 Regio <<Shared Roll-up>> Quartal Bezirk Quartal Bezirk Woche Moat Stadt Lad Lieferatelad Woche <<Dimesio>> Moat Stadt Vererbug Artikel Tag Filiale Spezialisierug Hier: eie Verkaufstrasaktio gruppe ka auch mehr als eie Artikel umfasse <<Dimesio>> <<Fact-Class>> Geographie gruppe Verkauf familie.. * Verkaufter Artikel <<Dimesio>> familie kategorie kategorie 3.2 Weitere Asätze: Graphbasierte Asätze Idee: Beschreibug kozeptioeller Schemata i Form vo Graphe Ausgagspukt: statistische Tabelle mit Kopfzeile ud seitlicher Gliederug, teilweise Summebildug über Zeile ud Spalte Repräsetatio der kategorisierede Date sowie der Attributbeziehuge durch gerichtete, azyklische Graphe Navigatioshilfe für Beutzer Graphstruktur Kate: Beziehuge der Attribute Kote: uterschiedliche Sematik (i Abhägigkeit vo kokreter Notatio) Basistype: Kategorie- (Cluster) Kote (C) Repräsetiert Gruppierug eizeler Elemete gemäß Kategoriehierarchie Kreuzprodukt-Kote (X) Aufspae eies mehrdimesioale Adressierugsraumes mit Hilfe der Kategorieattribute über C-Kote 22

3.2. Graphbasiertes Schema: Beispiel Lehrer Sekr. Ig. Realschule Grudschule Chefs. Sekr. Bauig. Mäl. 999 2000 200 Weibl. 999 2000 200 X Berufsgruppe X C Geschlecht Lehrer Sekr. Ig. C C C C C Mäl. Weibl. 999 2000 200 23 3.2 Graphbasierte Asätze: Zuordugsregel Fuktioale Abhägigkeit Wird direkt durch Kate zwische beide C-Kote repräsetiert C Berufsgruppe Berufsgruppe 0.. * 0.. Beruf C Beruf N:M-Beziehug Wird direkt durch Eiführug eies X-Kotes repräsetiert Geschlecht 0.. * 0.. * X C Geschlecht C 24 2

3.2 Graphbasierte Asätze: weitere Kotetype Termiale Kote (t -Kote) Repräsetatio eies der mögliche Werte aus dem Wertebereich des übergeordete Kategorieattributes Beispiel: mälich, weiblich für Geschlecht Summekote (S-Kote) Explizite Spezifikatio des quatitative Teils eies Objektgraphe (Mehrfachverwedug vo Graphe) Beispiel: mittleres Eikomme, Ateil am Gesamteikomme zu X- Kote Topic-Kote (T-Kote) Repräsetatio eier Mege statistischer Objekte Dekompositio statistischer Sachverhalte Logische Verbidug vo S-Kote 25 3.2 Graphbasierte Asätze: Modellierug der Abstraktio Aggregatio (A-Kote) Zusammefassug logisch zusammegehöriger Eizelfakte Beispiel: (Straße, Stadt, Lad) zu Wohort, (PersNr, Name, Wohort, Beruf) zu Erwerbstätige Geeralisierug (G-Kote) Defiitio eier übergeordete Klasse abstrakter Objekte Beispiel: Erwerbstätige, Erwerbslose zu Erwerbsperso 26 3

3.2 weitere Notatioe Erweiteruge vo ER: Dimesioal Fact Modelig ADAPT Applicatio Desig for Aalytical Processig Techologies Beschreibug sämtlicher Metadate-Objekte Aber: keie formale Grudlage Graphbasiert: SUBJECT, GRASS, STORM, ADaS, Zur kei Stadard verfügbar Graphbasierte Asätze zwar mächtig + flexibel, aber kaum verbreitet 27 3.2 TAFELÜBUNG: Kozeptuelle Modellierug Gegebe: meteorologische Date I der meteorologische Statio MetWatch wird die Etwicklug vo Temperatur ud Luftfeuchtigkeit ierhalb Deutschlads über die letzte e gemesse ud ausgewertet. Dazu iteressiere die eizele Tageswerte, aber auch die wöchetliche, moatliche ud jährliche Etwicklug soll auswertbar sei. Außerdem solle die Werte eizeler Budesläder, Regioe ud Städte aalysiert werde. Schließlich soll auch der Faktor Großwetterlage mit de Kategorie Hoch ud Tief eibezoge werde. Stelle Sie de obige Sachverhalt i als me/r-modell dar. 28 4

3.2 TAFELÜBUNG: Ergebis Dimesioe: Großwetterlage, Geographie, HochTief Wetter Stadt Regio Budeslad Temperatur Luftfeuchtigkeit Tag Moat Woche 29 Kapitel 3: Überblick 3. Data-Warehouse-Desigprozess 3.2 Kozeptuelle Datemodellierug 3.3 Formalisierug ud Aalyseoperatioe Motivatio Defiitioe Operatioe 3.4 Umsetzug des multidimesioale Datemodells 3.5 Zusammefassug 30 5

3.3 Motivatio: Beispiel multidimesioales Schema Verkauf Artikel Gruppe Familie Kategorie Azahl Umsatz Kude Alter Eikauf Filiale Stadt Bezirk Regio Mege Woche Preis VK-Preis Lager Lagerbestad Tag Moat Quartal Es befide sich 4 Würfel i der Datebak Nämlich: Verkauf, Eikauf, Preis, Lager Mit de Dimesioe:,, Geographie, Kude 3 3.3 Schema eier Dimesio Schema eier Dimesio DS Partiell geordete Mege vo Kategorieattribute ({K,, K, Top D }; ) Geerisches maximales Elemet Top D Fuktioale Abhägigkeit Top D wird vo alle Attribute fuktioal bestimmt: i, i : K i Top D Geau ei K i, das alle adere Kategorieattribute bestimmt Gibt feiste Graularität eier Dimesio vor: i, i, j, j, i j, K i K j Beispiel für die dimesio DS = ({Tag, Woche, Moat, Quartal,, Top ) mit de fuktioale Abhägigkeite Tag Woche Tag Moat Quartal Tag Top, Woche Top, Quartal Top, Top 32 6

3.3 Kategorieattribute Ihaltliche Verfeierug durch uterschiedliche Rolle Primärattribut Kategorieattribut, das alle adere Attribute eier Dimesio bestimmt Defiiert maximale Feiheit Beispiel: Tag Klassifikatiosattribut Elemet der Mege, die mehrstufige Kategorisierug (Klassifikatioshierarchie) bilde Beispiel: Moat, Quartal Dimesioales Attribut Elemet der Mege der Attribute, die vom Primärattribut oder eiem Klassifikatiosattribut bestimmt werde ud ur Top D bestimme Beispiel: Artikelummer zu Artikel 33 3.3 Kategorieattribute : Beispiel Dimesioales Attribut Kude Alter Artikel Gruppe Familie Brache Verkauf Filiale Stadt Bezirk Regio Azahl Umsatz Tag Moat Quartal Woche Primärattribut Klassifkatiosattribute 34 7

3.3 Kezahle / Fakte Kezahle/Fakte (egl. facts): (verdichtete) umerische Messgröße Beschreibe betriebswirtschaftliche Sachverhalte Fakt: Basiskezahl Kezahl: aus Fakte kostruiert (abgeleitete Kezahl) Durch Awedug arithmetischer Operatioe Beispiele: Umsatz, Gewi, Verlust, Deckugsbeitrag Ei Fakt F eies multidimesioale Schemas ist defiiert als Tupel F:= (G, SumTyp) mit G := {DS.K,, DS.K } bezeichet die Graularität des betrachtete Schemas mit DS,, DS im Schema existierede Dimesiosschemata mit DS i = ({K i,, K im }, ) i, p mit i, p, i p: (DS i.k i DS p.k p ), d.h. keie fuktioale Abhägigkeit zwische Kategorieattribute eier Graularität Beispiel: G Verkauf = (.Gruppe,.Moat, Geographie.Stadt) Summatiostyp SumTyp (bestimmt, welche Aggregratiosfuktio auf Fakt / Kegröße agewedet werde darf) 35 3.3 Kezahl Kezahl M ist defiiert als Tripel M = (G, f(f,, F k ), SumTyp) mit Graularität G Berechugsvorschrift f() Summatiostyp SumTyp Berechug über ichtleerer Teilmege der im Schema existierede Fakte Berechugsvorschrift Bildug vo f() Skalarfuktioe +, -, *, /, mod Beispiel: Umsatzsteuerateil = Mege * Preis * Steuersatz Aggregatfuktioe Fuktio H() zur Verdichtug eies Datebestades, idem aus Eizelwerte ei Aggregatwert ermittelt wird H: 2 dom(x) dom(x) dom(y) SUM(), AVG(), MIN(), MAX(), COUNT() Ordugsbasierte Fuktioe Defiitio vo Kezahle auf Basis zuvor defiierter Orduge Bsp.: Kumulatio, TOP() 36 8

3.3 Summatiostyp erlaubte Aggregatiosoperatioe FLOW Beliebig aggregierbar Beispiel: Bestellmege eies Artikels pro Tag STOCK Beliebig aggregierbar mit Ausahme temporaler Dimesio Beispiele: Lagerbestad, Eiwoherzahl pro Stadt VALUE-PER-UNIT (VPU) Aktuelle Zustäde, die icht summierbar sid Zulässig ur: MIN(), MAX, AVG() Beispiele: Wechselkurs, Steuersatz 37 3.3 Summierbarkeit FLOW STOCK: Aggregratio über temporale Dimesio? VPU Nei Ja MIN/MAX + + + SUM + - + - AVG + + + COUNT + + + 38 9

3.3 Weitere Eigeschafte Disjuktheit Ei kokreter Wert eier Kezahl geht exakt eimal i Ergebis ei Bsp.: Studierede im Grudstudium Studierede 999 2000 200 Gesamt Iformatik 5 7 3 28 BWL 0 5 2 Gesamt 25 32 24 49 Vollstädigkeit Kezahle auf höherer Aggregatiosebee lasse sich komplett aus Werte tieferer Stufe bereche Restaurats Ulm Stuttgart Augsburg Gesamt 200 45 52 20 7 2002 46 50 22 8 3.3 Multidimesioaler Datewürfel für Verkauf Aus Darstellugsgrüde im Folgede Abstraktio vo Dimesio Kude Dimesio Halbjahr Quartal Kategorie Kezahl Umsatz Artikel Kategorieattribut Geographie Filiale Stadt Budeslad 40 20

3.3 Würfel Aus Darstellugsgrüde im Folgede Abstraktio vo Dimesio Kude Würfel (egl. cube, eigetlich Quader): Grudlage der multidimesioale Aalyse Kate Dimesioe Zelle ei oder mehrere Kezahle (als Fuktio der Dimesioe) Azahl der Dimesioe Dimesioalität Visualisierug 2 Dimesioe: Tabelle 3 Dimesioe: Würfel >3 Dimesioe: Multidimesioale Domäestruktur Schema W eies Würfels ist defiiert als Tupel W(G, M) mit Graularität G Mege der Kezahle M = (M,, M m ) Beispiel: Verkauf((.Artikel,.Tag, Geographie.Filiale), (Verkauf, Umsatz)) Istaz eies Würfels wird durch das Kreuzprodukt der Wertebereiche aller am Würfelschema beteiligte Attribute defiiert (formal: WI dom(g) dom(m)) Beispiel für eie Würfelzelle des Verkaufswürfels: (( Milch, 22.02.05, Filiale Ulm ),(5, 4.95)) I multidimesioale Schemata gilt Orthogoalität, d.h. Keie fuktioale Abhägigkeite zwische Attribute uterschiedlicher Dimesioe i, i, j, j, i j, k, l : DS i.k k DS j.k l 4 3.3 TAFELÜBUNG: Formalisierug kozeptuelles Modell Gegebe: usere Wetterstatio MetWatch Wie sieht die formale Defiitio des Würfels aus, der die Kegröße Temperatur ud Luftfeuchtigkeit auf de Klassifikatiosstufe Moat ud Budeslad beschreibt? Welche Berechugsvorschrift bietet sich für die Kegröße Temperatur a? Gebe Sie eie beliebige Würfelzelle dieses Würfels a. Wetter((.Moat, Geographie.Budeslad, Großwetterlage.HochTief), (Temperatur, Luftfeuchtigkeit)) Bspw. Durchschittsbildug AVG() oder Maximum / Miimum (Temperatur vom Typ VALUE-PER-UNIT) Z.B. (( April_2004, Hesse, Hoch ), (4, 20)) 42 2

3.3 Grudoperatore Restriktio: Gegebe W((D.K,, D.K ), (M,, M k )), Prädikat P Restriktio ist defiiert als σ P (W) = {z W P(z)}, falls alle Variable i P Etweder Klassifikatiosstufe K sid, die fuktioal vo eier Klassifikatiosstufe der Graularität vo W abhäge (formal: D i.k i mit K i K) Oder Kegröße aus (M,, M k ) sid Beispiel: W select = σ P.gruppe= Video (Verkauf) Die Projektio eier Fuktio der Kegröße F(K) eies Würfels W ist defiiert als π F(K) (W) = {(g, F(m)) dom(g) dom(f(k)) (g, m) W} Verbudoperatioe Verbide Keziffer aus verschiedee Würfel zu eier eue Kezahl Gegebe: W (G, M ), W 2 (G 2, M 2 ) lasse sich verbide G = G 2 :=G Verbud der Zelle wird über ihre Kezahle durchgeführt Ergebis W:= W W 2 mit W(G, M M 2 ) 43 3.3 Pivotierug / Rotatio Drehe des Würfels durch Vertausche der Dimesioe Aalyse der Date aus verschiedee Perspektive Geographie Geographie Geographie Geographie Geographie Geographie 22

3.3 Roll-Up / Drill-Dow / Drill-Across Roll-Up: Erzeuge euer Iformatioe durch Aggregierug der Date etlag des Kosolidierugspfades Dimesioalität bleibt erhalte Beispiel: Tag Moat Quartal Drill-Dow: komplemetär zu Roll-Up Navigatio vo aggregierte Date zu Detail-Date etlag der Klassifikatioshierarchie Drill-Across: Ausweise vo Kezahle bzgl. eier adere Klassifikatioshierarchie bzw. Dimesio Also: Wechsel vo eiem Würfel zu eiem adere 45 3.3 Drill Dow / Roll-up (2) Geographie Geographie Roll-up Drill-Dow. Quartal 2. Quartal 3. Quartal 4. Quartal Ja. Feb. März April Mai Juli Aug. Jui Sept. Okt. Nov. Dez. 46 23

3.3 Slice ad Dice () Erzeuge idividueller Sichte Slice: Herausscheide vo Scheibe aus dem Würfel durch Pukt- oder Listeeischräkuge auf Klassifikatiosattribute Verrigerug der Dimesioalität Beispiel: alle Werte des aktuelle es i de Filiale Ulm ud Bo ( = 2006, Filiale IN ( Ulm, Bo )) Dice: Herausscheide eie Teilwürfels Erhaltug der Dimesioalität, Veräderug der Hierarchieobjekte Beispiel: die Werte bestimmter e oder Regioe 47 3.3 Slice ad Dice Slicig: Geographie Dicig: Geographie Geographie 48 24

Kapitel 3: Überblick 3. Data-Warehouse-Desigprozess 3.2 Kozeptuelle Datemodellierug 3.3 Formalisierug ud Aalyseoperatioe 3.4 Umsetzug des multidimesioale Datemodells Relatioale Speicherug Multidimesioale Speicherug 3.5 Zusammefassug 49 3.4 Allgemeie Amerkuge Multidimesioale Sicht Modellierug der Date Afrageformulierug Itere Verwaltug der Date erfordert Umsetzug auf ROLAP (relatioales OLAP), Umsetzug der multidimesioale Struktur i Relatioe Vorteile: relatioale DBMS weit verbreitet Ausgereifte Techologie Nachteile: Umsetzug der multidimesioale Strukture als Relatioe: Welche Nachteile ergebe sich hieraus? 50 25

3.4 Allgemeie Amerkuge MOLAP (multidimesioales OLAP), direkte Speicherug i multidimesioale Strukture Vorteile: Keie Trasformatioe otwedig Nachteile: Zelle köe uter Umstäde ur dü besetzt sei (sparsity) Skalierbarkeit Hybrid, also Kombiatio vo ROLAP ud MOLAP Vorteile beider Variate Nachteil: Komplexität Wesetliche Aspekte bei der Umsetzug multidimesioaler Strukture: Speicherug Afrageformulierug bzw. -ausführug 5 3.4 Relatioale Speicherug: Aforderuge Iformatioe aus dem multidimesioale Modell (z.b. Klassifikatioshierarchie) solle icht verlore gehe effiziete Übersetzug ud Verarbeitug multidimesioaler Afrage Update der gespeicherte Date soll eifach sei Aalyse solle adäquat uterstützt werde (z.b. Beachtug der Afragecharakteristik ud des Datevolumes) 52 26

3.4 Relatioale Speicherug: Faktetabelle Aus Darstellugsgrüde im Folgede Abstraktio vo Dimesio Kude Ausgagspukt: Umsetzug des Datewürfels ohe Klassifikatioshierarchie Dimesioe, Kezahle Spalte der Relatio Zelle Tupel Primärschlüssel: Artikel, Filiale, Tag Kegröße (measure, häufig umerisch): Verkauf Resultierede Tabelle heißt Faktetabelle (fact table) Artikel Filiale Tag Verkauf Melitta Jacobs Ulm Stuttgart Melitta Ulm 20.04.06 200 2.04.06 Jacobs Ulm 2.04.06 500 20.04.06 Geographie Melitta Stuttgart 20.04.06 24 53 3.4 Relatioale Speicherug: Sowflake-Schema () Klassifikatiosstufe werde jeweils als eie Tabelle abgebildet (z.b. Artikel, gruppe, etc.) Tabelle ethält ID für Klassifikatioskote beschreibedes Attribut (z.b. Marke, Hersteller, Bezeichug) Fremdschlüssel der direkt übergeordete Klassifikatiosstufe Faktetabelle ethält (ebe Kegröße): Fremdschlüssel der jeweils iedrigste Klassifikatiosstufe Fremdschlüssel bilde zusammegesetzte Primärschlüssel für Faktetabelle Vorteile: Nachteile: 54 27

28 3.4 Relatioale Speicherug: Sowflake-Schema (2) ArtikelID TagID FilialeID Verkäufe Umsatz Verkauf ArtikelID Bezeichug gruppeid Marke Artikel gruppeid Bezeichug familieid gruppe familieid Bezeichug kategorieid familie kategorieid Bezeichug kategorie FilialeID Bezeichug StadtID Filiale StadtID Bezeichug BezirkID Stadt BezirkID Bezeichug RegioID Bezirk RegioID Bezeichug LadID Regio LadID Bezeichug Lad TagID Bezeichug MoatID WocheID Tag WocheID Bezeichug ID Woche MoatID Bezeichug QuartalID Moat QuartalID Bezeichug ID Quartal ID Bezeichug Aus Darstellugsgrüde im Folgede Abstraktio vo Dimesio Kude 3.4 Relatioale Speicherug: Sowflake-Schema (3) ArtikelID TagID FilialeID Verkäufe Umsatz Verkauf ArtikelID Bezeichug gruppeid Marke Artikel gruppeid Bezeichug familieid gruppe familieid Bezeichug kategorieid familie kategorieid Bezeichug kategorie FilialeID Bezeichug StadtID Filiale StadtID Bezeichug BezirkID Stadt BezirkID Bezeichug RegioID Bezirk RegioID Bezeichug LadID Regio LadID Bezeichug Lad TagID Bezeichug MoatID WocheID Tag WocheID Bezeichug ID Woche MoatID Bezeichug QuartalID Moat QuartalID Bezeichug ID Quartal ID Bezeichug Faktetabelle Fremdschlüssel Zugehörige :-Beziehug Aus Darstellugsgrüde hier Abstraktio vo Dimesio Kude

3.4 TAFELÜBUNG: Sowflake-Schema Gegebe: usere Wetterstatio MetWatch Gebe Sie die relatioale Speicherug des Wetter-Würfels als Sowflake-Schema a. Moat ID Bezeichug Woche MoatID Bezeichug QuartalID Tag TagID Bezeichug MoatID WocheID Wetter StadtID TagID HTID Temp. Luftf. Stadt StadtID Bezeichug RegioID Regio RegioID Bezeichug BudesladID Budeslad BudesladID Bezeichug WocheID Bezeichug HochTief ID HTID Bezeichug 57 3.4 Relatioale Speicherug: Star-Schema () Sowflake-Schema ist ormalisiert: Vermeidug vo Update-Aomalie Afrage verursache jedoch häufig Mosterjois (Jois über mehrere Tabelle) deshalb Übergag zum so geate Star-Schema: Die zu eier Dimesio gehörede Tabelle werde deormalisiert, also zu eier Dimesiostabelle (pro Dimesio) zusammegefasst Eie Kosequez hieraus sid Redudaze i der Dimesiostabelle Diese Redudaze erlaube jedoch eie schellere Afragebearbeitug Beispiel: Artikel,, gruppe etc. als Spalte i eier Tabelle Vorteile des Star-Schemas: Ituitive Umsetzug der multidimesioale Struktur Schellere Afrageauswertug, keie Mosterjois Nachteile: Redudaze aufgrud der Deormalisierug Mehrfache Hierarchie köe icht direkt modelliert werde 58 29

3.4 Relatioale Speicherug: Star-Schema (2) 3. Dimesiostabelle Dim3_Schlüssel Dim3_Attribute. Dimesiostabelle Dim_Schlüssel Dim_Attribute 4. Dimesiostabelle Dim4_Schlüssel Dim4_Attribute Faktetabelle Dim_Schlüssel Dim2_Schlüssel Dim3_Schlüssel Measure Measure2 Measure3 2. Dimesiostabelle Dim2_Schlüssel Dim2_Attribute Allgemeies Star-Schema 59 3.4 Relatioale Speicherug: Star-Schema (3) Aus Darstellugsgrüde im Folgede Abstraktio vo Dimesio Kude ID ID Tag Artikel Woche gruppe Moat Quartal Geographie GeographieID ID ID GeographieID Verkäufe Umsatz Verkauf familie kategorie Bezeichug Marke Packugstyp Filiale Stadt Bezirk Regio StarKauf*-Szeario als Star- Schema modelliert Lad 60 30

3.4 Relatioale Speicherug: Star-Schema (4) Muster eies Star-Schemas: Multidimesioales Schema mit Dimesioe Dimesiostabelle D,..., D der Form D i (PA i, A i,..., A ik ) Faktetabelle F(PA,..., PA, f,..., f k ) Jeder Teil des komposite Primärschlüssels der Faktetabelle ist Fremdschlüssel zum Primärschlüsselattribut der korrespodierede Dimesio Redudaze i Dimesiostabelle durch Deormalisierug Beispiel: Zugehörigkeit eies Artikels zu gruppe führt zu Zugehörigkeit zu familie ID Artikel gruppe familie Kategorie 23 24 25 26 Melitta Jacobs Lavazza Nesquik Filterkaffee Filterkaffee Espresso Istat-Kakao Kaffee Kaffee Kaffee Kakao Heißgeträke Heißgeträke Heißgeträke Heißgeträke 3.4 Vergleich vo Star- ud Sowflake-Schema () Vorüberlegug: Wie sehe DWH-Aweduge typischerweise aus? Häufig werde Afrage auf höhere Klassifikatiosstufe gestellt Dimesiostabelle weise im Vergleich zu Faktetabelle ei geriges Datevolume auf Klassifikatioe werde sehr selte geädert Vorteile des Star-Schemas leicht verstädliche Struktur Beutzer ka Afrage ituitiver formuliere effiziete Afrageverarbeitug ierhalb eier Dimesio (keie Joi- Operatio otwedig) Redudaze aufgrud Deormalisierug ud damit verbude das Datevolume halte sich meistes i Greze Gefahr vo Update-Aomalie gerig 62 3

3.4 Vergleich vo Star- ud Sowflake-Schema (2) Vergleiche basiere häufig auf für Kostebetrachtuge Wir werde im Folgede Kosteabschätzuge für Speicherbedarf ud Afragekomplexität für Sowflake- ud Starschema erarbeite Aahme hierzu: D Dimesioe, je K Klassifikatiosstufe plus Top Jeder Klassifikatioskote hat 3 Kider M Fakte, gleich verteilt i Dimesioe Attribut: b Bytes; Kote habe ur ID; f Faktattribute 63 3.4 Vergleich vo Star- ud Sowflake-Schema (3) 64 32

3.4 Vergleich vo Star- ud Sowflake-Schema (4) 65 3.4 Vergleich vo Star- ud Sowflake-Schema (5) Afrage: Verkäufe der gruppe Soft-Drik pro Filiale ud Sowflake-Schema: Azahl der Jois: 6 (steigt liear mit Azahl der Aggregatiospfade) 66 33

3.4 Vergleich vo Star- ud Sowflake-Schema (6) Afrage für Star-Schema: Azahl der Jois: 3 (uabhägig vo der Läge der Aggregatiospfade) 67 3.4 Weitere Möglichkeite Mix aus Sowflake-Schema oder Star-Schema Etscheidug für jeweilige Dimesio ahad der folgede Frage: Wie häufig ädert sich die jeweilige Dimesioe? Wie viele Klassifikatiosstufe besitzt die Dimesio? Wie viele Dimesioselemete besitzt die Dimesio? Solle bestimmte Aggregate materialisiert gehalte werde? Zusammefassuge ierhalb des Star-Schemas eie Faktetabelle mehrere Kezahle ur möglich bei gleiche Dimesioe Im Beispiel (Folie 3) habe ur die Kezahle Verkauf ud Umsatz die gleiche Dimesioe ud köe deshalb durch eie gemeisame Faktetabelle repräsetiert werde Galaxie (Multi-Faktetabelle-Schema, Multi-Cube, Hyper-Cube) mehrere Faktetabelle teilweise mit gleiche Dimesiostabelle verküpft 68 34

3.4 Fact Costellatio Aus Optimierugsgrüde ka es sivoll sei, bestimmte Aggregate (die z.b. häufig agefragt werde) vorzuhalte (z.b. Umsatz pro Moat). Erste Möglichkeit: Speicherug der Aggregate i der Faktetabelle Hierzu ötig: Uterscheidug i Dimesiostabelle über spezielle Attribute (z.b. Stufe, siehe Abbildug auf Folie 72) Alterative: die Aggregrate werde i eigee Faktetabelle gehalte Diese Art vo Schema wird Fact-Costellatio-Schema geat (da mehrere Faktetabelle) ud ist ei Spezialfall des Galaxie-Schemas. Eiführug des zusätzliche Attributes Stufe ist icht ötig Würfel, die durch Aggregatio auseiader hervorgehe, teile sich etsprechede Dimesioe 69 3.4 Klassifikatioshierarchie () Horizotal: Modellierug der Stufe der Klassifikatioshierarchie als Spalte der deormalisierte Dimesiostabelle Vorteil: Nachteile: SELECT DISTINCT gruppe FROM WHERE kategorie = Heissgetraek ID Artikel gruppe kategorie 23 24 25 26 Melitta Jacobs Lavazza Nesquik Filterkaffee Filterkaffee Espresso Istat-Kakao Heissgetraek Heissgetraek Heissgetraek Heissgetraek 35

3.4 Klassifikatioshierarchie (2) Vertikal (rekursiv): ormalisierte Dimesiostabelle mit Attribute Dimesios_ID: Schlüssel, der Beziehug zu Faktetabelle herstellt Elter_ID: Attributwert der Dimesios-ID der ächsthöhere Stufe Vorteile: Eifache Äderug am Klassifikatiosschema Eifache Behadlug vorberecheter Aggregate Nachteil: Self-Joi für Afrage eizeler Stufe (Bsp.: gruppe ierhalb eier Kategorie) Rekursio SELECT L3.ElterID FROM AS L, AS L2, AS L3 WHERE L.DimesioID = Heissgetraek AND L2.ElterID = L.DimesioID AND L3.ElterID = L2.DimesioID DimesiosID Melitta Jacobs Filterkaffee Heissgetraek ElterID Filterkaffee Filterkaffee Heissgetraek Lebesmittel 7 3.4 Klassifikatioshierarchie (3) Kombiatio vo horizotaler ud vertikaler Darstellug Repräsetatio der Klassifikatiosstufe als Spalte Spaltebezeicher werde geerisch gehalte Speicherug der Kote aller höhere Stufe als Tupel Zusätzliches Attribut Stufe Agabe der bezeichete Klassifikatiosstufe DimesiosID Stufe_ID Stufe2_ID Stufe Melitta Jacobs Filterkaffee Heissgetraek Filterkaffee Filterkaffee Heissgetraek Heißgeträke Heissgetraek 0 0 2 Wie köe bei der relatioale Abbildug Sematikverluste verhidert werde? 72 36

3.4 Relatioale Umsetzug multidimesioaler Afrage Hägt vo der Abbildugsvariate für das Schema ab Meistes Aggregatafrage bestehed aus (+)-Wege-Verbud zwische Dimesiostabelle ud der Faktetabelle Star-Joi-Afragemuster Beispiel: Wie viele Artikel der kategorie Heißgeträke wurde 2004 pro Moat i de uterschiedliche Regioe verkauft? SELECT G.Regio, Z.Moat, SUM (Verkäufe) FROM Verkauf V, Z, P, Geographie G WHERE V._ID = P._ID AND V.ZEIT_ID = Z.ZEIT_ID AND V.Geo_ID = G.Geo_ID AND P.familie = Heissgetraek AND Z. = 2004 AND G.Lad = Deutschlad GROUP BY G.Regio, Z.Moat 73 3.4 CUBE-Operator () Erweiterug i SQL: Gruppierug eier Eigaberelatio ach mehrere Gruppierugskombiatioe CUBE-Operator SELECT Regio, Prodfamilie,, SUM(Verkäufe) AS Verkäufe FROM GROUP BY Regio, Prodfamilie, ; Verkauf Regio Prodfamilie Verkäufe Eifache Gruppierugsbedigug Bayer Bayer Bayer Bayer Bayer Bayer Bayer Bayer Bayer Hesse Hesse Hesse Hesse Video Video Video Audio Audio Audio TV TV TV Video Video Video Audio 998 999 2000 996 999 2000 996 999 2000 998 999 2000 996 2 48 58 3 67 66 5 55 5 22 50 67 5 37

3.4 CUBE-Operator (2) Verkauf Regio Prodfamilie Verkäufe (SELECT Regio, Prodfamilie,, SUM(Verkäufe) AS Verkäufe FROM GROUP BY Regio, Prodfamilie, ) UNION (SELECT Null AS Prodfamilie, Regio,, SUM(Verkäufe) AS Verkäufe FROM GROUP BY Regio, ) UNION // (Prodfamilie,Regio), (Prodfamilie,) // (Regio), () UNION (SELECT Prodfamilie, AS Regio, AS, SUM(Verkäufe) AS Verkäufe FROM GROUP BY Prodfamilie) UNION (SELECT AS Prodfamilie, AS Regio, AS, SUM(Verkäufe) AS Verkäufe FROM) Komplexe Gruppierugsbedigug Bayer Bayer Bayer Bayer Bayer Bayer Bayer Bayer Bayer Bayer Bayer Bayer Bayer Hesse Hesse Video Video Video Video Audio Audio Audio Audio TV TV TV TV Video Video Video Video Video Audio 998 999 2000 998 999 2000 996 999 2000 998 998 999 2000 996 998 999 2000 2 48 58 8 3 67 66 64 5 55 5 2 403 22 50 34 96 56 257 82 72 382 350 806 3.4 CUBE-Operator (3) Nachteile dieser Lösug: Aufwedige Formulierug (aber automatische Geerierug durch OLAP-Tools) Poteziell teure Verbudoperatioe müsse für jede Teilafrage eu ausgewertet werde CUBE-Operator erzeugt alle mögliche Gruppierugskombiatioe; aderfalls ur über lage UNION-Liste möglich SELECT Regio, Prodfamilie,, GROUPING(Regio), GROUPING(Prodfamilie), GROUPING(), SUM(Verkäufe) AS Verkäufe FROM GROUP BY CUBE(Regio, Prodfamilie, ) 76 38

3.4 CUBE-Operator (3) Nachteile dieser Lösug: Aufwedige GROUPING Formulierug liefert (aber, falls automatische auf Gruppierugsattribut Geerierug durch agewadt OLAP-Tools) ud über dieses Attribut hiweg aggregiert wird Poteziell Aderfalls teure Verbudoperatioe liefert GROUPING müsse 0 für jede Teilafrage eu ausgewertet werde CUBE-Operator Falls Gesamtsumme erzeugt alle mögliche icht zurück Gruppierugskombiatioe; geliefert werde soll: aderfalls ur über lage UNION-Liste möglich HAVING NOT(GROUPING(Prodfamilie) = AND GROUPING(Regio) = AND GROUPING() = ) SELECT Regio, Prodfamilie,, GROUPING(Regio), GROUPING(Prodfamilie), GROUPING(), SUM(Verkäufe) AS Verkäufe FROM GROUP BY CUBE(Regio, Prodfamilie, ) 77 3.4 CUBE-Operator(4): Pivotierug / Rotatio (zur Erierug) Geographie Geographie Geographie Geographie Geographie Geographie 78 39

3.4 CUBE-Operator (5) Verkäufe Video Audio TV SUMME Verkäufe Video Audio TV SUMME Bayer 2002 2 3 5 58 2002 Bayer 2 3 5 58 2003 48 67 55 70 Hesse 22 5 49 22 2004 58 66 5 75 SUMME 34 82 64 80 SUMME 8 64 2 403 2003 Bayer 48 67 55 70 Hesse 2002 22 5 49 22 Hesse 50 34 37 2 2003 50 34 37 2 SUMME 98 0 92 29 2004 67 42 5 60 2004 Bayer 58 66 5 75 SUMME 39 27 37 403 Hesse 67 42 5 60 SUMME 257 29 258 806 SUMME 25 08 02 335 SUMME 257 29 258 806 mit 2 uterschiedliche Pivotieruge 79 3.4 CUBE-Operator(6): Roll-Up (SQL99) SELECT Prodkategorie, Prodfamilie, Rollup i dieser Dimesio i folgede Schritte: Regio, Lad, d.h. A,, A -, A SUM(Verkäufe) AS Verkäufe A,, A - FROM WHERE GROUP BY ROLLUP(kategorie, Prodfamilie), A () ROLLUP(Lad, Regio) Erzeugt: (Prodkategorie, Prodfamilie) kreuz (Lad, Regio) (Prodkategorie) (Lad) () () zuerst Bei 4 Gruppierugsattribute Cube-Operator: 2 4 = 6 uterschiedl. Gruppieruge Rollup-Operator: 3*3 = 9 uterschiedl. Gruppieruge da 80 40

3.4 GROUPING Sets Komplexeste Art der Gruppierug (i SQL:99) Argumete köe selbst wieder Gruppieruge sei, außer Groupig Sets. Beispiel: SELECT... SUM(Verkäufe) AS Verkäufe FROM... GROUP BY ROLLUP(kategorie, familie) () GROUPING SETS((STADT),(REGION)), (2) GROUPING SETS(ROLLUP(, Quartal, Moat),(Woche)) (3) Bedeutug: () etlag der Klassifikatioshierarchie (2) ur für Städte ud Regioe (3) Nutzug der Parallelhierarchie ( Quartal Moat) ud Woche 8 3.4 Probleme der relatioale Speicherug Multidimesioale Struktur muss i eie oder mehrere flache relatioale Tabelle gepresst werde. Trasformatio multidimesioaler Afrage i relatioale Repräsetatio otwedig komplexe Afrage Eisatz komplexer Afragewerkzeuge otwedig (OLAP-Werkzeuge) Sematikverlust daher: direkte multidimesioale Speicherug? 82 4

3.4 Multidimesioale Speicherug () Verwedug uterschiedlicher Datestrukture für Datewürfel ud Dimesioe Dimesio: edliche, geordete Liste vo Dimesioswerte Ordug der Dimesioswerte Würfel: Für Dimesioe: -dimesioaler Raum m Dimesioswerte eier Dimesio: Aufteilug des Würfels i m parallele Ebee Zelle eies -dimesioale Würfels wird eideutig über -Tupel vo Dimesioswerte idetifiziert Zelle ka ei oder mehrere Kezahle eies zuvor defiierte Datetyps aufehme Wir als Array gespeichert häufig proprietäre Strukture (ud Systeme) 83 3.4 Multidimesioale Speicherug (2) Klassifikatiosstufe: Wichtig: Kote der höhere Stufe bilde weitere Ebee Ulm Umsatz i Bade- Württemberg im Jauar Stuttgart Bade-Württemberg Müche Bayer Jauar Februar März. Quartal Umsatz i Stuttgart im. Quartal 84 42

3.4 Multidimesioale Speicherug (3) Vergleich Aggegratio zur Laufzeit versus Vorberechug Laufzeit: Berechug aus Detaildate hohe Aktualität, jedoch hoher Aufwad evetuell Cachig Vorberechug: Berechug ud Eitrage der Aggregatioswerte i etsprechede Zelle Neuberechug ach jeder Dateüberahme otwedig hohe Afragegeschwidigkeit, jedoch Zuahme der Würfelgröße ud Laufzeitaufwad 85 3.4 Multidimesioale Speicherug (4) Weitere Datestrukture Virtueller Würfel Ergibt sich aus bestehede Würfel durch die Awedug vo Berechugsfuktioe (z.b. Gewi) Teilwürfel (Kombiatio mehrerer Ebee eies Würfels virtuell) Attribute Merkmale eier Dimesio Utermege vo Dimesioswerte köe über Attribute idetifiziert werde (z.b. farbe ) 86 43

3.4 Multidimesioale Speicherug (5) Speicherug des Würfels als -dimesioales Array hierzu Liearisierug i eie eidimesioale Liste ( Kapitel 6, multidimesioale Idexstrukture) Idizes des Arrays Koordiate der Würfelzelle (Dimesioe D i ) Idexberechug für Zelle mit Koordiate x,, x Idex(z) = x + (x 2 ) * D + (x 2 ) * D * D 2 + + (x ) * D * * D - Liearisierugsreihefolge: D 3 D 2 D Hose () Hemde (2) 2 3 6 7 8 2 3 6 7 8 Röcke (3) Kleider (4) 4 5 9 0 4 5 9 20 Mätel (5) Jauar () Februar (2) März (3) April (4) 3.4 Multidimesioale Speicherug (6) Probleme bei der multidimesioale Speicherug: ugüstige Liearisierugsreihefolge köe zu schlechtem Afrageverhalte führe! Evetuell Abhilfe durch Cachig Skalierbarkeitsprobleme aufgrud dü besetzter Dateräume teilweise eiseitige Optimierug bezüglich Leseoperatioe Reorgaisatio ach Äderuge a de Dimesioe ka aufwedig werde (da Dimesioswerte geordet) keie Stadard für multidimesioale DBMS ( Spezialwisse otwedig) 88 44

3.4 Multidimesioale Speicherug (7) Vergleich vo multidimesioaler ud relatioaler Speicherug Welche Faktore spiele eie Rolle? Speicherug Faktore Array Relatioal (Star-Schema) 89 Kapitel 3: Überblick 3. Data-Warehouse-Desigprozess 3.2 Kozeptuelle Datemodellierug 3.3 Formalisierug ud Aalyseoperatioe 3.4 Umsetzug des multidimesioale Datemodells 3.5 Zusammefassug 90 45

3.5 Zusammefassug Kozeptuelle Modellierug der Date: Multidimesioale Erweiteruge vo Etity/Relatioship-Modell (me/r) UML (muml) Weitere Asätze (z.b. graphbasiert) Umsetzug der kozeptuelle Modellierug: Relatioal (ROLAP): Sowflake-Schema, Star-Schema Multidimesioal (MOLAP) Hybrid (HOLAP): Kombiatio aus ROLAP ud MOLAP 9 Refereze [HLV00] Bodo Hüsema, Jes Lechtebörger, Gottfried Vosse: Coceptual Data Warehouse Desig, I Proc. It l Workshop o Desig ad Maagemet of Data Warehouses, pp. 3 9 (2000) 92 46