Multidimensionales Datenmodell



Ähnliche Dokumente
Multidimensionales Datenmodell. Motivation. Motivation /2. Grundbegriffe. Analyseoperationen. Notationen zur konzeptuellen Modellierung

Motivation. Dimensionen. Motivation /2. 3. Multidimensionales Datenmodell

Motivation. Motivation /2. Dimensionen. Einfache Hierarchien. Hierarchien in Dimensionen. 3. Multidimensionales Datenmodell

Kapitel 6 Einführung in Data Warehouses

Das Multidimensionale Datenmodell

Kapitel 7 Grundlagen von Data

6.2 Datenmodellierung

Seminar Data Warehousing. Seminar. Data Warehousing. Thema: Speichermodelle für Data-Warehouse-Strukturen

Einführung in Data Warehouses

Summarization-based Aggregation

Multidimensionale Modellierung

Aufgabe 1: [Logische Modellierung]

Kapitel 6. Einführung in Data Warehouses

Data Warehouse Technologien

Veit Köppen Gunter Saake Kai-Uwe Sattler. 2. Auflage. Data Warehouse Technologien

Multidimensionales Datenmodell, Cognos

Logische Modelle für OLAP. Burkhard Schäfer

Agenda. Themenblock: Data Warehousing (I) Referenzarchitektur. Eigenschaften eines Data Warehouse. Einführung Data Warehouse Data Access mit SQL

Verwandt, logisch kohärent, zweckspezifisch, an reale Welt orientiert. Entität kann in einer oder mehreren Unterklassen sein

Data Warehouses. Data Warehouse Architektur ... Sommersemester Melanie Herschel

Christian Kurze BI-Praktikum IBM WS 2008/09

Hetero-Homogene Data Warehouses

Komponenten und Architekturen von Analytischen Informationssystemen (AIS)

Kapitel 6. Vorlesung: PD Dr. Peer Kröger

Einführung relationale Datenbanken. Themenblock: Erstellung eines Cube. Schlüssel. Relationenmodell Relationenname Attribut. Problem.

Themenblock: Erstellung eines Cube

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Logische Datenmodellierung zur Abbildung mehrdimensionaler Datenstrukturen im SAP Business Information Warehouse

3. Das Relationale Datenmodell

Data Warehouse Definition (1)

C09: Einsatz SAP BW im Vergleich zur Best-of-Breed-Produktauswahl

Modellierung von OLAP- und Data- Warehouse-Systemen

Datenbanksysteme 2 Frühjahr-/Sommersemester Mai 2014

Profilbezogene informatische Bildung in den Klassenstufen 9 und 10. Schwerpunktthema Daten und Datenbanken

Seminar C16 - Datenmodellierung für SAP BW

OLAP und Data Warehouses

Star-Schema-Modellierung mit ERwin - eine kritische Reflexion der Leistungspotentiale und Anwendungsmöglichkeiten

Einführung in OLAP und Business Analysis. Gunther Popp dc soft GmbH

Realisierung von OLAP Operatoren in einem visuellen Analysetool. Vortrag von Alexander Spachmann und Thomas Lindemeier

Data Warehouse Grundlagen

Datenbankmodelle 1. Das Entity-Relationship-Modell

Vertrautmachen mit Daten

Komponenten und Architekturen von Analytischen Informationssystemen (AIS)

Hinweise zur Klausur Zusammenfassung OPAL-Übungen / Kontrollfragen Fragen Vertiefung Modellierung

Multikonferenz Wirtschaftsinformatik 2004

Vorwort zur 5. Auflage Über den Autor... 16

Kapitel DB:III. III. Konzeptueller Datenbankentwurf

Kampagnenmanagement mit Siebel Marketing/Oracle BI ein Praxisbericht

Online Analytical Processing

Allgemeines zu Datenbanken

Konzeptuelle und logische Modellierung eines Data-Warehouse-Systems

Data Lineage goes Traceability - oder was Requirements Engineering von Business Intelligence lernen kann

3. Übung. Einführung MS Access. TU Dresden - Institut für Bauinformatik Folie-Nr.: 1

Ein Beispiel. Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse?

Data Warehouse ??? Ein Data Warehouse ist keine von der Stange zu kaufende Standardsoftware, sondern immer eine unternehmensindividuelle

Von der spezialisierten Eigenentwicklung zum universellen Analysetool. Das Controlling-Informationssystem der WestLB Systems

Datenbanken. Prof. Dr. Bernhard Schiefer.

Inhaltsverzeichnis. 1. Fragestellung

Kapitel 04 Strukturiertes Entity-Relationship-Modell. 4 Strukturiertes Entity-Relationship- Modell

Möglichkeiten für bestehende Systeme

Mai Hauptseminar: Nichtrelationale Datenbanken Historisch-Kulturwissenschaftliche Informationsverarbeitung Universität zu Köln

7. Übung - Datenbanken

Data Warehouse. Kapitel 17. Abbildung 17.1: Zusammenspiel zwischen OLTP und OLAP. Man unterscheidet zwei Arten von Datenbankanwendungen:

Kapitel 8: Physischer Datenbankentwurf

Schlüssel bei temporalen Daten im relationalen Modell

Eignung unterschiedlicher Faktenmodellierungen in Data Warehouse-Systemen

Seminar C02 - Praxisvergleich OLAP Tools

Anbindung Borland CaliberRM

Data Warehouse Technologien

Übungen zur Softwaretechnik

Datenbankmodelle 1. Das Entity-Relationship-Modell. Prof. Dr. Bernhard Schiefer 2-1

Business Intelligence Praktikum 1

Ein Schlüssel ist eine Menge von Attributen (also eines oder mehrere), die eine Datenzeile (Tupel) einer Tabelle eindeutig identifiziert

OLAP mit dem SQL-Server

OPERATIONEN AUF EINER DATENBANK

Definition Informationssystem

Datenstrukturen & Algorithmen

Data Warehouses und Moderne Betriebliche Anwendungen von Datenbanksystemen

DATA-WAREHOUSE-TECHNOLOGIEN

ER-Modellierung am Beispiel der Universitätsdatenbank aus der DBIS-Vorlesung

Data Warehousing. Sommersemester Ulf Leser Wissensmanagement in der Bioinformatik

Konzepte der Informatik

Dr. Klaus Körmeier BlueBridge Technologies AG

2 Datenbanksysteme, Datenbankanwendungen und Middleware... 45

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Nachtrag: Farben. Farbblindheit. (Light und Bartlein 2004)

MIS by Franziska Täschler, Winformation GmbH Ausgabe 01/2001

Access [basics] Gruppierungen in Abfragen. Beispieldatenbank. Abfragen gruppieren. Artikel pro Kategorie zählen

Relationale Datenbanken Datenbankgrundlagen

eevolution Business Intelligence Oliver Rzeniecki COMPRA GmbH Programmierer & Datenbankadministrator

Grundlagen von Datenbanken

Entwurf von Datenbanken

Pivotieren. Themenblock: Anfragen auf dem Cube. Roll-up und Drill-down. Slicing und Dicing. Praktikum: Data Warehousing und Data Mining. Produkt.

Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft

OLAP und der MS SQL Server

Transkript:

Multidimensionales Datenmodell Grundbegriffe fi Fakten, Dimensionen, Würfel Analyseoperationen fi Drill-Down, Roll-Up, Slice und Dice Notationen zur konzeptuellen Modellierung fi ME/R, ADAPT Relationale Speicherung fi Star-Schema, Snowflake-Schema Multidimensionale Speicherung VL Data Warehouses, WS 2000/200 3- Motivation Datenmodell ausgerichtet auf Unterstützung der Analyse Datenanalyse im Entscheidungsprozeß fi Betriebswirtschaftliche Kennzahlen (Erlöse, Gewinne, Verluste, etc.) stehen im Mittelpunkt fi Betrachtung der Kennzahlen aus unterschiedlichen Perspektiven (zeitlich, regional, produktbezogen) Dimensionen fi Unterteilung der Auswertedimensionen möglich (Jahr, Quartal, Monat) Hierarchien oder Konsolidierungsebenen VL Data Warehouses, WS 2000/200 3-2

Kennzahlen/Fakten Kennzahlen/Fakten (engl. facts): fi (verdichtete) numerische Meßgrößen fi beschreiben betriebswirtschaftliche Sachverhalte Beispiele: Umsatz, Gewinn, Verlust, Deckungsbeitrag Typen: fi Additive Fakten: (additive) Berechnung zwischen sämtlichen Konsolidierungsebenen der Dimensionen möglich, z.b. Einkaufswert fi Semi-additive Fakten: (additive) Berechnung nur für ausgewählte Menge von Hierarchieebenen, z.b. Lagerbestand fi Nicht-additive Fakten: keine additive Berechnung möglich, z.b. Durchschnitts- oder prozentuale Werte VL Data Warehouses, WS 2000/200 3-3 Dimensionen Dimension: fi beschreibt mögliche Sicht auf die assoziierte Kennzahl fi endliche Menge von n (n 2) Dimensionselementen (Hierarchieobjekten), die eine semantische Beziehung aufweisen fi dienen der orthogonalen Strukturierung des Datenraums Beispiele: Produkt, Geographie, Zeit VL Data Warehouses, WS 2000/200 3-4 2

Hierarchien in Dimensionen Dimensionselemente: fi Knoten einer Klassifikationshierarchie fi Klassifikationsstufe beschreibt Verdichtungsgrad Darstellung von Dimensionen über Klassifikationsschema (Schema von Klassifikationshierarchien) Formen: fi einfache Hierarchien fi parallele Hierarchien VL Data Warehouses, WS 2000/200 3-5 Einfache Hierarchien Höhere Hierarchieebene enthält die aggregierten Werte genau einer niedrigeren Hierachiestufe Oberster Knoten: Top enthält Verdichtung auf einen einzelnen Wert der Dimension Top Produktkategorie Produktfamilie Produktgruppe Top Land Stadt Filiale Artikel VL Data Warehouses, WS 2000/200 3-6 3

Parallele Hierarchien Innerhalb einer Dimension sind zwei (oder auch mehrere) verschiedene Arten der Gruppierung möglich Keine hierarchische Beziehung in den parallelen Zweigen Parallelhierachie Pfad im Klassifikationsschema (Konsolidierungspfad) Top Jahr Quartal Woche Monat Tag VL Data Warehouses, WS 2000/200 3-7 Würfel Würfel (engl. cube, eigentlich Quader): Grundlage der multidimensionalen Analyse Kanten Dimensionen Zellen ein oder mehrere Kennzahlen (als Funktion der Dimensionen) Anzahl der Dimensionen Dimensionalität Visualisierung fi 2 Dimensionen: Tabelle fi 3 Dimensionen: Würfel fi >3 Dimensionen: Multidimensionale Domänenstruktur VL Data Warehouses, WS 2000/200 3-8 4

Multidimensionaler Datenwürfel Zeitraum Jahr Halbjahr Quartal Produkt Kategorie Artikel Region Stadt Bundesland Filiale Kennzahl Umsatz VL Data Warehouses, WS 2000/200 3-9 Operationen zur Datenanalyse OLAP-Operationen auf multidimensionalen Datenstrukturen Standardoperationen fi Pivotierung fi Roll-Up, Drill-Down fi Drill-Across fi Slice, Dice VL Data Warehouses, WS 2000/200 3-0 5

Pivotierung/Rotation Drehen des Würfels durch Vertauschen der Dimensionen Analyse der Daten aus verschiedenen Perspektiven Produkt Haushalt Elektro Kosmetik 998 999 Zeitraum 999 998 Produkt Haushalt Elektro Zeitraum Thüringen Region Kosmetik Sachsen- Anhalt Sachsen- Anhalt Thüringen Region VL Data Warehouses, WS 2000/200 3- Roll-Up, Drill-Down, Drill-Across Roll-Up: fi Erzeugen neuer Informationen durch Aggregierung der Daten entlang des Konsolidierungspfades fi Dimensionalität bleibt erhalten fi Beispiel: Tag Monat Quartal Jahr Drill-Down: fi komplementär zu Roll-Up fi Navigation von aggregierten Daten zu Detail-Daten entlang der Klassifikationshierarchie Drill-Across: fi Wechsel von einem Würfel zu einem anderen VL Data Warehouses, WS 2000/200 3-2 6

Roll-Up, Drill-Down Produkt Haushalt Elektro Kosmetik 998 999 Zeitraum Region Drill-Down Roll-Up Produkt Haushalt Elektro Kosmetik.Quartal 2.Quartal 3.Quartal 4.Quartal Zeitraum Sachsen- Anhalt Thüringen Sachsen- Anhalt Thüringen Region VL Data Warehouses, WS 2000/200 3-3 Slice und Dice Erzeugen individueller Sichten Slice: fi Herausschneiden von Scheiben aus dem Würfel fi Verringerung der Dimensionalität fi Beispiel: alle Werte des aktuellen Jahres Dice: fi Herausschneiden einen Teilwürfels fi Erhaltung der Dimensionalität, Veränderung der Hierarchieobjekte fi Beispiel: die Werte bestimmter Produkte oder Regionen VL Data Warehouses, WS 2000/200 3-4 7

Slice Produkt Produkt Haushalt Haushalt Elektro Kosmetik Elektro Kosmetik 998 998 999 999 Zeitraum Thüringen Region Zeitraum Sachsen- Anhalt Sachsen- Anhalt Thüringen Region VL Data Warehouses, WS 2000/200 3-5 Konzeptuelle Modellierung Konzeptuelle Modellierung: fi formale Beschreibung des Fachproblems und der im Anwendungsbereich benötigten Informationsstrukturen Probleme konventioneller Entwurfstechniken (ER, UML): fi Unzureichende Semantik für multidimensionales Datenmodell fi hier: Verzicht auf universelle Anwendbarkeit, statt dessen Konzentration auf Analyse fi Beispiel: Klassifikationsstufe, Fakt Entity? VL Data Warehouses, WS 2000/200 3-6 8

ME/R-Modell Multidimensional Entity/Relationship [Sapia et. al. (LNCS 552)] Erweiterung des klassischen ER-Modells fi Entity-Menge Dimension Level (Klassifikationsstufe) keine explizite Modellierung von Dimensionen fi n-äre Beziehungsmenge Fact Kennzahlen als Attribute der Beziehung fi Binäre Beziehungsmenge Classification bzw. Roll-Up (Verbindung von Klassifikationsstufen) definiert gerichteten, azyklischen Graphen VL Data Warehouses, WS 2000/200 3-7 ME/R-Modell: Notation Faktenname Ebene Faktenbeziehung Klassifikationsstufe Klassifikationsbeziehung VL Data Warehouses, WS 2000/200 3-8 9

ME/R-Modell: Beispiel Verkäufe Umsatz Produktgruppe Artikel Verkauf Fililale Stadt Produktkategorie Tag Bundesland Woche Monat Quartal Jahr VL Data Warehouses, WS 2000/200 3-9 ADAPT Application Design for Analytical Processing Technologies (Bulos) neue Entwicklung für multidimensionale Datenmodellierung Beschreibung sämtlicher Metadaten-Objekte Unterstützung von Berechnungsvorschriften teilweise Werkzeugunterstützung (CASE, Visio, etc.) keine formale Grundlage VL Data Warehouses, WS 2000/200 3-20 0

ADAPT: Elemente Hypercube: fi multidimensionale Datenstruktur fi enthält nur eine Kennzahl fi Assoziationen zu beliebig vielen Dimensionen Dimension: fi beschreibt Dimension fi bestehend aus Hierarchiestufen, Dimensionselementen, Attributen Hierarchie: fi Eindeutiger Konsolidierungspfad VL Data Warehouses, WS 2000/200 3-2 ADAPT: Notation Hypercube ƒ() Berechnungsformel Dimension Dimension 2 Hierarchie Dimension { } Hierarchiestufe VL Data Warehouses, WS 2000/200 3-22

ADAPT: Beispiel Verkäufe Zeit Geographie Produkt Zeit Geographie Produkt Standardhierarchie Wochenhierarchie Standardhierarchie Standardhierarchie { } Jahr { } Jahr { } Bundesland { } Produktkategorie { } Quartal { } Woche { } Stadt { } Produktgruppe { } Monat { } Filiale { } Artikel { } Tag VL Data Warehouses, WS 2000/200 3-23 Zusammenfassung Weitere Notationen: fi Erweiterungen von ER: Dimensional Fact Modeling fi Erweiterungen von UML: muml (multidimensional UML) Zur Zeit keine Standard verfügbar VL Data Warehouses, WS 2000/200 3-24 2

Umsetzung des multidim. Datenmodells Multidimensionale Sicht fi Modellierung der Daten fi Anfrageformulierung Interne Verwaltung der Daten erfordert Umsetzung auf fi relationale Strukturen (Tabellen) ROLAP (relationales OLAP) Verfügbarkeit, Reife der Systeme fi multidimensionale Strukturen (direkte Speicherung) MOLAP (multidimensionales OLAP) Wegfall der Transformation Aspekte fi Speicherung fi Anfrageformulierung bzw. -ausführung VL Data Warehouses, WS 2000/200 3-25 Relationale Speicherung: Anforderungen Vermeidung des Verlustes anwendungsbezogener Semantik (aus dem multidimensionalen Modell, z.b. Klassifikationshierarchien) effiziente Übersetzung multidimensionaler Anfragen effiziente Verarbeitung der übersetzten Anfragen Einfache Pflege der entstandenen Relationen (z.b. Laden neuer Daten) Berücksichtigung der Anfragecharakteristik und des Datenvolumens von Analyseanwendungen VL Data Warehouses, WS 2000/200 3-26 3

Relationale Speicherung: Faktentabelle Ausgangspunkt: Umsetzung des Datenwürfels ohne Klassifikationshierarchien fi Dimensionen, Kennzahlen Spalten der Relation fi Zelle Tupel Produkt Artikel Filiale Tag Verkäufe Immer Ultra Immer Ultra Halle 8.02.2000 500 Kukident Zeit 9.02.2000 8.02.2000 Kukident Immer Ultra Halle Erfurt 9.02.2000 8.02.2000 289 52 Halle Erfurt Geographie VL Data Warehouses, WS 2000/200 3-27 Snowflake-Schema Abbildung von Klassifikationen: eigene Tabelle für jede Klassifikationsstufe (z.b. Artikel, Produktgruppe, etc.) Tabelle enthält fi ID für Klassifikationsknoten fi beschreibendes Attribut (z.b. Marke, Hersteller, Bezeichnung) fi Fremdschlüssel der direkt übergeordneten Klassifikationsstufe Faktentabelle enthält (neben Kenngrößen): fi Fremdschlüssel der jeweils niedrigsten Klassifikationsstufe fi Fremdschlüssel bilden zusammengesetzte Primärschlüssel für Faktentabelle VL Data Warehouses, WS 2000/200 3-28 4

Snowflake-Schema: Beispiel Jahr Jahr_ID Jahr Monat Monat_ID Bezeichnung * Jahr_ID * * Tag Tag_ID Datum Monat_ID Woche_ID * Verkauf Artikel_ID Tag_ID Filial_ID Verkäufe Umsatz * * Artikel Artikel_ID Bezeichnung Gruppe_ID Filiale Produktgruppe * Gruppe_ID Bezeichnung Kategorie_ID * Produktkategorie Kategorie_ID Bezeichnung Filial_ID Bezeichnung Stadt_ID Woche Woche_ID Bezeichnung * Stadt Stadt_ID Bezeichnung Land_ID * Bundesland Land_ID Bezeichnung VL Data Warehouses, WS 2000/200 3-29 Star-Schema Snowflake-Schema ist normalisiert: Vermeidung von Update-Anomalien aber: erfordert Join über mehrere Tabellen! Star-Schema: fi Denormalisierung der zu einer Dimension gehörenden Tabellen fi für jede Dimension genau eine Dimensionstabelle fi Redundanzen in der Dimensionstabelle für schnellere Anfragebearbeitung fi Beispiel: Artikel, Produkt, Produktgruppe etc. als Spalten in einer Tabelle Produkt VL Data Warehouses, WS 2000/200 3-30 5

Star-Schema. Dimensionstabelle Dim_Schlüssel Dim_Attribut 2. Dimensionstabelle Dim2_Schlüssel Dim2_Attribut Faktentabelle Dim_Schlüssel Dim2_Schlüssel Dim3_Schlüssel Dim4_Schlüssel Fakt Fakt2 Fakt3 3. Dimensionstabelle Dim3_Schlüssel Dim3_Attribut 4. Dimensionstabelle Dim4_Schlüssel Dim4_Attribut VL Data Warehouses, WS 2000/200 3-3 Star-Schema: Beispiel Zeit Zeit_ID Tag Woche Monat Quartal Jahr * * Verkauf Produkt_ID Zeit_ID Geographie_ID Verkäufe Umsatz * Produkt Produkt_ID Artikel Produktgruppe Produktkategorie Geographie Geographie_ID Filiale Stadt Bundesland VL Data Warehouses, WS 2000/200 3-32 6

Star-Schema vs. Snowflake-Schema Charakteristika von DW-Anwendungen fi typischerweise Einschränkungen in Anfragen auf höherer Granularitätsstufe (Join-Operationen) fi geringes Datenvolumen der Dimensiontabellen im Vergleich zu Faktentabellen fi seltene Änderungen an Klassifikationen (Gefahr von Update-Anomalien) Vorteile des Star-Schemas fi einfache Struktur (vereinfachte Anfrageformulierung) fi einfache und flexible Darstellung von Klassifikationshierarchien (Spalten in Dimensionstabellen) fi effiziente Anfrageverarbeitung innerhalb einer Dimension (keine Join-Operation notwendig) VL Data Warehouses, WS 2000/200 3-33 Mischformen Abbildung einzelner Dimensionen analog Snowflake- Schema oder Star-Schema Entscheidungskriterien: fi Änderungshäufigkeit der Dimensionen: Reduzierung des Pflegeaufwandes durch Normalisierung (Snowflake) fi Anzahl der Klassifikationsstufen einer Dimension: mehr Klassifikationsstufen größere Redundanz im Star-Schema VL Data Warehouses, WS 2000/200 3-34 7

Mischformen Entscheidungskriterien (fortg.): fi Anzahl der Dimensionselemente: Einsparung durch Normalisierung bei vielen Elementen einer Dimension auf niedrigster Klassifikationsstufe fi Materialisierung von Aggregaten: Performance-Verbesserung durch Normalisierung bei materialisierten Aggregaten für eine Klassifikationsstufe VL Data Warehouses, WS 2000/200 3-35 Galaxie Star-Schema fi eine Faktentabelle fi mehrere Kennzahlen nur möglich bei gleichen Dimensionen Galaxie fi mehrere Faktentabellen fi teilweise mit gleichen Dimensionstabellen verknüpft fi auch: Multi-Faktentabellen-Schema, Multi-Cube, Hyper-Cube VL Data Warehouses, WS 2000/200 3-36 8

Fact Constellation Speicherung vorberechneter Aggregate in Faktentabelle fi Beispiel: Umsatz für Region fi Unterscheidung in Dimensionstabelle über spezielle Attribute (Bsp.: Stufe ) Alternative: Auslagerung in eigene Faktentabelle Fact-Constellation-Schema (Spezialfall eines Galaxie-Schemas) VL Data Warehouses, WS 2000/200 3-37 Darstellung von Klassifikationshierarchien Horizontal: Modellierung der Stufen der Klassifikationshierarchie als Spalten der denormalisierten Dimensionstabelle Vorteil: fi Einschränkungen auf höherer Granularität ohne Join Nachteile: fi Duplikateliminierung beim Anfragen bestimmter Stufen (Bsp.: Produktgruppe innerhalb einer Kategorie) fi Schemaänderung beim Hinzufügen neuer Stufen Produkt_ID Artikel Produktgruppe Produktkategorie 234 Immer Ultra Hygiene Kosmetik 235 Putzi Hygiene Kosmetik 2345 Rohrfrei Reiniger Haushalt VL Data Warehouses, WS 2000/200 3-38 9

Darstellung von Klassifikationshierarchien Vertikal (rekursiv): normalisierte Dimensionstabelle mit Attributen fi Dimensions_ID: Schlüssel für Faktentabelle fi Eltern_ID: Attributwert der Dimensions-ID der nächsthöheren Stufe Vorteile: fi Einfache Änderung am Klassifikationsschema fi Einfache Behandlung Dimensions_ID Eltern_ID vorberechneter Aggregate Immer Ultra Hygiene Nachteil: fi Self-Join für Anfragen Hygiene Kosmetik einzelner Stufen (Bsp.: Produktgruppe innerhalb einer Kategorie) Putzi Hygiene VL Data Warehouses, WS 2000/200 3-39 Darstellung von Klassifikationshierarchien Kombiniert: Verbindung beider Strategien fi Repräsentation der Klassifikationsstufen als Spalten (jedoch generische Bezeichnung) fi Speicherung der Knoten aller höheren Stufen als Tupel fi Zusätzliches Attribut Stufe Angabe der bezeichneten Klassifikationsstufe Dimensions_ID Immer Ultra Putzi Hygiene Kosmetik Stufe_ID Hygiene Hygiene Kosmetik NULL Stufe2_ID Kosmetik Kosmetik NULL NULL Stufe 0 0 2 VL Data Warehouses, WS 2000/200 3-40 20

Vermeidung von Semantikverlusten Semantikverlust bei relationaler Abbildung: fi Unterscheidung zwischen Kennzahl und Dimension (Attribute der Faktentabelle) fi Attribute von Dimensionstabellen (beschreibend, Aufbau der Hierarchie) fi Aufbau der Dimensionen (Drill-Pfade) Ausweg: fi Erweiterung des Systemkatalogs um Metadaten für multidimensionale Anwendungen fi Beispiel:CREATE DIMENSION, HIERARCHY in Oracle VL Data Warehouses, WS 2000/200 3-4 Probleme der relationalen Umsetzung Transformation multidimensionaler Anfragen in relationale Repräsentation notwendig komplexe Anfragen Einsatz komplexer Anfragewerkzeuge notwendig (OLAP-Werkzeuge) Semantikverlust daher: direkte multidimensionale Speicherung? VL Data Warehouses, WS 2000/200 3-42 2

Multidimensionale Speicherung Verwendung unterschiedlicher Datenstrukturen für Datenwürfel und Dimension Speicherung des Würfels als Array Ordnung der Dimension für Adressierung der Würfelzellen notwendig häufig proprietäre Strukturen (und Systeme) VL Data Warehouses, WS 2000/200 3-43 Datenstrukturen Dimension: fi endliche, geordnete Liste von Dimensionswerten fi Dimensionswerte: einfache unstrukturierte Datentypen (String, Integer, Date) fi Ordnung der Dimensionswerte (interne ganze Ordnungszahl 2 oder 4 Byte) Endlichkeit der Werteliste VL Data Warehouses, WS 2000/200 3-44 22

Datenstrukturen Würfel: fi Für n Dimensionen: n-dimensionaler Raum fi m Dimensionswerte einer Dimension: Aufteilung des Würfels in m parallele Ebenen fi durch Endlichkeit der Dimensionswerteliste: endliche, gleichgroße Liste von Ebenen je Dimension fi Zelle eines n-dimensionalen Würfels wird eindeutig über n-tupel von Dimensionswerten identifiziert fi Zelle kann ein oder mehrere Kennzahlen eines zuvor definierten Datentyps aufnehmen fi Bei mehreren Kennzahlen: Alternative mehrere Datenwürfel VL Data Warehouses, WS 2000/200 3-45 Klassifikationshierarchien Dimensionswerte umfassen alle Ausprägungen der Dimension: Elemente (Blätter) und Knoten der höheren Klassifikationsstufen Knoten der höheren Stufen bilden weitere Ebenen Magdeburg Halle Sachsen-Anhalt Erfurt Thüringen Januar Februar März.Quartal VL Data Warehouses, WS 2000/200 3-46 23

Berechnung von Aggregationen Echtzeit: fi bei Anfrage von Zellen, die Werte einer höheren, aggregierten Klassifikationsstufe repräsentieren Berechnung aus Detaildaten fi hohe Aktualität, jedoch hoher Aufwand fi eventuell Caching Vorberechnung: fi nach Übernahme der Detaildaten Berechnung und Eintragen der Aggregationswerte in entsprechende Zellen fi Neuberechnung nach jeder Datenübernahme notwendig fi hohe Anfragegeschwindigkeit, jedoch Zunahme der Würfelgröße und Laufzeitaufwand Ausweg: inkrementelle Vorberechnung VL Data Warehouses, WS 2000/200 3-47 Weitere Datenstrukturen Attribute fi klassifizierende Merkmale einer Dimension fi Identifizierung von Untermengen von Dimensionswerten (z.b. Produktfarbe ) fi nicht zur Vorberechnung vorgesehen Virtueller Würfel fi umfaßt abgeleitete Daten ( Gewinn, prozentualer Umsatz ) fi Ableitung aus anderen Würfeln durch Anwendung von Berechnungsfunktionen Sichten im relationalen Modell Teilwürfel fi Kombination mehrerer Ebenen eines Würfels virtueller Würfel VL Data Warehouses, WS 2000/200 3-48 24

Array-Speicherung Speicherung des Würfels: n-dimensionales Array Linearisierung in eine eindimensionale Liste Indizes des Arrays Koordinaten der Würfelzellen (Dimensionen D i ) Indexberechnung für Zelle mit Koordinaten x...x n Index( z) = x + ( x 3 + ( x + ( x 2 ) D ) D ) D n D n D 2... +... VL Data Warehouses, WS 2000/200 3-49 Linearisierungsreihenfolge D 3 D 2 D VL Data Warehouses, WS 2000/200 3-50 25

Array-Speicherung: Probleme Zahl der Plattenzugriffe bei ungünstigen Linearisierungsreihenfolgen fi Reihenfolge der Dimensionen ist bei Definition des Würfels zu beachten Caching zur Reduzierung notwendig Speicherung dünn besetzter Würfel VL Data Warehouses, WS 2000/200 3-5 Grenzen der multidim. Speicherung Skalierbarkeitsprobleme aufgrund dünn besetzter Datenräume teilweise einseitige Optimierung bezüglich Leseoperationen Ordnung der Dimensionswerte notwendig (durch Array- Speicherung) erschwert Änderungen an den Dimensionen kein Standard für multidimensionale DBMS Spezialwissen notwendig VL Data Warehouses, WS 2000/200 3-52 26

Hybride Speicherung HOLAP: Verbindung der Vorteile beider Welten fi Relational (Skalierbarkeit, Standard) fi Multidimensional (analytische Mächtigkeit, direkte OLAP- Unterstützung) Speicherung: fi Relationale Datenbank: Detaildaten fi Multidimensionale Datenbank: aggregierte Daten fi Multidim. Speicherstrukturen als intelligenter Cache für häufig angeforderte Datenwürfel transparenter Zugriff über multidimensionales Anfragesystem VL Data Warehouses, WS 2000/200 3-53 27