Data Warehousing und Data Mining

Ähnliche Dokumente
Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Fachdidaktik der Informatik Jörg Depner, Kathrin Gaißer

Christian Kurze BI-Praktikum IBM WS 2008/09

1 Mathematische Grundlagen

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Data Mining: Einige Grundlagen aus der Stochastik

9.2. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83

Data Warehousing. Modellierung im DWH Das multidimensionale Datenmodell. Ulf Leser Wissensmanagement in der Bioinformatik

Aufgabe 1: [Logische Modellierung]

Information Systems Engineering Seminar

Musterlösungen zur Linearen Algebra II Blatt 5

WS 2008/09. Diskrete Strukturen

How to do? Projekte - Zeiterfassung

WS 2013/14. Diskrete Strukturen

Logische Modelle für OLAP. Burkhard Schäfer

3. Das Relationale Datenmodell

WS 2009/10. Diskrete Strukturen

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

Grundbegriffe der Informatik

Informationsblatt Induktionsbeweis

Professionelle Seminare im Bereich MS-Office

Übungen zur Softwaretechnik

EinfÅhrung in die objektorientiere Programmierung (OOP) unter Delphi 6.0. EDV Kurs 13/2

Systemanalyse. - Folien zur Vorlesung für AI3 im Sommersemester Teil 4 -

Das Multidimensionale Datenmodell

Seminar C16 - Datenmodellierung für SAP BW

Arbeiten mit UMLed und Delphi

Einfache Varianzanalyse für abhängige

Beispiel Zusammengesetzte Zufallsvariablen

Inhaltsverzeichnis. 1. Fragestellung

6.2 Petri-Netze. kommunizierenden Prozessen in der Realität oder in Rechnern Verhalten von Hardware-Komponenten Geschäftsabläufe Spielpläne

Abschlussprüfung Realschule Bayern II / III: 2009 Haupttermin B 1.0 B 1.1

Lehrer: Einschreibemethoden

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Wir unterscheiden folgende drei Schritte im Design paralleler Algorithmen:

Zufallsgrößen und Wahrscheinlichkeitsverteilungen

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

In diesem Thema lernen wir die Grundlagen der Datenbanken kennen und werden diese lernen einzusetzen. Access. Die Grundlagen der Datenbanken.

Die reellen Lösungen der kubischen Gleichung

Basis und Dimension. Als nächstes wollen wir die wichtigen Begriffe Erzeugendensystem und Basis eines Vektorraums definieren.

1 topologisches Sortieren

Wintersemester Maschinenbau und Kunststofftechnik. Informatik. Tobias Wolf Seite 1 von 22

Kapitalerhöhung - Verbuchung

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

Vgl. Kapitel 4 aus Systematisches Requirements Engineering, Christoph Ebert

Dow Jones am im 1-min Chat

Kapitel 3: Etwas Informationstheorie

Vorlesung Dokumentation und Datenbanken Klausur

4. Übungsblatt Matrikelnr.:

Statistische Thermodynamik I Lösungen zur Serie 1

Multidimensionale Modellierung

Probleme beim Arbeiten mit Variablen, Termen und Gleichungen

Fachschaft Mathematik und Informatik (FIM) LA I VORKURS. Herbstsemester gehalten von Harald Baum

Ohne Fehler geht es nicht Doch wie viele Fehler sind erlaubt?

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b.

Übungsaufgaben. - Vorgehensweise entsprechend dem Algorithmus der schriftlichen Multiplikation

7. Übung - Datenbanken

Themenblock 2: Datenmodellierung mit ERM

Primzahlen und RSA-Verschlüsselung

Übung 4. Musterlösungen

Data Warehousing. Multidimensionale Modellierung. Modellierung im DWH. Wissensmanagement in der. Bioinformatik. Ulf Leser

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Veröffentlichen von Apps, Arbeitsblättern und Storys. Qlik Sense Copyright QlikTech International AB. Alle Rechte vorbehalten.

Datenbankmodelle 1. Das Entity-Relationship-Modell

Einführung in die Algebra

Konzepte der Informatik

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Zeichen bei Zahlen entschlüsseln

Softwaretechnologie -Wintersemester 2013/ Dr. Günter Kniesel

Eine Logikschaltung zur Addition zweier Zahlen

Data Lineage goes Traceability - oder was Requirements Engineering von Business Intelligence lernen kann

Möglichkeiten des Parallelbetriebs der VR-NetWorld Software Parallelbetrieb VR-NetWorld Software 4.4x und Version 5.0 ab der 2. Beta!

Beweisbar sichere Verschlüsselung

Rekursionen. Georg Anegg 25. November Methoden und Techniken an Beispielen erklärt

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1

0, v 6 = , v 4 = span(v 1, v 5, v 6 ) = span(v 1, v 2, v 3, v 4, v 5, v 6 ) 4. span(v 1, v 2, v 4 ) = span(v 2, v 3, v 5, v 6 )

Datenbanken Microsoft Access 2010

3. Grundlagen der Linearen Programmierung

Lernziele: Ausgleichstechniken für binäre Bäume verstehen und einsetzen können.

Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER

Teil III: Routing - Inhalt I. Literatur. Geometric Routing. Voraussetzungen. Unit Disk Graph (UDG) Geometric Routing 29

6.2 Scan-Konvertierung (Scan Conversion)

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Die Entwicklung eines Glossars (oder eines kontrollierten Vokabulars) für ein Unternehmen geht üblicherweise in 3 Schritten vor sich:

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

7 Rechnen mit Polynomen

Grundlagen der Theoretischen Informatik, SoSe 2008

Berechnungen in Access Teil I

Guten Morgen und Willkommen zur Saalübung!


Verwandt, logisch kohärent, zweckspezifisch, an reale Welt orientiert. Entität kann in einer oder mehreren Unterklassen sein

Transkript:

Data Warehousing und Data Mining OLAP Operationen Ein konzeptionelles MDDM Aggregierbarkeit Ulf Leser Wissensmanagement in der Bioinformatik

Inhalt dieser Vorlesung Operationen im multidimensionalen Datenmodell Aggregation Verfeinerung Weitere Operationen ME/R: Graphische multidimensionale Datenmodellierung Aggregierbarkeit Ulf Leser: Data Warehousing und Data Mining 2

OLAP Operationen MDDM entspricht der Sprache des Betriebswirts Objekte seiner täglichen Welt (Kunden, Waren, etc.) Keine technischen Details Operationen auf dem MDDM müssen betriebswirtschaftliche Analysen unterstützen Schnelle und intuitive Manipulation der Daten Abbildung der Aufgaben von Betriebswirten Grundoperationen Aggregation (Roll-Up): Granularität (Abstraktion) wird erhöht Verfeinerung (Drill-Down): Granularität wird erniedrigt Aggregation bzgl. einer Funktion f (SUM, AVG, MEDIAN, ) Ulf Leser: Data Warehousing und Data Mining 3

Übersicht Z.Tag Z.Monat 4.1.1999 Marke 4.1999 Marke 3.1.1999 3.1999 2.1.1999 1.1.1999 Skoda VW 2.1999 1.1999 Skoda VW München Wedding Nantes Lyon R.Shop München Wedding Nantes Lyon R.Shop (1.101, 1.1.1999, Wedding, Skoda) ( 129, 2.1.1999, Wedding, Skoda) ( 225, 3.1.1999, Wedding, Skoda) (1.540, 4.1.1999, Wedding, Skoda) (2.500, 5.1.1999, Nantes, Skoda) Rollup Tag Monat (3.000, 1.1999, Wedding, Skoda) (2.500, 2.1999, Nantes, Skoda) Ulf Leser: Data Warehousing und Data Mining 4

Datenpunkte und Würfelkoordinaten Definition Gegeben ein Würfel W, eine Dimension D und ein Klassifikations-knoten x aus D. Sei z ein Datenpunkt (Fakt) und D(z) seine Koordinate bzgl. D. Dann gilt z liegt in x, z x, gdw. D(z)=x oder D(z) nachfahren(x) punkte(x)={z z x} Bemerkung Erweiterung auf mehrere Koordinaten durch Schnitt punkte(x,y,z)=punkte(x) punkte(y) punkte(z) mit x D 1, y D 2, z D 3 D(z)=x 2003... punkte(x) Januar Februar... Dezember 32,50 17,40... 5,50 Viele z Ulf Leser: Data Warehousing und Data Mining 5

Aggregation in Hierarchien Definition. Gegeben Dimension D, Pfad P={k 0... k k... TOP} in D x ein Klassifikationsknoten der Klassifikationsstufe k aus P Aggregationsfunktion f, Measure F Sei Y=kinder(x) die Menge {y 1,...,y n } knoten(k ) von Klassifikationsknoten von k, von denen x funktional abhängt Die Aggregation von Y nach x bzgl. f und F bezeichnet die Berechnung des aggregierten Faktes F(x)=f(F(y 1 ),..., F(y n )) Die Aggregation von k nach k bzgl. f und F bezeichnet die Berechnung von F(x) für alle x knoten(k) k Das schreiben wir kurz als F(k) Jahr 2003 x... k Monat Januar Februar... Dezember Y Ulf Leser: Data Warehousing und Data Mining 6

Startpunkt Sei P={k 0... k n TOP} Man berechnet F(TOP) aus F(k n ), F(k n ) aus F(k n-1 ), etc. Wie berechnet man F(k 0 )? Definition. Gegeben Dimension D, Pfad P={k 0... TOP} in D Ein Klassifikationsknoten x 0 knoten(k 0 ) und punkte(x 0 )={z 1,...,z n } Aggregatfunktion f, Measure F Dann gilt: F(x 0 )=f(f(z 1 ),...,F(z n )) Mit F(z) als dem Wert des Measures F von Datenpunkt z 2003... x punkte(x) Januar Februar... Dezember 32,50 17,40... 5,50 Ulf Leser: Data Warehousing und Data Mining 7

Berechnung Die letzte Definition ist prinzipiell anwendbar für alle Klassifikationsknoten bzw. stufen eines Pfades Also können wir F(x) für x aus beliebiger Klassifikationsstufe aus den Datenpunkten berechnen Aber Es ist schneller, die Aggregation aus der nächst-feineren Stufe zu berechnen Weniger Werte Das setzt voraus, dass man die auch hat Präaggregation Geht nicht für alle Aggregatfunktionen - Summierbarkeit OLAP Operationen wandern immer nur eine Stufe in einem Pfad herauf oder herab deshalb definieren wir Aggregation von Ebene zu Ebene Ulf Leser: Data Warehousing und Data Mining 8

Würfelinhalt Ein Würfel W=(G,F) Granularität G=(D 1.k 1,...,D n.k n ) Measures F={F 1,...,F m } mit Aggregationsfunktionen f 1,...,f m Schreibweise für Zellen eines Würfels W(x 1, x 2,..., x n ) = (F 1,...,F m ) x i sind die Koordinaten im Würfel bzgl. G: x i knoten(k i ) Pro Punkt in W gibt es m (evt. aggregierte) Measures F 1,..., F m Betrachten wir den einfachen Fall: n=m=1 Dimension D mit Knoten x, ein Measure F mit Aggregatfunktion f Dann: W(x) = F(x) = f( {F(y) y kinder(x)} ) Bemerkung Auf unterster Ebene ist kinder(x)=punkte(x) Ulf Leser: Data Warehousing und Data Mining 9

Würfelinhalt, allgemeiner Fall Ein Würfel W=(G,F) Granularität G=(D 1.k 1,...,D n.k n ) Measures F={F 1,...,F m } mit Aggregationsfunktionen f 1,...,f m Allgemeiner Fall W(x 1,...,x n ) = (F 1,...,F m ) = (F 1 (punkte(x 1 ) punkte(x 2 )... punkte(x n )), F 2 (punkte(x 1 ) punkte(x 2 )... punkte(x n )),... F m (punkte(x 1 ) punkte(x 2 )... punkte(x n ))) mit x i knoten(k i ) Bemerkung Jedes Measure wird gesondert aggregiert Ulf Leser: Data Warehousing und Data Mining 10

Beispiel Z.Tag Z.Monat 4.1.1999 B.Abteilung 4 1999 B.Sparte 3.1.1999 3 1999 2.1.1999 1.1.1999 Skoda.Reparatur Skoda.Ersatzteile 2 1999 1 1999 VW Skoda München Wedding Nantes Koordinaten der Fakten Lyon R.Shop Bayern Aggregierte Fakten Berlin Department1 Department2 R.Bundesland (3.1.1999, Wedding, Ersatzt.) = (...) (2.1.1999, Wedding, Ersatzt.) = (...) (1.1999, Berlin, Skoda) = (...) (4.1999, Bayern, VW) = (...) Ulf Leser: Data Warehousing und Data Mining 11

Operationen auf Würfeln OLAP Operationen überführen einen Würfel W=(G,F) in einen Würfel W =(G,F ) Dabei gilt Aggregation: G < G Verfeinerung G > G Eine einfache Operation verändert nur die Klassifikationsstufe einer Dimension in G Komplexe Operationen können auf natürliche Weise aus einfachen Operationen durch Verkettung zusammengesetzt werden Wir betrachten im folgenden nur einfache Operationen Ulf Leser: Data Warehousing und Data Mining 12

OLAP Operation: Aggregation (Roll-Up) Definition Gegeben ein Würfel W=(G,F) mit G=(D 1.k 1,..., D i.k i,...,d n.k n ) und F=(F 1,..,F m ) Sei P={k 0... k i k i k i... TOP} ein Pfad in D i Die einfache Aggregation in W entlang P mit Aggregatfunktion f überführt W in W = ( (D 1.k 1,..., D i.k i,..., D n.k n ), (F 1,..., F m )) (F 1,..., F m ) = (F 1 (punkte(k 1 )... punkte(k i )... punkte(k n )),..., F m (punkte(k 1 )... punkte(k i )... punkte(k n ))) Ulf Leser: Data Warehousing und Data Mining 13

Beispiel Aggregation Z.Tag Z.Monat 4.1.1999 B.Abteilung 4 1999 B.Abt. 3.1.1999 3 1999 2.1.1999 1.1.1999 Skoda.Reparatur Skoda.Ersatzteile 2 1999 1 1999 Skoda.Repa. Skoda.Ersatz München Wedding Nantes Lyon R.Shop München Wedding Nantes Lyon R.Shop Ulf Leser: Data Warehousing und Data Mining 14

Verfeinerung (Drill-Down) Definition Gegeben ein Würfel W=(G,F) mit G=(D 1.k 1,..., D i.k i,...,d n.k n ) und F=(F 1,..,F m ) Sei P={k 0... k i k i k i... TOP} ein Pfad in D i Die einfache Verfeinerung in W entlang P mit Aggregatfunktion f überführt W in W = ( (D 1.k 1,..., D i.k i,..., D n.k n ), (F 1,..., F m )) Mit (F 1,..., F m ) =... Bemerkung Ein Aufbrechen einmal aggregierter Daten ist für die meisten Aggregatfunktionen nicht möglich Stattdessen: Zugriff auf Daten (Datenpunkte / Präaggregate) Ulf Leser: Data Warehousing und Data Mining 15

Beispiel Verfeinerung Z.Tag Z.Monat 4.1.1999 B.Abteilung 4 1999 B.Abt. 3.1.1999 3 1999 2.1.1999 1.1.1999 Skoda.Reparatur Skoda.Ersatzteile 2 1999 1 1999 Skoda.Repa. Skoda.Ersatz München Wedding Nantes Lyon R.Shop München Wedding Nantes Lyon R.Shop Ulf Leser: Data Warehousing und Data Mining 16

Auf einen Blick MDDM: Klassifikationsstufen, Knoten, Pfade, Dimensionen Die Daten bestehen aus verschiedenen Measures, jeweils mit Koordinaten in den jeweiligen Dimensionen Koordinaten (Dimensionen) sind hierarchisch gegliedert (entlang der Pfade); jeder Datenpunkt hat eine Koordinate in jeder Klassifikationsstufe Die Koordinaten in einem Pfad sind voneinander abhängig Würfel stellen aggregierte Daten gemäß der Würfelgranularität dar OLAP Operationen (Aggregation, Verfeinerung) sind entlang der Pfade möglich OLAP Operationen verändern die Granularität und damit den Aggregationslevel der Fakten Ulf Leser: Data Warehousing und Data Mining 17

Aggregation bis TOP Summe Umsatz pro Tag und Abteilungen über alle Shops Z.Tag 4.1.1999 3.1.1999 2.1.1999 1.1.1999 B.Abteilung Skoda.Reparatur Skoda.Ersatzteile München Wedding Nantes Lyon R.Shop Summe Umsatz pro Shop und Tag, über alle Abteilungen Ulf Leser: Data Warehousing und Data Mining 18

... in mehreren Dimensionen Z.Tag 4.1.1999 3.1.1999 2.1.1999 1.1.1999 B.Abteilung Skoda.Reparatur Skoda.Ersatzteile München Wedding Nantes Lyon R.Shop G=(Z.TOP, R.TOP, B.TOP) Ulf Leser: Data Warehousing und Data Mining 19

Inhalt dieser Vorlesung Operationen im multidimensionalen Datenmodell Aggregation Verfeinerung Weitere Operationen ME/R: Graphische multidimensionale Datenmodellierung Aggregierbarkeit Ulf Leser: Data Warehousing und Data Mining 20

Weitere Operationen Aggregation ist die spannendste OLAP Operation Die restlichen führen keine Berechnungen durch, sondern selektieren bzw. ändern Ausschnitte des Würfels Hat keinen Einfluss auf die Granularität, aber auf die Datenbasis Teilweise wird nur die Darstellung (Visualisierung) beeinflusst, ohne Daten zu ändern Vermischung von Präsentations- und Datenschicht In der Literatur werden viele exotischere Operationen angeführt (und tw. widersprüchlich definiert) Drill-Across: Zugriff über mehrere Würfel hinweg Drill-Through: Zugriff auf Daten unter dem Würfel Ulf Leser: Data Warehousing und Data Mining 21

Rotation (Pivoting) Unterschiedliche Sichtweisen auf einen Datenbestand Jahr Jahr 2002 2001 Kontinent 2002 2001 Marke 2000 1999 Asien Südamerika 2000 1999 BMW Ford Peugeo t BMW VW Ford Automarke Asien Europa S-Amerika Australien Kontinent Ulf Leser: Data Warehousing und Data Mining 22

Selektion einer Scheibe (Slicing) Verkäufe von Peugeot pro Jahr und Kontinent Verkäufe in Asien pro Jahr und Marke Jahr 2002 2001 2000 1999 Asien Südamerika Kontinent BMW Peugeot VW Ford Automarke Ulf Leser: Data Warehousing und Data Mining 23

Auswahl von Unterwürfeln (Dicing) Verkäufe von (Peugeot, VW) in (2000, 2001) pro Kontinent Jahr 2002 2001 2000 1999 Asien Südamerika Kontinent BMW Peugeot VW Ford Automarke Ulf Leser: Data Warehousing und Data Mining 24

Inhalt dieser Vorlesung Operationen im multidimensionalen Datenmodell ME/R: Graphische multidimensionale Datenmodellierung Aggregierbarkeit Ulf Leser: Data Warehousing und Data Mining 25

Datenbankentwurf Konzeptionelles Modell Logisches Modell Physische Implementierung Designer, Requirements Engineering Entwickler, Administrator Administrator Produktsupport E/R, UML: Klassen, Attribute, Assoziationen Relationen, Attribute, Keys, SQL Files, Indexe, Verteilung, Buffermanagement Ulf Leser: Data Warehousing und Data Mining 26

ME/R [SPHD98] Unser MDDM ist ein logisches, formales Modell Fakten, Klassifikationsstufen, Dimensionen,... Ein konzeptionelles Modell fehlt noch E/R nicht ausreichend ME/R: Erweitertes E/R Modell ME/R MDDM ROLAP Implementierung MOLAP: multidimensionale Implementierung Ulf Leser: Data Warehousing und Data Mining 27

ME/R Elemente und Notation Ausgangspunkt: Das klassische E/R Modell Was fehlt? Klassifikationsstufen (Dimension Level) Würfel (Fact) Halbordnung zwischen Klassifikationsstufen (Roll-Ups) Manko: Dimensionen werden nicht gesondert definiert Constraint: Keine Zyklen in den ROLL-UP Beziehungen Entspricht dem Verbot von Abhängigkeiten Klassifikationsstufe Roll-Up Würfel Ulf Leser: Data Warehousing und Data Mining 28

Beispiel Jahr Monat Tag Menge Shop_name Preis Produktgruppe Produkt Verkauf Shop Product_name Top Top Top Kunde Region TOP Produktgruppe Land Land Jahr Region Land Produkt Region Region Monat Land Kunde Shop Tag Ulf Leser: Data Warehousing und Data Mining 29

Besser: Wiederverwendung von Stufen... Menge Shop_name Preis Produktgruppe Produkt Verkauf Shop Product_name Kunde Region Umsetzung unkritisch Kundenregionen müssen gleich organisiert sein wie Shopregionen Fremdschlüssel in Kunde und Shop verweisen auf PK von Region... aber nicht unproblematisch Vermischung von Dimensionen Eventuell implizite Constraints Land Wenn Kunden in mehr Regionen wohnen dürfen als es Shops gibt Aggregation über Shops bis auf Region gibt viele leere Regionen Ulf Leser: Data Warehousing und Data Mining 30

ME/R Bewertung Minimale, konservative Erweiterung Mehrere Würfel sind möglich Klare Semantik durch Metamodell in Extended E/R Greift eher kurz Keine Eigenschaften von Fakten (Summierbarkeit) Keine Besonderheiten von Klassifikationspfaden Übersprungene Stufen, unbalancierte Hierarchien Keine expliziten Dimensionen Um Parallel-Rollups zu vermeiden Toolunterstützung? Ulf Leser: Data Warehousing und Data Mining 31

Weitere Ansätze muml UML-Erweiterung basierend auf UML Metamodell (Constraints, Stereotypen) -> Werkzeugunterstützung vorhanden Klassifikationsstufe: <<Dimensional class>> Fakten: <<Fakt class>> Würfel: <<Dimension>> Hierarchie: <<Roll-Up>>... Multi-dimensional Modelling Language (MML)... Keine der Methoden hat sich (bisher) durchgesetzt Ulf Leser: Data Warehousing und Data Mining 32

Inhalt dieser Vorlesung Operationen im multidimensionalen Datenmodell ME/R: Graphische multidimensionale Datenmodellierung Aggregierbarkeit Klassen von Aggregatfunktionen Überlappungsfreiheit und Vollständigkeit in Hierarchien Typverträglichkeit Ulf Leser: Data Warehousing und Data Mining 33

Aggregierbarkeit Verdichtung geht nicht immer Numerische versus kategorische Fakten Numerisch: Umsatz, Verkäufe, Messwerte,... Kategorisch: Geschlecht, Kundensegment,... Kann man als Dimension modellieren, muss man aber nicht Bestands-Fakten Nicht alle Aggregatfunktionen sind hierarchisch anwendbar Level 0 Level 1 Level 2 1 Summe: 2 1 10 Avg:? Summe: 12 Summe: 10 Avg:? Avg:? Ulf Leser: Data Warehousing und Data Mining 34

Beispiel Level 0 Level 1 Level 2 1 Summe: 2 1 10 Avg: 1 Summe: 12 Summe: 10 Avg: 11/2 12/3 Avg: 10 Ulf Leser: Data Warehousing und Data Mining 35

Klassen von Aggregatfunktionen [LS97] Definition Gegeben eine Menge X und eine Partitionierung (X 1,X 2,..., X n ) von X. Eine Aggregatfunktion f heißt: distributiv gdw g: f(x) = f( g(x 1 ), g(x 2 ),... g(x n )) algebraisch gdw f(x) berechenbar aus fester Menge von g s Deren Zahl und Art unabhängig von X ist holistisch gdw f(x) kann nur aus den Grundelementen von X berechnet werden Menge von g s nur durch X begrenzt Bemerkungen X: Klassifikationsknoten, (X 1,X 2,..., X n ) seine Kindern Bei holistischen Funktionen ist Prä- aggregation unmöglich, bei algebraischen speicherplatzintensiv Ulf Leser: Data Warehousing und Data Mining 36

Beispiele Distributiv Algebraisch Holistisch Ulf Leser: Data Warehousing und Data Mining 37

Beispiele Distributiv Summe, Count (SUM von counts), Max, Min,... Algebraisch Holistisch AVG (mit g 1 =SUM und g 2 =CNT) STDDEV, MaxN,... MEDIAN, RANK, PERCENTILE Highest Frequency,... Highest Frequency Merke Werte und jeweilige Frequenz: ( (v 1,f 1 ), (v 2,f 2 ),...) Merge zweier Sets möglich Aber: Keine feste Grenze für Platzbedarf, da Anzahl unterschiedlicher Werte nicht fest Ulf Leser: Data Warehousing und Data Mining 38

Aggregierbarkeit Wann darf man Werte hierarchisch aggregieren? Nur numerische Fakten Art der Aggregatfunktion beachten Das reicht im Allgemeinen nicht als Bedingung Summe der Lagerbestände pro Produkt über Jahre? Gesamtsumme Studenten als Summe über Studenten pro Studiengang? Weitere notwendige Kriterien Typverträglich von Fakt und Aggregatfunktion Überlappungsfreiheit der Zuordnung von Klassifikationsknoten Vollständigkeit der Zerlegung pro Klassifikationslevel Ulf Leser: Data Warehousing und Data Mining 39

Typen von Fakten Flow (Ereignis zu Zeitpunkt T) Verkäufe, Umsatz, Lieferungen, diplomierte Studenten,... Stock (Zustand zu Zeitpunkt T) Lagerbestand, eingeschriebene Studenten, Einwohnerzahlen,... Value-per-Unit (Eigenschaft zu Zeitpunkt T) Preis, Herstellungskurs, Währungskurs,... Ulf Leser: Data Warehousing und Data Mining 40

Typverträglichkeit Stock Flow Value-per- Unit MIN/MAX SUM Zeit: nein Sonst: Nie AVG Zuordnung muss beim Design erfolgen Metadaten Beschreibung der Measures Ulf Leser: Data Warehousing und Data Mining 41

Beispiel Aktuelle Studentenzahl nach Jahr der Einschreibung und Studiengang 1994 1995 1996 Gesamt Informatik 15 17 13 28 BWL 10 15 11 21 Gesamt 25 31 23 49 Wie kann das stimmen? Wie lange dauern Studiengänge? Studenten nur in einem Studiengang eingeschrieben? Ulf Leser: Data Warehousing und Data Mining 42

Überlappungsfreiheit Definition Eine Klassifikationshierarchie ist überlappungsfrei gdw jeder Klassifikationsknoten mit Level i höchstens einem Klassifikationsknoten in Level i+1 zugeordnet ist jeder Datenpunkt höchstens einem Klassifikationsknoten mit Level 0 zugeordnet ist Produktfamilie Bekleidung Produktgruppe Damen Herren Produktart Rock Jeans Anzug Verkauf: (Jeansrock, 79.00) Ulf Leser: Data Warehousing und Data Mining 43

Vollständigkeit Definition Eine Klassifikationshierarchie ist vollständig gdw jeder Klassifikationsknoten mit Level i mindestens einem Klassifikationsknoten in Level i+1 zugeordnet ist jeder Datenpunkt mindestens einem Klassifikationsknoten mit Level 0 zugeordnet ist Produktfamilie Bekleidung Produktgruppe Damen Herren Produktart Rock Jeans Anzug Verkauf: (Sonstiges, 100.00) Ulf Leser: Data Warehousing und Data Mining 44

Was tun? Wir sind immer von vollständigen und überlappungsfreien Klassifikationsschemata ausgegangen Summierbarkeit ist ein wichtiger Grund dafür Entspricht nicht der Realität Konzeptionelle Modellierung ist ein ungelöstes Problem Logische Umsetzung auch nicht unproblematisch Abhilfen (rettet das Modell, aber nicht die Semantik) Artifizielle Klassifikationsknoten Virtuelle Knoten: Others, Rest, Nicht zugewiesen Knotenaufspaltung: Herrenjeans, Damenjeans Gewichtete Zuordnung Türkei ist 10% Europa, 90% Asien Ulf Leser: Data Warehousing und Data Mining 45

Literatur Lenz, H.-J. and Shoshani, A. (1997). "Summarizability in OLAP and Statistical Databases". 9th International Conference on Scientific and Statistical Database Management, Olympia, Washington. pp 132-143. Vassiliadis, P. (1998). "Modeling Multidimensional Databases, Cubes, and Cube Operations". 10th International Conference on Scientific and Statistical Database Management, Capri, Italy. pp 53-62. Sapia, C., Blaschka, M., Höfling, G. and Dinter, B. (1998). "Extending the E/R Model for the Multidimensional Paradigm". Workshop on Data Warehousing and Data Mining, Singapore. pp 105-116. Ulf Leser: Data Warehousing und Data Mining 46