Kapitel 17: Date Warehouse



Ähnliche Dokumente
Datenbanksysteme 2009

Datenbanksysteme 2009

Betriebliche Anwendungen

Data Warehousing. Aufbau eines DWH OLAP <-> OLTP Datacube

Data Warehousing. Beispiel: : Amazon. Aufbau eines DWH OLAP <-> OLTP Datacube. FU-Berlin, DBS I 2006, Hinze / Scholz

Betriebliche Anwendungen

Betriebliche Anwendungen

Data Warehouses und Moderne Betriebliche Anwendungen von Datenbanksystemen

Data Warehouses und Data Mining

OLTP: Online Transaction Processing

Betriebliche Anwendungen

Data Warehousing. Fragen des Marketingleiters. Beispiel: : Amazon. Technisch... Amazon weltweit... Datenbank. Aufbau eines DWH OLAP <-> OLTP Datacube

Data Warehouse. Kapitel 17. Abbildung 17.1: Zusammenspiel zwischen OLTP und OLAP. Man unterscheidet zwei Arten von Datenbankanwendungen:

Datenbanksysteme 2011

Betriebliche Anwendungen

Data Warehouse. Kapitel 17. Abbildung 17.1: Zusammenspiel zwischen OLTP und OLAP. Man unterscheidet zwei Arten von Datenbankanwendungen:

Data Warehouse. Kapitel 16. Abbildung 16.1: Zusammenspiel zwischen OLTP und OLAP. Man unterscheidet zwei Arten von Datenbankanwendungen:

Moderne Betriebliche Anwendungen von Datenbanksystemen

5 Data Warehouses und Data Mining

Datenbanken Unit 9: OLAP, OLTP, Data Warehouse Ranking Algorithmen

9 Data Warehousing. klassischen Datenbankanwendungen werden Datenbanken im wesentlichen zur Abwicklung des (

8.1 Überblick. 8 Data Warehousing. klassischen Datenbankanwendungen werden Datenbanken im wesentlichen zur Abwicklung des (

Datenbanken Unit 9: OLAP, OLTP und objektrelationale Datenbanken

8.1 Überblick. 8 Data Warehousing. klassischen Datenbankanwendungen werden Datenbanken im wesentlichen zur Abwicklung des (

Datenbanken Unit 9: OLAP, OLTP und objektrelationale Datenbanken

Operative vs. Informationelle Systeme. Informationelle Systeme. Informationelle Systeme. Moderne Betriebliche Anwendungen von Datenbanksystemen

Data Cube. 1. Einführung. 2. Aggregation in SQL, GROUP BY. 3. Probleme mit GROUP BY. 4. Der Cube-Operator. 5. Implementierung des Data Cube

Vorlesung Wissensentdeckung in Datenbanken

Datenbanksysteme 2 Frühjahr-/Sommersemester Mai 2014

Vorlesung Wissensentdeckung in Datenbanken

5. Übungsblatt. Für die Übung am Donnerstag, 27. N ovember 2008 von 15:30 bis 17:00 Uhr in 13/222.

Data Warehousing Kapitel 3: Mehrdimensionale Datenmodellierung

6.6 Vorlesung: Von OLAP zu Mining

Anfragen an multidimensionale Daten

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Dr. Thomas Neumann

Summarization-based Aggregation

Datenbanken Unit 10: Ranking und Data Mining Erstellen und Ändern von Datenbanken

Kapitel 6. Vorlesung: PD Dr. Peer Kröger

Data Warehousing. Weitere Buzzwörter: OLAP, Decision Support, Data Mining

Multidimensionale Modellierung

ISU 1. Ue_08/02_Datenbanken/SQL. 08 Datenbanken. Übung. SQL Einführung. Eckbert Jankowski.

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

23. Daten-Analyse. Datenwarenhäuser. Grundlagen des OLAP (On-Line Analytical Processing)

Data Cubes PG Wissensmangement Seminarphase

Kap. 6 Data Warehouse

Mining über RDBMSe. von. Christian Widmer. Wie gut lässt sich Mining mit SQL realisieren?

Datenbanken & Informationssysteme (WS 2016/2017)

Relationentheorie grundlegende Elemente

SQL - Datenbankdesign - Aufbau

Einführung relationale Datenbanken. Themenblock: Erstellung eines Cube. Schlüssel. Relationenmodell Relationenname Attribut. Problem.

Themenblock: Erstellung eines Cube

Vorlesung Wissensentdeckung in Datenbanken

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D.

Oracle 10g Einführung

6.2 Datenmodellierung

3.17 Zugriffskontrolle

Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid

Datenbank Grundlagen. Performanceuntersuchungen

SQL Fortsetzung: Joins, Subselects, Aggregatfunktionen, Derived Tables, Views

Kapitel 7 Grundlagen von Data

3. Mehrdimensionale Datenmodellierung und Operationen Grundlagen

Lösungen der Übungsaufgaben von Kapitel 10

Datenbanken Unit 11: Data Mining

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D.

Datenbanken Grundlagen und Design

Datenbanken zur Entscheidungsunterstützung - Data Warehousing. Prof. Dr. T. Kudraß 1

Unterstützung der Unternehmenssteuerung durch Data Warehouses mit ganzheitlicher Sicht auf Daten aus operativen Systemen

Unterstützung der Unternehmenssteuerung durch Data Warehouses mit ganzheitlicher Sicht auf Daten aus operativen Systemen

WS 2010/11 Datenbanksysteme Fr 15:15 16:45 R Vorlesung #3. SQL (Teil 1)

Datenbank-Tuning. Folien zum Datenbankpraktikum Wintersemester 2009/10 LMU München

Universität Augsburg, Institut für Informatik WS 2006/2007 Dr. W.-T. Balke 27. Nov M. Endres, A. Huhn, T. Preisinger Lösungsblatt 5

6. Sichten, Integrität und Zugriffskontrolle. Vorlesung "Informa=onssysteme" Sommersemester 2015

Data Warehousing. und Operationen. Dr. Andreas Thor Wintersemester 2009/10. Universität Leipzig Institut für Informatik.

Die Anweisung create table

Informations- und Wissensmanagement

Wissensentdeckung in Datenbanken

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D.

Datenbanksysteme I WS 18/19 Teillösung Übungsblatt 4-6

1. Data Warehouses - Einführung

Vertrautmachen mit Daten

Übung zur Einführung in die Wirtschaftsinformatik Cognos Powerplay als Beispiel für ein DSS

WS 2010/11 Datenbanksysteme Fr 15:15 16:45 R Vorlesung #5. SQL (Teil 3)

1. Data Warehouses - Einführung

Kapitel 5 Dr. Jérôme Kunegis. SQL: Grundlagen. WeST Institut für Web Science & Technologien

Wiederholung VU Datenmodellierung

SQL structured query language

Garten -Daten Bank. Was ist das? Dr. Karsten Tolle PRG2 SS 2014

Pivotieren. Themenblock: Anfragen auf dem Cube. Roll-up und Drill-down. Slicing und Dicing. Praktikum: Data Warehousing und Data Mining. Produkt.

Lösung zu Aufgabe 6. Lösung:

Kapitel 8: Data Warehouse 1

Mala Bachmann September 2000

Vorlesung Wissensentdeckung in Datenbanken

Verteilte Datenbanksysteme. Hans-Dieter Ehrich Institut für Informationssysteme Technische Universität Braunschweig

Wissensentdeckung in Datenbanken

Wiederholung VU Datenmodellierung

5.8 Bibliotheken für PostgreSQL

XML & Intelligente Systeme. - XQuery Teil 2 - Datamining auf XML Dokumenten

Verbunde (Joins) und mengentheoretische Operationen in SQL

ACCESS SQL ACCESS SQL

Transkript:

Kapitel 17: Date Warehouse 1

OLTP versus OLAP OLTP (Online Transaction Processing) z.b. Flugreservierung, Handelsunternehmen kleine, kurze Transaktionen jeweils auf jüngstem Zustand OLAP (Online Analytical Processing) z.b. Auslastung der Transatlantikflüge z.b. Umsatzrückgang im 3. Quartal große Datenmengen historische Daten Grundlage für Decision Support Systeme 2

Zusammenspiel OLTP/OLAP OLTP Operationale DB OLAP Operationale DB Operationale DB Periodisch auffrischen Decision Support Anfragen Data Mining Operationale DB 3

Sternschema Verkäufer Ärzte Produkte Kunden Krankheiten Patienten Verkäufe Behandlungen Filialen Zeit Krankenhäuser Zeit Handelsunternehmen Krankenkasse 4

Aus prä gung Verkäufe VerkDatum Filiale Produkt Anzahl Kunde Verkäufer 30-Jul-96 Passau 1347 1 4711 825 Filialen Filialenkennung Land Bezirk Passau D Bayern Kunden KundenNr Name wiealt 4711 Kemper 38 Verkäufer VerkäuferNr Name Fachgebiet Manager wiealt 825 Handyman Elektronik 119 23 Zeit Datum Tag Monat Jahr Quartal KW Wochentag Saison 30-Jul-96 23-Dec-97 30 27 Juli Dezember 1996 1997 3 4 31 52 Dienstag Dienstag Hochsommer Weihnachten Produkte ProduktNr Produkttyp Produktgruppe Produkthauptgruppe Hersteller 1347 Handy Mobiltelekom Telekom Siemens 5

Star Join Welche Handys (d.h. von welchen Herstellern) haben junge Kunden in den bayrischen Filialen zu Weihnachten 1996 gekauft? select p.hersteller, sum(v.anzahl) as Anzahl from Verkäufe v, Filialen f, Produkte p, Zeit z, Kunden k where z.saison = 'Weihnachten' and z.jahr = 1996 and k.wiealt < 30 and p.produkttyp = 'Handy' and f.bezirk = 'Bayern' and v.verkdatum = z.datum and v.produkt = p.produktnr and v.filiale = f.filialenkennung and v.kunde = k.kundennr group by Hersteller; 6

Verdichtungsgrad Drill down: mehr Attribute in group-by-klausel geringere Verdichtung Roll up: weniger Attribute in group-by-klausel stärkere Verdichtung 7

Handyverkäufe nach Herstellern select p.hersteller, sum(v.anzahl) as Anzahl from Verkäufe v, Produkte p where v.produkt = p.produktnr and p.produkttyp = 'Handy' group by p.hersteller; 8

Drill down längs Zeitachse select p.hersteller, z.jahr, sum(v.anzahl) as Anzahl from Verkäufe v, Produkte p where v.produkt = p.produktnr and p.produkttyp = 'Handy' group by p.hersteller, z.jahr; 9

Roll up längs Hersteller select from where and group by z.jahr, sum(v.anzahl) as Anzahl Verkäufe v, Produkte p v.produkt = p.produktnr p.produkttyp = 'Handy' z.jahr; 10

Analyse nach Dimensionen Handyverkäufe nach Hersteller und Jahr Hersteller Jahr Anzahl Siemens 1994 2.000 Siemens 1995 3.000 Siemens 1996 3.500 Motorola 1994 1.000 Motorola 1995 1.000 Motorola 1996 1.500 Bosch 1994 500 Bosch 1995 1.000 Bosch 1996 1.500 Nokia 1994 1.000 Nokia 1995 1.500 Nokia 1996 2.000 Handyverkäufe nach Jahr Jahr Anzahl 1994 4.500 1995 6.500 1996 8.500 Handyverkäufe nach Hersteller Hersteller Anzahl Siemens 8.500 Motorola 3.500 Bosch 3.000 Nokia 4.500 Drilldown längs Jahr Roll-Up längs Hersteller / Jahr 11

Ultimative Verdichtung select from where and sum(v.anzahl) as Anzahl Verkäufe v, Produkte p v.produkt = p.produktnr p.produkttyp = 'Handy' Handyverkäufe Anzahl 19.500 12

Materialisierung Handy-Verkäufe nach Jahr und Hersteller Hersteller \ Jahr 1994 1995 1996 Σ Siemens 2.000 3.000 3.500 8.500 Motorola 1.000 1.000 1.500 3.500 Bosch 500 1.000 1.500 3.000 Nokia 1.000 1.500 2.000 4.500 Σ 4.500 6.500 8.500 19.500 13

Handy2Cube Wunsch: verschieden aggregierte Teilergebnise vorberechnen: create table Handy2DCube( Hersteller varchar(20), Jahr integer, Anzahl integer ); 14

insert into Berechnung Hersteller + Jahr Handy2DCube (select p.hersteller, z.jahr, sum(v.anzahl) from Verkäufe v, Produkte p, Zeit z where v.produkt = p.produktnr and p.produkttyp = 'Handy' and v.verkdatum = z.datum group by z.jahr, p.hersteller) union (select p.hersteller, null, sum(v.anzahl) from Verkäufe v, Produkte p where v.produkt = p.produktnr and p.produkttyp = 'Handy' group by p.hersteller) union (select null, z.jahr, sum(v.anzahl) from Verkäufe v, Produkte p, Zeit z where v.produkt = p.produktnr and p.produkttyp = 'Handy' and v.verkdatum = z.datum group by z.jahr) union (select null, null, sum(v.anzahl) from Verkäufe v, Produkte p where v.produkt = p.produktnr and p.produkttyp = 'Handy'); 15

Cube-Operator select p.hersteller, z.jahr, f.land, sum(anzahl) as Anzahl from Verkäufe v, Produkte p, Zeit z, Filialen f where v.produkt = p.produktnr and p.produkttpy = 'Handy' and v.verkdatum = z.datum and v.filiale = f.filialenkennung group by z.jahr, p.hersteller, f.land with cube; Erzeugt bei k Attributen in group-by-klausel 2 k Teilmengen (inkl. Null-Werte) und vereinigt sie. 16

Ergebnis des Cube Operators Query Analyzer Handy3DCube Hersteller Jahr Land Anzahl Siemens 1994 D 800 Siemens 1994 A 600 Siemens 1994 CH 600 Siemens 1995 D 1.200 Siemens 1995 A 800 Siemens 1995 CH 1.000 Siemens 1996 D 1.400 Motorola 1994 D 400 Motorola 1994 A 300 Motorola 1994 CH 300 Bosch null 1994 D null 1995 D Siemens null null 8.500 null null null 19.500 17

Cognos Gmbh, Frankfurt: http://www.cognos.de/ Cognos Einsatz in Osnabrück http://dwh.vdv.uos.de/cognos/cgi-bin/ppdscgi.exe 18

Data Mining Datenbestand durchsuchen nach (bisher unbekannten) Zusammenhängen (Knowledge Discovery) Klassifikation von Objekten: z.b. Risikoabschätzung bei Versicherungspolicen männlich + alt + Coupé hohes Risiko Assoziationsregeln: z.b. Analyse des Kaufverhaltens "Wer PC kauft, kauft auch Drucker" 19

Beispiel für Klassifikation Alter Ge Autotyp Schaden sch lecht 45 w Van gering 18 w Coupé gering 22 w Van gering 19 m Coupé hoch 38 w Coupé gering 24 m Van Gering 40 m Coupé hoch 40 m Van gering <=35 Geringes Risiko Alter Geschlecht männlich > 35 Coupé hohes Risiko Autotyp Van weiblich Geringes Risiko Geringes Risiko 20

Beispiel für Assoziationsregeln Suche in Warenkörben nach gängigen Kombinationen. Leite daraus Schlussfolgerungen ab 21

Frequent Itemset in k Einkäufen TransID Produkt 111 Drucker 111 Papier 111 PC 111 Toner 222 PC 222 Scanner 333 Drucker 333 Papier 333 Toner 444 Drucker 444 PC 555 Drucker 555 Papier 555 PC 555 Scanner 555 Toner Frequent Itemset-Kandidat {Drucker} {Papier} {PC} {Scanner} {Toner} {Drucker, Papier} {Drucker, PC} {Drucker, Scanner} {Drucker, Toner} {Papier, PC} {Papier, Scanner} {Papier, Toner} {PC, Scanner} {PC, Toner} {Scanner, Toner} {Drucker, Papier, PC} {Drucker, Papier, Toner} {Drucker, PC, Toner} {Papier, PC, Toner} Anzahl 4 3 4 2 3 3 3 3 2 3 2 3 22

Berechnung der Confidence Sei F ein frequent itemset support(f) := Anzahl des Vorkommens / Gesamtzahl Betrachte alle disjunkten Zerlegungen in L und R Die Regel L R hat confidence (L R) = support(f) / support(r) Beispiel: {Drucker} {Papier, Toner} confidence = support({drucker, Papier, Toner}) support({drucker}) 3/5 = = 0.75 4/5 75 % der Kunden, die einen Drucker gekauft haben, haben auch Papier und Toner gekauft 23