Data-Warehouse-Technologien Prof. Dr.-Ing. Kai-Uwe Sattler 1 Prof. Dr. Gunter Saake 2 1 TU Ilmenau FG Datenbanken & Informationssysteme 2 Universität Magdeburg Institut für Technische und Betriebliche Informationssysteme Wintersemester 2010/11 Sattler / Saake Data-Warehouse-Technologien Wintersemester 2010/11 0 1
Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Modellierung von Data Warehouses 4 Extraktion, Transformation und Laden 5 Datenqualität und Data Cleaning 6 Index- und Speicherungsstrukturen 7 Anfragen an Data Warehouses 8 Anfrageverarbeitung und -optimierung 9 Materialisierte Sichten Sattler / Saake Data-Warehouse-Technologien Wintersemester 2010/11 1 2
Organisatorisches Zeiten, Ablauf, etc. Dozent: Gunter Saake Infos (Zeiten, Räume) & Folienkopien unter http://wwwiti.cs.uni-magdeburg.de/iti_db/lehre/dw/index.html Übungen Übungsleiter: Martin Kuhlemann Scheinkriterien etc. Martin Kuhlemann Prüfung mündliche Prüfung (wenn unter 35 Prüfungen) Feedback, Fragen,... Sprechzeiten: ALG 110, Fr 10:30-11:15 Uhr Sattler / Saake Data-Warehouse-Technologien Wintersemester 2010/11 1 3
Organisatorisches Literatur W. Lehner. Datenbanktechnologie für Data-Warehouse-Systeme. dpunkt.verlag, Heidelberg, 2003 W.H. Inmon. Building the Data Warehouse. Wiley & Sons, New York, 1996 A. Bauer, H. Günzel. Data Warehouse Systeme Architektur, Entwicklung, Anwendung. 2. Auflage, dpunkt.verlag, Heidelberg, 2004 G. Saake, A. Heuer, K. Sattler. Datenbanken: Implementierungstechniken. 2. Auflage, mitp-verlag, Bonn, 2005 R. Kimball, L. Reeves, M. Ross, W. Thornthwaite. The Data Warehouse Lifecycle Toolkit Wiley & Sons, New York, 1998 Sattler / Saake Data-Warehouse-Technologien Wintersemester 2010/11 1 4
Teil II Einführung
Einführung Einführung 1 Motivation 2 Anwendungen 3 Abgrenzung 4 Begriff Data Warehouse 5 DW-Architektur 6 Benchmarks Sattler / Saake Data-Warehouse-Technologien Wintersemester 2010/11 2 1
Einführung Motivation Szenario: Getränkemarkt Umsatz, Portfolio Werbung Sattler / Saake Data-Warehouse-Technologien Wintersemester 2010/11 2 2
Einführung Motivation DB-Schema Produkt (0,*) geliefert von Lieferant kauft (0,*) Menge Kunde Sattler / Saake Data-Warehouse-Technologien Wintersemester 2010/11 2 3
Materialisierte Sichten Materialisierte Sichten in DBMS Materialisierte Sichten in Oracle Syntax CREATE MATERIALIZED VIEW matview BUILD IMMEDIATE REFRESH COMPLETE ENABLE QUERY REWRITE AS SELECT...FROM...WHERE...GROUP BY... Füllen der Sicht BUILD IMMEDIATE (sofort) BUILD DEFERRED (explizit zum späteren Zeitpunkt) Aktualisierungszeitpunkte: REFRESH ON COMMIT (Änderung der Basisrelation), REFRESH ON DEMAND (explizite Aktualisierung, z.b. über dbms_mview.refresh) Sattler / Saake Data-Warehouse-Technologien Wintersemester 2010/11 12 87
Materialisierte Sichten Materialisierte Sichten in DBMS Materialisierte Sichten in Oracle /2 Aktualisierungsstrategie COMPLETE: vollständig FAST: Deltas über View-Log NEVER: keine Aktualisierung FORCE: wenn möglich FAST, sonst COMPLETE View-Logs: Log-Tabellen mit Änderungsoperationen (über Trigger auf Basisrelationen) CREATE MATERIALIZED VIEW LOG ON base-table WITH SEQUENCE, ROWID (attributes) INCLUDING NEW VALUES Sattler / Saake Data-Warehouse-Technologien Wintersemester 2010/11 12 88
Materialisierte Sichten Materialisierte Sichten in DBMS Materialisierte Sichten in Oracle /3 Restriktionen für FAST (u.a.) Alle Basisrelationen mit View-Logs Zu jedem Aufruf AGG(expr) korrespondierendes COUNT(expr) alle Gruppierungsattribute in SELECT-Klausel Einschränkungen bei OUTER JOIN sowie komplexeren Gruppierungen Sattler / Saake Data-Warehouse-Technologien Wintersemester 2010/11 12 89
Materialisierte Sichten Materialisierte Sichten in DBMS Materialisierte Sichten in Oracle /4 Verwendung existierender Tabellen als materialisierte Sicht CREATE MATERIALIZED VIEW matview ON PREBUILT TABLE sum_table... Summary Advisor als Administrator-Werkzeug für Auswahl von materialisierten Sichten Sattler / Saake Data-Warehouse-Technologien Wintersemester 2010/11 12 90
Materialisierte Sichten Materialisierte Sichten in DBMS Oracle: Rewriting Oracle versucht Rewriting auf mehrere Arten Text Match Full Text Match und Partial Text Match Rein syntaktischer Match Groß-/ Kleinschreibung Leerzeichen Reihenfolge von Bedingungen Keine logische Implikation, kein Mapping, etc. General Query Rewrite Nicht anwendbar bei Complex materialized views Unterschiedliche Methoden ja nach Art des MV Viele Einschränkungen Dokumentation Sattler / Saake Data-Warehouse-Technologien Wintersemester 2010/11 12 91
Materialisierte Sichten Materialisierte Sichten in DBMS Materialisierte Sichten in IBM DB2 Syntax CREATE SUMMARY TABLE matview AS ( SELECT...FROM...WHERE...GROUP BY... ) DATA INITIALLY DEFERRED REFRESH DEFERRED Explizites Füllen der mat. Sicht REFRESH TABLE matview Weitere Aktualisierungsstrategien möglich Sattler / Saake Data-Warehouse-Technologien Wintersemester 2010/11 12 92
Materialisierte Sichten Materialisierte Sichten in DBMS SQL Server Indexierung von Sichten Materialisierung der betroffenen Daten Automatische Aktualisierung bei Änderung der Basisdaten CREATE VIEW Verkäufe2002 AS SELECT Stadt, Verkäufe, V.ZeitID, V.GeographieID FROM Verkauf V, Zeit Z, Geographie G WHERE V.ZeitID = Z.ZeitID AND Z.Jahr = 2002 AND V.GeographieID = G.GeographieID; CREATE UNIQUE CLUSTERED INDEX V2000_IDX ON Verkäufe2002(ZeitID, GeographieID); Sattler / Saake Data-Warehouse-Technologien Wintersemester 2010/11 12 93