Data Warehousing und Data Mining

Ähnliche Dokumente
Data Warehousing und Data Mining

Data Warehousing und Data Mining

Data Warehousing. Architektur Komponenten Prozesse. Ulf Leser Wissensmanagement in der Bioinformatik

Data Warehousing und Data Mining

Data Warehousing und Data Mining

Informationsintegration

Data Warehousing. Komponenten Prozesse. Architektur. Wissensmanagement in der. Bioinformatik. Ulf Leser

Datenbanksysteme I Data Warehouses Felix Naumann

Datenbanksysteme I Data Warehouses Felix Naumann

Data Warehousing und Data Mining

Data Warehousing. Beispiel: : Amazon. Aufbau eines DWH OLAP <-> OLTP Datacube. FU-Berlin, DBS I 2006, Hinze / Scholz

Data Warehousing. Aufbau eines DWH OLAP <-> OLTP Datacube

Data Warehousing. Fragen des Marketingleiters. Beispiel: : Amazon. Technisch... Amazon weltweit... Datenbank. Aufbau eines DWH OLAP <-> OLTP Datacube

Multidimensionale Modellierung

Data Warehousing und Data Mining

Data Warehousing und Data Mining

Themenblock: Erstellung eines Cube

Data Warehousing. Sommersemester Ulf Leser Wissensmanagement in der Bioinformatik

Einführung relationale Datenbanken. Themenblock: Erstellung eines Cube. Schlüssel. Relationenmodell Relationenname Attribut. Problem.

Oracle9i Data Warehouse Komponenten im praktischen Einsatz

Inhaltsverzeichnis. 1 Einleitung 1. 2 Aufbau von Data-Warehouse-Systemen 15. Lehner, Wolfgang Datenbanktechnologie für Data-Warehouse-Systeme 2003

Data Warehousing. Modellierung im DWH Das multidimensionale Datenmodell. Ulf Leser Wissensmanagement in der Bioinformatik

Repetitorium. Data Warehousing und Data Mining 11/12. Sebastian Wandelt 13./16. Februar 2012

Datenbanken Grundlagen und Design

Business Intelligence Data Warehouse. Jan Weinschenker

Kapitel 6. Vorlesung: PD Dr. Peer Kröger

Common Warehouse Metamodel und Imperfektion

Teil II: Architektur eines Data-Warehouse-Systems... 57

Übung zur Einführung in die Wirtschaftsinformatik Cognos Powerplay als Beispiel für ein DSS

Übersicht SAP-BI. DOAG Regionaltreffen

ZWISCHEN ALBTRAUM UND OPTIMALER PERFORMANCE

Data Warehousing. Sommersemester Ulf Leser Wissensmanagement in der Bioinformatik

Datenqualität-Der GQM- Ansatz und das DWQ- Projekt

Inhaltsverzeichnis. vii.

Übung Blatt 5. Materialized Views. Ulf Leser Wissensmanagement in der Bioinformatik

BIW - Überblick. Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004

Data Warehousing. Ausführung von OLAP Operationen. Ulf Leser Wissensmanagement in der Bioinformatik

XML-Datenaustausch in der Praxis Projekt TOMIS bei der ThyssenKrupp Stahl AG

Datenbanksysteme 2009

Wiederholung VU Datenmodellierung

Wiederholung VU Datenmodellierung

Data Warehouse Technologien

Exadata und In-Memory Datenbewirtschaftung und Analyse Extrem mit Exadata und InMemory (Erfahrungsbericht)

Welche BI-Architektur braucht Ihr Reporting?

Data Warehouse Theorie und Praxis. Ali Khabbazian T-Systems

Berechnung von Kennzahlen mit der SQL Model Clause

Wir bauen uns ein Data Warehouse mit MySQL

Veit Köppen Gunter Saake Kai-Uwe Sattler. 2. Auflage. Data Warehouse Technologien

Inhaltsverzeichnis. Vorwort Kapitel 1 Einleitung... 15

Data Warehouse schnell gemacht Performanceaspekte im Oracle DWH

Data Warehouses. Kapitel 2 Architektur. Sommersemester Melanie Herschel melanie.herschel@uni-tuebingen.de

Inhaltsverzeichnis. Vorwort 13. Kapitel 1 Einleitung 15

Auf einen Blick. Abfrage und Bearbeitung. Erstellen einer Datenbank. Komplexe Abfragen. Vorwort... 13

Data Warehouse Grundlagen

II Heterogenität und Architekturen

Oracle OLAP 11g: Performance für das Oracle Data Warehouse

Data Warehousing. DWH Projekte. Ulf Leser Wissensmanagement in der Bioinformatik

Einleitung 19. Teil I Einführung in Datenbanksysteme 25. Kapitel 1 Wozu Datenbanksysteme da sind 27

Auf einen Blick. Abfrage und Bearbeitung. Erstellen einer Datenbank. Komplexe Abfragen. Vorwort 13

Data-Warehouse-Praktikum

OLAP und Data Warehouses

MIS by Franziska Täschler, Winformation GmbH Ausgabe 01/2001

SQL-basierte SCD2-Versionierung hierarchischer Strukturen

Datenbanksysteme. Donald Kossmann TU München

Datenqualitätsportal für das Data Warehouse mit APEX und Regelwerk

DIMEX Data Import/Export

DWH Best Practices das QUNIS Framework 80 Jahre Erfahrung bei der Modellierung & dem Betrieb von DWH. Referent: Ilona Tag

INDEXIERUNGS- STRATEGIE IM DATA WAREHOUSE

Informationssysteme für Ingenieure

Betriebliche Anwendungen

Data Warehousing. Einleitung und Motivation. Ulf Leser Wissensmanagement in der Bioinformatik

Seminar in der Seminarreihe Business Intelligence 1. OLAP und Datawarehousing

Datenbanken Unit 9: OLAP, OLTP und objektrelationale Datenbanken

Data Warehouse in der Telekommunikation

THEMA: SAS DATA INTEGRATION STUDIO FÜR MEHR TRANSPARENZ IM DATENMANAGEMENT EVA-MARIA KEGELMANN

IBM Cognos Analytics 11 Self-Service dann aber richtig!

Einsatz von BI-Methoden in der simulativen Geschäftsprozessmodellierung

Kapitel 17: Date Warehouse

Datenbanken. Datenbanken. Grundlagen und Design. Grundlagen und Design. Frank. Geisler. 4. Auflage

Datenmodellierung VU Einführung SS 2015

Data Warehouse und Data Mining

Datenbanken Unit 9: OLAP, OLTP und objektrelationale Datenbanken

Bibliografische Informationen digitalisiert durch

Datenmodellierung VU Einführung SS 2016

Datenbanken Unit 9: OLAP, OLTP, Data Warehouse Ranking Algorithmen

AKTUELLE LÖSUNGSARCHITEKTUR DER SAP IM BEREICH BUSINESS INTELLIGENCE UND ANALYTICS

Einführung in OLAP und Business Analysis. Gunther Popp dc soft GmbH

Datenbankbasierte Lösungen

Data Warehouses und Moderne Betriebliche Anwendungen von Datenbanksystemen

RE.one. Self Service Information Management für die Fachabteilung

Inhaltsverzeichnis Vorwort zur vierten Auflage Vorwort zur dritten Auflage Vorwort zur zweiten Auflage Vorwort zur ersten Auflage Hinweise zur CD

Einführung. Überblick. Data-Warehouse-Technologien. Vorlesung

Fast Analytics on Fast Data

SQL mit ORACLE. Wolf-Michael Kahler

BI Applications und E-Business Suite: Die perfekte Ergänzung

Transkript:

Data Warehousing und Data Mining Architektur und Komponenten von Data Warehouses Ulf Leser Wissensmanagement in der Bioinformatik

Bücher im Internet bestellen Backup Durchsatz Loadbalancing Portfolio Umsatz Werbung Daten bank Ulf Leser: DWH und DM, Sommersemester 2007 2

Fragen eines Marketingleiters Wie viele abgeschlossene Bestellungen haben wir jeweils im Monat vor Weihnachten, aufgeschlüsselt nach Produktgruppen und Promotion? year year customer name cust_class discount customer_ productg_ discount line_item order_ product_ amount single_price name productgroup product productgroup_ month Month year_ day day month_ session cust_ day_ time order session_ supply_ total_amount order_status order_ supply_ status supply_station region_ name region Ulf Leser: DWH und DM, Sommersemester 2007 3

Ergebnis SELECT Y.year, PG.name, DI.disc, count(*) FROM year Y, month M, day D, session S, line_item I, order O, product P, productgroup PG, discount DI, order_status OS WHERE M.year_ = Y. and D.month_ = M. and S.day_ = D. and O.session_ = S. and I.order_ = O. and I.product_ = P. and P.productgroup_ = PG. and DI.productgroup_ = PG. and O. = OS.order_ D.day < 24 and M.month = 12 and OS.status= FINISHED GROUP BY Y.year, PG.name, DI.discount ORDER BY Y.year, DI.discount 10 Records 120 Records 3650 Records 9 Joins year: month: day: session: 36.000.000 order: 37.000.000 line_item: 72.000.000 order_status: 37.000.000 product: 200.000 productgroup: 100 discount: 50 Problem! Schwierig zu optimieren (Join-Order) Ja nach Ausführungsplan riesige Zwischenergebnisse Ähnliche Anfragen ähnlich riesige Zwischenergebnisse Ulf Leser: DWH und DM, Sommersemester 2007 4

In Wahrheit... Ulf Leser: DWH und DM, Sommersemester 2007 5

Probleme Count über Union über verteilte Datenbanken? Heterogenitätsproblem Quellen werden Schemata verändern Länderspezifischer Eigenheiten (MWST, Versandkosten, Sonderaktionen,...) Oftmals verborgene Änderungen in der Semantik der Daten Berechnung der Zwischenergebnisse bei jeder Anfrage? Datenmengenproblem Erfordert Transport großer Datenmengen durchs Netz Historische Sicht - Datenmengen wachsen immer weiter Operative Systeme brauchen die historischen Daten nicht Ziel: Frühes löschen (abgeschlossene Bestellungen) Manager brauchen viele der operativen Daten nicht Ziel: Alles aufheben Ulf Leser: DWH und DM, Sommersemester 2007 6

Besser: Data Warehouse Redundante Datenhaltung Spezielle Modellierung Transformierte und selektierte Daten Asynchrone Aktualisierung Ulf Leser: DWH und DM, Sommersemester 2007 7

Definition DWH A DWH is a subject-oriented, integrated, non-volatile, and time-variant collection of data in support of management s decision [Inm96] Subj-orient.: Verkäufe, Personen, Produkte, etc. Integrated: Erstellt aus vielen Quellen Non-Volatile: Hält Daten unverändert über die Zeit Time-Variant: Vergleich von Daten über die Zeit Decisions: Wichtige Daten rein, unwichtige raus Ulf Leser: DWH und DM, Sommersemester 2007 8

OLAP Beispiel Welche Produkte hatten im letzten Jahr im Bereich Bamberg einen Umsatzrückgang um mehr als 10%? Welche Produktgruppen sind davon betroffen? Welche Lieferanten haben diese Produkte? Welche Kunden haben über die letzten 5 Jahre eine Bestellung über 50 Euro innerhalb von 4 Wochen nach einem persönlichen Anschreiben aufgegeben? Wie hoch waren die Bestellungen im Schnitt? Wie hoch waren die Bestellungen im Vergleich zu den durchschnittlich. Bestellungen des jew. Kunden in einem vergleichbaren Zeitraum? Lohnen sich Mailing-Aktionen? Haben Zweigstellen einen höheren Umsatz, die gemeinsam gekaufte Produkte zusammen stellen? Welche Produkte werden überhaupt zusammen gekauft und wo? Ulf Leser: DWH und DM, Sommersemester 2007 9

OLAP versus OLTP OLTP OLAP Typische Operationen Insert, Update, Delete, Select Select Bulk-Inserts Transaktionen Viele und kurz Lesetransaktionen Typische Anfragen Einfache Queries, Primärschlüsselzugriff, Schnelle Abfolgen von Selects/inserts/updates/deletes Komplexe Queries: Aggregate, Gruppierung, Subselects, etc. Bereichsanfragen über mehrere Attribute Daten pro Operation Wenige Tupel Mega-/ Gigabyte Datenmenge in DB Gigabyte Terabyte Eigenschaften der Daten Rohdaten, häufige Änderungen Abgeleitete Daten, historisch & stabil Erwartete Antwortzeiten Echtzeit bis wenige Sekunden Minuten Modellierung Anwendungsorientiert Themenorientiert Typische Benutzer Sachbearbeiter Management Ulf Leser: DWH und DM, Sommersemester 2007 10

Inhalt dieser Vorlesung Architektur Komponenten Prozesse Ulf Leser: DWH und DM, Sommersemester 2007 11

DWH Grobarchitektur: Hubs and Spokes Abgeleitete Sichten Mart 1 Mart 2 Mart 3 Mart 4 Aktualisierungen DWH Basisdatenbank Quelle 1 RDBMS Quelle 2 IMS Quellsysteme Quelle 3 Textfile Jahresumsatz: 2334.5565 Pro Monat Januar: 122.004 Februar 023.445 Ulf Leser: DWH und DM, Sommersemester 2007 12

DWH Architektur & Komponenten 10 0 80 Monitoring 60 40 20 0 1. 2. 3. 4. Qrt l. Qrt l. Qrt l. Qrt l. Ost West Nord Quelle 1 RDBMS Staging Area Metadaten Analysewerkzeuge Mart 2 Quelle 2 IMS Staging Area Cube Mart 1 Datenquellen Basisdaten Abgeleitete Sichten Arbeitsbereich Ulf Leser: DWH und DM, Sommersemester 2007 13

Langlebigkeit 10 0 80 60 40 20 0 1. 2. 3. 4. Qrt l. Qrt l. Qrt l. Qrt l. Ost West Nord Metadaten Quelle 1 RDBMS Staging Area Mart 2 Quelle 2 IMS Staging Area Cube Mart 1 Flüchtig Persistent Ulf Leser: DWH und DM, Sommersemester 2007 14

Alternativen Physikalische Aufteilung variabel Data Marts auf eigenen Rechnern (Laptop) Staging Area auf eigenen Servern Metadaten auf eigenem Server (Repository) Quelle 1 RDBMS Staging Area Mart 2 Quelle 2 IMS Staging Area Cube Mart 1 Metadaten Ulf Leser: DWH und DM, Sommersemester 2007 15

Inhalt dieser Vorlesung 10 0 80 Monitoring 60 40 20 0 1. 2. 3. 4. Qrt l. Qrt l. Qrt l. Qrt l. Ost West Nord Architektur Komponenten 1. Datenquellen Quelle 1 RDBMS Quelle 2 IMS Staging Area Staging Area Metadaten Cube Analysewerkzeuge Mart 2 Mart 1 2. Staging Area 3. Basisdatenbank Datenquellen Basisdaten Abgeleitete Sichten 4. Abgeleitete Sichten Arbeitsbereich 5. Analysewerkzeuge 6. Metadatenrepository 7. Data Warehouse Manager Prozesse Ulf Leser: DWH und DM, Sommersemester 2007 16

1. Datenquellen 10 0 80 60 40 20 0 1. 2. 3. 4. Qrt l. Qrt l. Qrt l. Qrt l. Ulf Leser: DWH und DM, Sommersemester 2007 17

Datenquellen Meist sehr heterogen Technisch: RDBMS, IMS, Mainframe, Textfiles,... Logisch: Schema, Format, Repräsentation,... Syntaktisch: Datum, Währung, Zahlenkodierung,... Verfügbarkeit: Kontinuierlich, Periodisch,... Qualität: Fehlende / falsche Werte, Duplikate,... Rechtlich: Datenschutz (Kunden & Mitarbeiter!) Zugriff Push: Quelle erzeugt regelmäßig Extrakte Pull: DWH stößt Zugriff an / Online-Zugriff Indivuelle Behandlung notwendig Ulf Leser: DWH und DM, Sommersemester 2007 18

2. Arbeitsbereich (Staging Area) 10 0 80 60 40 20 0 1. 2. 3. 4. Qrt l. Qrt l. Qrt l. Qrt l. Ulf Leser: DWH und DM, Sommersemester 2007 19

Arbeitsbereich Temporärer Speicher Quellnahes Schema Sinn ETL Arbeitsschritte effizienter implementierbar Mengenoperationen, SQL Zugriff auf Basisdatenbank möglich (Upsert) Vergleich zwischen Datenquellen möglich Filterfunktion: Nur einwandfreie Daten in Basisdatenbank übernehmen Ulf Leser: DWH und DM, Sommersemester 2007 20

3. Basisdatenbank 10 0 80 60 40 20 0 1. 2. 3. 4. Qrt l. Qrt l. Qrt l. Qrt l. Ulf Leser: DWH und DM, Sommersemester 2007 21

Basisdatenbank Zentrale Komponente des DWH Begriff DWH meint oft nur die Basisdatenbank Speichert Daten in feinster Auflösung Einzelne Verkäufe Einzelne Bons Historische Daten Große Datenmengen Spezielle Modellierung Spezielle Optimierungsstrategien Ulf Leser: DWH und DM, Sommersemester 2007 22

DWH als... Unterschiedliche Philosophien Enterprise DWH Schemaintegration Analyseorientiertes DWH Multimensionale Modellierung Ulf Leser: DWH und DM, Sommersemester 2007 23

DWH als Enterprise Model Idee: DWH enthält alle Unternehmensdaten Schema muss Unternehmen komplett abdecken Konzeptionelles Enterprise Model als Grundlage der Unternehmens-DV Nutzen Angleichung von Unternehmensabläufen Computergestützter Zugriff als alle Unternehmensdaten und -prozesse Probleme SAP R/3, Oracle Extrem komplexes Schema Häufige Änderungen notwendig Unklarer Nutzen Scheitert meist: ERP, CRM, SCM, Sales,... Manugistics, Commerce-One Siebel, SAP Intershop,... Ulf Leser: DWH und DM, Sommersemester 2007 24

Schemaintegration Gegeben: Menge Quellen Q i mit Schema S i Gesucht: Schema S = S i Das muss eine semantische UNION sein Aber: Heterogenitäten Datenmodelle: OO, Relational, IMS,... Schematisch: Klassen, Relationen, Attribute, Werte,... Semantik: Homonyme, Synonyme,... Syntax: Formate, Einheiten, Sprache,... Ulf Leser: DWH und DM, Sommersemester 2007 25

Schwierigkeiten Hauptproblem: Semantik von Schemaelementen Relationales Datenmodell ist semantikarm Was speichert die Relation A20RR? Was speichert das Feld kunde.name? Vorname? Nachname? Titel?... Was ist Umsatz? Brutto? Netto? Nach Abzug Rabatte? Nach Abzug Steuern?... Schemaintegration bisher nicht automatisierbar Halbautomatische, interaktive Systeme Aktives Forschungsfeld: Schema Matching Raten von Korrespondenzen Instanz-, namens- oder strukturbasiert Ulf Leser: DWH und DM, Sommersemester 2007 26

Analyseorientiertes DWH Klassische Datenmodellierung Ziele: Redundanzvermeung / Integritätswahrung / hoher Durchsatz bei nebenläufigem Zugriff Normalformen, Fremdschlüssel, Satzsperren Für Lesen und Schreiben geeignet Ergebnis Viele Relationen, unübersichtliches Schema Viele Joins in (fast) allen Queries notwendig Optimieren schwierig: Viele Pläne, genaue und aktuelle Statistiken notwendig Joins lenken vom Analyseziel ab man möchte lieber mit Begriffen des Geschäftsprozesses umgehen Multimensionale Modellierung Ulf Leser: DWH und DM, Sommersemester 2007 27

Beispiel: Normalisiertes Schema year year customer name cust_class discount customer_ productg_ discount line_item order_ product_ amount single_price productgroup name product productgroup_ month Month year_ day day month_ session cust_ day_ time order session_ supply_ total_amount order_status order_ supply_ status supply_station region_ region name Ulf Leser: DWH und DM, Sommersemester 2007 28

Multimensionales Schema customer name cust_class time day month year line_item order_ product_ amount single_price discount_rate product name product_group supply region Technische Informationen raus (Session) Nur abgeschlossene Bestellungen aufnehmen (Orderstatus) Zusammenfassen (discount_rate) Denormalisieren (überall) Konzentration auf Businessobjekte und -prozesse Ulf Leser: DWH und DM, Sommersemester 2007 29

Starschema customer name cust_class time day month year line_item order_ product_ amount Star single_price discount_rate product name product_group supply region Ulf Leser: DWH und DM, Sommersemester 2007 30

Dimensionen und Fakten customer name cust_class time day month year Faktentabelle line_item order_ product_ amount single_price discount_rate Dimensionstabellen product name product_group supply region Ulf Leser: DWH und DM, Sommersemester 2007 31

time Cube DVD Verkäufe in Hessen in 2002 2002 2001 2000 1999 Sales Cube NRW Hessen region Bücher CD Gesch. DVD produkt_group Cube -> Hypercube: Bon / Lieferant / Kunde /... Ulf Leser: DWH und DM, Sommersemester 2007 32

4. Abgeleitete Sichten 10 0 80 60 40 20 0 1. 2. 3. 4. Qrt l. Qrt l. Qrt l. Qrt l. Ulf Leser: DWH und DM, Sommersemester 2007 33

Abgeleitete Sichten Analysten benötigt spezielle Daten Aggregiert Alle Verkäufe in Norddeutschland nach Lieferanten Alle Verkäufe nach Niederlassung und Produkten Ausgewählt Alle Verkäufe in Niederlassung X Alle Verkäufe von Lieferant Y Probleme bei Auswertung auf Cube Wiederholte Durchforstung sehr großer Datenbestände notwendig Hohe Detailstufe des Cubes für viele Anfragen nicht notwendig Vorab-Erstellung von abgeleiteten Daten Data Marts Prä-aggregierte, angereicherte und gefilterte Sichten Ulf Leser: DWH und DM, Sommersemester 2007 34

Abgeleitete Sichten Themen Aktualität der Sichten Asynchrone / synchrone Aktualisierung Manuelle / automatische Aktualisierung Materialized Views Verwendung der Sichten Materialisierte Aggregation nach Produkten verwendbar für Aggregation nach Produktgruppen? Materialisierte Aggregation nach Wochen verwendbar für Aggregation nach Monaten? Ableitbarkeit von (Teil-)Anfragen aus Sichten Auswahl der Sichten Trade-Off Platzverbrauch, Aktualisierungskosten und Anfragebeschleunigung Ulf Leser: DWH und DM, Sommersemester 2007 35

Datenanalyse 10 0 80 60 40 20 0 1. 2. 3. 4. Qrt l. Qrt l. Qrt l. Qrt l. Ulf Leser: DWH und DM, Sommersemester 2007 36

5. Datenanalyse Einfache statistische Auswertung OLAP Operationen Reports OLAP Werkzeuge Häufig proprietäre Systeme, eigene (geheime) Indexstrukturen SAS, SPSS, BusinessObjects, Cognos, Excel, Funktionalität Grafische Werkzeuge Interaktive Datenauswahl, Filtering, Chaining,... Navigation, spez. im Cube Präsentation: Grafiken, Tabellen, Reports,... Die allermeisten Analysen sind Standardreports Versus Ad-hoc Anfragen Ulf Leser: DWH und DM, Sommersemester 2007 37

Data Mining Finden verborgender, nicht-trivialer Informationen Bereiche Statistische Analyse Maschinelle Lernverfahren Knowledge Discovery in Databases (KDD) Suche nach Auffälligkeiten, Mustern, Regeln Viele Kunden, die Windeln kaufen, kaufen auch Bier Suche nach Erklärungsmodellen Modell: Abstraktion der Wirklichkeit Korrelation versus Kausalität Ulf Leser: DWH und DM, Sommersemester 2007 38

Deskriptiv oder Präskriptiv Deskriptive Verfahren Zusammenfassen der wesentlichen Charakteristika von Daten Finden von Ausreißern Finden von Abhängigkeiten Warenkorbanalyse, Assoziationsregeln Finden von Gruppen (Clustering) Kunden mit gleichen Eigenschaften Präskriptive Verfahren Ableitung neuen Wissens auf den Daten Basiert auf Modellbildung (durch deskriptive Verfahren) Klassifikation Entscheungsbäume, Regelsysteme Vorhersage Extrapolation, Regression Ulf Leser: DWH und DM, Sommersemester 2007 39

Data Mining Prozess Ulf Leser: DWH und DM, Sommersemester 2007 40

6. Metadatenrepository 10 0 80 60 40 20 0 1. 2. 3. 4. Qrt l. Qrt l. Qrt l. Qrt l. Ulf Leser: DWH und DM, Sommersemester 2007 41

Metadatenrepository... entified as key success factor in DWH... Erweiterung der Datenbank Systemkatalogs Speicherung aller DWH relevanten Metadaten Quellbeschreibungen, Datentypen, Prozessbeschreibungen, Schema, Zugriffsgruppen, Sichtdefinitionen, Skripte, Autoren, Versionskontrolle, Konfigurationsmanagement,... Ziele Nachvollziehbarkeit der Prozesse Vermeung von Fehlinterpretationen Technische Beschreibung des DWH Produkte: Platinum CA, Microsoft, Oracle,... Standards: IRDS, OIM, CWM,... Ulf Leser: DWH und DM, Sommersemester 2007 42

7. DWH Manager 10 0 80 60 40 20 0 1. 2. 3. 4. Qrt l. Qrt l. Qrt l. Qrt l. Ulf Leser: DWH und DM, Sommersemester 2007 43

DWH Manager Häufig virtuelle Komponente Steuerung aller Prozesse: ETL, Sichtaktualisierung,... Verwaltung der Metadaten Performancemonitoring und Betriebsunterstützung Zugriffsschutz und Auditing Oftmals in Ausschnitten abgedeckt durch Standardwerkzeuge DB-Administrationswerkzeuge ETL Tools Batchsysteme Ulf Leser: DWH und DM, Sommersemester 2007 44

Oracle Warehouse Builder Ulf Leser: DWH und DM, Sommersemester 2007 45

Inhalt dieser Vorlesung Architektur Komponenten Prozesse ETL (Aktualisierung materialisierter Sichten) (Entwicklung, Betrieb, Qualitätskontrolle, ) Ulf Leser: DWH und DM, Sommersemester 2007 46

8. ETL 10 0 80 60 40 20 0 1. 2. 3. 4. Qrt l. Qrt l. Qrt l. Qrt l. Extraction Transformation Load Ulf Leser: DWH und DM, Sommersemester 2007 47

ETL - Extraktion Aufgabe Filtern der richtigen Daten aus den Quellen Bereitstellung der Datenfiles im gewünschten Format zum gewünschten Zeitpunkt am gewünschten Ort Kontinuierliche Datenversorgung des DWH Prinzip: Producer - Consumer Quelle informiert über Änderungen DWH konsumiert Änderungen Ulf Leser: DWH und DM, Sommersemester 2007 48

Parameter Extraktor Komponente zum Extrahieren der Daten aus den Quellen Wann liefert der Extraktor die Daten? Periodisch Synchron Ereignisgesteuert Welche Daten liefert der Extraktor? Kompletten Datenbestand (Snapshot) Alle Änderungen (Logfile) Nettoänderungen zu festen Zeitpunkten (Snapshot-Diff) In welcher Art liefert der Extraktor die Daten SQL Befehle (synchron/logfile: Replication) Flatfiles Ulf Leser: DWH und DM, Sommersemester 2007 49

ETL - Transformation Aufgabe Umwandlung der Daten in eine DWH-gerechte Form Form follows Function Quellen: hoher Transaktionsdurchsatz DWH: spezifische statistische Analysen Arten von Transformationen Schematransformationen Datentransformationen Transformationen möglich an zwei Stellen Transformation der Quell-Extrakte in Load-Files Transformation von Staging-Area nach Basis-DB Ulf Leser: DWH und DM, Sommersemester 2007 50

Schematransformationen 1 Welt 100 Anwendungen 1000 Schema Unterschiedliche Auffassungen Unterschiedliche Anforderungen Unterschiedliche Historie Unterschiedliche Datenmodelle Relationales Modell Objektorientierte Modelle (UML) Satzorientierte Formate (Cobol) Hierarchische Formate (IMS, XML) Unterschiedliche Modellierung Was ist Relation, was Attribut, was Wert? Schlüssel Ulf Leser: DWH und DM, Sommersemester 2007 51

Datentransformationen Syntax von Werten Datum: 20. Januar 2003, 20.01.2003, 1/20/03 Codierungen: 1: Adr. unbekannt, 2: alte Adresse, 3: gültige Adresse, 4: Adr. bei Ehepartner,... Sprache Abkürzungen/Schreibweisen: Str., strasse, Straße,... Datentypen, Semantik Datentypen: Real, Integer, String Genauigkeit, Feldlänge, Nachkommastellen,... Skalen: Noten, Temperatur, Längen, Währungen,... Ulf Leser: DWH und DM, Sommersemester 2007 52

ETL - Laden Aufgabe Effizientes Einbringen der neuen Daten in das DWH Techniken SQL Satzbasiert Standardschnittstellen: Embedded SQL, JDBC,... Einzelne Operationen oder proprietäre Erweiterungen Array Insert Beachtung und Aktivierung aller Datenbankverfahren Trigger, Indexaktualisierung, Concurrency,... BULK Loader Funktionen DB-spezifische Erweiterungen zum Laden großer Datenmengen Benutzung von Anwendungsschnittstellen Bei manchen Produkten notwendig (SAP) Ulf Leser: DWH und DM, Sommersemester 2007 53

BULK Uploads Für große Datenmengen einzige ausreichend performante Schnittstelle Kritischer Prozess LOAD füllt i.d.r. immer nur eine Tabelle LOAD setzt eine Sperre auf die gesamte Tabelle Während LOAD werden Integritätsconstraints, Trigger, Indexaktualisierung deaktiviert Nach LOAD werden IC überprüft und Indexe aktualisiert Trigger werden nicht ausgeführt Update oder Insert? (Upsert!) Performance von LOAD oft limitierender Faktor Ulf Leser: DWH und DM, Sommersemester 2007 54

Beispiel Handelshaus, Daten einer Woche, 1 Filiale Laden mit voller Qualitätskontrolle Laden mit partieller Datenverbesserung Nur Laden 10 min 2 min 45 sec Handelshaus, Daten einer Woche, 2000 Filiale Laden mit voller Qualitätskontrolle 330h = 14d Laden mit partieller Datenverbesserung 67 h = 2,8d Nur Laden 25h = 1d Ulf Leser: DWH und DM, Sommersemester 2007 55