Data Warehousing Architektur Komponenten Prozesse Ulf Leser Wissensmanagement in der Bioinformatik
Zusammenfassung letzte Vorlesung 1 Aufbau eines Data Warehouse Redundante, transformierte Datenhaltung Asynchrone Aktualisierung Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 2
Zweck: Analyse und Integration Verkaufen wir im Wedding mehr Dosenbier als in Zehlendorf? FILIALE 1 FILIALE 3... FILIALE 2 DWH Artikeldaten Analyse Kundendaten Welches sind meine Topkunden? Lieferanten daten Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 3
Vergleich OLTP - OLAP Typische Operationen Transaktionen Typische Anfragen Daten pro Operation Datenmenge in DB Eigenschaften der Daten Modellierung Typische Benutzer OLTP Insert, Update, Delete, Select Viele und kurz Einfache Queries, Primärschlüsselzugriff, Schnelle Abfolgen von Selects/inserts/updates/deletes Wenige Tupel Gigabyte Rohdaten, häufige Änderungen Anwendungsorientiert Sachbearbeiter OLAP Select Bulk-Inserts Lesetransaktionen Komplexe Queries: Aggregate, Groupierung, Subselects, etc. Range Queries über mehrere Attribute Megabyte Terabyte Abgeleitete Daten, historisch & stabil Themenorientiert Management Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 4
Inhalt dieser Vorlesung Übersicht und Architektur Komponenten Prozesse Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 5
Part I. DWH Grobarchitektur Hubs and Spokes Mart 1 Mart 2 Mart 3 Mart 4 Abgeleitete Basisdatenbank Sichten DWH Aktualisierungen Quellsysteme Quelle 1 RDBMS Quelle 2 IMS Quelle 3 Textfile Jahresumsatz: 2334.5565 Pro Monat Januar: 122.004 Februar 023.445 Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 6
DWH Anforderungen Flexible Zugriffsmöglichkeiten Skalierbarkeit in Datenmenge, Menge Quellen, Menge abgeleiteter Sichten Flexible gegen Schema- und Formatänderungen Hochverfügbarkeit Persistente Datenhaltung Dokumentation und Verständlichkeit Erweiterbarkeit Automatisierung (soweit möglich) Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 7
DWH Architektur & Komponenten 100 80 60 Ost Monitore 40 20 0 1. Qrtl. 2. Qrtl. 3. Qrtl. 4. Qrtl. West Nord Quelle 1 RDBMS Quelle 2 IMS Staging Area Staging Area Metadaten Cube Analysewerkzeuge Mart 2 Mart 1 Datenquellen Basisdaten Abgeleitete Sichten Arbeitsbereich Metadaten Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 8
Quelle 1 RDBMS Quelle 2 IMS Langlebigkeit 100 80 60 Ost 40 20 West Nord 0 1. Qrtl. 2. Qrtl. 3. Qrtl. 4. Qrtl. Metadaten Staging Area Staging Area Mart 2 Cube Mart 1 Flüchtig Persistent Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 9
Alternativen Physikalische Aufteilung variabel Data Marts auf eigenen Rechnern (Laptop) Staging Area auf eigenen Servern Metadaten auf eigenem Server (Repository) Quelle 1 RDBMS Quelle 2 IMS Staging Area Staging Area Cube Mart 2 Mart 1 Metadaten Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 10
Referenzarchitektur [BG00] Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 11
Reine Integrationsarchitektur Nur auf Integration bezogen Keine unmittelbare Analyseorientierung Staging Area: Relationale Darstellung der Quellen Quelle 1 RDBMS Quelle 2 IMS Rel. Schema Q1 Rel. Schema Q2 Metadaten Integriertes Schema Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 12
Teil I. Komponenten im Einzelnen 1. Datenquellen 2. Staging Area 3. Basisdatenbank 4. Abgeleitete Sichten 5. Analysewerkzeuge 6. Metadatenrepository 7. Data Warehouse Manager Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 13
1. Datenquellen 100 80 60 40 20 0 1. Qrtl. 2. Qrtl. 3. Qrtl. 4. Qrtl. Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 14
Datenquellen Meist sehr heterogen Technisch: RDBMS, IMS, Mainframe, Textfiles,... Logisch: Schema, Format, Repräsentation,... Syntaktisch: Datum, Währung, Zahlenkodierung,... Verfügbarkeit: Kontinuierlich, Periodisch,... Qualität: Fehlende / falsche Werte, Duplikate,... Rechtlich: Datenschutz (Kunden & Mitarbeiter!) Zugriff Push: Quelle erzeugt regelmäßig Extrakte Pull: DWH stößt Zugriff an / Online-Zugriff Individuelle Behandlung notwendig Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 15
Datenquellen Szenario Häufiges Schema kommerzieller DWH Viele Quellen eines bestimmten Types Weitere individuelle Quellen Filiale 1 Filiale 1 Filiale 1 Filialen Filiale 1 Filialen Filiale 1 Filiale 1 Lieferanten DWH Kunden Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 16
Datenquellen Themen Aktualisierung DWH Synchron oder asynchron Komplett oder Delta Updates Transformationsoperationen Load Techniken Planung und Modellierung ETL: Extraction, Transformation, Load Datenqualität Erkennen und Korrigieren Data Cleansing Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 17
2. Arbeitsbereich (Staging Area) 100 80 60 40 20 0 1. Qrtl. 2. Qrtl. 3. Qrtl. 4. Qrtl. Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 18
Arbeitsbereich Temporärer Speicher Quellnahes Schema Sinn ETL effizienter implementierbar: Mengenoperationen, SQL Effizienter Zugriff auf Basisdatenbank möglich (Upsert) Vergleich zwischen Datenquellen möglich Filter: Nur einwandfreie Daten in Basisdatenbank übernehmen Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 19
Typische Verwendung Vorher Extraktion der Daten aus Quelle mit Filter: Spaltenauswahl, Keine Reklamationen,... Erstellen eines LOAD Files mit einfachen Konvertierungen: Zahl String, Integer Real,... Zeilenorientiert read_line parse_line if (f[10]=2 & f[12]>0) write(file, f[1], string(f[4]), f[6]+f[7],...... bulk_upload( file) Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 20
Typische Verwendung Staging Area Komplexere Konvertierungen: Datum, Währung, MWST,... Vergleiche notwendig: Schlüssel, Namen,... Korrekturen: Ergänzungen, Schreibfehler,... Tagging von Datensätzen durch Prüf-Regeln Mengenorientiert UPDATE sales SET price=price/mwst; UPDATE sales SET cust_name= (SELECT cust_name FROM customer WHERE id=cust_id);... UPDATE sales SET f1=false WHERE cust_name IS NULL;... INSERT INTO DWH SELECT * FROM sales WHERE f1=true & f2=true &... Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 21
Arbeitsbereich Weitere Themen Keine speziellen Siehe Datenqualität Siehe ETL Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 22
3. Basisdatenbank 100 80 60 40 20 0 1. Qrtl. 2. Qrtl. 3. Qrtl. 4. Qrtl. Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 23
Basisdatenbank Zentrale Komponente des DWH Begriff DWH meint oft nur die Basisdatenbank Speichert Daten in feinster Auflösung Einzelne Verkäufe Einzelne Bons Historische Daten Riesige Datenmengen Spezielle Modellierung Spezielle Optimierungsstrategien Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 24
DWH als... Unterschiedliche Philosophien Enterprise DWH Schemaintegration Analyseorientiertes DWH Multidimensionale Modellierung Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 25
DWH als Enterprise Model Idee: DWH enthält alle Unternehmensdaten Schema muss Unternehmen komplett abdecken Konzeptionelles Enterprise Model als Grundlage der Unternehmens-DV Nutzen Angleichung von Unternehmensabläufen Computergestützter Zugriff als alle Unternehmensdaten und - prozesse SAP R/3, Baan Probleme Extrem komplexes Schema Häufige Änderungen notwendig Unklarer Nutzen Scheitert meist: ERP, CRM, SCM, Sales,... Manugistics, Commerce-One Siebel, SAP Intershop,... Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 26
Schemaintegration Gegeben: Menge Q i mit Schema S i Gesucht: Schema S = S i Aber: Heterogenitäten Datenmodelle: OO, Relational, IMS,... Semantik: Homonyme, Synonyme,... Syntax: Formate, Sprache,... Viele Vorschläge, wenig erfolgreiche Verfahren Halbautomatische, vorschlagorientiert Systeme Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 27
Schemaintegration 2 Hauptproblem: Semantik von Schemaelementen Relationale Schema extrem semantikarm Relationen Attribute Eingeschränkt: Assoziationen Was speichert die Relation A20RR? Was speichert das Feld Kunde.Name? Was ist Umsatz? Integration praktisch nicht automatisierbar Beispiel: GIM Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 28
Analyseorientiertes DWH Klassische Datenmodellierung Ziele: Redundanzvermeidung / Integritätswahrung / nebenläufiger Zugriff Normalformen, Fremdschlüssel, Satzsperren Für Lesen / Schreiben geeignet Ergebnis Viele Relationen, unübersichtliches Schema (Viele) Joins in (fast) allen Queries notwendig Optimieren schwierig: Partitionen, viele Pläne,... Langsam bei sehr großen Relationen Multidimensionale Modellierung Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 29
Multidimensionale Modellierung Analyseorientierte, intuitive Modellierung Fakten & Dimensionen Star / Snowflake Schema Definition spezieller Operationen: Slice, Roll-Up, Cube Vermeidung von Joins Hochredundante Datenhaltung Wenige, sehr große Tabellen Spezielle Optimierungsverfahren Optimiert für Lesezugriff Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 30
Beispiel 1- Normalisiertes Schema id year Year Month Id Month year_id Day Id day month_id Sales Bon_id Article_id amount single_price Bon Id Day_id Shop_id Total_amt id name Productgroup Article id Productgroup_id Shop id region_id id name Region Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 31
id day month year Time Bon Id Day_id Shop_id Total_amt Beispiel 2- Multidimensionales Schema Sales Bon_id Product_id amount Location_id Region_id day month year Time_id Star Product id Article_id Article_name Productgroup_id Productgroup_name Location id shop_id region_id region_name Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 32
id day month year Time Bon Id Day_id Shop_id Total_amt Beispiel 2- Multidimensionales Schema Faktentabelle Sales Bon_id Product_id amount Location_id Region_id day month year Time_id Dimensionstabellen Product id Article_id Article_name Productgroup_id Productgroup_name Location id shop_id region_id region_name Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 33
Cube Bier Verkäufe in BWB in 2002 Time Product 2002 Sales Cube 2001 2000 Limo Bier 1999 Location BWB Bayern Berlin NRW Cube -> Hypercube: Bon / Lieferant / Kunde /... Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 34
Zwei Wege zum Schema Bottom-Up: Enterprise Model 1. Quellen analysieren 2. Integriertes Schema ableiten 3. ETL-Prozesse definieren Top-Down: Multidimensional 1. Ziel des DWH festlegen 2. Notwendige Quellen auswählen 3. ETL Prozesse definieren Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 35
Basisdatenbank Weitere Themen Modellierung Multidimensionale Modellierung Operatoren Optimierung Spezielle Joinverfahren Partitionierung Indexierung Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 36
4. Abgeleitete Sichten 100 80 60 40 20 0 1. Qrtl. 2. Qrtl. 3. Qrtl. 4. Qrtl. Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 37
Abgeleitete Sichten Analysten benötigt spezielle Daten Aggregiert Alle Verkäufe in Norddeutschland nach Lieferanten Alle Verkäufe nach Niederlassung und Produkten Ausgewählt Alle Verkäufe in Niederlassung X Alle Verkäufe von Lieferant X Probleme bei Auswertung auf Cube Sehr, sehr große Records Hohe Detailstufe Langsame Aggegrations / Gruppierungs / Selektionsoperationen Vorab Erstellung von Data Marts: präaggregierte, gefilterte, abgeleitete Sichten Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 38
Abgeleitete Sichten Weitere Themen Aktualität der Sichten Asynchrone / Synchrone Aktualisierung Manuelle / automatisch Materialized Views Verwendung der Sichten Materialisierte Aggregation nach Produkten verwendbar für Aggregation nach Produktgruppen? Materialisierte Aggregation nach Wochen verwendbar für Aggregation nach Monaten? Answering Queries using Views Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 39
Datenanalyse 100 80 60 40 20 0 1. Qrtl. 2. Qrtl. 3. Qrtl. 4. Qrtl. Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 40
5. Analysewerkzeuge Hier nicht Thema Siehe Datenanalyse, Data Mining, Statistik,... OLAP Werkzeuge Häufig proprietäre Systeme, eigene (geheime) Indexstrukturen Abgesetzte Datenhaltung: OLAP auf dem Laptop Excel Funktionalität Grafische Werkzeuge Interaktive Datenauswahl, Filter, Chaining,... Navigation, spez. im Cube Präsentation: Grafiken, Tabellen, Reports,... 70-80% aller Analysen sind Standardreports Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 41
ROLAP Server Anbieter: Microstrategy, Cognos, Business Objects Spezieller Server zwischen Front-End und Datenbankserver Download von Daten von DBS und lokale Indizierung und Manipulation Weitere Aufgaben Präaggregationen auswählen und aktualisieren Umschreiben von OLAP Operatoren in effizientes, DBMSoptimiertes SQL Scheduling von Reports auf off-peak Zeiten Ressourcenüberwachung etc. Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 42
6. Metadatenrepository 100 80 60 40 20 0 1. Qrtl. 2. Qrtl. 3. Qrtl. 4. Qrtl. Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 43
Metadatenrepository... identified as key success factor in DWH... [SVV99] Erweiterung der DB Repositories Speicherung aller DWH relevanten Metadaten Quellbeschreibungen, Datentypen, Prozessbeschreibungen, Schema, Zugriffsgruppen, Sichtdefinitionen, Skripte, Autoren, Versionskontrolle, Konfigurationsmanagement,... Ziele Nachvollziehbarkeit der Prozesse Wer, wann, was? Wie aktuell sind meine Daten? Vermeidung von Fehlinterpretationen Welcher Zeitraum ist hier gemeint? % von was? Technische Beschreibung des DWH Wer hat das programmiert? Was passiert, wenn..? Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 44
Metadatenmanagement Idealfall Parametrisierung statt Programmierung Generische DWH Komponenten interpretieren Metadaten ETL Prozesse Automatische Sichtableitung... Produkte: Platinum CA, Microsoft, Oracle,... Standards: IRDS, OIM, CWM,... Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 45
Metadaten Weitere Themen Modellierung von Metadaten Metadaten Standards Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 46
7. DWH Manager 100 80 60 40 20 0 1. Qrtl. 2. Qrtl. 3. Qrtl. 4. Qrtl. Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 47
DWH Manager Häufig virtuelle Komponenten Steuerung aller Prozesse: ETL, Sichtaktualisierung,... Verwaltung der Metadaten Performancemonitoring und Betriebsunterstützung Zugriffsschutz und Auditing Tw. abgedeckt durch Standardwerkzeuge DB-Administrationswerkzeuge ETL Tools Batchsysteme Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 48
Zusammenfassung Komponenten Heterogene Datenquellen Komplexe Transformations- und Aktualitätsprobleme Basisdatenbank: Mutter aller Datenbanken Spezielle Probleme erfordern speziellen Lösungen: Datenmodellierung, Zugriffsoptimierung,... Alle DWH-Daten sind abgeleitet: Nachvollziehbarkeit muss gewährleistet sein Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 49
Teil II. DWH Prozesse 100 80 60 40 20 0 1. Qrtl. 2. Qrtl. 3. Qrtl. 4. Qrtl. E xtraction T ransformation L oad Aggregation View Maintenance Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 50
1. ETL - Extraction Aufgabe Filtern der richtigen Daten aus Quellen Bereitstellung der Datenfiles im gewünschten Format zum gewünschten Zeitpunkt am gewünschten Ort Kontinuierliche Datenversorgung des DWH Prinzip: Producer - Consumer Quelle informiert über Änderungen DWH konsumiert Änderungen Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 51
Historische Daten Quellen speichern oft nur Fenster Verkäufe einer Woche, Telefonate letzte 3 Monate,.. DWH sammelt Daten über langen Zeitraum Load Operationale e DB DWH INSERT Read UPDATE Read DELETE Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 52
Parameter der Datenversorgung Wann liefert der Extraktor die Daten? Periodisch Synchron Ereignisgesteuert Welche Daten liefert der Extraktor? Kompletten Datenbestand (Snapshot) Alle Änderungen (Logfile) Nettoänderungen zu fix. Zeitpunkten (Snapshot-Diff) In welcher Art liefert der Extraktor die Daten SQL Befehle (synchron/logfile: Replication) Flatfiles Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 53
ETL - Transformation Aufgabe Umwandlung der Daten in eine DWH-gerechte Form Form follows Function Quellen: schnelles Logging, schnelles Exportieren DWH: Unterstützung spezifischer Analysen Zwei Transformationsschritte Transformation der Quell-Extrakte in Load-Files Transformation von Staging-Area nach Basis-DB Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 54
Schematransformationen 1 Welt 100 Anwendungen 1000 Schema Unterschiedliche Auffassungen Unterschiedliche Anforderungen Unterschiedliche Datenmodelle Relationales Modell Object-orientiertes Modell (UML) Satzorientierte Formate Hierarchische Formate (XML) Unterschiedliche Modellierung Was ist Relation, was Attribut, was Wert? Schlüssel Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 55
Datentransformationen Syntax von Werten Datum: 20. Januar 2003, 20.01.2003, 1/20/03 Codierungen: 1: Adr. unbekannt, 2: alte Adresse, 3: gültige Adresse, 4: Adr. bei Ehepartner,... Sprache Abkürzungen/Schreibweisen: Str., strasse, Straße,... Datentypen, Semantik Datentypen: Real, Integer, String Genauigkeit, Feldlänge, Nachkommastellen,... Skalen: Noten, Temperatur, Längen, Währungen,... Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 56
ETL - Load Aufgabe Effizientes Einbringen der neuen Daten in das DWH Sehr kritischer Punkt Load-Vorgänge blockieren i.d.r. die komplette DB (Schreibzugriff auf komplette Tabelle) Konsistenz, Trigger, Ics während Ladevorgang Indexaktualisierung Update oder Insert? (Upsert!) Performance von LOAD oft limitierender Faktor der DWH Funktionalität Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 57
Beispiel Handelshaus, Daten einer Woche, 1 Filiale Laden mit voller Qualitätskontrolle 10 min Laden mit partieller Datenverbesserung 2 min Nur Laden 45 sec Handelshaus, Daten einer Woche, 2000 Filiale Laden mit voller Qualitätskontrolle 330h = 14d Laden mit partieller Datenverbesserung 67 h = 2,8d Nur Laden 25h = 1d Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 58
Techniken SQL Satzbasiert Standard-Schnittstellen: PRO*SQL, JDBC,... Einzelne Operationen oder proprietäre Erweiterungen (Arrays) Benutzung der Standard DB-Verfahren: Trigger, Indexaktualisierung, Concurrency,... BULK Loader Funktionen DB-spezifische Erweiterungen zum Laden großer Datenmengen Keine Trigger, komplette Tabellensperre, keine Constraints,... Benutzung von Anwendungsschnittstellen Bei manchen Produkten notwendig (SAP) Vorsicht! Praxis: BULK Uploads Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 59
ETL Themen Wann wird aktualisiert Synchron / asynchron, Push / Pull Was wird zur Verfügung gestellt Alle Daten / Nur Änderungen / Delta Files Quell Monitoring und ETL Scheduling Wie werden die Daten zur Verfügung gestellt Format, Struktur Transformationen Was wird übernommen Datenqualität, Datenselektion Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 60
2. Aggregation / Ableitung Aufgabe Bereitstellung präprozessierter Daten Zugriffsbeschleunigung Präprozessierung Aggregation Transformation in spezielle Schema Benutzung spezieller Speicherstrukturen Datenselektion Funktionen heute tw. in DB-Produkten enthalten Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 61
Ableitung Themen Aktualität der Sichten Asynchrone / Synchrone Aktualisierung Manuell / automatisch Materialized Views Verwendung der Sichten Materialisierte Aggregation nach Produkten verwendbar für Aggregation nach Produktgruppen? Materialisierte Aggregation nach Wochen verwendbar für Aggregation nach Monaten? Answering Queries using Views Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 62
Zusammenfassung Prozesse An verschiedenen Stellen ähnliche Prozesse Datenextraktion und filterung Datentransformation Updates / Einfügen großer Datenmengen Datenmodell, Schema und Daten Aktualisierungsprozesse versus Benutzerbetrieb Metadaten: Transformationsregeln, Scheduling Datenqualität ist (auch) Prozesseigenschaft Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 63
Part III. Weitere DWH Begriffe Data Marts (viele Definitionen vorhanden!) Abhängige Data Marts: Abgeleitet von Basisdatenbank Unabhängige Data Marts: Kleine DWH : Abteilungsweit, Spartenweit, nur Reklamationen,... Operational Data Store (ODS) [Inm96] Stufe 0: Isolierter AB, 1:1 Quellübernahme Stufe I: Isolierter Arbeitsbereich, Transformationen Stufe II: Arbeitsbereich als Durchgangsstation Stufe III: Entspricht Data Mart Stufe IV: Mischung aus Basis-DB, Data Mart und AB Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 64
Literatur [AM00] Adelmann, Moss: Data Warehouse Risks, in Data Warehouse Project Management, Addison- Wesley, 2000 [BG01]: Bauer, Günzel: Data Warehouse Systeme: Architektur, Entwicklung, Anwendung, dpunkt.verlag, 2001 [Leh03] Lehner: Datenbanktechnologie für Data Warehouse Systeme, dpunkt.verlag, 2003 [Kim98] Kimball et al. The Data Warehouse Life Cycle Toolkit, John Wiley & Sons, 1998 Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 65