Data Warehousing. Komponenten Prozesse. Architektur. Wissensmanagement in der. Bioinformatik. Ulf Leser

Ähnliche Dokumente
Data Warehousing. Architektur Komponenten Prozesse. Ulf Leser Wissensmanagement in der Bioinformatik

Data Warehousing und Data Mining

Data Warehousing. Sommersemester Ulf Leser Wissensmanagement in der Bioinformatik

Data Warehousing und Data Mining

Informationsintegration

Data Warehousing und Data Mining

Data Warehouse schnell gemacht Performanceaspekte im Oracle DWH

Data Warehousing. Sommersemester Ulf Leser Wissensmanagement in der Bioinformatik

Marketing Intelligence Vorstellung der Softwarekomponenten. Josef Kolbitsch Manuela Reinisch

Multidimensionale Modellierung

Business Intelligence Data Warehouse. Jan Weinschenker

Oracle-Statistiken im Data Warehouse effizient nutzen

Data Warehouse ??? Ein Data Warehouse ist keine von der Stange zu kaufende Standardsoftware, sondern immer eine unternehmensindividuelle

Veit Köppen Gunter Saake Kai-Uwe Sattler. 2. Auflage. Data Warehouse Technologien

Data Warehouse Technologien

Datenbanksysteme 2 Frühjahr-/Sommersemester Mai 2014

Themenblock: Erstellung eines Cube

1Ralph Schock RM NEO REPORTING

Data-Warehouse-Technologien

Logische Modelle für OLAP. Burkhard Schäfer

Einführung relationale Datenbanken. Themenblock: Erstellung eines Cube. Schlüssel. Relationenmodell Relationenname Attribut. Problem.

Performance by Design Wie werden performante ETL-Prozesse erstellt?

Datenbanksysteme I Data Warehouses Felix Naumann

tdwi E U R D P E OPEN SOURCE BUSINESS INTELLIGENCE HANSER MÖGLICHKEITEN, CHANCEN UND RISIKEN QUELLOFFENER BI-LÖSUNGEN

Modellbasierte Business Intelligence in der Praxis. Nürnberg,

Allgemeines zu Datenbanken

Data Warehousing. DWH Projekte. Ulf Leser Wissensmanagement in der Bioinformatik

BIW - Überblick. Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004

Modul Datenbanksysteme 2 Prüfung skizzenhaft SS Aug Name: Note:

Verwandt, logisch kohärent, zweckspezifisch, an reale Welt orientiert. Entität kann in einer oder mehreren Unterklassen sein

OLAP und Data Warehouses

Datenmanagement in Android-Apps. 16. Mai 2013

Aufgabe 1: [Logische Modellierung]

Dateninteroperabilität für INSPIRE in der Praxis Datenintegration und -harmonisierung

Datenbanksysteme I Data Warehouses Felix Naumann

SOLISYON GMBH TOBIAS GRUBER BEN WEISSMAN. Analyse von Dimensions-Schlüsselfehlern bei der Aufbereitung von SSAS Datenbanken

Fallbeispiel Zahlungsverkehr

Grundzüge und Vorteile von XML-Datenbanken am Beispiel der Oracle XML DB

Klausur Interoperabilität

Dipl. Inf. Dipl. Math. Y. Orkunoglu Datum:

Data Warehousing. Ausführung von OLAP Operationen. Ulf Leser Wissensmanagement in der Bioinformatik

30. Juni Technische Universität Kaiserslautern. Paul R. Schilling

Whitepaper. Produkt: combit Relationship Manager. Einbindung externer FiBu-/Warenwirtschaftsdaten. combit GmbH Untere Laube Konstanz

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Data Warehousing. Fragen des Marketingleiters. Beispiel: : Amazon. Technisch... Amazon weltweit... Datenbank. Aufbau eines DWH OLAP <-> OLTP Datacube

Qualitätssicherung bei der mobilen Datenerfassung

C09: Einsatz SAP BW im Vergleich zur Best-of-Breed-Produktauswahl

Einführung in OLAP und Business Analysis. Gunther Popp dc soft GmbH

GEOPROCESSING UND MODELBUILDER

Seminar C02 - Praxisvergleich OLAP Tools

Seminar in der Seminarreihe Business Intelligence 1. OLAP und Datawarehousing

Marketing Intelligence Architektur und Konzepte. Josef Kolbitsch Manuela Reinisch

IVS Arbeitsgruppe Softwaretechnik Abschnitt Management komplexer Integrationslösungen

In diesem Thema lernen wir die Grundlagen der Datenbanken kennen und werden diese lernen einzusetzen. Access. Die Grundlagen der Datenbanken.

Seminar C16 - Datenmodellierung für SAP BW

INDIVIDUELLE SOFTWARELÖSUNGEN CUSTOMSOFT CS GMBH

Performanceaspekte in der SAP BI Modellierung

Datenbanktechnologie für Data-Warehouse-Systeme

So erstellen Sie wichtige Berichte mit Microsoft Technologie Tipps für PMO und IT

RE.one. Self Service Information Management für die Fachabteilung

6. Sichten, Integrität und Zugriffskontrolle. Vorlesung "Informa=onssysteme" Sommersemester 2015

Vorwort zur 5. Auflage Über den Autor... 16

Kapitel 10 Aktive DBMS

ETL in den Zeiten von Big Data

Entwicklung einer Informix- Administrationsdatenbank mit ERwin

Open Source BI 2009 Flexibilität und volle Excel-Integration von Palo machen OLAP für Endanwender beherrschbar. 24. September 2009

Index- und Zugriffsstrukturen für. Holger Brämer, 05IND-P

Die sichere Datenhaltung für optimierte Qualitätssicherung

Erweiterungen Webportal

Mobiles SAP für Entscheider. Permanente Verfügbarkeit der aktuellen Unternehmenskennzahlen durch den mobilen Zugriff auf SAP ERP.

2 Datenbanksysteme, Datenbankanwendungen und Middleware... 45

Die Entwicklung eines Glossars (oder eines kontrollierten Vokabulars) für ein Unternehmen geht üblicherweise in 3 Schritten vor sich:

Studierenden-Kennzahlen im Griff dank flexiblem Reporting und Ad-hoc-Analysen

Best Practices: BI mit Open-Source-Tools

Data Warehouse Grundlagen

So gehts Schritt-für-Schritt-Anleitung

1 WEB ANALYTICS: PROFESSIONELLE WEB-ANALYSEN UND REPORTING FÜR IHR ONLINE MARKETING.

Nach Data Warehousing kommt Business Intelligence

Universität Augsburg, Institut für Informatik WS 2006/2007 Dr. W.-T. Balke 27. Nov M. Endres, A. Huhn, T. Preisinger Lösungsblatt 5

1. Einführung. 2. Alternativen zu eigenen Auswertungen. 3. Erstellen eigener Tabellen-Auswertungen

BI Konsolidierung: Anspruch & Wirklichkeit. Jacqueline Bloemen. in Kooperation mit

Möglichkeiten für bestehende Systeme

Objektorientierte Datenbanken

MOC 20467B: Business Intelligence-Lösungen mit Microsoft SQL Server 2012 entwerfen

Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph!

Survival Guide für Ihr Business Intelligence-Projekt

pro4controlling - Whitepaper [DEU] Whitepaper zur CfMD-Lösung pro4controlling Seite 1 von 9

Logische Datenmodellierung zur Abbildung mehrdimensionaler Datenstrukturen im SAP Business Information Warehouse

Dokumentation. Black- und Whitelists. Absenderadressen auf eine Blacklist oder eine Whitelist setzen. Zugriff per Webbrowser

Bibliografische Informationen digitalisiert durch

IT-basierte Kennzahlenanalyse im Versicherungswesen

MetaNavigation der effizienteste Weg maximalen Mehrwert aus BI Metadaten zu ziehen

Data Warehousing. Modellierung im DWH Das multidimensionale Datenmodell. Ulf Leser Wissensmanagement in der Bioinformatik

GI-Technologien zur Umsetzung der EU-Wasserrahmenrichtlinie (WRRL): Wissensbasen. Teil 1: Einführung: Wissensbasis und Ontologie.

Kampagnenmanagement mit Siebel Marketing/Oracle BI ein Praxisbericht

Urs Meier Art der Info Technical Info (Februar 2002) Aus unserer Projekterfahrung und Forschung

SQL Server 2012 und SharePoint im Unternehmenseinsatz. Referent Daniel Caesar

Informationsintegration

Programmierparadigmen. Programmierparadigmen. Imperatives vs. objektorientiertes Programmieren. Programmierparadigmen. Agenda für heute, 4.

Transkript:

Data Warehousing Architektur Komponenten Prozesse Ulf Leser Wissensmanagement in der Bioinformatik

Zusammenfassung letzte Vorlesung 1 Aufbau eines Data Warehouse Redundante, transformierte Datenhaltung Asynchrone Aktualisierung Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 2

Zweck: Analyse und Integration Verkaufen wir im Wedding mehr Dosenbier als in Zehlendorf? FILIALE 1 FILIALE 3... FILIALE 2 DWH Artikeldaten Analyse Kundendaten Welches sind meine Topkunden? Lieferanten daten Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 3

Vergleich OLTP - OLAP Typische Operationen Transaktionen Typische Anfragen Daten pro Operation Datenmenge in DB Eigenschaften der Daten Modellierung Typische Benutzer OLTP Insert, Update, Delete, Select Viele und kurz Einfache Queries, Primärschlüsselzugriff, Schnelle Abfolgen von Selects/inserts/updates/deletes Wenige Tupel Gigabyte Rohdaten, häufige Änderungen Anwendungsorientiert Sachbearbeiter OLAP Select Bulk-Inserts Lesetransaktionen Komplexe Queries: Aggregate, Groupierung, Subselects, etc. Range Queries über mehrere Attribute Megabyte Terabyte Abgeleitete Daten, historisch & stabil Themenorientiert Management Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 4

Inhalt dieser Vorlesung Übersicht und Architektur Komponenten Prozesse Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 5

Part I. DWH Grobarchitektur Hubs and Spokes Mart 1 Mart 2 Mart 3 Mart 4 Abgeleitete Basisdatenbank Sichten DWH Aktualisierungen Quellsysteme Quelle 1 RDBMS Quelle 2 IMS Quelle 3 Textfile Jahresumsatz: 2334.5565 Pro Monat Januar: 122.004 Februar 023.445 Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 6

DWH Anforderungen Flexible Zugriffsmöglichkeiten Skalierbarkeit in Datenmenge, Menge Quellen, Menge abgeleiteter Sichten Flexible gegen Schema- und Formatänderungen Hochverfügbarkeit Persistente Datenhaltung Dokumentation und Verständlichkeit Erweiterbarkeit Automatisierung (soweit möglich) Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 7

DWH Architektur & Komponenten 100 80 60 Ost Monitore 40 20 0 1. Qrtl. 2. Qrtl. 3. Qrtl. 4. Qrtl. West Nord Quelle 1 RDBMS Quelle 2 IMS Staging Area Staging Area Metadaten Cube Analysewerkzeuge Mart 2 Mart 1 Datenquellen Basisdaten Abgeleitete Sichten Arbeitsbereich Metadaten Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 8

Quelle 1 RDBMS Quelle 2 IMS Langlebigkeit 100 80 60 Ost 40 20 West Nord 0 1. Qrtl. 2. Qrtl. 3. Qrtl. 4. Qrtl. Metadaten Staging Area Staging Area Mart 2 Cube Mart 1 Flüchtig Persistent Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 9

Alternativen Physikalische Aufteilung variabel Data Marts auf eigenen Rechnern (Laptop) Staging Area auf eigenen Servern Metadaten auf eigenem Server (Repository) Quelle 1 RDBMS Quelle 2 IMS Staging Area Staging Area Cube Mart 2 Mart 1 Metadaten Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 10

Referenzarchitektur [BG00] Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 11

Reine Integrationsarchitektur Nur auf Integration bezogen Keine unmittelbare Analyseorientierung Staging Area: Relationale Darstellung der Quellen Quelle 1 RDBMS Quelle 2 IMS Rel. Schema Q1 Rel. Schema Q2 Metadaten Integriertes Schema Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 12

Teil I. Komponenten im Einzelnen 1. Datenquellen 2. Staging Area 3. Basisdatenbank 4. Abgeleitete Sichten 5. Analysewerkzeuge 6. Metadatenrepository 7. Data Warehouse Manager Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 13

1. Datenquellen 100 80 60 40 20 0 1. Qrtl. 2. Qrtl. 3. Qrtl. 4. Qrtl. Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 14

Datenquellen Meist sehr heterogen Technisch: RDBMS, IMS, Mainframe, Textfiles,... Logisch: Schema, Format, Repräsentation,... Syntaktisch: Datum, Währung, Zahlenkodierung,... Verfügbarkeit: Kontinuierlich, Periodisch,... Qualität: Fehlende / falsche Werte, Duplikate,... Rechtlich: Datenschutz (Kunden & Mitarbeiter!) Zugriff Push: Quelle erzeugt regelmäßig Extrakte Pull: DWH stößt Zugriff an / Online-Zugriff Individuelle Behandlung notwendig Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 15

Datenquellen Szenario Häufiges Schema kommerzieller DWH Viele Quellen eines bestimmten Types Weitere individuelle Quellen Filiale 1 Filiale 1 Filiale 1 Filialen Filiale 1 Filialen Filiale 1 Filiale 1 Lieferanten DWH Kunden Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 16

Datenquellen Themen Aktualisierung DWH Synchron oder asynchron Komplett oder Delta Updates Transformationsoperationen Load Techniken Planung und Modellierung ETL: Extraction, Transformation, Load Datenqualität Erkennen und Korrigieren Data Cleansing Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 17

2. Arbeitsbereich (Staging Area) 100 80 60 40 20 0 1. Qrtl. 2. Qrtl. 3. Qrtl. 4. Qrtl. Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 18

Arbeitsbereich Temporärer Speicher Quellnahes Schema Sinn ETL effizienter implementierbar: Mengenoperationen, SQL Effizienter Zugriff auf Basisdatenbank möglich (Upsert) Vergleich zwischen Datenquellen möglich Filter: Nur einwandfreie Daten in Basisdatenbank übernehmen Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 19

Typische Verwendung Vorher Extraktion der Daten aus Quelle mit Filter: Spaltenauswahl, Keine Reklamationen,... Erstellen eines LOAD Files mit einfachen Konvertierungen: Zahl String, Integer Real,... Zeilenorientiert read_line parse_line if (f[10]=2 & f[12]>0) write(file, f[1], string(f[4]), f[6]+f[7],...... bulk_upload( file) Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 20

Typische Verwendung Staging Area Komplexere Konvertierungen: Datum, Währung, MWST,... Vergleiche notwendig: Schlüssel, Namen,... Korrekturen: Ergänzungen, Schreibfehler,... Tagging von Datensätzen durch Prüf-Regeln Mengenorientiert UPDATE sales SET price=price/mwst; UPDATE sales SET cust_name= (SELECT cust_name FROM customer WHERE id=cust_id);... UPDATE sales SET f1=false WHERE cust_name IS NULL;... INSERT INTO DWH SELECT * FROM sales WHERE f1=true & f2=true &... Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 21

Arbeitsbereich Weitere Themen Keine speziellen Siehe Datenqualität Siehe ETL Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 22

3. Basisdatenbank 100 80 60 40 20 0 1. Qrtl. 2. Qrtl. 3. Qrtl. 4. Qrtl. Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 23

Basisdatenbank Zentrale Komponente des DWH Begriff DWH meint oft nur die Basisdatenbank Speichert Daten in feinster Auflösung Einzelne Verkäufe Einzelne Bons Historische Daten Riesige Datenmengen Spezielle Modellierung Spezielle Optimierungsstrategien Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 24

DWH als... Unterschiedliche Philosophien Enterprise DWH Schemaintegration Analyseorientiertes DWH Multidimensionale Modellierung Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 25

DWH als Enterprise Model Idee: DWH enthält alle Unternehmensdaten Schema muss Unternehmen komplett abdecken Konzeptionelles Enterprise Model als Grundlage der Unternehmens-DV Nutzen Angleichung von Unternehmensabläufen Computergestützter Zugriff als alle Unternehmensdaten und - prozesse SAP R/3, Baan Probleme Extrem komplexes Schema Häufige Änderungen notwendig Unklarer Nutzen Scheitert meist: ERP, CRM, SCM, Sales,... Manugistics, Commerce-One Siebel, SAP Intershop,... Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 26

Schemaintegration Gegeben: Menge Q i mit Schema S i Gesucht: Schema S = S i Aber: Heterogenitäten Datenmodelle: OO, Relational, IMS,... Semantik: Homonyme, Synonyme,... Syntax: Formate, Sprache,... Viele Vorschläge, wenig erfolgreiche Verfahren Halbautomatische, vorschlagorientiert Systeme Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 27

Schemaintegration 2 Hauptproblem: Semantik von Schemaelementen Relationale Schema extrem semantikarm Relationen Attribute Eingeschränkt: Assoziationen Was speichert die Relation A20RR? Was speichert das Feld Kunde.Name? Was ist Umsatz? Integration praktisch nicht automatisierbar Beispiel: GIM Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 28

Analyseorientiertes DWH Klassische Datenmodellierung Ziele: Redundanzvermeidung / Integritätswahrung / nebenläufiger Zugriff Normalformen, Fremdschlüssel, Satzsperren Für Lesen / Schreiben geeignet Ergebnis Viele Relationen, unübersichtliches Schema (Viele) Joins in (fast) allen Queries notwendig Optimieren schwierig: Partitionen, viele Pläne,... Langsam bei sehr großen Relationen Multidimensionale Modellierung Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 29

Multidimensionale Modellierung Analyseorientierte, intuitive Modellierung Fakten & Dimensionen Star / Snowflake Schema Definition spezieller Operationen: Slice, Roll-Up, Cube Vermeidung von Joins Hochredundante Datenhaltung Wenige, sehr große Tabellen Spezielle Optimierungsverfahren Optimiert für Lesezugriff Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 30

Beispiel 1- Normalisiertes Schema id year Year Month Id Month year_id Day Id day month_id Sales Bon_id Article_id amount single_price Bon Id Day_id Shop_id Total_amt id name Productgroup Article id Productgroup_id Shop id region_id id name Region Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 31

id day month year Time Bon Id Day_id Shop_id Total_amt Beispiel 2- Multidimensionales Schema Sales Bon_id Product_id amount Location_id Region_id day month year Time_id Star Product id Article_id Article_name Productgroup_id Productgroup_name Location id shop_id region_id region_name Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 32

id day month year Time Bon Id Day_id Shop_id Total_amt Beispiel 2- Multidimensionales Schema Faktentabelle Sales Bon_id Product_id amount Location_id Region_id day month year Time_id Dimensionstabellen Product id Article_id Article_name Productgroup_id Productgroup_name Location id shop_id region_id region_name Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 33

Cube Bier Verkäufe in BWB in 2002 Time Product 2002 Sales Cube 2001 2000 Limo Bier 1999 Location BWB Bayern Berlin NRW Cube -> Hypercube: Bon / Lieferant / Kunde /... Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 34

Zwei Wege zum Schema Bottom-Up: Enterprise Model 1. Quellen analysieren 2. Integriertes Schema ableiten 3. ETL-Prozesse definieren Top-Down: Multidimensional 1. Ziel des DWH festlegen 2. Notwendige Quellen auswählen 3. ETL Prozesse definieren Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 35

Basisdatenbank Weitere Themen Modellierung Multidimensionale Modellierung Operatoren Optimierung Spezielle Joinverfahren Partitionierung Indexierung Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 36

4. Abgeleitete Sichten 100 80 60 40 20 0 1. Qrtl. 2. Qrtl. 3. Qrtl. 4. Qrtl. Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 37

Abgeleitete Sichten Analysten benötigt spezielle Daten Aggregiert Alle Verkäufe in Norddeutschland nach Lieferanten Alle Verkäufe nach Niederlassung und Produkten Ausgewählt Alle Verkäufe in Niederlassung X Alle Verkäufe von Lieferant X Probleme bei Auswertung auf Cube Sehr, sehr große Records Hohe Detailstufe Langsame Aggegrations / Gruppierungs / Selektionsoperationen Vorab Erstellung von Data Marts: präaggregierte, gefilterte, abgeleitete Sichten Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 38

Abgeleitete Sichten Weitere Themen Aktualität der Sichten Asynchrone / Synchrone Aktualisierung Manuelle / automatisch Materialized Views Verwendung der Sichten Materialisierte Aggregation nach Produkten verwendbar für Aggregation nach Produktgruppen? Materialisierte Aggregation nach Wochen verwendbar für Aggregation nach Monaten? Answering Queries using Views Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 39

Datenanalyse 100 80 60 40 20 0 1. Qrtl. 2. Qrtl. 3. Qrtl. 4. Qrtl. Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 40

5. Analysewerkzeuge Hier nicht Thema Siehe Datenanalyse, Data Mining, Statistik,... OLAP Werkzeuge Häufig proprietäre Systeme, eigene (geheime) Indexstrukturen Abgesetzte Datenhaltung: OLAP auf dem Laptop Excel Funktionalität Grafische Werkzeuge Interaktive Datenauswahl, Filter, Chaining,... Navigation, spez. im Cube Präsentation: Grafiken, Tabellen, Reports,... 70-80% aller Analysen sind Standardreports Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 41

ROLAP Server Anbieter: Microstrategy, Cognos, Business Objects Spezieller Server zwischen Front-End und Datenbankserver Download von Daten von DBS und lokale Indizierung und Manipulation Weitere Aufgaben Präaggregationen auswählen und aktualisieren Umschreiben von OLAP Operatoren in effizientes, DBMSoptimiertes SQL Scheduling von Reports auf off-peak Zeiten Ressourcenüberwachung etc. Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 42

6. Metadatenrepository 100 80 60 40 20 0 1. Qrtl. 2. Qrtl. 3. Qrtl. 4. Qrtl. Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 43

Metadatenrepository... identified as key success factor in DWH... [SVV99] Erweiterung der DB Repositories Speicherung aller DWH relevanten Metadaten Quellbeschreibungen, Datentypen, Prozessbeschreibungen, Schema, Zugriffsgruppen, Sichtdefinitionen, Skripte, Autoren, Versionskontrolle, Konfigurationsmanagement,... Ziele Nachvollziehbarkeit der Prozesse Wer, wann, was? Wie aktuell sind meine Daten? Vermeidung von Fehlinterpretationen Welcher Zeitraum ist hier gemeint? % von was? Technische Beschreibung des DWH Wer hat das programmiert? Was passiert, wenn..? Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 44

Metadatenmanagement Idealfall Parametrisierung statt Programmierung Generische DWH Komponenten interpretieren Metadaten ETL Prozesse Automatische Sichtableitung... Produkte: Platinum CA, Microsoft, Oracle,... Standards: IRDS, OIM, CWM,... Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 45

Metadaten Weitere Themen Modellierung von Metadaten Metadaten Standards Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 46

7. DWH Manager 100 80 60 40 20 0 1. Qrtl. 2. Qrtl. 3. Qrtl. 4. Qrtl. Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 47

DWH Manager Häufig virtuelle Komponenten Steuerung aller Prozesse: ETL, Sichtaktualisierung,... Verwaltung der Metadaten Performancemonitoring und Betriebsunterstützung Zugriffsschutz und Auditing Tw. abgedeckt durch Standardwerkzeuge DB-Administrationswerkzeuge ETL Tools Batchsysteme Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 48

Zusammenfassung Komponenten Heterogene Datenquellen Komplexe Transformations- und Aktualitätsprobleme Basisdatenbank: Mutter aller Datenbanken Spezielle Probleme erfordern speziellen Lösungen: Datenmodellierung, Zugriffsoptimierung,... Alle DWH-Daten sind abgeleitet: Nachvollziehbarkeit muss gewährleistet sein Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 49

Teil II. DWH Prozesse 100 80 60 40 20 0 1. Qrtl. 2. Qrtl. 3. Qrtl. 4. Qrtl. E xtraction T ransformation L oad Aggregation View Maintenance Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 50

1. ETL - Extraction Aufgabe Filtern der richtigen Daten aus Quellen Bereitstellung der Datenfiles im gewünschten Format zum gewünschten Zeitpunkt am gewünschten Ort Kontinuierliche Datenversorgung des DWH Prinzip: Producer - Consumer Quelle informiert über Änderungen DWH konsumiert Änderungen Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 51

Historische Daten Quellen speichern oft nur Fenster Verkäufe einer Woche, Telefonate letzte 3 Monate,.. DWH sammelt Daten über langen Zeitraum Load Operationale e DB DWH INSERT Read UPDATE Read DELETE Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 52

Parameter der Datenversorgung Wann liefert der Extraktor die Daten? Periodisch Synchron Ereignisgesteuert Welche Daten liefert der Extraktor? Kompletten Datenbestand (Snapshot) Alle Änderungen (Logfile) Nettoänderungen zu fix. Zeitpunkten (Snapshot-Diff) In welcher Art liefert der Extraktor die Daten SQL Befehle (synchron/logfile: Replication) Flatfiles Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 53

ETL - Transformation Aufgabe Umwandlung der Daten in eine DWH-gerechte Form Form follows Function Quellen: schnelles Logging, schnelles Exportieren DWH: Unterstützung spezifischer Analysen Zwei Transformationsschritte Transformation der Quell-Extrakte in Load-Files Transformation von Staging-Area nach Basis-DB Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 54

Schematransformationen 1 Welt 100 Anwendungen 1000 Schema Unterschiedliche Auffassungen Unterschiedliche Anforderungen Unterschiedliche Datenmodelle Relationales Modell Object-orientiertes Modell (UML) Satzorientierte Formate Hierarchische Formate (XML) Unterschiedliche Modellierung Was ist Relation, was Attribut, was Wert? Schlüssel Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 55

Datentransformationen Syntax von Werten Datum: 20. Januar 2003, 20.01.2003, 1/20/03 Codierungen: 1: Adr. unbekannt, 2: alte Adresse, 3: gültige Adresse, 4: Adr. bei Ehepartner,... Sprache Abkürzungen/Schreibweisen: Str., strasse, Straße,... Datentypen, Semantik Datentypen: Real, Integer, String Genauigkeit, Feldlänge, Nachkommastellen,... Skalen: Noten, Temperatur, Längen, Währungen,... Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 56

ETL - Load Aufgabe Effizientes Einbringen der neuen Daten in das DWH Sehr kritischer Punkt Load-Vorgänge blockieren i.d.r. die komplette DB (Schreibzugriff auf komplette Tabelle) Konsistenz, Trigger, Ics während Ladevorgang Indexaktualisierung Update oder Insert? (Upsert!) Performance von LOAD oft limitierender Faktor der DWH Funktionalität Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 57

Beispiel Handelshaus, Daten einer Woche, 1 Filiale Laden mit voller Qualitätskontrolle 10 min Laden mit partieller Datenverbesserung 2 min Nur Laden 45 sec Handelshaus, Daten einer Woche, 2000 Filiale Laden mit voller Qualitätskontrolle 330h = 14d Laden mit partieller Datenverbesserung 67 h = 2,8d Nur Laden 25h = 1d Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 58

Techniken SQL Satzbasiert Standard-Schnittstellen: PRO*SQL, JDBC,... Einzelne Operationen oder proprietäre Erweiterungen (Arrays) Benutzung der Standard DB-Verfahren: Trigger, Indexaktualisierung, Concurrency,... BULK Loader Funktionen DB-spezifische Erweiterungen zum Laden großer Datenmengen Keine Trigger, komplette Tabellensperre, keine Constraints,... Benutzung von Anwendungsschnittstellen Bei manchen Produkten notwendig (SAP) Vorsicht! Praxis: BULK Uploads Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 59

ETL Themen Wann wird aktualisiert Synchron / asynchron, Push / Pull Was wird zur Verfügung gestellt Alle Daten / Nur Änderungen / Delta Files Quell Monitoring und ETL Scheduling Wie werden die Daten zur Verfügung gestellt Format, Struktur Transformationen Was wird übernommen Datenqualität, Datenselektion Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 60

2. Aggregation / Ableitung Aufgabe Bereitstellung präprozessierter Daten Zugriffsbeschleunigung Präprozessierung Aggregation Transformation in spezielle Schema Benutzung spezieller Speicherstrukturen Datenselektion Funktionen heute tw. in DB-Produkten enthalten Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 61

Ableitung Themen Aktualität der Sichten Asynchrone / Synchrone Aktualisierung Manuell / automatisch Materialized Views Verwendung der Sichten Materialisierte Aggregation nach Produkten verwendbar für Aggregation nach Produktgruppen? Materialisierte Aggregation nach Wochen verwendbar für Aggregation nach Monaten? Answering Queries using Views Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 62

Zusammenfassung Prozesse An verschiedenen Stellen ähnliche Prozesse Datenextraktion und filterung Datentransformation Updates / Einfügen großer Datenmengen Datenmodell, Schema und Daten Aktualisierungsprozesse versus Benutzerbetrieb Metadaten: Transformationsregeln, Scheduling Datenqualität ist (auch) Prozesseigenschaft Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 63

Part III. Weitere DWH Begriffe Data Marts (viele Definitionen vorhanden!) Abhängige Data Marts: Abgeleitet von Basisdatenbank Unabhängige Data Marts: Kleine DWH : Abteilungsweit, Spartenweit, nur Reklamationen,... Operational Data Store (ODS) [Inm96] Stufe 0: Isolierter AB, 1:1 Quellübernahme Stufe I: Isolierter Arbeitsbereich, Transformationen Stufe II: Arbeitsbereich als Durchgangsstation Stufe III: Entspricht Data Mart Stufe IV: Mischung aus Basis-DB, Data Mart und AB Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 64

Literatur [AM00] Adelmann, Moss: Data Warehouse Risks, in Data Warehouse Project Management, Addison- Wesley, 2000 [BG01]: Bauer, Günzel: Data Warehouse Systeme: Architektur, Entwicklung, Anwendung, dpunkt.verlag, 2001 [Leh03] Lehner: Datenbanktechnologie für Data Warehouse Systeme, dpunkt.verlag, 2003 [Kim98] Kimball et al. The Data Warehouse Life Cycle Toolkit, John Wiley & Sons, 1998 Ulf Leser: Data Warehousing, Vorlesung, SoSe 2003 65