OLP und Data Warehouses Überblick Monitoring & dministration Externe Quellen Operative Datenbanken Extraktion Transformation Laden Metadaten- Repository Data Warehouse OLP-Server nalyse Query/Reporting Data Mining Werkzeuge Data Marts
Data Warehouse S Saufland S Saufland S Saufland synchrone ktualisierung DB Ilmenau DB Erfurt DB Jena Redundante Datenhaltung, transformierte, vorberechnete Daten Data Warehouse Betriebswirtschaftliche nwendungen Informationsbereitstellung Daten und Informationen als Grundlage einer erfolgreichen bwicklung von Geschäftsprozessen (z.b. Kennzahlen) nwender: Manager, bteilungsleiter, Fachkräfte Formen der Bereitstellung Query-nsätze: frei definierbare nfragen und Berichte Reporting: Zugriff auf vordefinierte Berichte Redaktionell aufbereitete, personalisierte Informationen
Betriebswirtschaftliche nwendungen nalyse Detaillierte nalyse der Daten zur Untersuchung von bweichungen oder uffälligkeiten nwender: Spezialisten (z.b. Controlling, Marketing) Planung Unterstützung durch explorative Datenanalyse ggregierung von Einzelplänen Kampagnenmanagement Unterstützung strategischer Kampagnen Kundenanalyse, Risikoanalyse spekte von Data Warehouses Integration Vereinigung von Daten aus verschiedenen, meist heterogenen Quellen Überwindung der Heterogenität auf verschiedenen Ebenen (System, Schema, Daten) nalyse Bereitstellung der Daten in einer vom nwender gewünschten Form (bezogen auf Entscheidungsgebiet) erfordert Vorauswahl, Zeitbezug, ggregation
Begriffe Data Warehousing Zum Data Warehousing gehören alle Schritte der Datenbeschaffung (Extraktion, Transformation, Laden), des Speicherns und der nalyse nalyse steht im Mittelpunkt lange Lesetransaktionen auf vielen Datensätzen Integration, Konsolidierung und ggregation der Daten Data Mart externe (Teil-)Sicht auf das Data Warehouse durch Kopieren anwendungsbereichsspezifisch Begriffe Klassische operative Informationssysteme Online Transactional Processing (OLTP) Erfassung und Verwaltung von Daten Verarbeitung unter Verantwortung der jeweiligen bteilung Transaktionale Verarbeitung: kurze Lese-/ Schreibzugriffe auf wenige Datensätze OLP (Online nalytical Processing) explorative, interaktive nalyse auf Basis des konzeptuellen Datenmodells
OLP und Data Warehouses Zweck Zugriff Datenmenge je Zugriff Granularität je Zugriff Zeithorizont Datenbasis OLTP Online Transaction Processing Transaktionsverarbeitung schreibend und lesend klein detailliert (Zeile/Tupel) gegenwärtig Relationales Datenbanksystem OLP Online nalytical Processing Entscheidungsunterstützung primär lesend (nalyse) groß aggregiert auch Historie auch: Data Warehouses / OLP-Server Konsolidierung OLP und Data Warehouses Data Warehouses zur systematischen Sammlung von Daten physisch vs. virtuell Data Marts als spezifische Sichten OLP-Engines zur Datenabfrage bzw. -analyse Beispiel: Wert = DBRead( Umsatz, Quartal_2, Europa, Produkt_ ) anstatt: SELECT SUM ( Wert ) FROM Umsatz WHERE Produkt = Produkt_ ND IN (4, 5, 6) ND Gebiet IN (SELECT Gebiet FROM Regionen WHERE REGION = "Europa");
Multidimensionale Datenstrukturen OLP: nalyse von Daten (Fakten Kennzahlen) Beispiel: Differenzierte Betrachtung von Umsätzen Dimensionen: Fakten (Datenwürfel (Cube) Umsatz): Gebiet Produkt Produkt 23 BC BC 4 5... 2 D E F D E... Z C B B C Gebiet 2 3 4 Dimensionshierarchien Beispiel: Jahr, Quartal,, Woche, Tag Multidimensionale Datenstrukturen: bbildung als ERM bzw. mittels Relationen Gebiet Produkt Produkt ERM: 23 4 5... 2 BC D E F Umsatz Produkt BC D E... Z Gebiet C B 2 3 4 Relation / Tabelle: 2 2 2 Gebiet B C B C B C Produkt Gebiet Umsatz 00 200 50 20 80 60 ROLP: OLP auf der Grundlage relationaler Datenbanksysteme (Performanz?)
Data Warehouse: Charakteristika Fachorientierung (subject-oriented): Zweck des Systems ist nicht Erfüllung einer ufgabe (z.b. Personaldatenverwaltung), sondern Modellierung eines spezifischen nwendungsziels Integrierte Datenbasis (integrated): Verarbeitung von Daten aus mehreren verschiedenen Datenquellen (intern und extern) Nicht-flüchtige Datenbasis (non-volatile): stabile, persistente Datenbasis Daten im DW werden nicht mehr entfernt oder geändert Historische Daten (time-variant): Vergleich der Daten über Zeit möglich (Zeitreihenanalyse) Speicherung über längeren Zeitraum Trennung operativer und analytischer Systeme Gründe ntwortzeitverhalten: nalyse auf operativen Quelldatensystemen schlechte Performance, Langfristige Speicherung der Daten Zeitreihenanalyse Zugriff auf Daten unabhängig von operativen Datenquellen (Verfügbarkeit, Integrationsproblematik) Vereinheitlichung des Datenformats im DW Gewährleistung der Datenqualität im DW
Multidimensionale Datenstrukturen Fakten (Kennzahlen) Dimensionen je Dimension verschiedene Dimensionsausprägungen je Dimension ggf. eine oder mehrere Hierarchien hinsichtlich einer bestimmten Dimension bezieht sich jedes Fakt auf genau eine Dimensionsausprägung Realisierung: MOLP: multidimensional (Cubes) ROLP: relational (Star Schema, Snowflake Schema) nalyseoperationen: Drill-down / Roll-up: ggregation / Disaggregation entlang einer Dimension bzw. einer entsprechenden Hierarchie Slice / Dice: uswahl / Darstellung bestimmter Dimensionen Multidimensionale Datenstrukturen Drill-down / Roll-up Slice / Dice [Quelle: Ballard, C.; Herreman, D.; Schau, D.; Bell, R.; Kim, E.; Valencic,.: Data Modeling Techniques for Data Warehousing. IBM Redbook 998.]