Data-Warehouse-Architektur Anforderungen Referenzarchitektur Phasen des Data Warehousing Komponenten VL Data Warehouses, WS 2000/2001 2-1 Anforderungen des Data Warehousing Unabhängigkeit zwischen Datenquellen und Analysesystemen (bzgl. Verfügbarkeit, Belastung, laufender Änderungen) Dauerhafte Bereitstellung integrierter und abgeleiteter Daten (Persistenz) Mehrfachverwendbarkeit der bereitgestellten Daten Möglichkeit der Durchführung prinizipiell beliebiger Auswertungen VL Data Warehouses, WS 2000/2001 2-2 1
Anforderungen des Data Warehousing Unterstützung individueller Sichten (z.b. bzgl. Zeithorizont, Struktur) Erweiterbarkeit (z.b. Integration neuer Quelle) Automatisierung der Abläufe Eindeutigkeit hinsichtlich Datenstrukturen, Zugriffsberechtigungen und Prozesse Ausrichtung am Zweck: Analyse der Daten VL Data Warehouses, WS 2000/2001 2-3 Referenzarchitektur Datenbeschaffungsbereich Extraktion Laden Datenquelle Arbeitsbereich Basisdatenbank Laden Data Warehouse Analyse Monitor Transformation Data- Warehouse- Manager Metadaten- Manager Datenfluß Kontrollfluß Repository Data-Warehouse-System VL Data Warehouses, WS 2000/2001 2-4 2
Phasen des Data Warehousing 1. Überwachung der Quellen auf Änderungen durch Monitore 2. Kopieren der relevanten Daten mittels Extraktion in temporären Arbeitsbereich 3. Transformation der Daten im Arbeitsbereich (Bereinigung, Integration) 4. Kopieren der Daten in integrierte Basisdatenbank als Grundlage für verschiedene Analysen 5. Laden der Daten in das Data Warehouse (Datenbank für Analysezwecke) 6. Analyse: Operationen auf Daten des DW VL Data Warehouses, WS 2000/2001 2-5 Data-Warehouse-Manager Zentrale Komponente eines DW-Systems Initiierung, Steuerung und Überwachung der einzelnen Prozesse (Ablaufsteuerung) Initiierung des Datenbeschaffungsprozesses fi in regelmäßigen Zeitabständen (jede Nacht, am Wochenende etc.): Starten der Extraktion von Daten aus Quellen und Übertragung in Arbeitsbereich fi bei Änderung einer Quelle: Start der entsprechenden Extraktionskomponente fi auf explizites Verlangen des Administrators VL Data Warehouses, WS 2000/2001 2-6 3
Data-Warehouse-Manager Nach Auslösen des Ladeprozesses: fi Überwachung der weiteren Schritte (Bereinigung, Integration etc.) fi Koordination der Reihenfolge der Verarbeitung Fehlerfall fi Dokumentation von Fehlern fi Wiederanlaufmechanismen Zugriff auf Metadaten aus dem Repository fi Steuerung des Ablaufs fi Parameter der Komponenten VL Data Warehouses, WS 2000/2001 2-7 Datenquellen Lieferanten der Daten für das Data Warehouse fi gehören nicht direkt zum DW fi können intern (Unternehmen) oder extern (z.b. Internet) sein fi heterogen bzgl. Struktur, Inhalt und Schnittstellen (Datenbanken, Dateien) fi Auswahl der Quellen und Qualität der Daten von besonderer Bedeutung Faktoren für Auswahl fi Zweck des DW fi Qualität der Quelldaten fi Verfügbarkeit (rechtlich, sozial, technisch) fi Preis für Erwerb der Daten (speziell bei externen Quellen) VL Data Warehouses, WS 2000/2001 2-8 4
Datenquellen: Klassifikation Herkunft: intern, extern Zeit: aktuell, historisch Nutzungsebene: Primärdaten, Metadaten Inhalt: Zahl, Zeichenkette, Grafik, Referenz, Dokument Darstellung: numerisch, alphanumerisch, BLOB Sprache und Zeichensatz Vertraulichkeitsgrad VL Data Warehouses, WS 2000/2001 2-9 Datenquellen: Qualitätsforderungen Konsistenz (Widerspruchsfreiheit) Korrektheit (Übereinstimmung mit Realität), Vollständigkeit (z.b. keine fehlende Werte oder Attribute) Genauigkeit (z.b. Anzahl der Nachkommastellen) und Granularität (z.b. tagesgenaue Daten) VL Data Warehouses, WS 2000/2001 2-10 5
Datenquellen: Qualitätsforderungen Zuverlässigkeit und Glaubwürdigkeit (Nachvollziehbarkeit der Entstehung, Vertrauenswürdigkeit des Lieferanten) Verständlichkeit (inhaltlich und technisch / strukturell für jeweilige Zielgruppe) Verwendbarkeit und Relevanz (geeignetes Format, Zweckdienlichkeit) VL Data Warehouses, WS 2000/2001 2-11 Monitore Aufgabe: fi Entdeckung von Datenmanipulationen in einer Datenquelle Strategien: fi Trigger-basiert aktive Datenbankmechanismen Auslösen von Triggern bei Datenänderungen Kopieren der geänderten Tupel in anderen Bereich fi replikationsbasiert Nutzung von Replikationsmechanismen zur Übertragung geänderter Daten VL Data Warehouses, WS 2000/2001 2-12 6
Monitore Strategien (fortg.): fi Log-basiert Analyse von Transaktions-Log-Dateien der DBMS zur Erkennung von Änderungen fi zeitstempelbasiert Zuordnung von Zeitstempeln zu Tupeln Aktualisierung bei Änderungen Identifizierung von Änderungen seit der letzten Extraktion durch Zeitvergleich fi Snapshot-basiert Periodisches Kopieren des Datenbestandes in Datei (Snapshot) Vergleich von Snapshots zur Identifizierung von Änderungen VL Data Warehouses, WS 2000/2001 2-13 Arbeitsbereich Aufgabe: fi Zentrale Datenhaltungskomponente des Datenbeschaffungsbereichs (engl. staging area) fi Temporärer Zwischenspeicher zur Integration Nutzung: fi Ausführung der Transformationen (Bereinigung, Integration etc.) direkt auf Zwischenspeicher fi Laden der transformierten Daten in DW bzw. Basisdatenbank erst nach erfolgreichem Abschluß der Transformation Vorteile: fi Keine Beeinflussung der Quellen oder des DW fi Keine Übernahme fehlerbehafteter Daten VL Data Warehouses, WS 2000/2001 2-14 7
Extraktionskomponente Aufgabe: Übertragung von Daten aus Quellen in Arbeitsbereich Funktion: abhängig von Monitoring-Strategie fi periodisch fi auf Anfrage fi ereignisgesteuert (z.b. bei Erreichen einer definierten Anzahl von Änderungen) fi sofortige Extraktion Realisierung: fi Nutzung von Standardschnittstellen (z.b. ODBC) fi Ausnahmebehandlung zur Fortsetzung im Fehlerfall VL Data Warehouses, WS 2000/2001 2-15 Transformationskomponente Vorbereitung und Anpassung der Daten für das Laden fi Inhaltlich: Daten-/Instanzintegration und Bereinigung fi Strukturell: Schemaintegration Überführung aller Daten in ein einheitliches Format fi Datentypen, Datumsangaben, Maßeinheiten, Kodierungen etc. Beseitigung von Verunreinigungen (engl. Data Cleaning bzw. Data Cleansing) fi Fehlerhafte oder fehlende Werte, Redundanzen, veraltete Werte VL Data Warehouses, WS 2000/2001 2-16 8
Transformationskomponente Data Scrubbing: fi Ausnutzung von domänenspezifischen Wissen (z.b. Geschäftsregeln) zum Erkennen von Verunreinigungen fi Beispiel: Erkennen von Redundanzen Data Auditing: fi Anwendung von Data-Mining-Verfahren zum Aufdecken von Regeln fi Aufspüren von Abweichungen VL Data Warehouses, WS 2000/2001 2-17 Ladekomponente Aufgabe: fi Übertragung der bereinigten und aufbereiteten (z.b. aggregierten) Daten in die Basisdatenbank bzw. das DW Besonderheiten: fi Nutzung spezieller Ladewerkzeuge (z.b. SQL*Loader von Oracle) Bulk-Loading fi Historisierung: Änderungen in Quellen dürfen DW-Daten nicht überschreiben, statt dessen zusätzliches Abspeichern Ladevorgang: fi Online: Basisdatenbank bzw. DW steht weiterhin zur Verfügung fi Offline: stehen nicht zur Verfügung (Zeitfenster: nachts, Wochenende) VL Data Warehouses, WS 2000/2001 2-18 9
Basisdatenbank Aufgabe: fi Integrierte Datenbasis für verschiedene Analysen unabhängig von konkreten Analysen, d.h. noch keine Aggregationen fi Versorgung des DW mit bereinigten Daten (u.u. durch Verdichtung) Anmerkungen: fi wird in der Praxis oft weggelassen fi entspricht Operational Data Store (ODS) nach Inmon VL Data Warehouses, WS 2000/2001 2-19 Data Warehouse Aufgabe: Datenbank für Analysezwecke; orientiert sich in Struktur an Analysebedürfnissen Basis: DBMS Besonderheiten: fi Unterstützung des Ladeprozesses Schnelles Laden großer Datenmengen Massenlader (engl. bulk loader) unter Umgehung von Mehrbenutzerkoordination und Konsistenzprüfung fi Unterstützung des Analyseprozesses Effiziente Anfrageverarbeitung (Indexstrukturen, Caching) Multidimensionales Datenmodell (z.b. über OLE DB for OLAP) VL Data Warehouses, WS 2000/2001 2-20 10
Data Marts Aufgabe: fi Bereitstellung einer inhaltlich beschränkten Sicht auf das DW (z.b. für Abteilung) Gründe: fi Eigenständigkeit, Datenschutz, Lastverteilung, Datenvolumen, etc. Realisierung: fi Verteilung der DW-Daten Formen: fi Abhängige Data Marts fi Unabhängige Data Marts VL Data Warehouses, WS 2000/2001 2-21 Abhängige Data Marts Verteilung des Datenbestandes nach fi Integration und Bereinigung (Basisdatenbank) fi und Organisation entsprechend der Analysebedürfnisse (Data Warehouse) Nabe- und Speiche -Architektur (engl. hub and spoke) Data Mart: fi nur Extrakt (inkl. Aggregation) des Data Warehouse fi Keine Bereinigung oder Normierung Analysen auf Data Mart konsistent zu Analysen auf DW Einfache Realisierung: fi Replikations- oder Sichtmechanismen von DBMS VL Data Warehouses, WS 2000/2001 2-22 11
Nabe- und Speiche"-Architektur Analyse Analyse Analyse Analyse Data Marts Data Warehouse Laden VL Data Warehouses, WS 2000/2001 2-23 Abhängige Data Marts: Extraktbildung Strukturelle Extrakte fi Beschränkung auf Teile des Schemas fi Bsp.: nur bestimmte Kennzahlen oder Dimensionen Inhaltliche Extrakte fi inhaltliche Beschränkung fi Bsp.: nur bestimmte Filialen oder das letzte Jahresergebnis Aggregierte Extrakte fi Verringerung der Granularität fi Bsp.: Beschränkung auf Monatsergebnisse VL Data Warehouses, WS 2000/2001 2-24 12
Unabhängige Data Marts unabhängig voneinander entstandene kleine Data Warehouses (z.b. von einzelnen Organisationen) nachträgliche Integration und Transformation Probleme: fi unterschiedliche Analysesichten (Data Mart, globales Data Warehouse) fi Konsistenz der Analysen aufgrund zusätzlicher Transformation VL Data Warehouses, WS 2000/2001 2-25 Unabhängige Data Marts Analyse Analyse Analyse Analyse Data Warehouse Transformation Data Marts Laden Laden Laden Laden VL Data Warehouses, WS 2000/2001 2-26 13
Analysewerkzeuge engl. Business Intelligence Tools Aufgabe: fi Präsentation der gesammelten Daten mit interaktiven Navigations- und Analysemöglichkeiten Analyse: fi einfache arithm. Operationen (z.b. Aggregation)... komplexe statistische Untersuchungen (z.b. Data Mining) fi Aufbereitung der Ergebnisse für Weiterverarbeitung bzw. Weitergabe VL Data Warehouses, WS 2000/2001 2-27 Analysewerkzeuge: Darstellung Tabellen fi Pivot-Tabellen := Kreuztabellen fi Analyse durch Vertauschen von Zeilen und Spalten fi Veränderung von Tabellendimensionen fi Schachtelung von Tabellendimensionen (Integration weiterer Dimensionen) Graphiken fi Bildliche Darstellung großer Datenmengen fi Netz-, Punkt-, Oberflächengraphen Text und Multimedia-Elemente fi Ergänzung um Audio- oder Videodaten fi Einbeziehung von Dokumentenmanagementsystemen VL Data Warehouses, WS 2000/2001 2-28 14
Analysewerkzeuge: Funktionalität Data Access fi Reporting Werkzeuge fi Lesen von Daten, Veränderung/Anreicherung durch einfache arithmetische Operationen fi Präsentation in Berichten fi Ampelfunktionen : regelgebundene Formatierung fi Basis: SQL VL Data Warehouses, WS 2000/2001 2-29 Analysewerkzeuge: Funktionalität OLAP fi Interaktive Datenanalyse, Klassifikationsnavigation fi Berichte mit verdichteten Werten (Kennzahlen) fi Navigationsoperationen (Drill Down, Roll Up, Drill Across) fi Gruppierungs- und Berechnungsfunktionen (statistisch, betriebswirtschaftlich) fi Validierung von Hypothesen, Plausibilitätsprüfung VL Data Warehouses, WS 2000/2001 2-30 15
Analysewerkzeuge: Funktionalität Data Mining fi Aufdeckung bisher unbekannter Zusammenhänge (Muster, Regeln) fi Verfahren (u.a.): Klassifikation: Zuordnung der Daten zu vorgegebenen Klassen Assoziationsregeln Clusterbildung: Segmentierung, d.h. Daten bzgl. Ihrer Merkmalsausprägungen zu Gruppen zusammenfassen VL Data Warehouses, WS 2000/2001 2-31 Analysewerkzeuge: Realisierung Standard Reporting: fi Reporting-Werkzeuge des klassischen Berichtswesens Berichtshefte: fi Graphische Entwicklungsumgebungen zur Erstellung von Präsentationen von Tabellen, Graphiken, etc. Ad-hoc Query & Reporting: fi Werkzeuge zur Erstellung und Präsentation von Berichten fi Verbergen von Datenbankanbindung und Anfragesprachen VL Data Warehouses, WS 2000/2001 2-32 16
Analysewerkzeuge: Realisierung Analyse-Clients: fi Werkzeuge zur mehrdimensionalen Analyse fi beinhalten Navigation, Manipulation (Berechnung), erweiterte Analysefunktionen und Präsentation Spreadsheet Add-Ins: fi Erweiterung von Tabellenkalkulationen für Daten(bank)anbindung und Navigation Entwicklungsumgebungen: fi Unterstützung der Entwicklung eigener Analyseanwendungen fi Bereitstellung von Operationen auf multidimensionalen Daten VL Data Warehouses, WS 2000/2001 2-33 Repository Aufgabe: fi Speicherung der Metadaten des DW-Systems Metadaten: fi Informationen, die Aufbau, Wartung und Administration des DW-Systems vereinfachen und Informationsgewinnung ermöglichen fi Beispiele: Datenbankschemata, Zugriffsrechte, Prozeßinformationen (Verarbeitungsschritte und Parameter), etc. VL Data Warehouses, WS 2000/2001 2-34 17
Metadaten-Manager Aufgaben: fi Steuerung der Metadatenverwaltung fi Zugriff, Anfrage, Navigation fi Versions- und Konfigurationsverwaltung Formen: fi allgemein einsetzbar: erweiterbares Basisschema fi werkzeugspezifisch: fester Teil von Werkzeugen häufig Integration von bzw. Austausch zwischen dezentralen Metadaten-Managementsystemen notwendig VL Data Warehouses, WS 2000/2001 2-35 18