Data-Warehouse-Architektur



Ähnliche Dokumente
Anforderungen des Data Warehousing. 2. Data-Warehouse-Architektur. Anforderungen des Data Warehousing. Referenzarchitektur. Data-Warehouse-Manager

Data-Warehouse-Architektur

Teil II Data-Warehouse-Architektur

Data-Warehouse-Architektur. Anforderungen des Data Warehousing. Anforderungen Referenzarchitektur Phasen des Data Warehousing Komponenten

Architektur eines Data Warehouse Systems. Mario Jandeck

Data Warehouse Theorie und Praxis. Ali Khabbazian T-Systems

Data Warehouse Technologien

Veit Köppen Gunter Saake Kai-Uwe Sattler. 2. Auflage. Data Warehouse Technologien

Data Warehousing. Kapitel 1: Data-Warehousing-Architektur. Folien teilweise übernommen von Matthias Gimbel

Business Intelligence Data Warehouse. Jan Weinschenker

BI Konsolidierung: Anspruch & Wirklichkeit. Jacqueline Bloemen. in Kooperation mit

Data Warehouse ??? Ein Data Warehouse ist keine von der Stange zu kaufende Standardsoftware, sondern immer eine unternehmensindividuelle

Datenbanken. Prof. Dr. Bernhard Schiefer.

Survival Guide für Ihr Business Intelligence-Projekt

Data Warehouse Definition (1)

Data Mining-Projekte

Datenbanksysteme SS 2007

Data Warehouses. Alexander Fehr. 23. Dezember 2002

C09: Einsatz SAP BW im Vergleich zur Best-of-Breed-Produktauswahl

Datenmanagement. Simone Unfried, Passau Vitaly Aleev, Passau Claus Schönleber, Passau. Strategisches Informationsmanagement 1 (01/2006)

CENIT RETENTION SOLUTION 1.1 Verwaltung von temporären Sperren und Löschworkflows. Copyright CENIT AG

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

GESCHÄFTSSTELLENERÖFFNUNG HAMBURG, 25. APRIL 2013

OLAP und Data Warehouses

Seminar C16 - Datenmodellierung für SAP BW

Controlling leicht gemacht!

pro4controlling - Whitepaper [DEU] Whitepaper zur CfMD-Lösung pro4controlling Seite 1 von 9

Online Analytical Processing

Business Intelligence. Data Warehouse / Analyse Sven Elvers

Von der spezialisierten Eigenentwicklung zum universellen Analysetool. Das Controlling-Informationssystem der WestLB Systems

Grundlagen von Datenbanken

Insight aus der Webseite!

SQL Server 2012 und SharePoint im Unternehmenseinsatz. Referent Daniel Caesar

Softwaretechnologie -Wintersemester 2013/ Dr. Günter Kniesel

1Ralph Schock RM NEO REPORTING

Pflichtenheft Programmanwendung "Syntax Tool"

Business Intelligence

Data Warehousing und Data Mining

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

tdwi E U R D P E OPEN SOURCE BUSINESS INTELLIGENCE HANSER MÖGLICHKEITEN, CHANCEN UND RISIKEN QUELLOFFENER BI-LÖSUNGEN

eevolution Business Intelligence Oliver Rzeniecki COMPRA GmbH Programmierer & Datenbankadministrator

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Logische Modelle für OLAP. Burkhard Schäfer

QDB AddOn. Eine NetIQ AppManager Erweiterung von generic.de

Informationssysteme: Neuere Konzepte Teil II

Programmierung von MS-Office mit Visual Basic

BIW - Überblick. Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004

Informationssysteme Aufgaben (1)

ITIL und Entwicklungsmodelle: Die zwei Kulturen

DOKUMENTATION PASY. Patientendaten verwalten

Data Warehouse Grundlagen

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Neues Modul für individuelle Anlagen. Änderung bei den Postleitzahl-Mutationen

Zusammenspiel von Business Intelligence mit betrieblicher Anwendungssoftware Falk Neubert, Universität Osnabrück

Einführung Git Interna Workflows Referenzen. Git. Fast Version Control System. Michael Kuhn

Configuration Management mit Verbosy OSDC Eric Lippmann

Lastenheft. Inhaltsverzeichnis. Gruppe: swp09-5. Projektleiterin: Anne Vogler am: 28. April Zielbestimmungen 2. 2 Produkteinsatz 2

Schlüssel bei temporalen Daten im relationalen Modell

Options- und Freitext-Modul Update-Anleitung

Aufbau von Informations- management- Systemen

16.4 Wiederverwendung von COTS-Produkten

Digitale Gremienarbeit

Infrastruktur fit machen für Hochverfügbarkeit, Workload Management und Skalierbarkeit

Data Lineage goes Traceability - oder was Requirements Engineering von Business Intelligence lernen kann

Integration mit. Wie AristaFlow Sie in Ihrem Unternehmen unterstützen kann, zeigen wir Ihnen am nachfolgenden Beispiel einer Support-Anfrage.

Metadaten bei der Digitalisierung von analogen archivalischen Quellen. Kathrin Mileta, Dr. Martina Wiech

INVEST projects. Besseres Investitionscontrolling mit INVESTprojects

Ressourcenmanagement in Forschung und Entwicklung Grünenthal integriert SAS in sein Berechtigungs- und Mandantenkonzept 7.

Felix von Eye, Wolfgang Hommel, Stefan Metzger DR. TOPSCAN. Ein Werkzeug für die automatisierte Portscanauswertung in komplexen Netzinfrastrukturen

Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b.

Definition Informationssystem

Datenübernahme easyjob 3.0 zu easyjob 4.0

Ein subjektiver Vergleich zwischen SSIS und Kettle mit Ausblick auf die Generierung von BI-Lösungen

Marketing Intelligence Vorstellung der Softwarekomponenten. Josef Kolbitsch Manuela Reinisch

Fassade. Objektbasiertes Strukturmuster. C. Restorff & M. Rohlfing

Einsatz des Microsoft SQL-Servers bei der KKH

Business Intelligence Entscheidungsinformationen für eine erfolgreiche Unternehmensentwicklung im Mittelstand

Data Warehouse Technologien

SDD System Design Document

BEDIFFERENT A C E G E R M A N Y

Objektorientierte Datenbanken

Strategisches Informationsmanagement auf Basis von Data Warehouse-Systemen

Handbuch Offline-Abgleich

7. Übung - Datenbanken

ENTERBRAIN Reporting & Business Intelligence

1 Lieferantenbewertung

SharePoint Demonstration

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Profilbezogene informatische Bildung in den Klassenstufen 9 und 10. Schwerpunktthema Daten und Datenbanken

Seminararbeit zum Thema. Referenzarchitektur von. Data-Warehouse-Systemen

Dokumentenmanagement mit active.pdm

Mit der Maus im Menü links auf den Menüpunkt 'Seiten' gehen und auf 'Erstellen klicken.

IBM SPSS Justiz-Tage: Datenerhebung, Datenanalyse und Data Mining für Justiz und kriminologische Forschung

3. GLIEDERUNG. Aufgabe:

Best Practice Infor PM 10 auf Infor Blending

Transkript:

Data-Warehouse-Architektur ƒ Anforderungen ƒ Referenzarchitektur ƒ Phasen des Data Warehousing ƒ Komponenten Vorlesung Data-Warehouse-Technologien 2-1 Anforderungen des Data Warehousing ƒ Unabhängigkeit zwischen Datenquellen und Analysesystemen (bzgl. Verfügbarkeit, Belastung, laufender Änderungen) ƒ Dauerhafte Bereitstellung integrierter und abgeleiteter Daten (Persistenz) ƒ Mehrfachverwendbarkeit der bereitgestellten Daten ƒ Möglichkeit der Durchführung prinizipiell beliebiger Auswertungen Vorlesung Data-Warehouse-Technologien 2-2 1

Anforderungen des Data Warehousing ƒ Unterstützung individueller Sichten (z.b. bzgl. Zeithorizont, Struktur) ƒ Erweiterbarkeit (z.b. Integration neuer Quelle) ƒ Automatisierung der Abläufe ƒ Eindeutigkeit über Datenstrukturen, Zugriffsberechtigungen und Prozesse ƒ Ausrichtung am Zweck: Analyse der Daten Vorlesung Data-Warehouse-Technologien 2-3 Referenzarchitektur Datenbeschaffungsbereich Extraktion Laden Datenquelle Arbeitsbereich Basisdatenbank Laden Data Warehouse Analyse Monitor Transform ation Data- Warehouse- Manager Metadaten- Manager Datenfluß Kontrollfluß Repository Data-Warehouse-System Vorlesung Data-Warehouse-Technologien 2-4 2

Phasen des Data Warehousing 1. Überwachung der Quellen auf Änderungen durch Monitore 2. Kopieren der relevanten Daten mittels Extraktion in temporären Arbeitsbereich 3. Transformation der Daten im Arbeitsbereich (Bereinigung, Integration) 4. Kopieren der Daten in integrierte Basisdatenbank als Grundlage für verschiedene Analysen 5. Laden der Daten in das Data Warehouse (Datenbank für Analysezwecke) 6. Analyse: Operationen auf Daten des DW Vorlesung Data-Warehouse-Technologien 2-5 Data-Warehouse-Manager ƒ Zentrale Komponente eines DW-Systems ƒ Initiierung, Steuerung und Überwachung der einzelnen Prozesse (Ablaufsteuerung) ƒ Initiierung des Datenbeschaffungsprozesses in regelmäßigen Zeitabständen (jede Nacht, am Wochenende etc.): Starten der Extraktion von Daten aus Quellen und Übertragung in Arbeitsbereich bei Änderung einer Quelle: Start der entsprechenden Extraktionskomponente auf explizites Verlangen des Adiministrators Vorlesung Data-Warehouse-Technologien 2-6 3

Data-Warehouse-Manager ƒ Nach Auslösen des Ladeprozesses: Überwachung der weiteren Schritte (Bereinigung, Integration etc.) Koordination der Reihenfolge der Verarbeitung ƒ Fehlerfall Dokumentation von Fehlern Wiederanlaufmechanismen ƒ Zugriff auf Metadaten aus dem Repository Steuerung des Ablaufs Parameter der Komponenten Vorlesung Data-Warehouse-Technologien 2-7 Datenquellen ƒ Lieferanten der Daten für das Data Warehouse gehören nicht direkt zum DW können intern (Unternehmen) oder extern (z.b. Internet) sein heterogen bzgl. Struktur, Inhalt und Schnittstellen (Datenbanken, Dateien) Auswahl der Quellen und Qualität der Daten von besonderer Bedeutung ƒ Faktoren für Auswahl Zweck des DW Qualität der Quelldaten Verfügbarkeit (rechtlich, sozial, technisch) Preis für Erwerb der Daten (speziell bei externen Quellen) Vorlesung Data-Warehouse-Technologien 2-8 4

Datenquellen: Klassifikation ƒ Herkunft: intern, extern ƒ Zeit: aktuell, historisch ƒ Nutzungsebene: Primärdaten, Metadaten ƒ Inhalt: Zahl, Zeichenkette, Grafik, Referenz, Dokument ƒ Darstellung: numerisch, alphanumerisch, BLOB ƒ Sprache und Zeichensatz ƒ Vetraulichkeitsgrad Vorlesung Data-Warehouse-Technologien 2-9 Datenquellen: Qualitätsforderungen ƒ Konsistenz (Widerspruchsfreiheit) ƒ Korrektheit (Übereinstimmung mit Realität), ƒ Vollständigkeit (z.b. Abwesenheit von fehlenden Werten oder Attributen) ƒ Genauigkeit (z.b. Anzahl der Nachkommastellen) und Granularität (z.b. tagesgenaue Daten) Vorlesung Data-Warehouse-Technologien 2-10 5

Datenquellen: Qualitätsforderungen ƒ Zuverlässigkeit und Glaubwürdigkeit (Nachvollziehbarkeit der Entstehung, Vertrauenswürdigkeit des Lieferanten) ƒ Verständlichkeit (inhaltlich und technisch / strukturell für jeweilige Zielgruppe) ƒ Verwendbarkeit und Relevanz (geeignetes Format, Zweckdienlichkeit) Vorlesung Data-Warehouse-Technologien 2-11 Monitore ƒ Aufgabe: Entdeckung von Datenmanipulationen in einer Datenquelle ƒ Strategien: Trigger-basiert y aktive Datenbankmechanismen Auslösen von Triggern bei Datenänderungen Kopieren der geänderten Tupel in anderen Bereich replikationsbasiert y Nutzung von Replikationsmechanismen zur Übertragung geänderter Daten Vorlesung Data-Warehouse-Technologien 2-12 6

Monitore ƒ Strategien (fortg.): Log-basiert y Analyse von Transaktions-Log-Dateien der DBMS zur Erkennung von Änderungen zeitstempelbasiert y Zuordnung eines Zeitstempel zu Tupeln y Aktualisierung bei Änderungen y Identifizierung von Änderungen seit der letzten Extraktion durch Zeitvergleich Snapshot-basiert y Periodisches Kopieren des Datenbestandes in Datei (Snapshot) y Vergleich von Snapshots zur Identifizierung von Änderungen Vorlesung Data-Warehouse-Technologien 2-13 Arbeitsbereich ƒ Aufgabe: Zentrale Datenhaltungskomponente des Datenbeschaffungsbereichs (engl. staging area) Temporärer Zwischenspeicher zur Integration ƒ Nutzung: Ausführung der Transformationen (Bereinigung, Integration etc.) direkt auf Zwischenspeicher Laden der transformierten Daten in DW bzw. Basisdatenbank erst nach erfolgreichem Abschluß der Transformation ƒ Vorteile: Keine Beeinflussung der Quellen oder des DW Keine Übernahme fehlerbehafteter Daten Vorlesung Data-Warehouse-Technologien 2-14 7

Extraktionskomponente ƒ Aufgabe: Übertragung von Daten aus Quellen in Arbeitsbereich ƒ Funktion: abhängig von Monitoring-Strategie periodisch auf Anfrage Ereignisgesteuert (z.b. bei Erreichen einer definierten Anzahl von Änderungen) sofortige Extraktion ƒ Realisierung: Nutzung von Standardschnittstellen (z.b. ODBC) Ausnahmebehandlung zur Fortsetzung im Fehlerfall Vorlesung Data-Warehouse-Technologien 2-15 Transformationskomponente ƒ Vorbereitung und Anpassung der Daten für das Laden Inhaltlich: Daten-/Instanzintegration und Bereinigung Strukturell: Schemaintegration ƒ Überführung aller Daten in ein einheitliches Format Datentypen, Datumsangaben, Maßeinheiten, Kodierungen etc. ƒ Beseitigung von Verunreinigungen (engl. Data Cleaning bzw. Data Cleansing) Fehlerhafte oder fehlende Werte, Redundanzen, veraltete Werte Vorlesung Data-Warehouse-Technologien 2-16 8

Transformationskomponente ƒ Data Scrubbing: Ausnutzung von domänenspezifischen Wissen (z.b. Geschäftsregeln) zum Erkennen von Verunreinigungen Beispiel: Erkennen von Redundanzen ƒ Data Auditing: Anwendung von Data-Mining-Verfahren zum Aufdecken von Regeln Aufspüren von Abweichungen Vorlesung Data-Warehouse-Technologien 2-17 Ladekomponente ƒ Aufgabe: Übertragung der bereinigten und aufbereiteten (z.b. aggregierten) Daten in die Basisdatenbank bzw. das DW ƒ Besonderheiten: Nutzung spezieller Ladewerkzeuge (z.b. SQL*Loader von Oralce) Bulk-Laden Historisierung: Änderung in Quellen dürfen DW-Daten nicht überschreiben, stattdessen zusätzliches Abspeichern ƒ Ladevorgang: Online: Basisdatenbank bzw. DW steht weiterhin zur Verfügung Offline: stehen nicht zur Verfügung (Zeitfenster: nachts, Wochenende) Vorlesung Data-Warehouse-Technologien 2-18 9

Basisdatenbank ƒ Aufgabe: Integrierte Datenbasis für verschiedene Analysen unabhängig von konkreten Analysen, d.h. noch keine Aggregationen Versorgung des DW mit bereinigten Daten (u.u. durch Verdichtung) ƒ Anmerkungen: wird in der Praxis oft weggelassen entspricht Operational Data Store (ODS) nach Inmon Vorlesung Data-Warehouse-Technologien 2-19 Data Warehouse ƒ Aufgabe: Datenbank für Analysezwecke; orientiert sich in Struktur an Analysebedürfnissen ƒ Basis: DBMS ƒ Besonderheiten: Unterstützung des Ladeprozesses y Schnelles Laden großer Datenmengen Massenlader (engl. bulk loader) unter Umgehung von Mehrbenutzerkoordination und Konsistenzprüfung Unterstützung des Analyseprozesses y Effiziente Anfrageverarbeitung (Indexstrukturen, Caching) y Multidimensionales Datenmodell (z.b. über OLE DB for OLAP) Vorlesung Data-Warehouse-Technologien 2-20 10

Data Marts ƒ Aufgabe: Bereitstellung einer inhaltlich beschränkten Sicht auf das DW (z.b. für Abteilung) ƒ Gründe: Eigenständigkeit, Datenschutz, Lastverteilung, Datenvolumen, etc. ƒ Realisierung: Verteilung der DW-Daten ƒ Formen: Abhängige Data Marts Unabhängige Data Marts Vorlesung Data-Warehouse-Technologien 2-21 Abhängige Data Marts ƒ Verteilung des Datenbestandes nach Integration und Bereinigung (Basisdatenbank) und Organisation entsprechend der Analysebedürfnisse (Data Warehouse) ƒ Nabe- und Speiche -Architektur (engl. hub and spoke) ƒ Data Mart: nur Extrakt (inkl. Aggregation) des Data Warehouse Keine Bereinigung oder Normierung ƒ Analysen auf Data Mart konsistent zu Analysen auf DW ƒ Einfache Realisierung: Replikations- oder Sichtmechanismen von DBMS Vorlesung Data-Warehouse-Technologien 2-22 11

Nabe- und Speiche"-Architektur Analyse Analyse Analyse Analyse 'DWD 0DUWV 'DWD :DUHKRXVH Laden Vorlesung Data-Warehouse-Technologien 2-23 Abhängige Data Marts: Extraktbildung ƒ Strukturelle Extrakte Beschränkung auf Teile des Schemas Bsp.: nur bestimmte Kennzahlen oder Dimensionen ƒ Inhaltliche Extrakte inhaltliche Beschränkung Bsp.: nur bestimmte Filialen oder das letzte Jahresergebnis ƒ Aggregierte Extrakte Verringerung der Granularität Bsp.: Beschränkung auf Monatsergebnisse Vorlesung Data-Warehouse-Technologien 2-24 12

Unabhängige Data Marts ƒ unabhängig voneinander entstandene kleine Data Warehouses (z.b. von einzelnen Organisationen) ƒ nachträgliche Integration und Transformation ƒ Probleme: unterschiedliche Analysesichten (Data Mart, globales Data Warehouse) Konsistenz der Analysen aufgrund zusätzlicher Transformation Vorlesung Data-Warehouse-Technologien 2-25 Unabhängige Data Marts Analyse Analyse Analyse Analyse 'DWD :DUHKRXVH Transformation 'DWD 0DUWV Laden Laden Laden Laden Vorlesung Data-Warehouse-Technologien 2-26 13

Analysewerkzeuge ƒ engl. Business Intelligence Tools ƒ Aufgabe: Präsentation der gesammelten Daten mit interaktiven Navigations- und Analysemöglichkeiten ƒ Analyse: einfache arithm. Operationen (z.b. Aggregation)... komplexe statistische Untersuchungen (z.b. Data Mining) Aufbereitung der Ergebnisse für Weiterverarbeitung bzw. Weitergabe Vorlesung Data-Warehouse-Technologien 2-27 Analysewerkzeuge: Darstellung ƒ Tabellen Pivot-Tabellen := Kreuztabellen Analyse durch Vertauschen von Zeilen und Spalten Veränderung von Tabellendimensionen Schachtelung von Tabellendimensionen (Integration weiterer Dimensionen) ƒ Graphiken Bildliche Darstellung großer Datenmengen Netz-, Punkt-, Oberflächengraphen ƒ Text und Multimedia-Elemente Ergänzung um Audio- oder Videodaten Einbeziehung von Dokumentenmanagementsystemen Vorlesung Data-Warehouse-Technologien 2-28 14

Analysewerkzeuge: Funktionalität ƒ Data Access Reporting Werkzeuge Lesen von Daten, Veränderung/Anreichung durch einfache arithmetische Operationen Präsentation in Berichten Ampelfunktionen : regelgebundene Formatierung Basis: SQL Vorlesung Data-Warehouse-Technologien 2-29 Analysewerkzeuge: Funktionalität ƒ OLAP Interaktive Datenanalyse, Klassifikationsnavigation Berichte mit verdichteten Werten (Kennzahlen) Navigationsoperationen (Drill Down, Roll Up, Drill Across) Gruppierungs- und Berechnungsfunktionen (statistisch, betriebswirtschaftlich) Validierung von Hypothesen, Plausibilitätsprüfung Vorlesung Data-Warehouse-Technologien 2-30 15

Analysewerkzeuge: Funktionalität ƒ Data Mining Aufdeckung bisher unbekannter Zusammenhänge (Muster, Regeln) Verfahren (u.a.): y Klassifikation: Zuordnung der Daten zu vorgegebenen Klassen y Assoziationsregeln y Clusterbildung: Segmentierung, d.h. Daten bzgl. Ihrer Merkmalsausprägungen zu Gruppen zusammenfassen Vorlesung Data-Warehouse-Technologien 2-31 Analysewerkzeuge: Realisierung ƒ Standard Reporting: Reporting-Werkzeuge des klassischen Berichtswesens ƒ Berichtshefte: Graphische Entwicklungsumgebungen zur Erstellung von Präsentationen von Tabellen, Graphiken, etc. ƒ Ad-hoc Query & Reporting: Werkzeuge zur Erstellung und Präsentation von Berichten Verbergen von Datenbankanbindung und Anfragesprachen Vorlesung Data-Warehouse-Technologien 2-32 16

Analysewerkzeuge: Realisierung ƒ Analyse-Clients: Werkzeuge zur mehrdimensionalen Analyse beinhalten Navigation, Manipulation (Berechnung), erweiterte Analysefunktionen und Präsentation ƒ Spreadsheet Add-Ins: Erweiterung von Tabellenkalkulationen für Datenanbindung und Navigation ƒ Entwicklungsumgebungen: Unterstützung der Entwicklung eigener Analyseanwendungen Bereitstellung von Operationen auf multidimensionalen Daten Vorlesung Data-Warehouse-Technologien 2-33 Repository ƒ Aufgabe: Speicherung der Metadaten des DW-Systems ƒ Metadaten: Informationen, die Aufbau, Wartung und Administration des DW-Systems vereinfachen und Informationsgewinnung ermöglichen Beispiele: Datenbankschemata, Zugriffsrechte, Prozeßinformationen (Verarbeitungsschritte und Parameter), etc. Vorlesung Data-Warehouse-Technologien 2-34 17

Metadaten-Manager ƒ Aufgaben: Steuerung der Metadatenverwaltung Zugriff, Anfrage, Navigation Versions- und Konfigurationsverwaltung ƒ Formen: allgemein einsetzbar: erweiterbares Basisschema werkzeugspezifisch: fester Teil von Werkzeugen ƒ häufig Integration von bzw. Austausch zwischen dezentralen Metadaten-Managementsystemen notwendig Vorlesung Data-Warehouse-Technologien 2-35 18