Data Warehousing Kapitel 2: Architektur von DWH-Systemen



Ähnliche Dokumente
Data Warehousing. 2. Architektur von Data Warehouse-Systemen

2. Architektur von Data Warehouse-Systemen

2. Architektur von Data Warehouse-Systemen

2. Architektur von Data Warehouse-Systemen

2. Architektur von Data Warehouse-Systemen

Common Warehouse Metamodel und Imperfektion

Data-Warehouse-Architektur

Anforderungen des Data Warehousing. 2. Data-Warehouse-Architektur. Anforderungen des Data Warehousing. Referenzarchitektur. Data-Warehouse-Manager

Data-Warehouse-Architektur

BI Konsolidierung: Anspruch & Wirklichkeit. Jacqueline Bloemen. in Kooperation mit

Data Warehouse Technologien

Veit Köppen Gunter Saake Kai-Uwe Sattler. 2. Auflage. Data Warehouse Technologien

Teil II Data-Warehouse-Architektur

Marketing Intelligence Vorstellung der Softwarekomponenten. Josef Kolbitsch Manuela Reinisch

1Ralph Schock RM NEO REPORTING

BIW - Überblick. Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004

Data Warehouse ??? Ein Data Warehouse ist keine von der Stange zu kaufende Standardsoftware, sondern immer eine unternehmensindividuelle

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Open Source BI 2009 Flexibilität und volle Excel-Integration von Palo machen OLAP für Endanwender beherrschbar. 24. September 2009

Business Intelligence Data Warehouse. Jan Weinschenker

Datenmanagement. Simone Unfried, Passau Vitaly Aleev, Passau Claus Schönleber, Passau. Strategisches Informationsmanagement 1 (01/2006)

SQL Server 2012 und SharePoint im Unternehmenseinsatz. Referent Daniel Caesar

Datenbanken. Prof. Dr. Bernhard Schiefer.

IVS Arbeitsgruppe Softwaretechnik Abschnitt Management komplexer Integrationslösungen

DW2004. XML-Datenimport in das SAP Business Information Warehouse bei Bayer Material Science. 3. November Dr. Michael Hahne, cundus AG

C09: Einsatz SAP BW im Vergleich zur Best-of-Breed-Produktauswahl

tdwi E U R D P E OPEN SOURCE BUSINESS INTELLIGENCE HANSER MÖGLICHKEITEN, CHANCEN UND RISIKEN QUELLOFFENER BI-LÖSUNGEN

Data-Warehouse-Architektur. Anforderungen des Data Warehousing. Anforderungen Referenzarchitektur Phasen des Data Warehousing Komponenten

ETL in den Zeiten von Big Data

Data Warehouse Theorie und Praxis. Ali Khabbazian T-Systems

OLAP und Data Warehouses

Architekturen. Von der DB basierten zur Multi-Tier Anwendung. DB/CRM (C) J.M.Joller

RE.one. Self Service Information Management für die Fachabteilung

SAP NetWeaver Gateway. 2013

Data Warehousing. Sommersemester Ulf Leser Wissensmanagement in der Bioinformatik

Von ODBC zu OLE DB. Neue Möglichkeiten der Datenintegration. Harald Gladytz, Team Vertrieb ESRI Niederlassung Leipzig

6. Oracle DWH Community Mainz Koexistenz SAP BW und mit unternehmensweitem zentralen DWH

Cubeware Connectivity for SAP Solutions

MetaNavigation der effizienteste Weg maximalen Mehrwert aus BI Metadaten zu ziehen

peer-to-peer Dateisystem Synchronisation

Grundlagen von Datenbanken

Business Intelligence Praktikum 1

Model Driven Architecture (MDA)

16.4 Wiederverwendung von COTS-Produkten

SAP Integration von Business Objects am Beispiel von SAP Student Lifecycle Management. Anke Noßmann Syncwork AG

Fragenkatalog zum Kurs 1666 (Datenbanken in Rechnernetzen) Kurstext von SS 96

Survival Guide für Ihr Business Intelligence-Projekt

Neue Funktionen in Innovator 11 R5

Web Services. 1. Quelle. Brian Connel The Seven Pillars of Web Services Management. Erschienen September 2002 im eai Journal

Business Intelligence Praktikum 1

7. Übung - Datenbanken

Seminar C16 - Datenmodellierung für SAP BW

Einsatz des Microsoft SQL-Servers bei der KKH

Modul Datenbanksysteme 2 Prüfung skizzenhaft SS Aug Name: Note:

Allgemeines zu Datenbanken

SAP HANA Einsatzmöglichkeiten und Potenziale

GESCHÄFTSSTELLENERÖFFNUNG HAMBURG, 25. APRIL 2013

Service. Was ist eine Enterprise Service Architecture und wie reagiert SAP. Warum Monitoring in ZENOS, was monitort die XI?

Komplexität der Information - Ausgangslage

1 Ihre BI-Galaxie von BITMARCK!

Seminar C02 - Praxisvergleich OLAP Tools

THEOBALD XTRACT PPS IXTO GMBH. Mathias Slawik, Linda Kallinich

Datensicherheit und Hochverfügbarkeit

Praxishandbuch SAP BW 3-1

SharePoint und IBM FileNet P8 Integration im Handel. Fred Rothert Teamleiter DMS REWE-Informations-Systeme GmbH

OERA OpenEdge Reference Architecture. Mike Fechner PUG Infotag 19. Mai 05 Frankfurt

Infor PM 10 auf SAP. Bernhard Rummich Presales Manager PM Uhr

Marketing Intelligence Architektur und Konzepte. Josef Kolbitsch Manuela Reinisch

10. Vorlesung: Datenorganisation SS 2007

Configuration Management mit Verbosy OSDC Eric Lippmann

pro4controlling - Whitepaper [DEU] Whitepaper zur CfMD-Lösung pro4controlling Seite 1 von 9

Möglichkeiten für bestehende Systeme

Darüber hinaus wird das Training dazu beitragen, das Verständnis für die neuen Möglichkeiten zu erlangen.

IT-Symposium. 2E04 Synchronisation Active Directory und AD/AM. Heino Ruddat

OLAP mit dem SQL-Server

Data Warehouse Definition (1)

Data Lineage goes Traceability - oder was Requirements Engineering von Business Intelligence lernen kann

Seminar in der Seminarreihe Business Intelligence 1. OLAP und Datawarehousing

Anforderungen an die HIS

Inhaltsverzeichnis 1 Einleitung 2 Zielsetzung 3 Data Warehousing

Fragen zur GridVis MSSQL-Server

5. Programmierschnittstellen für XML

Data Warehouse schnell gemacht Performanceaspekte im Oracle DWH

Schlüssel bei temporalen Daten im relationalen Modell

Datenmanagement in Android-Apps. 16. Mai 2013

Software Engineering 2 (SWT2) Dr. Alexander Zeier. Chapter 3: Introduction to ERP Systems

5. Programmierschnittstellen für XML

Metadaten bei der Digitalisierung von analogen archivalischen Quellen. Kathrin Mileta, Dr. Martina Wiech

Datenbanken auf Sybase SQL-Anywhere

Upgrade-Leitfaden. Apparo Fast Edit. Wechsel von Version 2 auf Version oder Wechsel von Version auf Version 3.0.

Man liest sich: POP3/IMAP

eevolution Business Intelligence Oliver Rzeniecki COMPRA GmbH Programmierer & Datenbankadministrator

DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER

20. DOAG-Konferenz. Flexible Berichtsgestaltung für die Oracle E-Business Suite mit dem Oracle BI Publisher

Diplomarbeit: GOMMA: Eine Plattform zur flexiblen Verwaltung und Analyse von Ontologie Mappings in der Bio-/Medizininformatik

Predictive Modeling Markup Language. Thomas Morandell

Technische Beschreibung: EPOD Server

Inhaltsverzeichnis. Teil I OLAP und der Microsoft SQL-Server 1. 1 Theoretische Grundlagen 3

Studierenden-Kennzahlen im Griff dank flexiblem Reporting und Ad-hoc-Analysen

ENTERBRAIN Reporting & Business Intelligence

Transkript:

Data Warehousing Kapitel 2: Architektur von DWH-Systemen Michael Hartung Sommersemester 2011 Universität Leipzig Institut für Informatik y y y http://dbs.uni-leipzig.de SS11, Prof. Dr. E. Rahm 2-1 y yy

2. Architektur von Data Warehouse-Systemen Referenzarchitektur Scheduler Datenquellen Datenextraktion Transformation und Laden Abhängige vs. unabhängige Data Marts Metadatenverwaltung Klassifikation von Metadaten (technische vs. fachliche Metadaten) CWM: Common Warehouse Model Interoperabilitätsmechanismen Operational Data Store (ODS) Master Data Management (MDM) Column Stores SS11, Prof. Dr. E. Rahm 2-2 y yy

DW-Referenzarchitektur Quelle: Bauer/Günzel, 2004 SS11, Prof. Dr. E. Rahm 2-3 y yy

Phasen des Data Warehousing 1. Überwachung der Quellen auf Änderungen durch Monitore 2. Kopieren der relevanten Daten mittels Extraktion in temporären Arbeitsbereich 3. Transformation der Daten im Arbeitsbereich (Bereinigung, Integration) 4. Kopieren der Daten ins Data Warehouse (DW) als Grundlage für verschiedene Analysen 5. Laden der Daten in Data Marts (DM) 6. Analyse: Operationen auf Daten des DW oder DM SS11, Prof. Dr. E. Rahm 2-4 y yy

Datenquellen Lieferanten der Daten für das Data Warehouse (gehören nicht direkt zum DW) Merkmale intern (Unternehmen) oder extern (z.b. Internet) ggf. kostenpflichtig i.a. autonom i.a. heterogen bzgl. Struktur, Inhalt und Schnittstellen (Datenbanken, Dateien) Qualitätsforderungen: Verfügbarkeit von Metadaten Konsistenz (Widerspruchsfreiheit) Korrektheit (Übereinstimmung mit Realität) Vollständigkeit (z.b. keine fehlenden Werte oder Attribute) Aktualität Verständlichkeit Verwendbarkeit Relevanz SS11, Prof. Dr. E. Rahm 2-5 y yy

Data-Warehouse-Manager/Scheduler Ablaufsteuerung: Initiierung, Steuerung und Überwachung der einzelnen Prozesse Initiierung des Datenbeschaffungsprozesses und Übertragung der Daten in Arbeitsbereich in regelmäßigen Zeitabständen (jede Nacht, am Wochenende etc.) bei Änderung einer Quelle: Start der entsprechenden Extraktionskomponente auf explizites Verlangen durch Administrator Fehlerfall: Dokumentation von Fehlern, Wiederanlaufmechanismen Zugriff auf Metadaten aus dem Repository Steuerung des Ablaufs Parameter der Komponenten SS11, Prof. Dr. E. Rahm 2-6 y yy

Datenextraktion Monitore: Entdeckung von Datenmanipulationen in einer Datenquelle interne Datenquellen: aktive Mechanismen externe Datenquellen: Polling / periodische Abfragen Extraktionskomponenten: Übertragung von Daten aus Quellen in Arbeitsbereich periodisch auf Anfrage ereignisgesteuert (z.b. bei Erreichen einer definierten Anzahl von Änderungen) sofortige Extraktion unterschiedliche Funktionalität der Quellsysteme Nutzung von Standardschnittstellen (z.b. ODBC) oder Eigenentwicklung Performance-Probleme bei großen Datenmengen Autonomie der Quellsysteme ist zu wahren SS11, Prof. Dr. E. Rahm 2-7 y yy

Datenextraktion: Strategien Snapshots: periodisches Kopieren des Datenbestandes in Datei Trigger Auslösen von Triggern bei Datenänderungen und Kopieren der geänderten Tupel Log-basiert Analyse von Transaktions-Log-Dateien der DBMS zur Erkennung von Änderungen Nutzung von DBMS-Replikationsmechanismen Autonomie Performanz Nutzbarkeit Snapshot Log Trigger Replikation SS11, Prof. Dr. E. Rahm 2-8 y yy

Datentransformation und Laden Arbeitsbereich (engl.: Staging Area) Temporärer Zwischenspeicher zur Integration und Bereinigung Laden der Daten ins DW erst nach erfolgreichem Abschluss der Transformation Keine Beeinflussung der Quellen oder des DW Keine Weitergabe fehlerbehafteter Daten Transformationskomponente: Vorbereitung der Daten für Laden Vereinheitlich von Datentypen, Datumsangaben, Maßeinheiten, Kodierungen etc. Data Cleaning und Scrubbing: Beseitigung von Verunreinigungen, fehlerhafte oder fehlende Werte, Redundanzen, veralteten Werte Data Auditing:Anwendung von Data-Mining-Verfahren zum Aufdecken von Regeln und Aufspüren von Abweichungen Ladekomponente: Übertragung der bereinigten und aufbereiteten (z.b. aggregierten) Daten in DW Nutzung spezieller Ladewerkzeuge (z.b. Bulk Loader) Historisierung: zusätzliches Abspeichern geänderter Daten anstatt Überschreiben Offline vs. Online-Laden (Verfügbarkeit des DW während des Ladens) SS11, Prof. Dr. E. Rahm 2-10 y yy

Data Marts Was ist eine Data Mart? eine Teilmenge des Data Warehouse inhaltliche Beschränkung auf bestimmten Themenkomplex oder Geschäftsbereich führt zu verteilter DW-Lösung Gründe für Data Marts Performance: schnellere Anfragen, weniger Benutzer, Lastverteilung Eigenständigkeit, Datenschutz ggf. schnellere Realisierung Probleme zusätzliche Redundanz zusätzlicher Transformationsaufwand erhöhte Konsistenzprobleme Varianten Abhängige Data Marts Unabhängige Data Marts SS11, Prof. Dr. E. Rahm 2-11 y yy

Abhängige Data Marts S o u rc rc e e 1 S a le s M a rt S o u rc rc e e 2 S o u rc rc e e 3 D a ta W a re h o u se F in a n c ia l M a rt C u sto m e r S e rv ic e M a rt Nabe- und Speiche -Architektur (hub and spoke) Data Marts sind Extrakte aus dem zentralen Warehouse strukturelle Ausschnitte (Teilschema, z.b. nur bestimmte Kennzahlen) inhaltliche Extrakte (z.b. nur bestimmter Zeitraum, bestimmte Filialen...) Aggregierung (geringere Granularität), z.b. nur Monatssummen Vorteile: relativ einfach ableitbar (Replikationsmechanismen des Warehouse-DBS) Analysen auf Data Marts sind konsistent mit Analysen auf Warehouse Nachteil: Entwicklungsdauer (Unternehmens-DW zunächst zu erstellen) SS11, Prof. Dr. E. Rahm 2-12 y yy

Unabhängige Data Marts Source 1 Sales Mart Source 1 Sales Mart Source 2 Financial Mart Source 2 Financial Mart Data Warehouse Source 3 Customer Service Mart Source 3 Customer Service Mart Variante 1: kein zentrales, unternehmensweites DW wesentlich einfachere und schnellere Erstellung der DM verglichen mit DW Datenduplizierung zwischen Data Marts, Gefahr von Konsistenzproblemen Aufwand wächst proportional zur Anzahl der DM schwierigere Erweiterbarkeit keine unternehmensweite Analysemöglichkeit Variante 2: unabhängige DM + Ableitung eines DW aus DM Variante 3: unabhängige DM + Verwendung gemeinsamer Dimensionen SS11, Prof. Dr. E. Rahm 2-13 y yy

Metadaten-Verwaltung Anforderungen an Metadaten-Verwaltung / Repository vollständige Bereitstellung aller relevanten Metadaten auf aktuellem Stand flexible Zugriffsmöglichkeiten (DB-basiert) über mächtige Schnittstellen Versions- und Konfigurationsverwaltung Unterstützung für technische und fachliche Aufgaben und Nutzer aktive Nutzung für DW-Prozesse (Datentransformation, Analyse) Realisierungsformen werkzeugspezifisch: fester Teil von Werkzeugen allgemein einsetzbar: generisches und erweiterbares Repository-Schema (Metadaten-Modell) zahlreiche proprietäre Metadaten-Modelle Standardisierungsbemühungen Open Information Model (OIM): Metadata Coalition (MDC) - wurde 2000 eingestellt Common Warehouse Metamodel (CWM): Object Management Group (OMG) häufig Integration von bzw. Austausch zwischen dezentralen Metadaten-Verwaltungssystemen notwendig SS11, Prof. Dr. E. Rahm 2-14 y yy

Metadaten: Beispiel SS11, Prof. Dr. E. Rahm 2-15 y yy

Metadaten im Data Warehouse-Kontext Transformations-Jobs Job-Scheduling, -Ausführung Datenqualitätsstatistiken Warehouse-schema, -tabellen, attribute Konzeptionelle, Multidimensionale Datenmodelle Geschäftsbeschr. von Entities, Attr., Dim., Kennzahlen Transformationsregeln, Cleaning-Regeln Business Terms Vokabulare Datenbankschemas, Flatfile-Formate Reports, Queries Quellspezifika (DBMS, IP, URL) Zugriffsmuster, -statistics Authorisierung (Name, Password) Nutzerprofile, -rolle, -rechte SS11, Prof. Dr. E. Rahm 2-16 y yy

Klassifikation von DW-Metadaten USERS technical users business users DATA data marts data warehouse data warehouse metadata operational design populate admin analyze PROCESSES USER Technical User Business User takes part in PROCESSES Design Populate Administer Analyze involves data in DATA Operational Data Warehouse Data Marts SS11, Prof. Dr. E. Rahm 2-17 y yy

Technische Metadaten Schemata Datenbank-Schemata, Dateiformate Quell-, Ziel-Systeme technische Charakteristika für Zugriff (IP, Protokoll, Benutzername und Passwort, etc.) Datenabhängigkeiten: (technische) Mappings Operationale Systeme <-> Data Warehouse, Data Marts: Datentransformations-Regeln Data Warehouse, Data Marts <-> Datenzugriff-Tools: Technische Beschreibung von Queries, Reports, Cubes (SQL, Aggregation, Filters, etc.) Warehouse-Administration (Datenaktualisierung, -archivierung, Optimierung) Systemstatistiken (Usage Patterns, nutzer-/gruppenspezifische CPU-/ IO-Nutzung,...) für Resourcenplanung und Optimierung Häufigkeit (Scheduling), Logging-Information, Job-Ausführungsstatus Regeln, Funktion für Datenselektion für Archivierung SS11, Prof. Dr. E. Rahm 2-18 y yy

Business-Metadaten Informationsmodelle, konzeptuelle Datenmodelle Unternehmens-/Branchen-spezifische Business Terms, Vokabulare, Terminologien Abbildungen zwischen Business Terms und Warehouse/Data Mart-Elementen (Dimensionen, Attribute, Fakten) Geschäftsbeschreibung von Queries, Reports, Cubes, Kennzahlen Datenqualität Herkunft (lineage): aus welchen Quellen stammen die Daten? Besitzer? Richtigkeit (accuracy): welche Transformation wurden angewendet? Aktualität (timeliness): wann war der letzte Aktualisierungsvorgang? Personalisierung Beziehungen zw. Nutzer, Nutzerrollen, Informationsobjekten, Interessengebieten und Aktivitäten Zuordnung von Nutzer zu Rollen, von Rollen zu Aktivitäten bzw. zu Interessengebieten, und von Aktivitäten zu Informationsobjekten und Interessengebieten SS11, Prof. Dr. E. Rahm 2-19 y yy

Business Metadaten: Beispiel Business Terms für Versicherungsindustrie Liability Insurance: Insurance covering the legal liability of the insured resulting from injuries to a third party to their body or damage to their property. Life Insurance: Insurance providing payment of a specified amount on the insured's death, either to his or her estate or to a designated beneficiary. Liquor Liability Insurance: Provides protection for the owners of an establishment that sells alcoholic beverages against liability arising out of accidents caused by intoxicated customers. Long-Term Disability Insurance: Insurance to provide a reasonable replacement of a portion of an employee's earned income lost through serious illness or injury during the normal work career: SS11, Prof. Dr. E. Rahm 2-20 y yy

Business Metadaten: Beispiel SS11, Prof. Dr. E. Rahm 2-21 y yy

Common Warehouse Metamodel (CWM) umfassende UML-basierte Metadaten-Modelle für Data Warehousing OMG-Standard CWM 1.0: 2001 CWM 1.1: 2002 Warehouse Management Analysis Warehouse Process Transformation OLAP Data Mining Warehouse Operation Information Visualization Business Nomenclature Resources Record- Oriented Object- Oriented (ObjectModel) Relational Multi Dimensional XML Foundation Business Data Information Types Keys Expressions Index Type Mapping Software Deployment ObjectModel (Core, Behavioral, Relationships, Instance) Web-Infos: www.omg.org/cwm, www.cwmforum.org geringe Produktunterstützung SS11, Prof. Dr. E. Rahm 2-22 y yy

CWM: Relationales Teilmodell /constraint CheckConstraint deferrability : DeferrabilityT ype * * /co nstran t Colum nset 0..1 /feature /owner * {ordered} /constrainedelem ent Colum n {ordered} precision : Integer scale : Integer isnullable : NullableT ype length : Integer collationnam e : String charactersetnam e : String / optionscopecolum nset : Nam edcolum nset / referencedt ablet ype : SQLStructuredT ype * * /structuralfeature /type SQLDataType 1 typenum ber : Integer Nam edcolum nset / optionscopecolumn : Column / type : SQLStructuredT ype / usingtrigger : Trigger /constrainedelem ent Qu erycolumnset query : QueryExpression SQLDistinctType length : Integer precision : Integer scale : Integer / sqlsimpletype : SQLSimpleType * {ordered} Table istemporary : Boole an temporaryscope : S tring / trigger : Trigg er issystem : Boolean View isreadonly : Boolean checkoption : Boolean queryexpression : QueryExpression sqldistinctt ype * 1 sqlsim plet ype SQLSim plet ype characterm axim um Length : Integer characteroctetlength : Integer num ericprecision : Integer num ericprecisionradix : Integer num ericscale : Integer datet im eprecision : Integer SS11, Prof. Dr. E. Rahm 2-23 y yy

Metadaten: Architekturalternativen Tool A Tool B Tool C Tool A Local Repository Tool A Local Repository Tool B Local Repository Tool B Local Repository Shared Metadata Central Repository Tool C Local Repository Tool C Local Repository Shared Repository zentrales Repository keine Metadaten-Replikation Abhängigkeit zu zentralem Repository auch für lokale Metadaten unzureichende Autonomie verteilte Repositories maximale Unabhängigkeit schneller Zugriff auf lokale Metadaten zahlreiche Verbindungen zum Metadatenaustausch großer Grad an Metadaten-Replikation schwierige Synchronisation föderiert (shared repository) einheitliche Repräsentation gemeinsamer Metadaten lokale Autonomie begrenzter Umfang an Metadaten-Austausch kontrollierte Redundanz SS11, Prof. Dr. E. Rahm 2-24 y yy

Interoperabilitätsmechanismen Dateiaustausch kein Repository-Zugriff plattform-unabhängig, einfach realisierbar, asynchron Standardformate: MDIS, CDIF, XML Application Programming Interface (API) direkter Repository-Zugriff, synchron derzeit proprietär und aufwendig zu nutzen Standards für Daten- und Metadatenzugriff: ODBC, OLEDB for OLAP Metadaten-Wrapper Abbildung zwischen unterschiedlichen Metadaten- Repräsentationen entweder asynchron (Dateiaustausch) oder synchron (API-basiert) nur proprietäre, tool-/repositoryspezifische Produkte, Anbieterabhängigkeit Beispiele: Ardent MetaBroker Tool A Local Repository Tool B Local Repository W 1 W 2 W 3 Shared Metadata Tool C Local Repository Shared Repository Publishers / Subscribers Metadata Wrappers SS11, Prof. Dr. E. Rahm 2-25 y yy

Kommerzielle Repository-Produkte Tool-spezifische Repositories: ETL-Tools: Informatica PowerMart, PowerCenter,... Modellierungs-Tools: Sybase PowerDesigner, Oracle Designer, CA Erwin... Generische Repositories flexible und erweiterbare Metadatenmodelle, breitere Einsatzgebiete, Tool-Integration Bsp.: IBM DataGuide, Microsoft Repository, Sybase, UniSys Universal Repository Meist proprietäre Metadaten-Modelle (realisiert über interne Datenbank) und eingeschränkte Interoperabilität Import: Schema-Metadaten aus CASE-Tools / DBMS; Transformationsmetadaten aus ETL- Tools Export: Querying-, Reporting- und OLAP-Tools v.a. passive Nutzung von Metadaten (Systemdokumentation, Nutzerinformation) keine Query-Übersetzung zwischen Business-Terms und Datenbankschemata kaum Unterstützung für Metadaten-/ Schemaintegration und automatische Metadaten- Synchronisation SS11, Prof. Dr. E. Rahm 2-26 y yy

Operational Data Store (ODS) optionale Komponente einer DW-Architektur zur Unterstützung operativer (Realzeit-) Anwendungen auf integrierten Daten grössere Datenaktualität als Warehouse direkte Änderbarkeit der Daten geringere Verdichtung/Aggregation, da keine primäre Ausrichtung auf Analysezwecke Probleme Ad hoc-abfragen weitere Erhöhung Real-time der Redundanz OLAP Data mining Anw endungen geänderte Daten im ODS Kern-Data W arehouse Operational Data Store (ODS) SS11, Prof. Dr. E. Rahm 2-27 y yy

Master Data Management (MDM) Nutzung integrierter Masterdaten (Referenzdaten, Stammdaten) nicht nur für Analysezwecke, sondern auch für operative Anwendungen und Geschäftsprozesse CDI: Customer Data Integration Produktdaten, Konten, Mitarbeiterdaten, MDM-Erstellung ähnelt DWH-Erstellung, jedoch unterschiedliche Nutzungsrollen Replikation (Caching) von Masterdaten in Anwendungen mit Änderungsmöglichkeit MDM-Unterstützung im Rahmen von Anwendungsarchitekturen (SOA), z.b. SAP NetWeaver, IBM, Oracle, Microsoft. MDM muß skalierbar und erweiterbar sein Quelle: IBM SS11, Prof. Dr. E. Rahm 2-28 y yy

MDM-Architektur Materialisierte oder virtuelle Realsierung eines MDM-Hubs Beispiel einer Hub-Architektur (Quelle: Microsoft*) *R. Wolter: Master Data Management (MDM) Hub Architecture. MSDN Article, April 2007 SS11, Prof. Dr. E. Rahm 2-29 y yy

Column Stores DB(DW)-Inhalte werden spaltenweise statt zeilenweise abgespeichert Vorteile Effizientere Aggregatberechnung über viele Tupel bei wenig Spalten Effizientere Änderung aller Werte einer Spalte (keine Berücksichtigung anderer Spalten) Nachteile Ineffizient falls viele Attribute eines Tupels benötigt/abgefragt werden Ineffizient beim Einfügen neuer Tupel (da alle Spalten betroffen) Beispiel PNr Vorname Nachname Gehalt 1 Frank Müller 30.000 2 Helga Meier 20.000 3 Peter Schmidt 10.000 Zeilenorientiert: Spaltenorientiert: 1,Frank,Müller,30000;2,Helga,Meier,20000;3,Peter,Schmidt,10000 1,2,3;Frank,Helga,Peter;Müller,Meier,Schmidt;30000,20000,10000 SS11, Prof. Dr. E. Rahm 2-30 y yy

Anfragen Column vs. Row Store * * Quelle: Hasso Plattner: Enterprise Applications OLTP and OLAP Share One Database Architecture SS11, Prof. Dr. E. Rahm 2-31 y yy

SanssouciDB * * Quelle: Hasso Plattner, Alexander Zeier: In-Memory Data Management. An Inflection Point for Enterprise Applications SS11, Prof. Dr. E. Rahm 2-32 y yy

Zusammenfassung Komponenten der Referenzarchitektur Datenquellen ETL-Komponenten (Extraktion, Transformation, Laden) inklusive Monitoring und Scheduling Arbeitsbereich (staging area) Data Warehouse und Data Marts Analyse-Tools Metadaten-Verwaltung Extraktionsansätze: Snapshot, Trigger, Log-Transfer, DBMS- Replikationsverfahren Abhängige vs. unabhängige Data Marts Systematische Verwaltung von DW-Metadaten notwendig Technische Metadaten vs. Business Metadaten,... derzeit: Ko-Existenz lokaler Repositorien mit proprietären Metadaten-Modellen CWM-Standard: UML-basiert, umfassend, unzureichende Produktunterstützung Metadaten-Interoperabilität v.a. über Dateiaustausch und Low-Level Repository APIs Unterstützung operativer Anwendungen auf integrierten Daten ODS: Online Data Store MDM: Master Data Management Column Stores SS11, Prof. Dr. E. Rahm 2-33 y yy