Vorlesungs-Übersicht 1) Einführung und Definitionen 2) Architektur eines Data-Warehouse-Systems 3) Das multidimensionale Datenmodell 4) ETL: Extraktion, Transformation, Laden 5) Anfrageverarbeitung und -optimierung 6) Indexstrukturen für das multidimensionale Datenmodell 7) Materialisierte Views 8) Metadaten 9) OLAP, Data Mining, Process Mining 10) Zusammenfassung und Ausblick 1 Vorlesung Data-Warehouse-Systeme im Wintersemester 2008/09 Kapitel 8 - Metadaten - 1
Kapitel 8: Überblick 8.1 Motivation 8.2 Die Rolle von Metadaten im Data-Warehousing 8.3 Metadaten-Management 8.4 Standards und Referenzmodelle für Metadatenhaltung 8.5 Schemaentwurf für Metadaten-Verwaltung 8.6 Zusammenfassung und Ausblick 3 8.1 Motivation Der Erfolg eines DWH-Projekts hängt im starken Maße von der Qualität der im DWH vorhandenen Daten ab. Beispiele: Marketingstrategie schlägt fehl, da Anschreiben fehlerhafte Angaben enthalten. Doppelwerbung durch fehlendes Abgleichen von Kundendaten (customer matching) führt zur Verärgerung der Kunden. Metadaten sind maßgeblich an der Qualität der Daten im DWH beteiligt 4 2
Kapitel 8: Überblick 8.1 Motivation 8.2 Die Rolle von Metadaten im Data-Warehousing 8.3 Metadaten-Management 8.4 Standards und Referenzmodelle für Metadatenhaltung 8.5 Schemaentwurf für Metadaten-Verwaltung 8.6 Zusammenfassung und Ausblick 5 8.2 Die Rolle von Metadaten im Data-Warehousing (1) Entwicklung im Verständnis von Metadaten Klassisch: z.b. Bibliotheken: Metadaten zu Bücher (Autor, Titel, Auflage, etc.) Datenbanken: Schema, DDL SW-Engineering: Informationen über Programme (E/A-Verhalten, Parameterbereiche, etc.) und Entwicklungsprozess (Version, etc.) Allg. Definition: Metadaten sind jede Art von Information, die für den Entwurf, die Konstruktion und die Benutzung eines Informationssystems benötigt wird Für DWH: Metadaten sind notwendig zur Abdeckung der Informations-, Schutz- und Sicherheitsbedürfnisse der versch. Anwender und Softwarekomponenten werden in allen Phasen produziert und genutzt 6 3
8.2 Die Rolle von Metadaten im Data-Warehousing (2) Beispiele für Metadaten (allgemein): Allgemeine Schemadaten der zugehörigen Datenbanken (einschließlich GRANT-Rechte) Semantik der Relationen und Attribute Entstehungsprozedur Aktualisierungsgrad Benutzerhäufigkeit Abhängigkeiten und Konsistenzbeziehungen Unsicherheitsfaktor (Richtigkeit, Glaubwürdigkeit) Problematik ist die selbe wie bei Objekt-Daten: Metadaten müssen gesammelt gespeichert für Anwendungen zur Verfügung gestellt werden 7 8.2 Die Rolle von Metadaten im Data-Warehousing (3) Beispiele für Metadaten-Objekte im DWH: Logische Ebene (Star-/Snowflake-Schema) Physische Ebene (Tabellen, Attribute) Aggregationsgraph mit Hierarchieobjekten Betriebswirtschaftliche Kennzahlen Sichten für einzelne Anwendergruppen Transformation der Daten aus Quellensystemen in das DWH Laderoutinen und Regeln Aufbau von Anfragen, Filter, Anzeigenschablonen,... Administratorinformationen: Zugriffsstatistiken, Backup/Recovery, Bildung von Aggregaten etc. Datenbankparameter und einstellungen: Server, Hardware-Umgebung, Tuning- Parameter Anfrage-Performance: vorberechnete Aggregate, Caching,Optimierungsstrategien Granularität der Daten Allgemeine Attribute: Maßeinheiten etc. Sicherheitsstrategie: Anwenderprofile und gruppen, Einschränkungen der Sichten Berichts- und Analyseobjekte, Reports 8 4
8.2 Die Rolle von Metadaten im Data-Warehousing (4) Nutzung von Metadaten: Passiv: als konsistente Dokumentation der verschiedenen Aspekte eines DW-Systems Aktiv: Speicherung semantischer Aspekte (z.b. Transformationsregeln) Interpretation und Ausführung durch Werkzeug es findet ein metadatengetriebener Prozess statt Semiaktiv: Speicherung von Strukturinformationen (Tabellendefinitionen, Konfigurationsspezifikationen) und Nutzung zur Konsistenzprüfung (nicht direkt zur Ausführung) Generelle Ziele: Ziel 1: Minimierung des Aufwands für Aufbau und Betrieb des DWHs Ziel 2: Bereitstellung eines optimalen Informationsgewinns für alle Anwendergruppen 9 8.2 Die Rolle von Metadaten im Data-Warehousing (5) @Ziel 1: Minimierung des Aufwands für Aufbau und Betrieb eines DWH Systemintegration Integrationen auf Schema- und Datenebenen erfordern Informationen über Struktur und Semantik der Quellsysteme und des Zielsystems Vereinheitlichung ( ETL-Prozess, Kapitel 4) und einheitliche Verwaltung der Metadaten für Integration der DWH-Werkzeuge Automatisierung der Administration Automatische Steuerung der DWH-Prozesse über Scheduling-, Transformations- und Konfigurationsmetadaten Daten über Ausführung der Prozesse (Zugriffsprotokolle, Aktualisierungszeitpunkt, Aktualisierungsprotokoll) werden ebenfalls als Metadaten gespeichert 10 5
8.2 Die Rolle von Metadaten im Data-Warehousing (6) @Ziel 1 (continued): Flexibler Softwareentwurf sich oft ändernde semantische Aspekte müssen nicht in der Anwendung hart codiert werden, sondern werden als Metadaten gespeichert; z.b. Transformationsregeln des Ladeprozesses Dadurch Erhöhung der Mehrfachverwendung, Wartbarkeit, Erweiterbarkeit Schutz und Sicherheitsaspekte Zugriffs- und Benutzerrechten als Metadaten Globale Zugriffsrechteverwaltung für alle Komponenten und Teil- Datenbanken (vgl. Problematik: Aggregation von Gehaltsdaten Trackerangriffe) 11 8.2 Die Rolle von Metadaten im Data-Warehousing (7) @Ziel 2: Optimaler Informationsgewinns für alle Anwendungen Datenqualität Überprüfungsregeln (Constraints, Check-Klauseln, Assertions) zur Konsistenz, Korrektheit, Vollständigkeit (siehe Kapitel 4) zur Gewährleistung von Datenqualität Nachvollziehbarkeitsinformationen (data tracking information), z.b. Quellsystem, Autor, Erstellungszeitpunkt usw. Terminologie Einheitliche Terminologie als Voraussetzung für einheitliche Interpretation. Zentrale Verwaltung im Metadaten-Repository Datenanalyse Metadaten über Bedeutung von Daten, Kennzahlensysteme, etc. 12 6
Kapitel 8: Überblick 8.1 Motivation 8.2 Die Rolle von Metadaten im Data-Warehousing 8.3 Metadaten-Management 8.4 Standards und Referenzmodelle für Metadatenhaltung 8.5 Schemaentwurf für Metadaten-Verwaltung 8.6 Zusammenfassung und Ausblick 13 8.3 Metadaten-Management (1) Analyse Data-Warehouse-System Data Warehouse Laden Data Warehouse- Manager Metadaten- Manager Repository Basisdatenbank Laden Arbeitsbereich Transformation Konsistente Bereitstellung der Metadaten aus unterschiedlichen Quellen notwendig Repository (Datenbank, Verwaltungskomponente: Metadatenmanager) Extraktion Datenbeschaffungsbereich Monitor Datenfluss Datenquelle Kontrollfluss 7
8.3 Metadaten-Management (2) Ebene 0: effektive Daten (Objektdaten) Ebene 1: Modell des zu modellierenden Informationssystems (z.b. Datenbankschema) Ebene 2: Definition der Sprachelement, die auf Ebene 1 zur Verfügung stehen Ebene 3: Vereinigung der verschiedenen Sprachen der Ebene 2 3 Metametamodell 2 Metamodelle Repository-Schema (TABELLE, ATTRIBUT) 1 Metadaten KUNDE_TABELLE, STRASSE_ATTRIBUT 0 Daten Kundendaten (Müller, Blumenstraße) Modellierungsebenen 15 8.3 Metadaten-Management (3) Anforderungen an das DWH-Repository bzgl. Funktionalität: Anwenderzugriff: Bereitstellung von Information, die von den Anwendern zur Erfüllung verschiedener Aufgaben benötigt wird. Anwender haben unterschiedlichen Kenntnisstand Benutzerführung durch Navigation, Filterung und Selektion von Metadaten Interoperabilität und Werkzeugunterstützung API : Programmierschnittstelle für lesenden und schreibenden Zugriff Schnittstellen für Interoperabilität mit anderen Repositories Definition eines Austauschformats zum Import und Export von Metadaten Erweiterbarkeit des Metamodells (z.b. um domänenspezifische Metadatentypen) Änderungsverwaltung Versions- und Konfigurationsverwaltung Benachrichtigungsmechanismen (Pull- und Push-Strategien) senden Änderungshinweise an registrierte Werkzeuge und Benutzer 16 8
8.3 Metadaten-Management (4) Anforderungen an das DWH-Repository bzgl. Architektur [BaGü04]: Überblick über die Repository-Föderation und Werkzeuge Anwender- Zugriffswerkzeug Administrations- Werkzeug Analyse- Werkzeug Entwicklungs- Werkzeug Automomes Werkzeug Metadatenmanager Datenfluss Kontrollfluss Repository Repository Repository Repository Repository-Föderation 17 8.3 Metadaten-Management (5) Anforderungen an das DWH-Repository bzgl. Architektur [BaGü04]: Überblick über die Repository-Föderation und Werkzeuge Anwender- Zugriffswerkzeug Automomes Navigation, Filterung, Werkzeug Selektion, Aktualisierung Administrations- Werkzeug Metadatenmanager Analyse- Werkzeug Entwurf neuer DWH- Anwendungen DBMS für Metadaten, Zugriffsschnittstelle Entwicklungs- Werkzeug Datenfluss Kontrollfluss Repository Repository Repository Repository Repository-Föderation 18 9
8.3 Metadaten-Management (6) Architektur: Zentralisierungsvarianten Zentralisiert: Ein Repository für alle Metadaten Verwaltung der Daten zentral und konsistent Zugriff einheitlich für alle Anwender am besten, aber manchmal nicht möglich aufgrund organisatorischer und technischer Schwierigkeiten Dezentralisiert: Existenz verschiedener Repositories ohne einheitliche konzeptuelle Sicht auf alle Metadaten (z.b. für einzelne Werkzeuge und/oder Organisationseinheiten) Austausch von Metadaten mit Hilfe von Standards Föderiert: Einheitliche, konzeptuelle Sicht auf alle Metadaten Virtuelle Integration autonomer Repositories (insbesondere Autonomie bei der Pflege) 19 8.3 Metadaten-Management (7) Repository- und Metadatenaustausch-Standards Repository-Standards: Referenzarchitekturen für Repository-Systeme IRDS (Information Resource Dictionary System) (ISO, 1990) http://de.wikipedia.org/wiki/data_dictionary 4-Ebenen-Architektur, welche die folgenden Punkte enthält: Informationen über Daten (Unternehmensdaten) Automatisierte/nicht automatische Prozesse Hardware-Infos Organisationsstrukturen (wer oder was ist für Generierung zuständig) PCTE (Portable Common Tool Environment) (ECMA, 1990) http://www.ecma-international.org/publications/files/ecma-st/ecma-149.pdf European Computer Manufacturer s Association 1990 Basis für standardisierte Softwareentwicklungsumgebung Konzept enthält: Repository (Objektbasis basierend auf ERM-Modell) Unterstützung der Kommunikation zwischen Werkzeugen Austauschstandards: Standardisierung von Austauschformaten XML-basiert: OIM (MDC), CWM (OMG) (siehe 7.3) CDIF (Case Data Interchange Format) (Electronic Industries Association, EIA) auf Dateiebene, wird voraus. Zugunsten XML-basierter Standards aufgegeben 20 10
Kapitel 8: Überblick 8.1 Motivation 8.2 Die Rolle von Metadaten im Data-Warehousing 8.3 Metadaten-Management 8.4 Standards und Referenzmodelle für Metadatenhaltung 8.5 Schemaentwurf für Metadaten-Verwaltung 8.6 Zusammenfassung und Ausblick 21 8.4 Standards und Referenzmodelle für Metadatenhaltung (1) Im Folgenden besprechen wir zwei Referenzmodelle: OIM: Open Information Model von der Meta Data Coalition (MDC) (stützt sich auf UML und XML) CWM: Common Warehouse Metamodell von der Object Management Group (OMG) (stützt sich auf UML und XML) Man braucht jeweils ein Metamodell (hier jeweils in der UML) ein Austauschformat (Repräsentationssprache) (hier jeweils XML) 22 11
8.4 Standards und Referenzmodelle für Metadatenhaltung (2) OIM: Open Information Model Standard der Meta Data Coalition (Microsoft, Ardent, Platinum, SAS,..) 1999 Interoperabilität zwischen Werkzeugen und Firmen Definition eines Informationsmodells Ziel: Unterstützung aller Phasen der Entwicklung von Informationssystemen Spezialisierung der UML-Konzepte in domänenspezifische Teilmodelle, z.b. für Data Warehousing 23 8.4 Standards und Referenzmodelle für Metadatenhaltung (3) OIM: Teilmodelle: Analyse & Design Model: Objektorientierte Modellierung eines Softwaresystems (Kern: UML) Object & Component Model: Für verschiedene Phasen der Implementierung von Softwarekomponenten (Spezifikation, Implementierung, Ausführung) Business Engineering Model: Metadatentypen zur Modellierung von Zielsetzungen, Organisations- und Infrastrukturen eines Unternehmens, Prozessen und Geschäftsregeln Knowledge Management Model Konzeptuelle Modellierung natürlich-sprachlicher Datenbankanfragen (Semantic- Definition-Teilmodell) Ziel: Unterstützung von Anfragen ohne SQL-Kenntnisse Database & Warehousing Model (technische) Metadaten im DB- und DWH-Bereich Datenbankschemaelemente: Tabellen, Sichten, Anfragen OLAP-Schemaelemente: Würfel, Dimensionshierarchien, Aggregationen ransformationselemente: Spezifikation von Datenbeschaffungsprozessen Reportdefinitionen: Informationen für Report-Generatoren 24 12
8.4 Standards und Referenzmodelle für Metadatenhaltung (4) OIM: Austauschformat Basis: XML Abbildung von UML-Konzepten (Klasse, Attribute, Assoziationen, Vererbung) auf XML Klasse 1 Attribute 1 Klasse 2 <Klasse1 Attribut1=... >... </Klasse1> <Klasse2 Attribut1=... Attribut2=...... </Klasse2> Attribute 2 25 8.4 Standards und Referenzmodelle für Metadatenhaltung (5) OIM: Austauschformat (continued) Klasse 1 Attribute 1 ZielAssoz <Klasse1 id= 1 Attribut1=... > <Klasse1QuellAssoz id= 4 > <Klasse2 id= 2 Seqno= 1 /> <Klasse2 id= 3 Seqno= 1 /> </Klasse1QuellAssoz> </Klasse1> Klasse 2 QuellAssoz Attribute 2 26 13
8.4 Standards und Referenzmodelle für Metadatenhaltung (6) OIM: Beschreibung eines DB-Schemas <?XML version= 1.0?> <oim:transfer...> <dbm:catalog id= sales comments=... > <dbm:catalogschema> <dbm:schema id= 2 name= dbo > <dbm:schematables> <dbm:table id= 3 name= Customer > <dbm:columnsetcolumns> <dbm:column id = 6 name= CustomerID IsNullable= 0 /> <dbm:column id = 7 name= Name IsNullable= 0 /> 27 8.4 Standards und Referenzmodelle für Metadatenhaltung (7) CWM: Common Warehouse Metamodel OMG-Standard (1999) Austausch von DW-Metadaten Teilmodelle in UML: Focus: einfacher Austausch von DWH-Metadaten zwischen Werkzeugen und Repositorien 28 14
8.4 Standards und Referenzmodelle für Metadatenhaltung (8) CWM-Teilmodelle CWM Foundation Model: Klassen zu allgemeinen Konzepten und Strukturen für alle Teilmodelle Warehouse Deployment Model: Klassen zur Definition von Hard- und Software Relationale Model: Klassen zur Beschreibung relationaler Datenbankstrukturen Record Oriented Model: Klassen zur Beschreibung eines Records Multidimensionale Database Model: Klassen zur Beschreibung einer multidimensionalen Datenbank XML Model: Klassen zur Beschreibung von XML-Datenstrukuren Transformation Model: Transformationen zwischen unterschiedlichen Formen von Quell- und Zieldaten (relational, objektorientiert, multidimensional) OLAP Model: Metamodell grundlegender OLAP-Konstrukte Warehouse Process Model: Klassen zur Dokumentation des Prozessfluss bei der Ausführung von DWH-Transformationen Warehouse Operation Model: Klassen zur Dokumentation regelmäßiger DWH- Prozesse 29 8.4 Standards und Referenzmodelle für Metadatenhaltung (9) CWM-Metadatenaustausch: Zwei Varianten sind vorgesehen: Erstens Metadatenaustausch über spezielle CWM-Schnittstelle (IDL- Schnittstellendefinitionen der einzelne CWM-Pakete) Zweitens Metadatenaustausch basierend auf CWM-Interchange- Dokumenten (CMW-DTD) CWM- Metadaten CWM IDL Tool A CWM Interchange Document (XML) XML- Parser Tool B 30 15
Kapitel 8: Überblick 8.1 Motivation 8.2 Die Rolle von Metadaten im Data-Warehousing 8.3 Metadaten-Management 8.4 Standards und Referenzmodelle für Metadatenhaltung 8.5 Schemaentwurf für Metadaten-Verwaltung 8.6 Zusammenfassung und Ausblick 31 8.5 Schemaentwurf für Metadaten-Verwaltung (1) Verwaltung von DW-Metadaten - ein erster Ansatz Hier nur auf Ebene von UML Umsetzung in Klassen oder Relationen wie üblich Hier nur sehr verallgemeinert (ohne Subklassen und Instanzen) Behandelte Aspekte: Metadaten zu multidimensionalen Datenmodellierung Metadaten zu Transformationsprozess Metadaten zu Zugriffsverwaltung /-rechte 32 16
8.5 Schemaentwurf für Metadaten-Verwaltung (2) Multidimensionales Schema ordered Schema Class Attribute Cube Dimension DimensionObject Measure Hierarchy ordered Personen, Organisationen und Aufgaben Business-Metadaten Abstraktionsstufen 33 8.5 Schemaentwurf für Metadaten-Verwaltung (3) Multidimensionales Schema ordered Schema Class umfasst Attribute Behälter für Modellelemente unterschiedliche Hierarchien Cube Dimension DimensionObject Measure Datenwürfel Hierarchy ordered Personen, Organisationen und Aufgaben Business-Metadaten Abstraktionsstufen geordnete Liste von Dimensionsobjekten 34 17
8.5 Schemaentwurf für Metadaten-Verwaltung (4) Transformationsprozesse: DataObject DataObjectSet source ExecutionElement realizes ActivationElement ordered Process TransformationGroup Transformation TransformationProcess 35 8.5 Schemaentwurf für Metadaten-Verwaltung (5) Transformationsprozesse DataObject: z.b. Attribut, XML-Dokument, DB-Tabelle Transformation: anwenderdefinierte atomare Einheit (z.b. Berechnung, Datenbereinigung, Aggregation) TransformationGroup: geordnete Gruppe von Transformationen TransformationProcess: Zusammenfassung zu physisch auszuführenden Prozessen DataObjectSet: Gruppen von Datenobjekten, die als Ein-/Ausgabe einer Transformation dienen ActivationElement: Realisierung einer Transformation (z.b. DB- Prozeduren) 36 18
8.5 Schemaentwurf für Metadaten-Verwaltung (6) Zugriffsrechte und Verwaltung: AccessRight DataObject Role Actor Task Process Tool System Person BusinessUnit 37 8.5 Schemaentwurf für Metadaten-Verwaltung (7) Zugriffsverwaltung Actor: handlungsfähige Akteure (Personen, Organisationseinheiten, Softwaresysteme und werkzeuge) Task: Aufgabe, für die Akteure zuständig sind Process: Ausführung von Aufgaben Role: Rolle von Akteuren AccessRight: Zugriffsrechte für Datenobjekte 38 19
Kapitel 8: Überblick 8.1 Motivation 8.2 Die Rolle von Metadaten im Data-Warehousing 8.3 Metadaten-Management 8.4 Standards und Referenzmodelle für Metadatenhaltung 8.5 Schemaentwurf für Metadaten-Verwaltung 8.6 Zusammenfassung und Ausblick 39 8.6 Zusammenfassung und Ausblick (1) Zusammenfassung Metadaten beschreiben Daten- und Systemaspekte auf unterschiedlichen Abstraktionsstufen Unterstützung aller Anwender und Softwarekomponenten Zentrale Anforderungen: Ausgereifte Benutzerführung Interoperabilität Neuere Einflüsse auf das Metadatenmanagement Web-basierte Anwenderschnittstelle Feedback in operativen Systemen Workflow-Management-Systeme 40 20
8.6 Zusammenfassung und Ausblick (2) Ausblick: Datenqualität Definition: Gesamtheit aller Eigenschaften von Daten hinsichtlich derfähigkeit, die Anforderungen des Anwenders zu erfüllen Eignung für einen Zweck (fitness for use) Datenqualität ist subjektiv und abhängig vom Zweck! Beispiel: Aktualität von Daten für Bilanzen versus Analyse des Kundenverhaltens Notwendig: Qualitätskriterien Beurteilung Maßnahmen zur Verbesserung 41 8.6 Zusammenfassung und Ausblick (3) Qualitätskriterien Konsistenz: Widerspruchsfreiheit Korrektheit: Übereinstimmung mit Realität Vollständigkeit: z.b. Abwesenheit von fehlenden Werten Genauigkeit und Granularität: z.b. Anzahl der Nachkommastellen; tagesgenaue Daten Zuverlässigkeit und Glaubwürdigkeit: Nachvollziehbarkeit der Entstehung, Vertrauenswürdigkeit des Lieferanten Verständlichkeit: inhaltlich und technisch/strukturell für jeweilige Zielgruppe Verwendbarkeit und Relevanz: geeignetes Format, Zweckdienlichkeit 42 21
8.6 Zusammenfassung und Ausblick (4) Beurteilung der Datenqualität Ziel-Frage-Metrik-Ansatz (Qualitätsmanagement in der Softwareentwicklung) Idee: Verbindung von abstrakten Zielen der Anwender und den konkreten Qualitätsmessungen durch Fragen Schritte: 1. Identifizierung einer Menge von Qualitäts-/Produktivitätszielen (Kundenzufriedenheit, Performanceverbesserung, usw.) 2. Ableitung von Fragen, die diese Ziele definieren 3. Spezifikation der Messung zur Beantwortung der Fragen 4. Entwicklung von Mechanismen zur Sammlung von Daten (Validierung,Analyse) 43 8.6 Zusammenfassung und Ausblick (5) Beurteilung der Datenqualität (continued) Fragetypen: Wie kann das zu betrachtende Objekt (Produkt, Prozess) bzgl. des Gesamtziels charakterisiert werden? Wie können die für die Fragestellung relevanten Attribute des Objektes charakterisiert werden? Wie können die Eigenschaften des Objektes bewertet werden? Rahmenwerk zur Verknüpfung von Qualitätsforderungen und messungen Erfassung von Abhängigkeiten zwischen Qualitätsmerkmalen Identifikation des Ursprungs von Qualitätsproblemen 44 22
Referenzen [BaGü04] [Spec04] A. Bauer, H. Günzel: Data Warehousesysteme. dpunkt.verlag (2004) G. Specht: Data Warehouse Systeme. Vorlesung im SS04, Universität Ulm. 45 23