Kapitel 8 - Metadaten -



Ähnliche Dokumente
Metadaten und Datenqualität

Metadaten und Datenqualität. Metadaten. Nutzung von Metadaten

Common Warehouse Metamodel und Imperfektion

Data Warehouse Technologien

Veit Köppen Gunter Saake Kai-Uwe Sattler. 2. Auflage. Data Warehouse Technologien

Friedrich-Schiller-Universität Jena

Model Driven Architecture (MDA)

Datenbanktechnologie für Data-Warehouse-Systeme

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Data Warehousing. Sommersemester Ulf Leser Wissensmanagement in der Bioinformatik

Business Intelligence Data Warehouse. Jan Weinschenker

SERVICE SUCHE ZUR UNTERSTÜTZUNG

Seminar C16 - Datenmodellierung für SAP BW

Survival Guide für Ihr Business Intelligence-Projekt

Data Lineage goes Traceability - oder was Requirements Engineering von Business Intelligence lernen kann

Seminar C02 - Praxisvergleich OLAP Tools

Ein subjektiver Vergleich zwischen SSIS und Kettle mit Ausblick auf die Generierung von BI-Lösungen

BI Konsolidierung: Anspruch & Wirklichkeit. Jacqueline Bloemen. in Kooperation mit

Database Exchange Manager. Infinqa IT Solutions GmbH, Berlin Stralauer Allee Berlin Tel.:+49(0) Fax.:+49(0)

Datenbanken. Prof. Dr. Bernhard Schiefer.

Vortrag von: Ilias Agorakis & Robert Roginer

tdwi E U R D P E OPEN SOURCE BUSINESS INTELLIGENCE HANSER MÖGLICHKEITEN, CHANCEN UND RISIKEN QUELLOFFENER BI-LÖSUNGEN

Christian Kurze BI-Praktikum IBM WS 2008/09

Anforderungen an die HIS

BIW - Überblick. Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004

Mai Hauptseminar: Nichtrelationale Datenbanken Historisch-Kulturwissenschaftliche Informationsverarbeitung Universität zu Köln

Das Metamodell der UML und in FUJABA. Vortrag von Alexander Geburzi

Infor PM 10 auf SAP. Bernhard Rummich Presales Manager PM Uhr

Die Bedeutung der Prozessmodellierung bei der Weiterentwicklung des DWHs der DAK Der Innovator als Missing Link

Datenqualität erfolgreich steuern

Fragenkatalog zum Kurs 1666 (Datenbanken in Rechnernetzen) Kurstext von SS 96

SDD System Design Document

Modellierung von OLAP- und Data- Warehouse-Systemen

erfolgreich steuern Datenqualität rä dpunkt.verlag Ldwi Praxislösungen für Business-Intelligence-Projekte Rüdiger Eberlein Edition TDWI

Abschlussklausur Geschäftsprozessmodellierung und Workflowmanagement

OLAP mit dem SQL-Server

Sechster ProSTEP Benchmark Teil 2: PDM Data Exchange

Typisierung des Replikationsplan Wirries, Denis Datenbankspezialist

Objektorientierter Software-Entwurf Grundlagen 1 1. Analyse Design Implementierung. Frühe Phasen durch Informationssystemanalyse abgedeckt

Bundeskanzlei BK Programm GEVER Bund. als Basis für GEVER. 29. November 2012

Workflow Systeme mit der Windows Workflow Foundation

Ein Beispiel. Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse?

C09: Einsatz SAP BW im Vergleich zur Best-of-Breed-Produktauswahl

Fragenkatalog Geschäftsmodellierung Grundlagen

Toolgestützte Prozessdokumentation. Prozessorientiertes E-Government, Joel Meir,

Fachdidaktik der Informatik Jörg Depner, Kathrin Gaißer

Evaluation of Database Design and Reverse Engineering Tools for a Large Software System

Digitale Lastenhefte - Austausch von Dokumenten

Marketing Intelligence Vorstellung der Softwarekomponenten. Josef Kolbitsch Manuela Reinisch

7. Übung - Datenbanken

Lars Priebe Senior Systemberater. ORACLE Deutschland GmbH

Dr. Hanno Schauer Mons-Tabor-Gymnasium Montabaur. UML-Klassendiagramme als Werkzeug im Unterricht

Kampagnenmanagement mit Siebel Marketing/Oracle BI ein Praxisbericht

Kapitel 10 Aktive DBMS

Data Mining-Projekte

Enterprise Content Management

Design mit CASE-Tools

Neue Funktionen in Innovator 11 R5

Allgemeines zu Datenbanken

Grundzüge und Vorteile von XML-Datenbanken am Beispiel der Oracle XML DB

Vgl. Kapitel 5 aus Systematisches Requirements Engineering, Christoph Ebert

A Domain Specific Language for Project Execution Models

Was ist EMF? Wie wird EMF eingesetzt? Was ist ecore? Das Generatormodell Fazit

Datenmanagement. Simone Unfried, Passau Vitaly Aleev, Passau Claus Schönleber, Passau. Strategisches Informationsmanagement 1 (01/2006)

Microsoft SharePoint 2013 Designer

Die Zertifizierungsstelle der TÜV Informationstechnik GmbH bescheinigt hiermit dem Unternehmen

Softwareentwicklungspraktikum Sommersemester Feinentwurf

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Quality Point München Datenqualität

Inhaltsverzeichnis. Teil I OLAP und der Microsoft SQL-Server 1. 1 Theoretische Grundlagen 3

Entwurf. Anwendungsbeginn E DIN EN (VDE ): Anwendungsbeginn dieser Norm ist...

GI-Technologien zur Umsetzung der EU-Wasserrahmenrichtlinie (WRRL): Wissensbasen. Teil 1: Einführung: Wissensbasis und Ontologie.

Integration mit. Wie AristaFlow Sie in Ihrem Unternehmen unterstützen kann, zeigen wir Ihnen am nachfolgenden Beispiel einer Support-Anfrage.

INFORMATION LIFECYCLE MANAGEMENT

SWE12 Übungen Software-Engineering

Einführung und Motivation

Java und XML 2. Java und XML

16.4 Wiederverwendung von COTS-Produkten

Persistenzschicht in Collaborative Workspace

Predictive Modeling Markup Language. Thomas Morandell

Java Enterprise Architekturen Willkommen in der Realität

Aufgabe GBIS (TPCW-Benchmark)

Diplomarbeit: GOMMA: Eine Plattform zur flexiblen Verwaltung und Analyse von Ontologie Mappings in der Bio-/Medizininformatik

Metadatenmodellierung und -verwaltung in Data-Warehouse-Systemen

Free your work. Free your work. Wir wollen Ihnen die Freiheit geben, sich auf Ihr Geschäft zu konzentrieren.

Strategisches Informationsmanagement auf Basis von Data Warehouse-Systemen

Look Inside: desite. modellorientiertes Arbeiten im Bauwesen. B.I.M.

Mobiles SAP für Entscheider. Permanente Verfügbarkeit der aktuellen Unternehmenskennzahlen durch den mobilen Zugriff auf SAP ERP.

Über den Unterschied zwischen Business Analysis und Requirements Engineering & Management

Best Practice Infor PM 10 auf Infor Blending

Forschungsprojekt SS 2009

Softwareanforderungsanalyse

Business Intelligence für Controller

Agile Vorgehensmodelle in der Softwareentwicklung: Scrum

Kapitel 2: Der Software-Entwicklungsprozess

Installation der SAS Foundation Software auf Windows

Business Intelligence Praktikum 1

EINFÜHRUNG IOZ AG 1

Modellierung von Geschäftsprozessen (MGP / GPM) Thematische Einführung

OLAP und der MS SQL Server

Transkript:

Vorlesungs-Übersicht 1) Einführung und Definitionen 2) Architektur eines Data-Warehouse-Systems 3) Das multidimensionale Datenmodell 4) ETL: Extraktion, Transformation, Laden 5) Anfrageverarbeitung und -optimierung 6) Indexstrukturen für das multidimensionale Datenmodell 7) Materialisierte Views 8) Metadaten 9) OLAP, Data Mining, Process Mining 10) Zusammenfassung und Ausblick 1 Vorlesung Data-Warehouse-Systeme im Wintersemester 2008/09 Kapitel 8 - Metadaten - 1

Kapitel 8: Überblick 8.1 Motivation 8.2 Die Rolle von Metadaten im Data-Warehousing 8.3 Metadaten-Management 8.4 Standards und Referenzmodelle für Metadatenhaltung 8.5 Schemaentwurf für Metadaten-Verwaltung 8.6 Zusammenfassung und Ausblick 3 8.1 Motivation Der Erfolg eines DWH-Projekts hängt im starken Maße von der Qualität der im DWH vorhandenen Daten ab. Beispiele: Marketingstrategie schlägt fehl, da Anschreiben fehlerhafte Angaben enthalten. Doppelwerbung durch fehlendes Abgleichen von Kundendaten (customer matching) führt zur Verärgerung der Kunden. Metadaten sind maßgeblich an der Qualität der Daten im DWH beteiligt 4 2

Kapitel 8: Überblick 8.1 Motivation 8.2 Die Rolle von Metadaten im Data-Warehousing 8.3 Metadaten-Management 8.4 Standards und Referenzmodelle für Metadatenhaltung 8.5 Schemaentwurf für Metadaten-Verwaltung 8.6 Zusammenfassung und Ausblick 5 8.2 Die Rolle von Metadaten im Data-Warehousing (1) Entwicklung im Verständnis von Metadaten Klassisch: z.b. Bibliotheken: Metadaten zu Bücher (Autor, Titel, Auflage, etc.) Datenbanken: Schema, DDL SW-Engineering: Informationen über Programme (E/A-Verhalten, Parameterbereiche, etc.) und Entwicklungsprozess (Version, etc.) Allg. Definition: Metadaten sind jede Art von Information, die für den Entwurf, die Konstruktion und die Benutzung eines Informationssystems benötigt wird Für DWH: Metadaten sind notwendig zur Abdeckung der Informations-, Schutz- und Sicherheitsbedürfnisse der versch. Anwender und Softwarekomponenten werden in allen Phasen produziert und genutzt 6 3

8.2 Die Rolle von Metadaten im Data-Warehousing (2) Beispiele für Metadaten (allgemein): Allgemeine Schemadaten der zugehörigen Datenbanken (einschließlich GRANT-Rechte) Semantik der Relationen und Attribute Entstehungsprozedur Aktualisierungsgrad Benutzerhäufigkeit Abhängigkeiten und Konsistenzbeziehungen Unsicherheitsfaktor (Richtigkeit, Glaubwürdigkeit) Problematik ist die selbe wie bei Objekt-Daten: Metadaten müssen gesammelt gespeichert für Anwendungen zur Verfügung gestellt werden 7 8.2 Die Rolle von Metadaten im Data-Warehousing (3) Beispiele für Metadaten-Objekte im DWH: Logische Ebene (Star-/Snowflake-Schema) Physische Ebene (Tabellen, Attribute) Aggregationsgraph mit Hierarchieobjekten Betriebswirtschaftliche Kennzahlen Sichten für einzelne Anwendergruppen Transformation der Daten aus Quellensystemen in das DWH Laderoutinen und Regeln Aufbau von Anfragen, Filter, Anzeigenschablonen,... Administratorinformationen: Zugriffsstatistiken, Backup/Recovery, Bildung von Aggregaten etc. Datenbankparameter und einstellungen: Server, Hardware-Umgebung, Tuning- Parameter Anfrage-Performance: vorberechnete Aggregate, Caching,Optimierungsstrategien Granularität der Daten Allgemeine Attribute: Maßeinheiten etc. Sicherheitsstrategie: Anwenderprofile und gruppen, Einschränkungen der Sichten Berichts- und Analyseobjekte, Reports 8 4

8.2 Die Rolle von Metadaten im Data-Warehousing (4) Nutzung von Metadaten: Passiv: als konsistente Dokumentation der verschiedenen Aspekte eines DW-Systems Aktiv: Speicherung semantischer Aspekte (z.b. Transformationsregeln) Interpretation und Ausführung durch Werkzeug es findet ein metadatengetriebener Prozess statt Semiaktiv: Speicherung von Strukturinformationen (Tabellendefinitionen, Konfigurationsspezifikationen) und Nutzung zur Konsistenzprüfung (nicht direkt zur Ausführung) Generelle Ziele: Ziel 1: Minimierung des Aufwands für Aufbau und Betrieb des DWHs Ziel 2: Bereitstellung eines optimalen Informationsgewinns für alle Anwendergruppen 9 8.2 Die Rolle von Metadaten im Data-Warehousing (5) @Ziel 1: Minimierung des Aufwands für Aufbau und Betrieb eines DWH Systemintegration Integrationen auf Schema- und Datenebenen erfordern Informationen über Struktur und Semantik der Quellsysteme und des Zielsystems Vereinheitlichung ( ETL-Prozess, Kapitel 4) und einheitliche Verwaltung der Metadaten für Integration der DWH-Werkzeuge Automatisierung der Administration Automatische Steuerung der DWH-Prozesse über Scheduling-, Transformations- und Konfigurationsmetadaten Daten über Ausführung der Prozesse (Zugriffsprotokolle, Aktualisierungszeitpunkt, Aktualisierungsprotokoll) werden ebenfalls als Metadaten gespeichert 10 5

8.2 Die Rolle von Metadaten im Data-Warehousing (6) @Ziel 1 (continued): Flexibler Softwareentwurf sich oft ändernde semantische Aspekte müssen nicht in der Anwendung hart codiert werden, sondern werden als Metadaten gespeichert; z.b. Transformationsregeln des Ladeprozesses Dadurch Erhöhung der Mehrfachverwendung, Wartbarkeit, Erweiterbarkeit Schutz und Sicherheitsaspekte Zugriffs- und Benutzerrechten als Metadaten Globale Zugriffsrechteverwaltung für alle Komponenten und Teil- Datenbanken (vgl. Problematik: Aggregation von Gehaltsdaten Trackerangriffe) 11 8.2 Die Rolle von Metadaten im Data-Warehousing (7) @Ziel 2: Optimaler Informationsgewinns für alle Anwendungen Datenqualität Überprüfungsregeln (Constraints, Check-Klauseln, Assertions) zur Konsistenz, Korrektheit, Vollständigkeit (siehe Kapitel 4) zur Gewährleistung von Datenqualität Nachvollziehbarkeitsinformationen (data tracking information), z.b. Quellsystem, Autor, Erstellungszeitpunkt usw. Terminologie Einheitliche Terminologie als Voraussetzung für einheitliche Interpretation. Zentrale Verwaltung im Metadaten-Repository Datenanalyse Metadaten über Bedeutung von Daten, Kennzahlensysteme, etc. 12 6

Kapitel 8: Überblick 8.1 Motivation 8.2 Die Rolle von Metadaten im Data-Warehousing 8.3 Metadaten-Management 8.4 Standards und Referenzmodelle für Metadatenhaltung 8.5 Schemaentwurf für Metadaten-Verwaltung 8.6 Zusammenfassung und Ausblick 13 8.3 Metadaten-Management (1) Analyse Data-Warehouse-System Data Warehouse Laden Data Warehouse- Manager Metadaten- Manager Repository Basisdatenbank Laden Arbeitsbereich Transformation Konsistente Bereitstellung der Metadaten aus unterschiedlichen Quellen notwendig Repository (Datenbank, Verwaltungskomponente: Metadatenmanager) Extraktion Datenbeschaffungsbereich Monitor Datenfluss Datenquelle Kontrollfluss 7

8.3 Metadaten-Management (2) Ebene 0: effektive Daten (Objektdaten) Ebene 1: Modell des zu modellierenden Informationssystems (z.b. Datenbankschema) Ebene 2: Definition der Sprachelement, die auf Ebene 1 zur Verfügung stehen Ebene 3: Vereinigung der verschiedenen Sprachen der Ebene 2 3 Metametamodell 2 Metamodelle Repository-Schema (TABELLE, ATTRIBUT) 1 Metadaten KUNDE_TABELLE, STRASSE_ATTRIBUT 0 Daten Kundendaten (Müller, Blumenstraße) Modellierungsebenen 15 8.3 Metadaten-Management (3) Anforderungen an das DWH-Repository bzgl. Funktionalität: Anwenderzugriff: Bereitstellung von Information, die von den Anwendern zur Erfüllung verschiedener Aufgaben benötigt wird. Anwender haben unterschiedlichen Kenntnisstand Benutzerführung durch Navigation, Filterung und Selektion von Metadaten Interoperabilität und Werkzeugunterstützung API : Programmierschnittstelle für lesenden und schreibenden Zugriff Schnittstellen für Interoperabilität mit anderen Repositories Definition eines Austauschformats zum Import und Export von Metadaten Erweiterbarkeit des Metamodells (z.b. um domänenspezifische Metadatentypen) Änderungsverwaltung Versions- und Konfigurationsverwaltung Benachrichtigungsmechanismen (Pull- und Push-Strategien) senden Änderungshinweise an registrierte Werkzeuge und Benutzer 16 8

8.3 Metadaten-Management (4) Anforderungen an das DWH-Repository bzgl. Architektur [BaGü04]: Überblick über die Repository-Föderation und Werkzeuge Anwender- Zugriffswerkzeug Administrations- Werkzeug Analyse- Werkzeug Entwicklungs- Werkzeug Automomes Werkzeug Metadatenmanager Datenfluss Kontrollfluss Repository Repository Repository Repository Repository-Föderation 17 8.3 Metadaten-Management (5) Anforderungen an das DWH-Repository bzgl. Architektur [BaGü04]: Überblick über die Repository-Föderation und Werkzeuge Anwender- Zugriffswerkzeug Automomes Navigation, Filterung, Werkzeug Selektion, Aktualisierung Administrations- Werkzeug Metadatenmanager Analyse- Werkzeug Entwurf neuer DWH- Anwendungen DBMS für Metadaten, Zugriffsschnittstelle Entwicklungs- Werkzeug Datenfluss Kontrollfluss Repository Repository Repository Repository Repository-Föderation 18 9

8.3 Metadaten-Management (6) Architektur: Zentralisierungsvarianten Zentralisiert: Ein Repository für alle Metadaten Verwaltung der Daten zentral und konsistent Zugriff einheitlich für alle Anwender am besten, aber manchmal nicht möglich aufgrund organisatorischer und technischer Schwierigkeiten Dezentralisiert: Existenz verschiedener Repositories ohne einheitliche konzeptuelle Sicht auf alle Metadaten (z.b. für einzelne Werkzeuge und/oder Organisationseinheiten) Austausch von Metadaten mit Hilfe von Standards Föderiert: Einheitliche, konzeptuelle Sicht auf alle Metadaten Virtuelle Integration autonomer Repositories (insbesondere Autonomie bei der Pflege) 19 8.3 Metadaten-Management (7) Repository- und Metadatenaustausch-Standards Repository-Standards: Referenzarchitekturen für Repository-Systeme IRDS (Information Resource Dictionary System) (ISO, 1990) http://de.wikipedia.org/wiki/data_dictionary 4-Ebenen-Architektur, welche die folgenden Punkte enthält: Informationen über Daten (Unternehmensdaten) Automatisierte/nicht automatische Prozesse Hardware-Infos Organisationsstrukturen (wer oder was ist für Generierung zuständig) PCTE (Portable Common Tool Environment) (ECMA, 1990) http://www.ecma-international.org/publications/files/ecma-st/ecma-149.pdf European Computer Manufacturer s Association 1990 Basis für standardisierte Softwareentwicklungsumgebung Konzept enthält: Repository (Objektbasis basierend auf ERM-Modell) Unterstützung der Kommunikation zwischen Werkzeugen Austauschstandards: Standardisierung von Austauschformaten XML-basiert: OIM (MDC), CWM (OMG) (siehe 7.3) CDIF (Case Data Interchange Format) (Electronic Industries Association, EIA) auf Dateiebene, wird voraus. Zugunsten XML-basierter Standards aufgegeben 20 10

Kapitel 8: Überblick 8.1 Motivation 8.2 Die Rolle von Metadaten im Data-Warehousing 8.3 Metadaten-Management 8.4 Standards und Referenzmodelle für Metadatenhaltung 8.5 Schemaentwurf für Metadaten-Verwaltung 8.6 Zusammenfassung und Ausblick 21 8.4 Standards und Referenzmodelle für Metadatenhaltung (1) Im Folgenden besprechen wir zwei Referenzmodelle: OIM: Open Information Model von der Meta Data Coalition (MDC) (stützt sich auf UML und XML) CWM: Common Warehouse Metamodell von der Object Management Group (OMG) (stützt sich auf UML und XML) Man braucht jeweils ein Metamodell (hier jeweils in der UML) ein Austauschformat (Repräsentationssprache) (hier jeweils XML) 22 11

8.4 Standards und Referenzmodelle für Metadatenhaltung (2) OIM: Open Information Model Standard der Meta Data Coalition (Microsoft, Ardent, Platinum, SAS,..) 1999 Interoperabilität zwischen Werkzeugen und Firmen Definition eines Informationsmodells Ziel: Unterstützung aller Phasen der Entwicklung von Informationssystemen Spezialisierung der UML-Konzepte in domänenspezifische Teilmodelle, z.b. für Data Warehousing 23 8.4 Standards und Referenzmodelle für Metadatenhaltung (3) OIM: Teilmodelle: Analyse & Design Model: Objektorientierte Modellierung eines Softwaresystems (Kern: UML) Object & Component Model: Für verschiedene Phasen der Implementierung von Softwarekomponenten (Spezifikation, Implementierung, Ausführung) Business Engineering Model: Metadatentypen zur Modellierung von Zielsetzungen, Organisations- und Infrastrukturen eines Unternehmens, Prozessen und Geschäftsregeln Knowledge Management Model Konzeptuelle Modellierung natürlich-sprachlicher Datenbankanfragen (Semantic- Definition-Teilmodell) Ziel: Unterstützung von Anfragen ohne SQL-Kenntnisse Database & Warehousing Model (technische) Metadaten im DB- und DWH-Bereich Datenbankschemaelemente: Tabellen, Sichten, Anfragen OLAP-Schemaelemente: Würfel, Dimensionshierarchien, Aggregationen ransformationselemente: Spezifikation von Datenbeschaffungsprozessen Reportdefinitionen: Informationen für Report-Generatoren 24 12

8.4 Standards und Referenzmodelle für Metadatenhaltung (4) OIM: Austauschformat Basis: XML Abbildung von UML-Konzepten (Klasse, Attribute, Assoziationen, Vererbung) auf XML Klasse 1 Attribute 1 Klasse 2 <Klasse1 Attribut1=... >... </Klasse1> <Klasse2 Attribut1=... Attribut2=...... </Klasse2> Attribute 2 25 8.4 Standards und Referenzmodelle für Metadatenhaltung (5) OIM: Austauschformat (continued) Klasse 1 Attribute 1 ZielAssoz <Klasse1 id= 1 Attribut1=... > <Klasse1QuellAssoz id= 4 > <Klasse2 id= 2 Seqno= 1 /> <Klasse2 id= 3 Seqno= 1 /> </Klasse1QuellAssoz> </Klasse1> Klasse 2 QuellAssoz Attribute 2 26 13

8.4 Standards und Referenzmodelle für Metadatenhaltung (6) OIM: Beschreibung eines DB-Schemas <?XML version= 1.0?> <oim:transfer...> <dbm:catalog id= sales comments=... > <dbm:catalogschema> <dbm:schema id= 2 name= dbo > <dbm:schematables> <dbm:table id= 3 name= Customer > <dbm:columnsetcolumns> <dbm:column id = 6 name= CustomerID IsNullable= 0 /> <dbm:column id = 7 name= Name IsNullable= 0 /> 27 8.4 Standards und Referenzmodelle für Metadatenhaltung (7) CWM: Common Warehouse Metamodel OMG-Standard (1999) Austausch von DW-Metadaten Teilmodelle in UML: Focus: einfacher Austausch von DWH-Metadaten zwischen Werkzeugen und Repositorien 28 14

8.4 Standards und Referenzmodelle für Metadatenhaltung (8) CWM-Teilmodelle CWM Foundation Model: Klassen zu allgemeinen Konzepten und Strukturen für alle Teilmodelle Warehouse Deployment Model: Klassen zur Definition von Hard- und Software Relationale Model: Klassen zur Beschreibung relationaler Datenbankstrukturen Record Oriented Model: Klassen zur Beschreibung eines Records Multidimensionale Database Model: Klassen zur Beschreibung einer multidimensionalen Datenbank XML Model: Klassen zur Beschreibung von XML-Datenstrukuren Transformation Model: Transformationen zwischen unterschiedlichen Formen von Quell- und Zieldaten (relational, objektorientiert, multidimensional) OLAP Model: Metamodell grundlegender OLAP-Konstrukte Warehouse Process Model: Klassen zur Dokumentation des Prozessfluss bei der Ausführung von DWH-Transformationen Warehouse Operation Model: Klassen zur Dokumentation regelmäßiger DWH- Prozesse 29 8.4 Standards und Referenzmodelle für Metadatenhaltung (9) CWM-Metadatenaustausch: Zwei Varianten sind vorgesehen: Erstens Metadatenaustausch über spezielle CWM-Schnittstelle (IDL- Schnittstellendefinitionen der einzelne CWM-Pakete) Zweitens Metadatenaustausch basierend auf CWM-Interchange- Dokumenten (CMW-DTD) CWM- Metadaten CWM IDL Tool A CWM Interchange Document (XML) XML- Parser Tool B 30 15

Kapitel 8: Überblick 8.1 Motivation 8.2 Die Rolle von Metadaten im Data-Warehousing 8.3 Metadaten-Management 8.4 Standards und Referenzmodelle für Metadatenhaltung 8.5 Schemaentwurf für Metadaten-Verwaltung 8.6 Zusammenfassung und Ausblick 31 8.5 Schemaentwurf für Metadaten-Verwaltung (1) Verwaltung von DW-Metadaten - ein erster Ansatz Hier nur auf Ebene von UML Umsetzung in Klassen oder Relationen wie üblich Hier nur sehr verallgemeinert (ohne Subklassen und Instanzen) Behandelte Aspekte: Metadaten zu multidimensionalen Datenmodellierung Metadaten zu Transformationsprozess Metadaten zu Zugriffsverwaltung /-rechte 32 16

8.5 Schemaentwurf für Metadaten-Verwaltung (2) Multidimensionales Schema ordered Schema Class Attribute Cube Dimension DimensionObject Measure Hierarchy ordered Personen, Organisationen und Aufgaben Business-Metadaten Abstraktionsstufen 33 8.5 Schemaentwurf für Metadaten-Verwaltung (3) Multidimensionales Schema ordered Schema Class umfasst Attribute Behälter für Modellelemente unterschiedliche Hierarchien Cube Dimension DimensionObject Measure Datenwürfel Hierarchy ordered Personen, Organisationen und Aufgaben Business-Metadaten Abstraktionsstufen geordnete Liste von Dimensionsobjekten 34 17

8.5 Schemaentwurf für Metadaten-Verwaltung (4) Transformationsprozesse: DataObject DataObjectSet source ExecutionElement realizes ActivationElement ordered Process TransformationGroup Transformation TransformationProcess 35 8.5 Schemaentwurf für Metadaten-Verwaltung (5) Transformationsprozesse DataObject: z.b. Attribut, XML-Dokument, DB-Tabelle Transformation: anwenderdefinierte atomare Einheit (z.b. Berechnung, Datenbereinigung, Aggregation) TransformationGroup: geordnete Gruppe von Transformationen TransformationProcess: Zusammenfassung zu physisch auszuführenden Prozessen DataObjectSet: Gruppen von Datenobjekten, die als Ein-/Ausgabe einer Transformation dienen ActivationElement: Realisierung einer Transformation (z.b. DB- Prozeduren) 36 18

8.5 Schemaentwurf für Metadaten-Verwaltung (6) Zugriffsrechte und Verwaltung: AccessRight DataObject Role Actor Task Process Tool System Person BusinessUnit 37 8.5 Schemaentwurf für Metadaten-Verwaltung (7) Zugriffsverwaltung Actor: handlungsfähige Akteure (Personen, Organisationseinheiten, Softwaresysteme und werkzeuge) Task: Aufgabe, für die Akteure zuständig sind Process: Ausführung von Aufgaben Role: Rolle von Akteuren AccessRight: Zugriffsrechte für Datenobjekte 38 19

Kapitel 8: Überblick 8.1 Motivation 8.2 Die Rolle von Metadaten im Data-Warehousing 8.3 Metadaten-Management 8.4 Standards und Referenzmodelle für Metadatenhaltung 8.5 Schemaentwurf für Metadaten-Verwaltung 8.6 Zusammenfassung und Ausblick 39 8.6 Zusammenfassung und Ausblick (1) Zusammenfassung Metadaten beschreiben Daten- und Systemaspekte auf unterschiedlichen Abstraktionsstufen Unterstützung aller Anwender und Softwarekomponenten Zentrale Anforderungen: Ausgereifte Benutzerführung Interoperabilität Neuere Einflüsse auf das Metadatenmanagement Web-basierte Anwenderschnittstelle Feedback in operativen Systemen Workflow-Management-Systeme 40 20

8.6 Zusammenfassung und Ausblick (2) Ausblick: Datenqualität Definition: Gesamtheit aller Eigenschaften von Daten hinsichtlich derfähigkeit, die Anforderungen des Anwenders zu erfüllen Eignung für einen Zweck (fitness for use) Datenqualität ist subjektiv und abhängig vom Zweck! Beispiel: Aktualität von Daten für Bilanzen versus Analyse des Kundenverhaltens Notwendig: Qualitätskriterien Beurteilung Maßnahmen zur Verbesserung 41 8.6 Zusammenfassung und Ausblick (3) Qualitätskriterien Konsistenz: Widerspruchsfreiheit Korrektheit: Übereinstimmung mit Realität Vollständigkeit: z.b. Abwesenheit von fehlenden Werten Genauigkeit und Granularität: z.b. Anzahl der Nachkommastellen; tagesgenaue Daten Zuverlässigkeit und Glaubwürdigkeit: Nachvollziehbarkeit der Entstehung, Vertrauenswürdigkeit des Lieferanten Verständlichkeit: inhaltlich und technisch/strukturell für jeweilige Zielgruppe Verwendbarkeit und Relevanz: geeignetes Format, Zweckdienlichkeit 42 21

8.6 Zusammenfassung und Ausblick (4) Beurteilung der Datenqualität Ziel-Frage-Metrik-Ansatz (Qualitätsmanagement in der Softwareentwicklung) Idee: Verbindung von abstrakten Zielen der Anwender und den konkreten Qualitätsmessungen durch Fragen Schritte: 1. Identifizierung einer Menge von Qualitäts-/Produktivitätszielen (Kundenzufriedenheit, Performanceverbesserung, usw.) 2. Ableitung von Fragen, die diese Ziele definieren 3. Spezifikation der Messung zur Beantwortung der Fragen 4. Entwicklung von Mechanismen zur Sammlung von Daten (Validierung,Analyse) 43 8.6 Zusammenfassung und Ausblick (5) Beurteilung der Datenqualität (continued) Fragetypen: Wie kann das zu betrachtende Objekt (Produkt, Prozess) bzgl. des Gesamtziels charakterisiert werden? Wie können die für die Fragestellung relevanten Attribute des Objektes charakterisiert werden? Wie können die Eigenschaften des Objektes bewertet werden? Rahmenwerk zur Verknüpfung von Qualitätsforderungen und messungen Erfassung von Abhängigkeiten zwischen Qualitätsmerkmalen Identifikation des Ursprungs von Qualitätsproblemen 44 22

Referenzen [BaGü04] [Spec04] A. Bauer, H. Günzel: Data Warehousesysteme. dpunkt.verlag (2004) G. Specht: Data Warehouse Systeme. Vorlesung im SS04, Universität Ulm. 45 23