Data Warehouses. Kapitel 2 Architektur. Sommersemester Melanie Herschel

Größe: px
Ab Seite anzeigen:

Download "Data Warehouses. Kapitel 2 Architektur. Sommersemester 2011. Melanie Herschel melanie.herschel@uni-tuebingen.de"

Transkript

1 Data Warehouses Sommersemester 2011 Melanie Herschel Lehrstuhl für Datenbanksysteme, Universität Tübingen Kapitel 2 Architektur Bestandteile eines DW Konfigurationen ETL 2

2 Die Vogelperspektive Heterogene und autonome Datenquellen. Data Warehouse sammelt Daten der Quellen und speichert diese gebündelt in Basisrelationen. Data-Warehouse-System Data Mart 1 Teilsichten über DW Data Mart 2 Data Mart 3 Verschiedene Sichten () über die Relationen im Data Warehouse werden Anwendungen zur Verfügung gestellt. Data Warehouse (DW) Basisrelationen DB2 Oracle XML Datenquellen 3 Detailansicht Data-Warehouse-System Data Mart 1 Teilsichten über DW Data Mart 2 Data Warehouse (DW) Basisrelationen Data Mart 3 Datenanalyse DB2 Oracle XML Datenquellen Datenbereitstellung Datenkonsolierung Basisdaten Transformation Datenbeschaffung & Transformation (staging area) Nach Wolfgang Lehner, Datenbanktechnologie für Data Warehouse Systeme, dpunkt.verlag,

3 Data-Warehouse-System Bestandteile eines Data-Warehouse-Systems Quellsysteme Teilsichten über DW Data Data Data Mart 1 Mart 2 Mart 3 Data Warehouse (DW) Basisrelationen DB2 Oracle XML Datenquellen Systeme und Dateinen, die als Datenlieferenaten dienen. Meist sehr heterogen (siehe Klassifikation auf folgender Folie) Zugriff durch das Data-Warehouse-System Push: Quelle erzeugt regelmäßig Extrakte Pull: Data-Warehouse stößt Zugriff an Jede Quelle muss indivuell behandelt werden. 5 Data-Warehouse-System Bestandteile eines Data-Warehouse-Systems Quellsysteme Teilsichten über DW Data Data Data Mart 1 Mart 2 Mart 3 Data Warehouse (DW) Basisrelationen DB2 Oracle XML Datenquellen Heterogenität Syntaktische Heterogenität Strukturelle Heterogenität Semantische Heterogenität Hardware Software Schnittstellen Datenmodell Schematisch Namenskonflikte Identität Datenkonflikte Bandbreite OS CPU Protokolle Hauptspeicher Sicherheit HTLM SQL XQuery... Relational OO... Attribut vs. Wert Relation vs. Wert Attributbenennung Normalisierung Schachtelung... Konzept Synonym Homonym Einheiten... Unterschiedliche Darstellung des gleichen Objekts Fehlende Daten Wiedersprüchliche Daten 6

4 Data-Warehouse-System Bestandteile eines Data-Warehouse-Systems Quellsysteme Teilsichten über DW Data Data Data Mart 1 Mart 2 Mart 3 Data Warehouse (DW) Basisrelationen DB2 Oracle XML Datenquellen Quellsystem 1 Produkt p_ Name Preis Typ 1 Matrix 9.99 Blue Ray 2 Der Pate $12.45 DVD 3 Dirty Dancing 7.50 Veo Quellsystem 2 Produkt kennung Beschreibung dvd veo blueray P1 The Matrix nein nein ja P2 The Godfather ja nein nein P3 Moulin Rouge nein nein ja Verkauf p_ wagen_ anzahl datum /1/ /1/ /2/ /3/ Lagerbestand l p_kennung lagerbestand letzte_beschaffung 1 PDVD PDVD PDVD PDVD Gegeben die oben beschriebenen Quellsysteme 1 und 2, welche Arten der Heterogenität erkennen Sie? 7 Bestandteile eines Data-Warehouse-Systems Datenbeschaffung und Transformation Ziel: Integration der extrahierten Daten Relevante lokale Daten (Daten aus den Datenquellen) werden physisch in die Kontrollsphäre des Data Warehouse gebracht (load time). Säuberung und Anpassung der Daten (Transformation) Prüfung ausreichender Datenqualität Zusammenführung lokaler Daten zu einem globalen Gesamtbild Zwischenergebnisse werden nur temporär gespeichert. Der Bereich zur Datenbeschaffung und Transformation wird oft staging area genannt. 8

5 Bestandteile eines Data-Warehouse-Systems Datenbeschaffung und Transformation Transformation der Datenbestände aus den Quellsystemen 1 und 2 Schemaebene Produkt_Integriert Neues Feld Name = Beschreibung Name Preis Währung typ Preis aufgeteilt in Preis + Währung 1 The Matrix 9.99 EUR Blue Ray Typdarstellung aus Quelle 1 übernommen 2 The Godfather USD DVD Datenebene 3 Dirty Dancing 7.50 EUR Veo Werte für Feld generiert 4 Moulin Rouge NULL NULL Blue Ray Identität von Filmen überprüft Englische Namen übernommen Preis von Währungszeichen befreit Währung aus Preisangaben abgeleitet Verkauf typ aus Quelle 1 und 2 integriert wagen_ anzahl datum Schemaebene /1/2010 Quelle 1 einziger Datenlieferant für Verkauf --> Schema übernommen (bis auf ) /1/2010 Datenebene /3/2011 Werte für Feld anhand von Produkt. generiert Irrelevante Tupel (anzahl = 0) gefiltert Lagerbestand l lagerbestand letzte_beschaffung /4/ /3/ /1/ /2/ Schemaebene Quelle 2 einziger Datenlieferant für Lagerbestand --> Schema übernommen (bis auf ) Datenebene Werte für Feld anhand von Produkt. generiert Datumsformat angepasst Unzulässige Werte (lagerbestand < 0) korrigiert 9 Bestandteile eines Data-Warehouse-Systems Datenkonsolierung basis Realisiert eine organisationsweite, anwendungsunabhängige Speicherung aller relevanten. Gibt somit einen Überblick über Vorgänge und Zustände einer Organisation, die im Rahmen des Data-Warehouse-Konzepts abgespeichert werden. Ziel: Aktualisierung der konsolierten Datenbasis im Data Warehouse Hinzufügen der neu integrierten Daten zum Datenbestand das Data Warehouse (refresh time) Schema Schemaentwurf nach Regeln des relationalen Schemaentwurfs (Normalisierung, Vermeung von Redundanz) Oft Ergebnis der Schemaintegration der einzelnen Quellsysteme 10

6 Bestandteile eines Data-Warehouse-Systems Datenkonsolierung Schemaintegration Gegeben eine Menge von Quellen Qi mit jeweiligen Schemata Si, so finde ein Schema S = Si, wobei es sich bei um eine semantische Vereinigung handelt. Schemaintegration aufgrund von Heterogenität problematisch, insb. aufgrund der Semantik von Schemaelementen. Was speichert die Relation KVMU? Was speichert das Feld Produkt.ANS? Was speichert das Feld Name? (Filmtitel, Schauspielername, Untertitel,...) Was ist Preis? (Steuer, Währung, Rabatte,...?) Schemaintegration bisher nicht automatisierbar, sondern semi-automatisch und interaktiv. Aktives Forschungsfeld: entifizieren von Korrespondenzen zwischen Schemaattributen (schema matching) (z.b. Name = Beschreibung). 11 Bestandteile eines Data-Warehouse-Systems Datenkonsolierung Beispiel: Normalisiertes Schema Beispiel eines normalisierten Schemas einer konsolierten Datenbasis year year customer name cust_class discount customer_ productg_ discount line_item order_ product_ amount single_price productgroup name product productgroup_ month Month year_ day day month_ session cust_ day_ time order session_ supply_ total_amount order_status order_ supply_ status supply_station region_ region name Ulf Leser: DWH und DM, Sommersemester

7 Bestandteile eines Data-Warehouse-Systems Datenbereitstellung Probleme der konsolierten Datenbasis Viele Relationen, unübersichtliches Schema Viele Joins in (fast) allen Queries notwendig, Optimierung schwierig Joins lenken vom Analyseziel ab man möchte lieber mit Begriffen des Geschäftsprozesses umgehen Lösung: multimensionale Modellierung in dispositiver Datenbasis 13 Bestandteile eines Data-Warehouse-Systems Datenbereitstellung basis Die dispositive Datenbasis hält Daten in einer anwendungsorientierten und optimierten Form für geplante Auswertungsszenarien vor. Ziel der Datenbereitstellung: Aktualisierung der dispositiven Datenbasis, abgeleitet von der konsolierten Datenbasis. Schemaentwurf für Anwendung optimiert (Star/Snowflake-schema) Detailgrad der Daten ebenfalls der Anwendung angepasst. Möglich sind auch verschiedene Detailstufen (Aggregation), die explizite Redundanz erzeugen. 14

8 Bestandteile eines Data-Warehouse-Systems Datenbereitstellung Multimensionales Schema Beispiel eines normalisierten Schemas einer konsolierten Datenbasis customer name cust_class time day month year line_item Star order_ schema product_ amount single_price discount_rate product name product_group supply region Technische Informationen raus (Session) Nur abgeschlossene Bestellungen aufnehmen (Orderstatus) Zusammenfassen (discount_rate) Denormalisieren (überall) Konzentration auf Businessobjekte und -prozesse Ulf Leser: DWH und DM, Sommersemester Bestandteile eines Data-Warehouse-Systems Datenanalyse Bereich zur Datenanalyse umfasst alle Datenbasen und Systeme, die zur konkreten Interaktion mit dem Nutzer / Auswertungsanwendungen dienen. Spezialisierte Sichten über dispositive Datenbasis, sogenannte data marts, werden hier für bestimmte Anwendungen bereitgestellt. Sichten in klassischen relationalen Datenbanken: gespeicherte Anfragen, Anfrageausführung bei jeder Verwendung der Sicht. Da wiederholter Zugriff auf große dispositive Datenbasis zu teuer, verwenden Data Warehouses materialisierte Sichten, die Anfrageergebnis speichern. Interessante Probleme Aktualisierung der Sichten (view maintenance) Auswahl der Sichten, da eine Sicht für mehr als nur eine Analyseanfrage nutzbar (view selection) 16

9 Bestandteile eines Data-Warehouse-Systems Datenanalyse Beispiel möglicher Sichten customer_class_per_product customer_class product_name product_class count Class 1 The Matrix Blue Ray 5000 Class 2 The Matrix Blue Ray 2000 Class 1 Dirty Dancing Veo 1000 Class 2 Dirty Dancing Veo product_sales_per_region region product_name product_class income Europe The Matrix Blue Ray 50,000 North America The Matrix Blue Ray 100,000 Asia The Matrix Blue Ray 90,000 Europe The Godfather DVD 150, Fallen Ihnen Analyseanfragen ein, die Sie ebenfalls anhand dieser been Sichten beantworten können? 17 Bestandteile eines Data-Warehouse-Systems Metadata Repository Ziele Nachvollziehbarkeit der Prozesse Vermeung von Fehlinterpretationen Technische Beschreibung des Data Warehouse Anforderungen an -Verwaltung / Repository Vollständige Bereitstellung aller relevanten auf aktuellem Stand Flexible Zugriffsmöglichkeiten (DB-basiert) über mächtige Schnittstellen Versions- und Konfigurationsverwaltung Unterstützung für technische und fachliche Aufgaben und Nutzer aktive Nutzung für DW-Prozesse (Datentransformation, Analyse) [Prof. Rahm, Universität Leipzig, VL Data Warehouses] 18

10 Bestandteile eines Data-Warehouse-Systems Metadata Repository - Implementierung Realisierungsformen Werkzeugspezifisch: fester Teil von Werkzeugen Allgemein einsetzbar: generisches und erweiterbares Repository-Schema (-Modell) Zahlreiche proprietäre -Modelle Standardisierungsbemühungen, z.b. das Common Warehouse Metamodel (CWM) der Object Management Group (OMG) Häufig Integration von bzw. Austausch zwischen dezentralen - Verwaltungssystemen notwendig. [Prof. Rahm, Universität Leipzig, VL Data Warehouses] 19 Bestandteile eines Data-Warehouse-Systems Metadata Repository - Arten von Data-Warehouse-System (besprochene Komponenten) [Prof. Rahm, Universität Leipzig, VL Data Warehouses] 20

11 Bestandteile eines Data-Warehouse-Systems Metadata Repository - Arten von Technische Informationen, die beim Aufbau und beim Betrieb des Data-Warehouse- Systems anfallen. Zur Laufzeit gesammelte Protokollinformationen, die Auskunft darüber geben, wann welche Transformation stattgefunden hat und mit welchem Zustand sie terminiert ist. Beispiele für technische Technische Daten für Zugriff (Protokoll, Nutzer, Passwort,...) Abbildungsvorschriften zur Durchführung von Schemaanpassungen (schema matching) Transformationsskript zur Straßenstandardisierung Prozessbeschreibung der gesamten Transformation 21 Bestandteile eines Data-Warehouse-Systems Metadata Repository - Arten von Geschäftsprozessorientierte Beschreibung, wie die Daten der operativen Quellsysteme und des Data- Warehouse-Systems aus der Perspektive des Geschäftsprozesses zu interpretieren sind. Spezifikation der Semantik erfolgt auf einer höheren Sprachebene, auf der Aussagen über die Daten gemacht werden können. Beispiel aus dem Bankenumfeld 22

12 Kapitel 2 Architektur Bestandteile eines DW Konfigurationen ETL 23 Konfigurationen Besprochene Architektur ist maximales Rahmenwerk. Das heisst, nicht jede Data Warehouse Lösung muss alle besprochenen Komponenten implementieren. Spezifische Konfiguration hängt stark vom Anwendungsszenario ab. Die physische Verteilung der Daten (gleicher Server vs. unterschiedliche Systeme) kann variieren. Konfigurationen variieren bezüglich persistenter (materialisierter) und flüchtiger (temporärer, virtueller) Datenhaltung. 24

13 Konfigurationen Beispiel Konfiguration 1 - Fehlen der Konsolierten Datenbasis Analysewerkzeuge Spreadsheets Data Mining Tools Query Tools Datenanalyse staging area Basisdaten Transformation Datenquellen DB2 Oracle XML 25 Konfigurationen Beispiel Konfiguration 2 - Überspringen der Transformation Analysewerkzeuge Datenanalyse staging area Spreadsheets Data Mining Tools Query Tools Basisdaten Datenbereitstellung Datenbereitstellung Transformation Operational Data Store (ODS) nach Inmon Themenorientierte, integrierte, nicht dauerhafte bzw. nicht persistente detaillierte Sammlung von Daten, um eine Organisationseinheit bei ihrem Bedarf nach aktuellen, betrieblichen, integrierten und gesamtheitlichen Informationen zu unterstützen. Operational Data Store Datenquellen DB2 Oracle XML 26

14 Konfigurationen Beispiel Konfiguration 3 - Monolithischer DW-Server DW-Server Basisdaten Transformation Datenquellen DB2 Oracle XML 27 Konfigurationen Beispiel Konfiguration 4 - Verteiltes System auf eigenen Rechnern (Laptop) Repository Server Data Warehouse Server Basisdaten Transformation Staging Area Server Datenquellen DB2 Oracle XML 28

15 Konfigurationen Beispiel Konfig. 5 - Materialisierte Integration & Virtuelle Views Spreadsheets Data Mining Tools Query Tools temporär / virtuell persistent / materialisiert Basisdaten Transformation DB2 Oracle XML 29 Konfigurationen Beispiel Konfiguration 6 - Virtuelle Integration temporär / virtuell persistent / materialisiert Data Mining Tools Spreadsheets Query Tools Basisdaten Transformation! Daten sind in Quellen gespeichert.! Informationsquellen sind (zu einem gewissen Grad) autonom.! Nur die zur Anfragebeantwortung notwendigen Daten werden übertragen.! Transformation und Integration nur zur Anfragezeit möglich.! Anfragen werden deklarativ an das globale Schema gestellt (hier entspricht es dem konsolierten Schema) und verteilt ausgeführt.! Keine historische Komponente! Zwei wesentliche Architekturen DB2 Oracle XML! 5-Schicht Architektur für föderierte Datenbanksysteme! Mediator-Wrapper Architektur 30

16 5-Schichten Architektur [SL90]! Anwendung: heterogene, verteilte, föderierte DBMS! Z.B. Katalog DBMS und Image DBMS, die gemeinsamen Zugriff erlauben.! Z.B. lokale Data Warehouses aus Teilbereichen eines Unternehmens! Semi-autonome Quellen:! Starke Autonomie, Externes Schema 1 Exportschema... Föderiertes Schema... Externes Schema N Exportschema Komponentenschema Komponentenschema! aber Wille zur Kooperation mit anderen! Föderation (federation) Lokales Schema... Lokales Schema! Verwendung von erleichtert Anfragebearbeitung 31 5-Schichten Architektur [SL90]! Lokale Schemas! Logisches Schema der Datenquellen! Komponentenschemas Externes Schema 1... Externes Schema N Föderiertes Schema! Kanonisches Datenmodell ( = Datenmodell des föderierten Schemas)! Übergang durch Mappings Exportschema... Exportschema Komponentenschema Komponentenschema! Überwindet Datenmodellheterogenität! Exportschemas Lokales Schema... Lokales Schema! Teilmenge des Komponentenschemas 32

17 5-Schichten Architektur [SL90]! Föderiertes Schema! Integriert aus den Exportschemas! Kennt Datenverteilung! Andere Namen:! Import Schema! Globales Schema! Enterprise Schema! Unified Schema! Mediator Schema! Externes Schema! Föderiertes Schema kann sehr groß sein " Vereinfachung im Exportschema! Schema Evolution leichter! Zusätzliche Integritätsbedingungen! Zugangskontrollen Externes Schema 1 Exportschema Lokales Schema... Externes Schema N Föderiertes Schema Exportschema Komponentenschema Komponentenschema Lokales Schema 33 Mediator-Wrapper Architektur! Anwendung Heterogene Quellen Stark autonome Quellen, die oft nichts von ihrer Integration wissen. Kein Umfangreiches Metadata- Repository vorhanden.! Mediator! Schema anwendungsorientiert entwickelt, nicht anhand von Schemaintegration.! Komponente zur Integration! Wrapper! Vermitteln zwischen Quelle und Mediator! Lösen Schnittstellen-, Datenmodell-, und schematische Heterogenität! Unterstützen Anfrageoptimierung Anwendung 1 Anwendung 2 Wrapper1 Mediator Wrapper2 Wrapper3 Quelle 1 Quelle 2 Quelle 3 34

18 Kapitel 2 Architektur Bestandteile eines DW Konfigurationen ETL 35 Überblick Data Warehouse Architektur Data-Warehouse-System Teilsichten über DW Data Data Data Mart 1 Mart 2 Mart 3... Basisrelationen DB2 Oracle Datenanalyse Data Warehouse (DW) XML Datenquellen Basisdaten Nach Wolfgang Lehner, Datenbanktechnologie für Data Warehouse Systeme, dpunkt.verlag, 2003 Datenbereitstellung Transformation Datenkonsolierung Datenbeschaffung & Transformation (staging area) 36

19 Datenbeschaffung und Transformation Erinnerung Ziel ist, lokale Daten (d.h., Daten aus den Quellsystemen) zu integrieren. Diese integrierten Daten werden physisch in die Kontrollsphäre des Data Warehouse gebracht. Drei wesentliche Schritte finden im Bereich der Datenbeschaffung und Transformation, der staging area, statt, und werden als Extract-Transform- Load (ETL) Prozess bezeichnet. Extract-Transform-Load (ETL) Prozess. Extract: Beschaffung der relevanten Daten aus den Quellsystemen Transform: Transformation der Quelldaten in das Schema und Format der Zieldatenbank (im allgemeinen Framework der konsolierten Datenbank). Load: Laden der Daten in die Zieldatenbank. 37 Der ETL Prozess Extract Strenge Performance-Anforderungen Analysewerkzeuge brauchen Daten rechtzeitig. Analysewerkzeuge brauchen möglichst aktuelle Daten. Operativer Betrieb der Quellsysteme soll nicht bzw. nur minimal eingeschränkt werden.! Variabler Datenumfang der Extraktion! Variable Kooperationsbereitschaft der Quellsysteme zur Datenübergabe Heterogene Datenquellen, insb. syntaktische Heterogenität bei der Extraktion relevant.! Variable Zugriffsmöglichkeiten auf Datenquellen 38

20 Der ETL Prozess Extract - Datenmäßiger Umfang der Extraktion Zwei wesentliche Varianten: Extraktion der Nettoänderungen Es werden nur die Teile der Datenbasis in das Data-Warehouse-System überführt, die sich seit dem vorangegangenen Extraktionsvorgang geändert haben. Veränderungen sind neu hinzugefügte Einträge (insert) und gelösche Einträge (delete). Änderungen existierender Datensätze (update) werden typischerweise als als insert+delete modelliert. Abzug des kompletten Quelldatenbestands (snapshot) Verwendung, wenn zu viele Änderungen der Quellen oder wenn Extraktion der Nettoänderungen aus systemtechnischen Gründen nicht möglich ist. Zielkonflikt: konsistenter Abzug der Quelldaten vs. Einschränkung des operativen Betriebs durch exklusiven Zugriff auf diese. " Spezielle snapshot Verfahren [AdLi80] zur Erstellung einer logischen Datenbankkopie. 39 Der ETL Prozess Extract - Kooperationsbereitschaft der Quellsysteme Kooperationsbereitschaft der Quellsysteme, absteigend sortiert: Replikationsquellen Extrem enge Kopplung von Quellsystem und Eingangsbereich des DW. Einsatz von Replikationstechniken, um synchron Änderungen an den Quellsystemen direkt an das DW zu propagieren. Aktive Quellen Änderungen werden von der Quelle selbständig an das DW propagiert. Verwendung von Datenbanktriggern Snapshot-Quellen Quelle liefert einen Snapshot, der einem konsistenten, aber nicht notwendigerweise aktuellen Datenbankzustand entspricht. Änderungen der Quelle (die im Snapshot reflektiert sind) können ohne Beeinträchtigung des operativen Systems extrahiert werden. 40

21 Der ETL Prozess Extract - Kooperationsbereitschaft der Quellsysteme (ctd) Exportbasierte Quellen Alternativ zu einem Snapshot kann eine physische Kopie der Datenbasis (database dump) exportiert werden. Erstellen der Exportdatei muss vom Quellsystem unterstützt werden. Protokollierende Quellen Auswertung des Änderungsprotokolls einer Quelldatenbank zur Feststellung der im DW zu reflektierenden Änderungen. Nicht explizit unterstützende Quellen Geschlossene Systeme, keine elegante Möglichkeit, Daten für eine weitere Anwendung bereitzustellen. Spezialsoftware (adapter) oder Programmierung indivualisierter Anwendungssoftware nötig. 41 Der ETL Prozess Extract - Zugriffsmöglichkeiten auf Datenquellen Zugriff auf Ebene des Anwendungsdialogs Bei abgeschlossenen Systemen, Anwendungsdialog einziges Zugriffsprotokoll. Extraktion der Daten durch Simulation eines entsprechenden Anwendungsdialogs. Zugriff auf Anwendungsebene Operative Systeme mit externen Schnittstellen. Extraktion der Daten über eine entsprechende Programmierschnittstelle. Zugriff auf Ebene des Datenbanksystems Direkter Zugriff auf das System zur persistenten Speicherung (z.b. RDBMS) vorhanden. Verwendung standardisierter bzw. systemspezifischer Protokolle als Programmierschnittstelle (z.b. ODBC bei C/C++, JDBC bei Java) 42

22 Der ETL Prozess Extract - Zugriffsmöglichkeiten auf Datenquellen (ctd) Zugriff auf Ebene der Protokollierungsinformation Kein Zugriff auf Anwendungs- oder Datenbankebene Zugriff auf Änderungsprotokolle Verwendung spezieller Extraktoren (log file sniffer), die aus Änderungsprotokollen die Änderungen am Quelldatenbestand liefern. Export und Import Kein Zugriff aus dem Zielsystem, also dem Data Warehouse, auf jegliche Informationen im Quellsystem. Quellsystem exportiert Daten in einem fest vorgeschriebenen Format. Zielsystem kann diese Daten importieren. 43 Der ETL Prozess Transform Erzeugung einer konsistenten und integrierten Datenbasis Einmaliger Schritt: Entwurf des Schemas der konsolierten Datenbasis "Techniken der Schemaintegration Schritt bei jedem erneuten Laden von Daten: Transformation der Quelldaten in das Zielschema (Schema der konsolierten Datenbasis). " Techniken der Datenintegration 44

23 Der ETL Prozess Transform - Schemaintegration Definition siehe Folie 11, Techniken nicht im Detail in dieser VL Anforderungen an das integrierte Schema Vollständigkeit Alle in den Quellschemata beschriebenen Gegenstände werden im Zielschema reflektiert. Korrektheit Semantik der Quelldaten geht durch Zielschema nicht verloren. Da die integrierten Daten (z.b. Preis) jedoch alle die gleiche Darstellung haben sollen (z.b. ohne MWSt), muss die ursprüngliche Semantik der Quellen nachvollziehbar sein. Minimalität Keine Redundanz der im globalen Schema dargestellten Gegenstände. Verständlichkeit Schema muss von jedermann verstanden und modifiziert werden können. 45 Der ETL Prozess Transform - Datenintegration Wichtigste Aufgabe: Datenqualität der integrierten Daten gewährleisten. Detaillierte Techniken werden in Kapitel 5 - Datenreinigung besprochen. 5 Phasen der Datenreinigung (diese und nächste Folie): Zerlegen der Daten in die Bestandteile (elementizing) Z.B. wird Attribut Adresse in Straße, Hausnummer, PLZ, Stadt aufgeteilt. Standardisierung der elementaren Angaben (standardizing) Z.B. Vereinheitlichung verschiedener Datumsformate, Straßennamen wie Stuttgarter Str. einheitlich in Stuttgarter Straße transformieren. Plausibilitätsprüfungen (verification) Z.B. Konflikt zwischen PLZ = und Stadt = Tübingen für eine beschriebene Adresse erkennen. 46

24 Der ETL Prozess Transform - Datenintegration (ctd) Abgleich mit bestehenden Daten (matching) Z.B. Prüfung der Existenz eines gleichen Produkts in der bisherigen integrierten Datenbasis. Falls vorhanden, muss die Darstellung erweitert bzw. aktualisiert werden. Gruppenbildung (householding) Prüfung ob neue Objekte mit bereits existierenden Objekten aus Sicht der Anwendung definierte Gruppen, z.b., Käuferklassen bilden oder vergrößern. Dies ist für Analysezwecke vorteilhaft. 47 Der ETL Prozess Load Ziel: Effizientes Hinzufügen der transformierten Daten in das Data Warehouse. Techniken SQL Satzbasiert Standardschnittstellen: Embedded SQL, JDBC,... Einzelne Operationen oder proprietäre Erweiterungen Array Insert Beachtung und Aktivierung aller Datenbankverfahren Trigger, Indexaktualisierung, Concurrency,... BULK Loader Funktionen: DB-spezifische Erweiterungen zum Laden großer Datenmengen Benutzung von Anwendungsschnittstellen: Bei manchen Produkten notwendig (SAP) [Prof. Ulf Leser, HU Berlin, Data Warehouse VL, SS 2007] 48

25 Der ETL Prozess Load - Bulk Uploads Für große Datenmengen einzige ausreichend performante Schnittstelle Kritischer Prozess LOAD füllt i.d.r. immer nur eine Tabelle LOAD setzt eine Sperre auf die gesamte Tabelle Während LOAD werden Integritätsconstraints, Trigger, Indexaktualisierung deaktiviert! Nach LOAD werden IC überprüft und Indexe aktualisiert! Trigger werden nicht ausgeführt Update oder Insert? (Upsert!) Performance von LOAD oft limitierender Faktor [Prof. Ulf Leser, HU Berlin, Data Warehouse VL, SS 2007] 49 Zusammenfassung Architektur / Bestandteile eines Data Warehouse Konfiguration hängt von Anwendung ab Implementierte Komponenten variieren Verteilte Systeme Materialisierte Integration Virtuelle Integration Extract-Transform-Load (ETL) Prozess Basisdaten Transformation Extract: Beschaffung der relevanten Daten aus Quellsystemen Transform: Transformation der Quelldaten in das Schema und Format der Zieldatenbank. Load: Laden der Daten in die Zieldatenbank. 50

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Architektur und Komponenten von Data Warehouses Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Architektur Komponenten ETL Ulf Leser: Data Warehousing

Mehr

Informationsintegration

Informationsintegration Informationsintegration Grundlegende Architekturen Ulf Leser Inhalt diese Vorlesung Klassifikation verteilter, autonomer, heterogener Systeme Weitere Klassifikationskriterien Schichtenaufbau integrierter

Mehr

10. Vorlesung: Datenorganisation SS 2007

10. Vorlesung: Datenorganisation SS 2007 10. Vorlesung: Datenorganisation SS 2007 8 Parallele Transaktionen 9 9.1 Drei-Ebenen Ebenen-Architektur 9.2 Verteilte Datenbanken 9.3 Client-Server Server-Datenbanken 9.4 Föderierte Datenbanken 9.5 Das

Mehr

Datenintegration & Datenherkunft Architekturen

Datenintegration & Datenherkunft Architekturen Datenintegration & Datenherkunft Architekturen Wintersemester 2010/11 Melanie Herschel melanie.herschel@uni-tuebingen.de Lehrstuhl für Datenbanksysteme, Universität Tübingen 1 Kapitel 4 Architekturen Überblick

Mehr

Data Warehousing. Architektur Komponenten Prozesse. Ulf Leser Wissensmanagement in der Bioinformatik

Data Warehousing. Architektur Komponenten Prozesse. Ulf Leser Wissensmanagement in der Bioinformatik Data Warehousing Architektur Komponenten Prozesse Ulf Leser Wissensmanagement in der Bioinformatik Zusammenfassung letzte Vorlesung Aufbau eines Data Warehouse Redundante, transformierte Datenhaltung Asynchrone

Mehr

Kapitel 3: Eigenschaften von Integrationssystemen. Einordnung von Integrationssystemen bzgl. Kriterien zur Beschreibung von Integrationssystemen

Kapitel 3: Eigenschaften von Integrationssystemen. Einordnung von Integrationssystemen bzgl. Kriterien zur Beschreibung von Integrationssystemen Datenintegration Datenintegration Kapitel 3: Eigenschaften von Integrationssystemen Andreas Thor Sommersemester 2008 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Inhalt Einordnung

Mehr

Datenbanktechnologie für Data-Warehouse-Systeme

Datenbanktechnologie für Data-Warehouse-Systeme Wolfgang Lehner Datenbanktechnologie für Data-Warehouse-Systeme Konzepte und Methoden dpunkt.verlag 1 1.1 1.2 1.3 1.4 1. 5 2 2.1 2.2 2.3 Einleitung 1 Betriebswirtschaftlicher Ursprung des Data Warehousing...

Mehr

30. Juni 2006 - Technische Universität Kaiserslautern. Paul R. Schilling

30. Juni 2006 - Technische Universität Kaiserslautern. Paul R. Schilling 30. Juni 2006 - Technische Universität Kaiserslautern Paul R. Schilling ! " #$% & '( ( ) *+, - '. / 0 1 2("$ DATEN SIND ALLGEGENWÄRTIG Bill Inmon, father of data warehousing Unternehmen In einer vollkommenen

Mehr

Enterprise Applikation Integration und Service-orientierte Architekturen. 01 Einführung

Enterprise Applikation Integration und Service-orientierte Architekturen. 01 Einführung Enterprise Applikation Integration und Service-orientierte Architekturen 01 Einführung Agenda Warum EAI Klassifikation von EAI-Ansätzen Ebenen der Integration Architekturen zur Datenintegration Prof. Dr.

Mehr

OLAP und Data Warehouses

OLAP und Data Warehouses OLP und Data Warehouses Überblick Monitoring & dministration Externe Quellen Operative Datenbanken Extraktion Transformation Laden Metadaten- Repository Data Warehouse OLP-Server nalyse Query/Reporting

Mehr

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Ein Data-Warehouse bzw. Datenlager ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus Daten unterschiedlicher

Mehr

Data Warehousing. Sommersemester 2005. Ulf Leser Wissensmanagement in der Bioinformatik

Data Warehousing. Sommersemester 2005. Ulf Leser Wissensmanagement in der Bioinformatik Data Warehousing Sommersemester 2005 Ulf Leser Wissensmanagement in der Bioinformatik ... Der typische Walmart Kaufagent verwendet täglich mächtige Data Mining Werkzeuge, um die Daten der 300 Terabyte

Mehr

Marketing Intelligence Vorstellung der Softwarekomponenten. Josef Kolbitsch Manuela Reinisch

Marketing Intelligence Vorstellung der Softwarekomponenten. Josef Kolbitsch Manuela Reinisch Marketing Intelligence Vorstellung der Softwarekomponenten Josef Kolbitsch Manuela Reinisch Übersicht Übersicht über die Systemlandschaft Übersicht über die Werkzeuge Workshop Systemlandschaft 1/8 Klassische

Mehr

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221 Oracle 10g und SQL Server 2005 ein Vergleich Thomas Wächtler 39221 Inhalt 1. Einführung 2. Architektur SQL Server 2005 1. SQLOS 2. Relational Engine 3. Protocol Layer 3. Services 1. Replication 2. Reporting

Mehr

Informationsintegration I Einführung

Informationsintegration I Einführung Informationsintegration I Einführung Felix Naumann Integrierte Informationssysteme Anfrage Integriertes Informationssystem Oracle, DB2 Anwendung Dateisystem Web Service HTML Form Integriertes Info.-system

Mehr

Grundlagen von Datenbanken

Grundlagen von Datenbanken Grundlagen von Datenbanken Aufgabenzettel 1 Grundlagen Datenbanken: Kurzer historischer Überblick (1) Anwendung 1 Anwendung 2 Datei 1 Datei 2 Datei 3 Zugriff auf Dateien ohne spezielle Verwaltung 2 Exkurs:

Mehr

Data Warehouse Technologien

Data Warehouse Technologien Veit Köppen Gunter Saake Kai-Uwe Sattler Data Warehouse Technologien Inhaltsverzeichnis Inhaltsverzeichnis vii 1 Einführung in Data-Warehouse-Systeme 1 1.1 Anwendungsszenario Getränkemarkt...............

Mehr

Servicebasierte Datenintegration

Servicebasierte Datenintegration Präsentation zur Seminararbeit Christoph Aßmann Aßmann, Christoph Leipzig, 26.01.2010 Folie 1 Inhalt Begriffe Motivation Abgrenzung Grid Cloud OGSA: Architektur servicebasierter Grids Standardisierung

Mehr

Kapitel 2 Terminologie und Definition

Kapitel 2 Terminologie und Definition Kapitel 2 Terminologie und Definition In zahlreichen Publikationen und Fachzeitschriften tauchen die Begriffe Data Warehouse, Data Warehousing, Data-Warehouse-System, Metadaten, Dimension, multidimensionale

Mehr

Contents. Ebenen. Data Warehouse - ETL Prozess Version: July 10, 2007. 1 Ebenen. Andreas Geyer-Schulz und Anke Thede. 2 Problemquelle Quellsysteme 4

Contents. Ebenen. Data Warehouse - ETL Prozess Version: July 10, 2007. 1 Ebenen. Andreas Geyer-Schulz und Anke Thede. 2 Problemquelle Quellsysteme 4 Contents Data Warehouse - ETL Prozess Version: July 10, 2007 Andreas Geyer-Schulz und Anke Thede Schroff-Stiftungslehrstuhl Informationsdienste und Elektronische Märkte Fakultät für Wirtschaftswissenschaften

Mehr

Veit Köppen Gunter Saake Kai-Uwe Sattler. 2. Auflage. Data Warehouse Technologien

Veit Köppen Gunter Saake Kai-Uwe Sattler. 2. Auflage. Data Warehouse Technologien Veit Köppen Gunter Saake Kai-Uwe Sattler 2. Auflage Data Warehouse Technologien Inhaltsverzeichnis Inhaltsverzeichnis ix 1 Einführung in Data-Warehouse-Systeme 1 1.1 Anwendungsszenario Getränkemarkt...

Mehr

Einführungsveranstaltung: Data Warehouse

Einführungsveranstaltung: Data Warehouse Einführungsveranstaltung: 1 Anwendungsbeispiele Berichtswesen Analyse Planung Forecasting/Prognose Darstellung/Analyse von Zeitreihen Performancevergleiche (z.b. zwischen Organisationseinheiten) Monitoring

Mehr

Data-Warehouse-Technologien

Data-Warehouse-Technologien Data-Warehouse-Technologien Prof. Dr.-Ing. Kai-Uwe Sattler 1 Prof. Dr. Gunter Saake 2 1 TU Ilmenau FG Datenbanken & Informationssysteme 2 Universität Magdeburg Institut für Technische und Betriebliche

Mehr

Datenbanken: Architektur & Komponenten 3-Ebenen-Architektur

Datenbanken: Architektur & Komponenten 3-Ebenen-Architektur Datenbanken: Architektur & Komponenten 3-Ebenen-Architektur Moderne Datenbanksysteme sind nach der 3-Ebenen-Architektur gebaut: Anwendung 1 Web-Anwendung Anwendung 2 Java-Programm... Anwendung n Applikation

Mehr

Einführung. Informationssystem als Abbild der realen Welt

Einführung. Informationssystem als Abbild der realen Welt Was ist ein Datenbanksystem? Anwendungsgrundsätze Betrieb von Datenbanksystemen Entwicklung von Datenbanksystemen Seite 1 Informationssystem als Abbild der realen Welt Modellierung (Abstraktion) Sachverhalte

Mehr

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht)

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht) Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht) Christian Haag, DATA MART Consulting Consulting Manager Oracle DWH Team

Mehr

DIMEX Data Import/Export

DIMEX Data Import/Export DIMEX Data Import/Export PROCOS Professional Controlling Systems AG Gewerbeweg 15 FL- 9490 Vaduz PROCOS Professional Controlling Systems AG Inhaltsverzeichnis 1 ALLGEMEIN...3 2 GRUNDLEGENDE FUNKTIONEN...4

Mehr

Intelligence (BI): Von der. Nürnberg, 29. November 2011

Intelligence (BI): Von der. Nürnberg, 29. November 2011 Modelle für Business Intelligence (BI): Von der Anforderung zum Würfel Nürnberg, 29. November 2011 Warum Modelle für Business Intelligence (BI)? Warum Modelle für Business Intelligence (BI)? Bis zur Auswertung

Mehr

XML in der Oracle Datenbank "relational and beyond"

XML in der Oracle Datenbank relational and beyond XML in der Oracle Datenbank "relational and beyond" Ulrike Schwinn (Ulrike.Schwinn@oracle.com) Oracle Deutschland GmbH Oracle XML DB Ein Überblick 1-1 Agenda Warum XML in der Datenbank? Unterschiedliche

Mehr

Die Grundbegriffe Die Daten Die Informationen

Die Grundbegriffe Die Daten Die Informationen Die Grundbegriffe Die Daten sind diejenigen Elemente, die vom Computer verarbeitet werden. Die Informationen sind Wissenselemente, welche durch die Analyse von Daten erhalten werden können. Die Daten haben

Mehr

Vergleich von Open-Source und kommerziellen Programmen zur Durchführung eines ETL-Prozesses

Vergleich von Open-Source und kommerziellen Programmen zur Durchführung eines ETL-Prozesses Vergleich von Open-Source und kommerziellen Programmen zur Durchführung eines ETL-Prozesses Exposé zur Diplomarbeit Humboldt-Universität zu Berlin Mathematisch-Naturwissenschaftliche Fakultät II Institut

Mehr

Configuration Management mit Verbosy 17.04.2013 OSDC 2013. Eric Lippmann www.netways.de

Configuration Management mit Verbosy 17.04.2013 OSDC 2013. Eric Lippmann www.netways.de Configuration Management mit Verbosy 17.04.2013 OSDC 2013 Eric Lippmann Kurzvorstellung NETWAYS Expertise OPEN SOURCE SYSTEMS MANAGEMENT OPEN SOURCE DATA CENTER Monitoring & Reporting Configuration Management

Mehr

Einführung. Kapitel 1 2 / 508

Einführung. Kapitel 1 2 / 508 Kapitel 1 Einführung 2 / 508 Einführung Was ist ein Datenbanksystem (DBS)? Ein System zum Speichern und Verwalten von Daten. Warum kein herkömmliches Dateisystem verwenden? Ausfallsicherheit und Skalierbarkeit

Mehr

Teil VI. Datenbanken

Teil VI. Datenbanken Teil VI Datenbanken Überblick 1 Grundlegende Begriffe Motivation 2 Relationale Datenbanksysteme Das Relationale Datenmodell SQL 3 Entwurf von Datenbanken Das Enity Relationship (ER) Modell Abbildung von

Mehr

Objektorientierte Datenbanken

Objektorientierte Datenbanken OODB 11 Slide 1 Objektorientierte Datenbanken Vorlesung 11 vom 01.07.2004 Dr. Sebastian Iwanowski FH Wedel OODB 11 Slide 2 Inhalt heute: Datenbanken in betriebswirtschaftlichen Anwendungen OTLP (SAP) Data

Mehr

Data Warehousing. Komponenten Prozesse. Architektur. Wissensmanagement in der. Bioinformatik. Ulf Leser

Data Warehousing. Komponenten Prozesse. Architektur. Wissensmanagement in der. Bioinformatik. Ulf Leser Data Warehousing Architektur Komponenten Prozesse Ulf Leser Wissensmanagement in der Bioinformatik Zusammenfassung letzte Vorlesung 1 Aufbau eines Data Warehouse Redundante, transformierte Datenhaltung

Mehr

Data Warehouse ??? Ein Data Warehouse ist keine von der Stange zu kaufende Standardsoftware, sondern immer eine unternehmensindividuelle

Data Warehouse ??? Ein Data Warehouse ist keine von der Stange zu kaufende Standardsoftware, sondern immer eine unternehmensindividuelle ??? Zusammenfassung, Ergänzung, Querverbindungen, Beispiele A.Kaiser; WU-Wien MIS 188 Data Warehouse Ein Data Warehouse ist keine von der Stange zu kaufende Standardsoftware, sondern immer eine unternehmensindividuelle

Mehr

Datenbanken. Prof. Dr. Bernhard Schiefer. bernhard.schiefer@fh-kl.de http://www.fh-kl.de/~schiefer

Datenbanken. Prof. Dr. Bernhard Schiefer. bernhard.schiefer@fh-kl.de http://www.fh-kl.de/~schiefer Datenbanken Prof. Dr. Bernhard Schiefer bernhard.schiefer@fh-kl.de http://www.fh-kl.de/~schiefer Wesentliche Inhalte Begriff DBS Datenbankmodelle Datenbankentwurf konzeptionell, logisch und relational

Mehr

Fragenkatalog zum Kurs 1666 (Datenbanken in Rechnernetzen) Kurstext von SS 96

Fragenkatalog zum Kurs 1666 (Datenbanken in Rechnernetzen) Kurstext von SS 96 Fragenkatalog zum Kurs 1666 (Datenbanken in Rechnernetzen) Kurstext von SS 96 Dieser Fragenkatalog wurde aufgrund das Basistextes und zum Teil aus den Prüfungsprotokollen erstellt, um sich auf mögliche

Mehr

Integration Services - Dienstarchitektur

Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Dieser Artikel solle dabei unterstützen, Integration Services in Microsoft SQL Server be sser zu verstehen und damit die

Mehr

Extraktion, Transformation, Laden (ETL)

Extraktion, Transformation, Laden (ETL) Extraktion, Transformation, Laden (ETL) ETL-Prozeß Integrationsschritte Integrationsprobleme fi Konflikte und deren Klassifikation fi Behebung von Konflikten Data Cleaning VL Data Warehouses, WS 2000/2001

Mehr

Datenbanken (WS 2015/2016)

Datenbanken (WS 2015/2016) Datenbanken (WS 2015/2016) Klaus Berberich (klaus.berberich@htwsaar.de) Wolfgang Braun (wolfgang.braun@htwsaar.de) 0. Organisatorisches Dozenten Klaus Berberich (klaus.berberich@htwsaar.de) Sprechstunde

Mehr

Data Warehouse schnell gemacht Performanceaspekte im Oracle DWH

Data Warehouse schnell gemacht Performanceaspekte im Oracle DWH Data Warehouse schnell gemacht Performanceaspekte im Oracle DWH Dani Schnider Principal Consultant Business Intelligence BI Trilogie, Zürich/Basel 25./26. November 2009 Basel Baden Bern Lausanne Zürich

Mehr

Andreas Heuer Gunter Saake Kai-Uwe Sattler. Datenbanken. kompakt

Andreas Heuer Gunter Saake Kai-Uwe Sattler. Datenbanken. kompakt Andreas Heuer Gunter Saake Kai-Uwe Sattler Datenbanken kompakt Inhaltsverzeichnis Vorwort v 1 Was sind Datenbanken 1 1.1 Warum Datenbanken 1 1.2 Datenbanksysteme 4 1.3 Anforderungen: Die Codd'schen Regeln

Mehr

Integration, Migration und Evolution

Integration, Migration und Evolution 14. Mai 2013 Programm für heute 1 2 Quelle Das Material zu diesem Kapitel stammt aus der Vorlesung Datenintegration & Datenherkunft der Universität Tübingen gehalten von Melanie Herschel im WS 2010/11.

Mehr

Präsentation zum Thema XML Datenaustausch und Integration

Präsentation zum Thema XML Datenaustausch und Integration Sebastian Land Präsentation zum Thema XML Datenaustausch und Integration oder Warum eigentlich XML? Gliederung der Präsentation 1. Erläuterung des Themas 2. Anwendungsbeispiel 3. Situation 1: Homogene

Mehr

Datawarehouse Architekturen. Einheitliche Unternehmenssicht

Datawarehouse Architekturen. Einheitliche Unternehmenssicht Datawarehouse Architekturen Einheitliche Unternehmenssicht Was ist Datawarehousing? Welches sind die Key Words? Was bedeuten sie? DATA PROFILING STAGING AREA OWB ETL OMB*PLUS SAS DI DATA WAREHOUSE DATA

Mehr

1 Einleitung. Betriebswirtschaftlich administrative Systeme

1 Einleitung. Betriebswirtschaftlich administrative Systeme 1 1 Einleitung Data Warehousing hat sich in den letzten Jahren zu einem der zentralen Themen der Informationstechnologie entwickelt. Es wird als strategisches Werkzeug zur Bereitstellung von Informationen

Mehr

Near Realtime ETL mit Oracle Golden Gate und ODI. Lutz Bauer 09.12.2015

Near Realtime ETL mit Oracle Golden Gate und ODI. Lutz Bauer 09.12.2015 Near Realtime ETL mit Oracle Golden Gate und ODI Lutz Bauer 09.12.2015 Facts & Figures Technologie-orientiert Branchen-unabhängig Hauptsitz Ratingen 240 Beschäftigte Inhabergeführt 24 Mio. Euro Umsatz

Mehr

DWH Szenarien. www.syntegris.de

DWH Szenarien. www.syntegris.de DWH Szenarien www.syntegris.de Übersicht Syntegris Unser Synhaus. Alles unter einem Dach! Übersicht Data-Warehouse und BI Projekte und Kompetenzen für skalierbare BI-Systeme. Vom Reporting auf operativen

Mehr

Business Intelligence Data Warehouse. Jan Weinschenker

Business Intelligence Data Warehouse. Jan Weinschenker Business Intelligence Data Warehouse Jan Weinschenker 28.06.2005 Inhaltsverzeichnis Einleitung eines Data Warehouse Data Warehouse im Zusammenfassung Fragen 3 Einleitung Definition: Data Warehouse A data

Mehr

Marketing Intelligence Architektur und Konzepte. Josef Kolbitsch Manuela Reinisch

Marketing Intelligence Architektur und Konzepte. Josef Kolbitsch Manuela Reinisch Marketing Intelligence Architektur und Konzepte Josef Kolbitsch Manuela Reinisch Übersicht Mehrstufiges BI-System Architektur eines Data Warehouses Architektur eines Reporting-Systems Benutzerrollen in

Mehr

Ausgangspunkt. Datenintegration. Ziel. Konflikte. Architekturen. Transparenz

Ausgangspunkt. Datenintegration. Ziel. Konflikte. Architekturen. Transparenz Ausgangspunkt Datenintegration Web Informationssysteme Wintersemester 2002/2003 Donald Kossmann Daten liegen in verschiedenen Datenquellen (Extremfall: jede URL eigene Datenquelle) Mietautos bei www.hertz.com

Mehr

Innovator 11 excellence. DDL importieren. Data-Definition-Language-Dateien in Datenbankschema importieren. HowTo. www.mid.de

Innovator 11 excellence. DDL importieren. Data-Definition-Language-Dateien in Datenbankschema importieren. HowTo. www.mid.de Innovator 11 excellence DDL importieren Data-Definition-Language-Dateien in Datenbankschema importieren HowTo www.mid.de Zweck In Innovator Data excellence können Sie mit dem DDL-Import Ihr physisches

Mehr

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006 Seminar Informationsintegration und Informationsqualität TU Kaiserslautern 30. Juni 2006 Gliederung Autonomie Verteilung führt zu Autonomie... Intra-Organisation: historisch Inter-Organisation: Internet

Mehr

Business Intelligence Praktikum 1

Business Intelligence Praktikum 1 Hochschule Darmstadt Business Intelligence SS 2014 Fachbereich Informatik Praktikumsversuch 1 Prof. Dr. C. Wentzel Dipl. Inf. Dipl. Math. Y. Orkunoglu Datum: 07.05.2014 Business Intelligence Praktikum

Mehr

Oracle-Statistiken im Data Warehouse effizient nutzen

Oracle-Statistiken im Data Warehouse effizient nutzen Oracle-Statistiken im Data Warehouse effizient nutzen Reinhard Mense ARETO Consulting Köln Schlüsselworte: DWH, Data Warehouse, Statistiken, Optimizer, Performance, Laufzeiten Einleitung Für die performante

Mehr

Software-Engineering und Datenbanken

Software-Engineering und Datenbanken Software-Engineering und Datenbanken Prof. Dr. Bernhard Schiefer bernhard.schiefer@fh-kl.de http://www.fh-kl.de/~schiefer Prof. Dr. Bernhard Schiefer 1-1 Wesentliche Inhalte Begriff DBS Datenbankmodelle

Mehr

Architektur eines Data Warehouse Systems. Mario Jandeck

Architektur eines Data Warehouse Systems. Mario Jandeck Architektur eines Data Warehouse Systems Mario Jandeck Agenda Folie 2 von 24 1. Die Referenzarchitektur 2. Komponenten des Data Warehouse Systems 3. Datenbeschaffung und Qualität 4. Analyse im Data Warehouse

Mehr

Studierenden-Kennzahlen im Griff dank flexiblem Reporting und Ad-hoc-Analysen

Studierenden-Kennzahlen im Griff dank flexiblem Reporting und Ad-hoc-Analysen Praxistag für die öffentliche Verwaltung 2012 Titel Präsentation Studierenden-Kennzahlen im Griff dank flexiblem Reporting und Ad-hoc-Analysen Referenten-Info Gerhard Tschantré, Leiter Controllerdienste

Mehr

Web- und Gridservices zur Überwindung von Heterogenität. Bearbeiter: Lei Xia 16.07.2004

Web- und Gridservices zur Überwindung von Heterogenität. Bearbeiter: Lei Xia 16.07.2004 Web- und Gridservices zur Überwindung von Heterogenität Bearbeiter: Lei Xia 16.07.2004 Gliederung Einleitung Formen von Heterogenität Grundlagen Web Services als Schnittstelle zu DBMS Grid Data Services

Mehr

Einführung relationale Datenbanken. Themenblock: Erstellung eines Cube. Schlüssel. Relationenmodell Relationenname Attribut. Problem.

Einführung relationale Datenbanken. Themenblock: Erstellung eines Cube. Schlüssel. Relationenmodell Relationenname Attribut. Problem. Themenblock: Erstellung eines Cube Einführung relationale Datenbanken Problem Verwaltung großer Mengen von Daten Praktikum: Data Warehousing und Data Mining Idee Speicherung der Daten in Form von Tabellen

Mehr

Definition Informationssystem

Definition Informationssystem Definition Informationssystem Informationssysteme (IS) sind soziotechnische Systeme, die menschliche und maschinelle Komponenten umfassen. Sie unterstützen die Sammlung, Verarbeitung, Bereitstellung, Kommunikation

Mehr

XML in der Oracle Datenbank

XML in der Oracle Datenbank XML in der Oracle Datenbank Oracle XML DB Eine kurze Einführung Gruppe A Michaela Geierhos Galina Hinova Maximilian Schöfmann AGENDA Warum XML in einer Datenbank? Was bietet die Oracle XML DB? Unterschiedliche

Mehr

Guten Tag! CampusSource. Die CSE Integration Platform. CampusSource Engine. Christof Pohl Softwareentwicklung Medienzentrum Universität Dortmund

Guten Tag! CampusSource. Die CSE Integration Platform. CampusSource Engine. Christof Pohl Softwareentwicklung Medienzentrum Universität Dortmund Engine Die CSE Integration Platform Guten Tag! Christof Pohl Softwareentwicklung Medienzentrum Universität Dortmund Integriertes Informationsmanagement mit der Engine - A2A vs. EBI Folie 2 Integration

Mehr

Themenblock: Erstellung eines Cube

Themenblock: Erstellung eines Cube Themenblock: Erstellung eines Cube Praktikum: Data Warehousing und Data Mining Einführung relationale Datenbanken Problem Verwaltung großer Mengen von Daten Idee Speicherung der Daten in Form von Tabellen

Mehr

Synchronisation von redundanten Datenbeständen

Synchronisation von redundanten Datenbeständen Synchronisation von redundanten Datenbeständen seit 1999 Themenübersicht Mobile Anwendungen Verteilte Datenbanksysteme Synchronisation Lösungsansätze Mobile Anwendungen Erwartungen der Anwender Der App-Stil

Mehr

Vorlesung 30.03.2009 1) Einführung

Vorlesung 30.03.2009 1) Einführung Vorlesung 30.03.2009 1) Einführung Was versteht man unter dem Begriff Datenbank? - Eine Datenbank ist eine Struktur zur Speicherung von Daten mit lesendem und schreibendem Zugriff - Allgemein meint man

Mehr

Projekt Weblog :: Integration

Projekt Weblog :: Integration Projekt Weblog :: Integration Die Implementation des Formhandling Frameworks wird nun im Projekt Weblog integriert. Dafür stehen 2 Möglichkeiten zur Auswahl. Sie haben Ihre eigene Implementation der Actions,

Mehr

Data Warehouse Grundlagen

Data Warehouse Grundlagen Seminarunterlage Version: 2.10 Version 2.10 vom 24. Juli 2015 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen

Mehr

Datenbanken und Informationssysteme

Datenbanken und Informationssysteme Datenbanken und Informationssysteme Lehrangebot Stefan Conrad Heinrich-Heine-Universität Düsseldorf Institut für Informatik April 2012 Stefan Conrad (HHU) Datenbanken und Informationssysteme April 2012

Mehr

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria Analyse von unstrukturierten Daten Peter Jeitschko, Nikolaus Schemel Oracle Austria Evolution von Business Intelligence Manuelle Analyse Berichte Datenbanken (strukturiert) Manuelle Analyse Dashboards

Mehr

Einführung in OLAP und Business Analysis. Gunther Popp dc soft GmbH

Einführung in OLAP und Business Analysis. Gunther Popp dc soft GmbH Einführung in OLAP und Business Analysis Gunther Popp dc soft GmbH Überblick Wozu Business Analysis mit OLAP? OLAP Grundlagen Endlich... Technischer Background Microsoft SQL 7 & OLAP Services Folie 2 -

Mehr

Oracle OLAP 11g: Performance für das Oracle Data Warehouse

Oracle OLAP 11g: Performance für das Oracle Data Warehouse Oracle OLAP 11g: Performance für das Oracle Data Warehouse Marc Bastien Oracle BI Presales Agenda Performanceprobleme in Oracle DWH: gibt s das überhaupt? Mögliche Gründe und Lösungen

Mehr

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML

Data Mining Standards am Beispiel von PMML. Data Mining Standards am Beispiel von PMML Data Mining Standards am Beispiel von PMML Allgemeine Definitionen im Data Mining Data Mining (DM) Ein Prozess, um interessante neue Muster, Korrelationen und Trends in großen Datenbeständen zu entdecken,

Mehr

Ein Beispiel. Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse?

Ein Beispiel. Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse? Ein Beispiel Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse? Dipl.-Kfm. Claus Häberle WS 2015 /16 # 42 XML (vereinfacht) visa

Mehr

Carl-Christian Kanne. Einführung in Datenbanken p.1/513

Carl-Christian Kanne. Einführung in Datenbanken p.1/513 Einführung in Datenbanken Carl-Christian Kanne Einführung in Datenbanken p.1/513 Kapitel 1 Einführung Einführung in Datenbanken p.2/513 Einführung Was ist ein Datenbanksystem (DBS)? Ein System zum Speichern

Mehr

Data Warehousing: Anwendungsbeispiel

Data Warehousing: Anwendungsbeispiel Frühjahrsemester 2012 cs242 Data Warehousing / cs243 Datenbanken Kapitel 1: Einführung H. Schuldt Data Warehousing: Anwendungsbeispiel Tresgros Tresgros Tresgros Filiale Muttenz Filiale Allschwil Filiale

Mehr

Datenbanken 16.1.2008. Die Entwicklung der Datenbanksysteme ist eng an die der Hardware gekoppelt und wird wie jene in Generationen eingeteilt:

Datenbanken 16.1.2008. Die Entwicklung der Datenbanksysteme ist eng an die der Hardware gekoppelt und wird wie jene in Generationen eingeteilt: Datenbanksysteme Entwicklung der Datenbanksysteme Die Entwicklung der Datenbanksysteme ist eng an die der Hardware gekoppelt und wird wie jene in Generationen eingeteilt: 1. Generation: In den fünfziger

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining 2 Data Warehousing und Data Mining Kapitel 1: Data-Warehousing-Architektur von Geschäftsprozessen Mögliche Fragestellungen Wie entwickelt sich unser Umsatz im Vergleich zum letzten Jahr? In welchen Regionen

Mehr

BI around the world - Globale Reporting Lösungen bei Continental Automotive

BI around the world - Globale Reporting Lösungen bei Continental Automotive BI around the world - Globale Reporting Lösungen bei Continental Automotive Stefan Hess Trivadis GmbH Stuttgart Herbert Muckenfuss Continental Nürnberg Schlüsselworte: Oracle BI EE, Business Intelligence,

Mehr

Business Intelligence Praktikum 1

Business Intelligence Praktikum 1 Hochschule Darmstadt Business Intelligence WS 2013-14 Fachbereich Informatik Praktikumsversuch 1 Prof. Dr. C. Wentzel Dipl. Inf. Dipl. Math. Y. Orkunoglu Datum: 14.10.2013 Business Intelligence Praktikum

Mehr

Informationssysteme: Neuere Konzepte Teil II

Informationssysteme: Neuere Konzepte Teil II Informationssysteme: Neuere Konzepte Kapitel 1: Data-Warehousing-Architektur Folien teilweise übernommen von Matthias Gimbel 2 von Geschäftsprozessen Mögliche Fragestellungen Wie entwickelt sich unser

Mehr

Seminar in der Seminarreihe Business Intelligence 1. OLAP und Datawarehousing

Seminar in der Seminarreihe Business Intelligence 1. OLAP und Datawarehousing Seminar in der Seminarreihe Business Intelligence 1 OLAP und Datawarehousing OLAP & Warehousing Die wichtigsten Produkte Die Gliederung Produkt Bewertung & Vergleiche Die Marktentwicklung Der aktuelle

Mehr

Asklepius-DA Die intelligente Technologie für die umfassende Analyse medizinischer Daten Leistungsbeschreibung

Asklepius-DA Die intelligente Technologie für die umfassende Analyse medizinischer Daten Leistungsbeschreibung Asklepius-DA Die intelligente Technologie für die umfassende Analyse medizinischer Daten Leistungsbeschreibung Datei: Asklepius DA Flyer_Leistung_2 Seite: 1 von:5 1 Umfassende Datenanalyse Mit Asklepius-DA

Mehr

Einführung in Datenbanken

Einführung in Datenbanken Grundlagen der Programmierung 2 Einführung in Datenbanken Grundlagen der Programmierung 2 I-1 Inhalt Einführung Entity-Relationship-Diagramm Relationales Modell Entity-Relationship-Diagramm ins Relationales

Mehr

Data Warehouse. für den Microsoft SQL SERVER 2000/2005

Data Warehouse. für den Microsoft SQL SERVER 2000/2005 Warehouse für den Microsoft SQL SERVER 2000/2005 Begriffe 1 DWH ( Warehouse) ist eine fachübergreifende Zusammenfassung von Datentabellen. Mart ist die Gesamtheit aller Datentabellen für einen fachlich

Mehr

6. Sichten, Integrität und Zugriffskontrolle. Vorlesung "Informa=onssysteme" Sommersemester 2015

6. Sichten, Integrität und Zugriffskontrolle. Vorlesung Informa=onssysteme Sommersemester 2015 6. Sichten, Integrität und Zugriffskontrolle Vorlesung "Informa=onssysteme" Sommersemester 2015 Überblick Sichten Integritätsbedingungen Zugriffsrechte SQL- Schema und SQL- Katalog Das Informa=onsschema

Mehr

Software-Engineering und Datenbanken

Software-Engineering und Datenbanken Software-Engineering und Datenbanken Datenbankentwurf Prof. Dr. Bernhard Schiefer 5-1 Datenbankentwurf: Phasenmodell Anforderungsanalyse Konzeptioneller Entwurf Verteilungsentwurf Logischer Entwurf Datendefinition

Mehr

RE.one. Self Service Information Management für die Fachabteilung

RE.one. Self Service Information Management für die Fachabteilung RE.one Self Service Information Management für die Fachabteilung Das Ziel Verwertbare Informationen aus Daten gewinnen Unsere Vision Daten Info Data Warehousing radikal vereinfachen in einem Tool Die Aufgabe

Mehr

Einteilung von Datenbanken

Einteilung von Datenbanken Datenbanksysteme (c) A.Kaiser; WU-Wien 1 Einteilung von Datenbanken 1. formatierte Datenbanken 2. unformatierte Datenbanken Information Retrieval Systeme 2 Wozu Datenbanken? Speicherung und Verwaltung

Mehr

BI Konsolidierung: Anspruch & Wirklichkeit. Jacqueline Bloemen. in Kooperation mit

BI Konsolidierung: Anspruch & Wirklichkeit. Jacqueline Bloemen. in Kooperation mit BI Konsolidierung: Anspruch & Wirklichkeit Jacqueline Bloemen in Kooperation mit Agenda: Anspruch BI Konsolidierung Treiber Was sind die aktuellen Treiber für ein Konsolidierungsvorhaben? Kimball vs. Inmon

Mehr

Vorwort zur 5. Auflage... 15 Über den Autor... 16

Vorwort zur 5. Auflage... 15 Über den Autor... 16 Vorwort zur 5. Auflage...................................... 15 Über den Autor............................................ 16 Teil I Grundlagen.............................................. 17 1 Einführung

Mehr

JMangler. Frithjof Kurtz. Universität Bonn, Seminar Softw aretechnologie WS 03/04, Jmangler Frithjof Kurtz 1

JMangler. Frithjof Kurtz. Universität Bonn, Seminar Softw aretechnologie WS 03/04, Jmangler Frithjof Kurtz 1 JMangler Frithjof Kurtz Universität Bonn, Seminar Softw aretechnologie WS 03/04, Jmangler Frithjof Kurtz 1 JMangler Vortragsgliederung Motivation Java Grundlagen JMangler Grundlagen Transformationen Algorithmen

Mehr

Modellbasierte Business Intelligence in der Praxis. Nürnberg, 10.11.2009

Modellbasierte Business Intelligence in der Praxis. Nürnberg, 10.11.2009 Modellbasierte Business Intelligence in der Praxis Nürnberg, 10.11.2009 I N H A L T 1. Warum Modelle für Business Intelligence (BI)? 2. Inhalte von Datenmodellen für BI 3. Inhalte von Prozessmodellen 4.

Mehr

Verschiedene Arten des Datenbankeinsatzes

Verschiedene Arten des Datenbankeinsatzes 1 Beispiele kommerzieller DBMS: Kapitelinhalt Was charakterisiert und unterscheidet verschiedene Einsatzbereiche für. Welche prinzipiell unterschiedlichen Anforderungen ergeben sich für das DBMS bei Ein-

Mehr

16.4 Wiederverwendung von COTS-Produkten

16.4 Wiederverwendung von COTS-Produkten 16.4 Wiederverwendung von COTS-Produkten COTS = commercial of the shelf im Handel erhältliche Software-Produkte Anpassung für Kunden ohne Änderung am Quellcode Quellcode in der Regel nicht einsehbar (Ausnahme

Mehr

Data Warehousing. Kapitel 1: Data-Warehousing-Architektur. Folien teilweise übernommen von Matthias Gimbel

Data Warehousing. Kapitel 1: Data-Warehousing-Architektur. Folien teilweise übernommen von Matthias Gimbel Data Warehousing Kapitel 1: Data-Warehousing-Architektur Folien teilweise übernommen von Matthias Gimbel 2 Analyse von Geschäftsprozessen Mögliche Fragestellungen Wie entwickelt sich unser Umsatz im Vergleich

Mehr

Allgemeines zu Datenbanken

Allgemeines zu Datenbanken Allgemeines zu Datenbanken Was ist eine Datenbank? Datensatz Zusammenfassung von Datenelementen mit fester Struktur Z.B.: Kunde Alois Müller, Hegenheimerstr. 28, Basel Datenbank Sammlung von strukturierten,

Mehr

Database Exchange Manager. Infinqa IT Solutions GmbH, Berlin Stralauer Allee 2 10245 Berlin Tel.:+49(0) 30 2900 8639 Fax.:+49(0) 30 2900 8695

Database Exchange Manager. Infinqa IT Solutions GmbH, Berlin Stralauer Allee 2 10245 Berlin Tel.:+49(0) 30 2900 8639 Fax.:+49(0) 30 2900 8695 Database Exchange Manager Replication Service- schematische Darstellung Replication Service- allgemeines Replikation von Daten von bzw. in ein SAP-System und einer relationalen DMS-Datenbank Kombination

Mehr