Informationsintegration

Ähnliche Dokumente
Informationsintegration

Data Warehousing. Architektur Komponenten Prozesse. Ulf Leser Wissensmanagement in der Bioinformatik

Data Warehousing. Komponenten Prozesse. Architektur. Wissensmanagement in der. Bioinformatik. Ulf Leser

Data Warehousing und Data Mining

Data Warehousing. Einleitung und Motivation. Ulf Leser Wissensmanagement in der Bioinformatik

Data Warehousing. Ausführung von OLAP Operationen. Ulf Leser Wissensmanagement in der Bioinformatik

Data Warehousing. Modellierung im DWH Das multidimensionale Datenmodell. Ulf Leser Wissensmanagement in der Bioinformatik

Data Warehousing. Fragen des Marketingleiters. Beispiel: : Amazon. Technisch... Amazon weltweit... Datenbank. Aufbau eines DWH OLAP <-> OLTP Datacube

Einführung relationale Datenbanken. Themenblock: Erstellung eines Cube. Schlüssel. Relationenmodell Relationenname Attribut. Problem.

Themenblock: Erstellung eines Cube

Repetitorium. Data Warehousing und Data Mining 11/12. Sebastian Wandelt 13./16. Februar 2012

Data Warehouse schnell gemacht Performanceaspekte im Oracle DWH

Datenbanksysteme 2 Frühjahr-/Sommersemester Mai 2014

Data Warehousing und Data Mining

Data Warehousing und Data Mining

Das Multidimensionale Datenmodell

OLAP und Data Warehouses

Data Warehousing. Sommersemester Ulf Leser Wissensmanagement in der Bioinformatik

Data Warehousing. Speicherung multidimensionaler Daten. Ulf Leser Wissensmanagement in der Bioinformatik

Data Warehousing und Data Mining

Marketing Intelligence Vorstellung der Softwarekomponenten. Josef Kolbitsch Manuela Reinisch

DIMEX Data Import/Export

Überblick. Informationsintegration Materialisierte vs. Virtuelle Integration Felix Naumann. Ankündigungen

Data Warehousing. Einleitung und Motivation. Wissensmanagement in der. Bioinformatik. Ulf Leser

Intelligence (BI): Von der. Nürnberg, 29. November 2011

Einführung in OLAP und Business Analysis. Gunther Popp dc soft GmbH

Data Warehouses und Moderne Betriebliche Anwendungen von Datenbanksystemen

Data Warehouses. Kapitel 1 Einführung. Sommersemester Melanie Herschel melanie.herschel@uni-tuebingen.de

Data Warehouse Grundlagen

Data Warehousing und Data Mining

Vorlesung Datenbankmanagementsysteme

Logische Modelle für OLAP. Burkhard Schäfer

Index- und Zugriffsstrukturen für. Holger Brämer, 05IND-P

Fortgeschrittene OLAP Analysemodelle

Data Warehousing und Data Mining

Data Warehousing und Data Mining

Seminar im Sommersemester 2004 an der Universität Karlsruhe (TH)

Frühjahrsemester Data Warehousing Kapitel 5: Data Warehousing. H. Schuldt. 5.1 Einführung. Filiale Allschwil

Data Warehouse ??? Ein Data Warehouse ist keine von der Stange zu kaufende Standardsoftware, sondern immer eine unternehmensindividuelle

Seminar in der Seminarreihe Business Intelligence 1. OLAP und Datawarehousing

Kapitel 3: Eigenschaften von Integrationssystemen. Einordnung von Integrationssystemen bzgl. Kriterien zur Beschreibung von Integrationssystemen

Themenblock: Data Warehousing (I)

Inhaltsverzeichnis. vii.

Data Warehousing. DWH Projekte. Ulf Leser Wissensmanagement in der Bioinformatik

Frühjahrsemester Data Warehousing Kapitel 5: Data Warehousing. H. Schuldt. 5.1 Einführung. Filiale Allschwil

Agenda. Themenblock: Data Warehousing (I) Referenzarchitektur. Eigenschaften eines Data Warehouse. Einführung Data Warehouse Data Access mit SQL

Data Warehouse Technologien

Data Warehousing und Data Mining

Near Realtime ETL mit Oracle Golden Gate und ODI. Lutz Bauer

Oracle OLAP 11g: Performance für das Oracle Data Warehouse

Data Warehouse Definition (1)

Star - Schema. AnPr. Name Klasse Datum. ANPR_StarSchema_v03.docx Seite 1

Data Warehouse und Data Mining

Veit Köppen Gunter Saake Kai-Uwe Sattler. 2. Auflage. Data Warehouse Technologien

Data Warehouse. für den Microsoft SQL SERVER 2000/2005

Data Warehousing Grundbegriffe und Problemstellung

Datenintegration & Datenherkunft Verteilung, Autonomie und Heterogenität

SQL-basierte SCD2-Versionierung hierarchischer Strukturen

Einführung in Hauptspeicherdatenbanken

Data Warehouses. Data Warehouse Architektur ... Sommersemester Melanie Herschel

Data Vault. Modellierungsmethode für agile Data Warehouse Systeme. Dr. Bodo Hüsemann Informationsfabrik GmbH. DOAG BI, München,

PostgreSQL und memcached

1Ralph Schock RM NEO REPORTING

Objektorientierte Datenbanken

Ausgangspunkt. Datenintegration. Ziel. Konflikte. Architekturen. Transparenz

DB2 SQL, der Systemkatalog & Aktive Datenbanken

Zusammenspiel von Business Intelligence mit betrieblicher Anwendungssoftware Falk Neubert, Universität Osnabrück

Kapitel 4: Data Warehouse Architektur

Fördercontrolling im öffentlichen Bereich Aspekte beim Aufbau eines DWH. Software mit Format.

Implementierung eines Data Marts. Gunther Popp dc soft GmbH

Data Warehousing. Kapitel 1: Data-Warehousing-Architektur. Folien teilweise übernommen von Matthias Gimbel

Data Warehousing und Data Mining

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221

Datenbanksysteme I. Klausur zum Praktikum. Mehrere Professoren prüfen mit genau einem Beisitzer genau einen Studenten.

Einführungsveranstaltung: Data Warehouse

Data Warehouse. Kapitel 17. Abbildung 17.1: Zusammenspiel zwischen OLTP und OLAP. Man unterscheidet zwei Arten von Datenbankanwendungen:

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

DW2004. XML-Datenimport in das SAP Business Information Warehouse bei Bayer Material Science. 3. November Dr. Michael Hahne, cundus AG

MIS by Franziska Täschler, Winformation GmbH Ausgabe 01/2001

Dieser Foliensatz darf frei verwendet werden unter der Bedingung, dass diese Titelfolie nicht entfernt wird.

eevolution Business Intelligence Oliver Rzeniecki COMPRA GmbH Programmierer & Datenbankadministrator

Data Warehousing und Data Mining

Mit Transbase Hypercube Data Warehouse Anwendungen effizient betreiben. Die Hypercube-Technologie

REAL-TIME DATA WAREHOUSING

Business Intelligence Data Warehouse. Jan Weinschenker

3.17 Zugriffskontrolle

Data Warehouses. Kapitel 2 Architektur. Sommersemester Melanie Herschel melanie.herschel@uni-tuebingen.de

TDWI Konferenz DWH Architektur Agilität durch Data Vault Modeling. Twitter: @TDWI_EU

BIW - Überblick. Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004

Wirtschaftsinformatik 2. Tutorium im WS 11/12

6. Sichten, Integrität und Zugriffskontrolle. Vorlesung "Informa=onssysteme" Sommersemester 2015

Data Warehousing und Data Mining

Kapitel 6 Einführung in Data Warehouses

Data-Warehouse-Systeme

ENTERBRAIN Reporting & Business Intelligence

Transkript:

Informationsintegration Data Warehouse (= Materialisierte Integration) Ulf Leser Sebastian Wandelt

Inhalt dieser Vorlesung Data Warehouses OLAP versus OLTP Multidimensionale Modellierung ETL Prozess Vergleich: Materialisiert / virtuell Ulf Leser: Informationsintegration 2

Beispielszenario Ein beliebiges Handelshaus Physikalische Datenverteilung Viele Niederlassungen (bis zu mehrere tausend) Noch mehr Registerkassen Aber: Zentrale Planung, Beschaffung, Verteilung Was wird wo und wie oft verkauft? Was muss wann wohin geliefert werden?... nur möglich, wenn Zentrale Übersicht über Umsätze Integration mit Lieferanten / Produktdaten Ulf Leser: Informationsintegration 3

Handels - DWH Verkaufen wir im Wedding mehr Dosenbier als in Zehlendorf? FILIALE 3 FILIALE 1 FILIALE 2... Analyse DWH Artikeldaten Kundendaten Welches sind meine Topkunden? Lieferantendaten Ulf Leser: Informationsintegration 4

OLAP Beispiel Welche Produkte hatten im letzten Jahr im Bereich Bamberg einen Umsatzrückgang um mehr als 10%? Welche Produktgruppen sind davon betroffen? Welche Lieferanten haben diese Produkte? Welche Kunden haben über die letzten 5 Jahre eine Bestellung über 50 Euro innerhalb von 4 Wochen nach einem persönlichen Anschreiben aufgegeben? Wie hoch waren die Bestellungen im Schnitt? Wie hoch waren die Bestellungen im Vergleich zu den durchschnittlich. Bestellungen des jew. Kunden in einem vergleichbaren Zeitraum? Lohnen sich Mailing-Aktionen? Ulf Leser: Informationsintegration 5

OLTP Beispiel Login Willkommen Bestellung Best. löschen SELECT pw FROM kunde WHERE login=... UPDATE kunde SET last_acc=date, tries=0 WHERE... SELECT k_id, name FROM kunde WHERE login=... SELECT last_pur FROM purchase WHERE k_id=...... SELECT av_qty FROM stock WHERE p_id=... UPDATE stock SET av_qty=av_qty-1 where... INSERT INTO shop_cart VALUES( o_id, k_id,...... DELETE FROM shop_cart WHERE o_id=... UPDATE stock SET av_qty=av_qty+1 where...... COMMIT COMMIT COMMIT COMMIT Ulf Leser: Informationsintegration 6

OLAP versus OLTP OLTP OLAP Typische Operationen Insert, Update, Delete, Select Select Bulk-Inserts Transaktionen Viele und kurz Lesetransaktionen Typische Anfragen Einfache Queries, Primärschlüsselzugriff, Schnelle Abfolgen von Selects/inserts/updates/deletes Komplexe Queries: Aggregate, Gruppierung, Subselects, etc. Bereichsanfragen über mehrere Attribute Daten pro Operation Wenige Tupel Mega-/ Gigabyte Datenmenge in DB Gigabyte Terabyte Eigenschaften der Daten Rohdaten, häufige Änderungen Abgeleitete Daten, historisch & stabil Erwartete Antwortzeiten Echtzeit bis wenige Sek. Minuten Modellierung Anwendungsorientiert Themenorientiert Typische Benutzer Sachbearbeiter Management Ulf Leser: Informationsintegration 7

Bücher im Internet bestellen Backup Durchsatz Loadbalancing Zielkonflikt Portfolio Umsatz Werbung Daten bank Ulf Leser: Informationsintegration 8

Komponenten Metadaten Quelle 1 Staging Area Mart 2 Quelle 2 Staging Area Cube Mart 1 Ulf Leser: Informationsintegration 9

Inhalt dieser Vorlesung Data Warehouses OLAP versus OLTP Multidimensionale Modellierung ETL Prozess Beispiel: Columba Vergleich: Materialisiert / virtuell Ulf Leser: Informationsintegration 10

Ulf Leser: Informationsintegration 11 Normalisiertes Schema line_item order_id product_id amount single_price order id session_id supply_id total_amount day id day month_id month id Month year_id year id year supply_station id region_id product id productgroup_id productgroup id name region id name customer id name cust_class discount customer_id productg_id discount session id cust_id day_id time order_status order_id supply_id status

Multidimensionales Schema customer id name cust_class time id day month year line_item order_id product_id amount Star single_price discount_rate product id name product_group supply id region Technische Informationen raus (Session) Nur abgeschlossene Bestellungen aufnehmen (Orderstatus) Zusammenfassen (discount_rate) Denormalisieren (überall) Ulf Leser: Informationsintegration 12

Dimensionen und Fakten customer id name cust_class time id day month year Faktentabelle line_item order_id product_id amount single_price discount_rate Dimensionstabellen product id name product_group supply id region Ulf Leser: Informationsintegration 13

Cube Time Bier Verkäufe in BWB in 2002 2002 2001 2000 1999 Sales Cube Bier Product Limo NRW Berlin Bayern BWB Location Cube -> Hypercube: Bon / Lieferant / Kunde /... Ulf Leser: Informationsintegration 14

Hierarchische Dimensionsschemata Dimensions schema Top Jahr 1997 1998 1999 2000 Quartal I II III IV I II III IV Klassifikationsstufen Monat Jan Feb Mar Okt Nov Dez Tag 1... 31 1... 28 Klassifikationsknoten Ulf Leser: Informationsintegration 15

OLAP Operationen MDDM spricht die Sprache des Analysten Operationen auf dem MDDM sollten die Analysevorgänge abbilden bzw. unterstützen Ziel: Schnelle und intuitive Manipulation der Daten Notwendig Spezielle Anfragesprache (SQL-OLAP, MDX) Definition der Operationen Unterstützung durch graphische Werkzeuge Umsetzung in ausführbare Operationen Ulf Leser: Informationsintegration 16

Beispiel Aggregation Z.Tag Z.Monat 4.1.1999 B.Abteilung 4 1999 B.Abt. 3.1.1999 3 1999 2.1.1999 1.1.1999 Skoda.Reparatur Skoda.Ersatzteile 2 1999 1 1999 Skoda.Repa. Skoda.Ersatz München Wedding Nantes Lyon R.Shop München Wedding Nantes Lyon R.Shop Ulf Leser: Informationsintegration 17

Aggregation bis TOP Summe Umsatz pro Tag und Abteilungen über alle Shops Z.Tag 4.1.1999 3.1.1999 2.1.1999 1.1.1999 B.Abteilung Skoda.Reparatur Skoda.Ersatzteile München Wedding Nantes Lyon R.Shop Summe Umsatz pro Shop und Tag, über alle Abteilungen Ulf Leser: Informationsintegration 18

Inhalt dieser Vorlesung Data Warehouses OLAP versus OLTP Multidimensionale Modellierung ETL Prozess Beispiel: Columba Vergleich: Materialisiert / virtuell Ulf Leser: Informationsintegration 19

ETL Extraction Transformation Load Ulf Leser: Informationsintegration 20

Zeitpunkt der Extraktion Synchrone Extraktion: Quelle propagiert jede Änderung Asynchrone Extraktion Periodisch Push: Quellen erzeugen regelmäßig Extrakte (Reports) Pull: DWH fragt regelmäßig Datenbestand ab Ereignisgesteuert Push: Quelle informiert z.b. alle X Änderungen Pull: DWH erfragt Änderungen bei bestimmten Ereignissen Jahresabschluss, Quartalsabschluss, Anfragegesteuert Push: - Pull: DWH erfragt Änderungen bei jedem Zugriff auf die (noch nicht vorhandenen oder potentiell veralteten) Daten Ulf Leser: Informationsintegration 21

Art der Daten Snapshot: Quelle liefert Bestand zu festem Zeitpunkt Lieferantenkatalog, Preisliste, etc. ( Stock -Fakten) Import erfordert Erkennen von Änderungen Differential Snapshot-Problem Alternative: Komplettes Überschreiben Historie aller Änderungen kann nicht exakt abgebildet werden Log: Quelle liefert jede Änderung seit letztem Export Transaktionslogs oder anwendungsgesteuertes Logging Kann direkt importiert werden DWH speichert ggf. Ereignis und seine Stornierung Nettolog: Quelle liefert das Delta zum letzten Export Kann direkt importiert werden Eventuell keine komplette Historie möglich Ulf Leser: Informationsintegration 22

Das Differential-Snapshot Problem Gesucht: Algorithmen zum Erstellen von DELTA-Files für sehr große Daten Formal: Ulf Leser: Informationsintegration 23

Szenario? Ulf Leser: Informationsintegration 24

Szenario Ulf Leser: Informationsintegration 25

Annahmen Ulf Leser: Informationsintegration 26

Mögliche Lösungen? Ulf Leser: Informationsintegration 27

Mögliche Lösungen? DS_small (im Hauptspeicher), DS_naive (nested loop), DS_sort (), DS_sort2, DS_hash Ulf Leser: Informationsintegration 28

Datenversorgung Quelle... Technik Aktualität DWH Belastung DWH Belastung Quellen... erstellt periodisch Exportfiles Reports, Snapshots Je nach Frequenz Eher niedrig Eher niedrig... pushed jede Änderung Trigger, Changelogs, Replikation Hoch Hoch Hoch... erstellt Extrakte auf Anfrage (Poll) Vor Benutzung Sehr schwierig Hoch Hoch Ja nach Anfragen Anwendungsgesteuert Je nachdem Je nach Frequenz Je nach Frequenz Je nach Frequenz Ulf Leser: Informationsintegration 29

ETL - Transformation Von den Quellen zur Staging Area Extraction von Daten aus den Quellen Erstellen / Erkennen von differentiellen Updates Erstellen von LOAD Files Von der Staging Area zur Basisdatenbank Data Cleaning und Tagging Duplikaterkennung Erstellung integrierter Datenbestände Ulf Leser: Informationsintegration 30

Transformationen beim Laden der Daten Extraktion der Daten aus Quelle mit einfachen Filtern Erstellen eines LOAD Files mit einfachen Konvertierungen Transformation meist zeilenorientiert Vorbereitung für den DB-spezifischen BULK-LOADER while (read_line) parse_line if (f[10]=2 & f[12]>0) write(file, f[1], string(f[4]), f[6]+f[7],...... bulk_upload( file) Ulf Leser: Informationsintegration 31

Transformationen in Staging Area Effiziente mengenorientierte Operationen (SQL) möglich Vergleiche über Zeilen hinaus möglich Vergleiche mit Daten in Basisdatenbank möglich Typisch: Tagging von Datensätzen durch Prüf-Regeln UPDATE sales SET price=price/mwst; UPDATE sales SET cust_name= (SELECT cust_name FROM customer WHERE id=cust_id);... UPDATE sales SET flag1=false WHERE cust_name IS NULL;... INSERT INTO DWH SELECT * FROM sales WHERE f1=true & f2=true &... Ulf Leser: Informationsintegration 32

ETL - Transformation Von den Quellen zur Staging Area Extraction von Daten aus den Quellen Erstellen / Erkennen von differentiellen Updates Erstellen von LOAD Files Wrapper Quellspezifisch Datenmodell / (syntaktische) Heterogenität Von der Staging Area zur Basisdatenbank Data Cleaning und Tagging Duplikaterkennung Erstellung integrierter Datenbestände Mediator Quellübergreifend Strukturelle / semantische Heterogenität Ulf Leser: Informationsintegration 33

Inhalt dieser Vorlesung Data Warehouses Vergleich: Materialisierte versus virtuelle Integration Ulf Leser: Informationsintegration 34

Data Warehouse vs. Mediator Anwendung 1 Anwendung 2 Anwendung 1 Anwendung 2 Data Warehouse Mediator ETL 1 ETL 3 Wrapper 1 Wrapper 3 ETL 2 Quelle 1 Quelle 2 Quelle 3 Wrapper 2 Quelle 1 Quelle 2 Quelle 3 Ulf Leser: Informationsintegration 35

Datenfluss Anwendung 1 Anwendung 2 Anwendung 1 Anwendung 2 Data Warehouse Mediator Quelle 1 Quelle 2 Quelle 3 Quelle 1 Quelle 2 Quelle 3 Push / Pull Nur Pull Ulf Leser: Informationsintegration 36

Vor- und Nachteile Materialisiert Virtuell Aktualität - + Antwortzeit + - Komplexität O -- Anfragemächtigkeit + - Read/Write +/+ +/-? Größe - + Ressourcenbedarf Zentral Verteilt Datenreinigung + - Online-Zugriff notwendig Nein Ja Gesamt-Zugriff notwendig Ja Nein Ulf Leser: Informationsintegration 37

Vor- und Nachteile Materialisiert Virtuell Aktualität - + Antwortzeit + - Komplexität O -- Anfragemächtigkeit + - Read/Write +/+ +/- Größe - + Ressourcenbedarf Zentral Verteilt Datenreinigung + - Online-Zugriff notwendig Nein Ja Gesamt-Zugriff notwendig Ja Nein Ulf Leser: Informationsintegration 38