Data Warehousing Kapitel 1: Einführung



Ähnliche Dokumente
Data Warehousing. Kapitel 1: Einführung. 1. Data Warehouses - Einführung. Dr. Andreas Thor Wintersemester 2009/10

1. Data Warehouses - Einführung

1. Data Warehouses - Einführung

1. Data Warehouses - Einführung

1. Data Warehouses - Einführung

OLAP und Data Warehouses

Data Warehouse ??? Ein Data Warehouse ist keine von der Stange zu kaufende Standardsoftware, sondern immer eine unternehmensindividuelle

Data Warehouses und Moderne Betriebliche Anwendungen von Datenbanksystemen

Seminar im Sommersemester 2004 an der Universität Karlsruhe (TH)

Business Intelligence Data Warehouse. Jan Weinschenker

Einführungsveranstaltung: Data Warehouse

Data Warehouse Definition (1)

BIW - Überblick. Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004

Übung zur Einführung in die Wirtschaftsinformatik Cognos Powerplay als Beispiel für ein DSS

Marketing Intelligence Vorstellung der Softwarekomponenten. Josef Kolbitsch Manuela Reinisch

1Ralph Schock RM NEO REPORTING

Data Warehousing. Fragen des Marketingleiters. Beispiel: : Amazon. Technisch... Amazon weltweit... Datenbank. Aufbau eines DWH OLAP <-> OLTP Datacube

BI Konsolidierung: Anspruch & Wirklichkeit. Jacqueline Bloemen. in Kooperation mit

Seminar in der Seminarreihe Business Intelligence 1. OLAP und Datawarehousing

Einführung in OLAP und Business Analysis. Gunther Popp dc soft GmbH

Open Source BI 2009 Flexibilität und volle Excel-Integration von Palo machen OLAP für Endanwender beherrschbar. 24. September 2009

Data Warehouse Technologien

eevolution Business Intelligence Oliver Rzeniecki COMPRA GmbH Programmierer & Datenbankadministrator

Veit Köppen Gunter Saake Kai-Uwe Sattler. 2. Auflage. Data Warehouse Technologien

Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft

2 Datenbanksysteme, Datenbankanwendungen und Middleware... 45

IT-basierte Kennzahlenanalyse im Versicherungswesen

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

GESCHÄFTSSTELLENERÖFFNUNG HAMBURG, 25. APRIL 2013

Logische Modelle für OLAP. Burkhard Schäfer

THEOBALD XTRACT PPS IXTO GMBH. Mathias Slawik, Linda Kallinich

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Data Warehouse Grundlagen

Datenbanksysteme 2009

Diplomarbeit: GOMMA: Eine Plattform zur flexiblen Verwaltung und Analyse von Ontologie Mappings in der Bio-/Medizininformatik

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Hetero-Homogene Data Warehouses

Das Multidimensionale Datenmodell

Möglichkeiten für bestehende Systeme

Einführung relationale Datenbanken. Themenblock: Erstellung eines Cube. Schlüssel. Relationenmodell Relationenname Attribut. Problem.

Allgemeines zu Datenbanken

Data Warehousing. Sommersemester Ulf Leser Wissensmanagement in der Bioinformatik

Themenblock: Erstellung eines Cube

Web Data Management Systeme

Aufgabe 1: [Logische Modellierung]

Kapitel 6. Vorlesung: PD Dr. Peer Kröger

Datenmanagement. Simone Unfried, Passau Vitaly Aleev, Passau Claus Schönleber, Passau. Strategisches Informationsmanagement 1 (01/2006)

Data Warehouse. für den Microsoft SQL SERVER 2000/2005

Online Analytical Processing

ENTERBRAIN Reporting & Business Intelligence

Wie aus Steuerungsinformation öffentliche Statistik wird

Strategisches Informationsmanagement auf Basis von Data Warehouse-Systemen

Pivotieren. Themenblock: Anfragen auf dem Cube. Roll-up und Drill-down. Slicing und Dicing. Praktikum: Data Warehousing und Data Mining. Produkt.

Umsetzung der Anforderungen - analytisch

Data Warehouse und Data Mining

OLTP: Online Transaction Processing

Datenbanken. Prof. Dr. Bernhard Schiefer.

pro4controlling - Whitepaper [DEU] Whitepaper zur CfMD-Lösung pro4controlling Seite 1 von 9

Logische Modellierung von Data Warehouses

Einführung. Informationssystem als Abbild der realen Welt

Verwandt, logisch kohärent, zweckspezifisch, an reale Welt orientiert. Entität kann in einer oder mehreren Unterklassen sein

10. Vorlesung: Datenorganisation SS 2007

Marketing Intelligence Schwierigkeiten bei der Umsetzung. Josef Kolbitsch Manuela Reinisch

Datenbanksysteme 2 Frühjahr-/Sommersemester Mai 2014

Lars Priebe Senior Systemberater. ORACLE Deutschland GmbH

Data Warehouse. Kapitel 17. Abbildung 17.1: Zusammenspiel zwischen OLTP und OLAP. Man unterscheidet zwei Arten von Datenbankanwendungen:

Mala Bachmann September 2000

IV. Datenbankmanagement

HMS. Statistiken mit SAS ins Internet. HMS Analytical Software GmbH - Johannes Lang

Kapitel 2 Terminologie und Definition

Infor PM 10 auf SAP. Bernhard Rummich Presales Manager PM Uhr

Fragenkatalog zum Kurs 1666 (Datenbanken in Rechnernetzen) Kurstext von SS 96

Data Warehouse schnell gemacht Performanceaspekte im Oracle DWH

INFORMATION LIFECYCLE MANAGEMENT

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller

Relationale Datenbanken Datenbankgrundlagen

Dipl. Inf. Dipl. Math. Y. Orkunoglu Datum:

Kapitel 17: Date Warehouse

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Grundlagen von Datenbanken

good. better. outperform.

Zusammenspiel von Business Intelligence mit betrieblicher Anwendungssoftware Falk Neubert, Universität Osnabrück

Data Warehouse Grundlagen

Themen. M. Duffner: Datenbanksysteme

Kapitel II. Datenbereitstellung 2004 AIFB / FZI 1. Vorlesung Knowledge Discovery

Mobiles SAP für Entscheider. Permanente Verfügbarkeit der aktuellen Unternehmenskennzahlen durch den mobilen Zugriff auf SAP ERP.

30. Juni Technische Universität Kaiserslautern. Paul R. Schilling

Microsoft Office SharePoint Server 2007 Überblick. Gernot Kühn Partner Technical Specialist Microsoft Deutschland Gmbh

Business Intelligence im Krankenhaus

Datenbanken und Informationssysteme

SAP Integration von Business Objects am Beispiel von SAP Student Lifecycle Management. Anke Noßmann Syncwork AG

OLAP und der MS SQL Server

Vom Trash- zum Dashboard Visualisierungen mit SAP BO Dashboards (Xcelsius)

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Vorwort zur 5. Auflage Über den Autor... 16

Seminar C16 - Datenmodellierung für SAP BW

Qualitätsberichte im MS Word-Format

Transkript:

Data Warehousing Kapitel 1: Einführung Michael Hartung Sommersemester 2011 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de SS11 Prof. Dr. E. Rahm 1-1

Grobarchitektur 1. Data Warehouses - Einführung Definition Data Warehouse Einsatzbeispiele OLTP vs. OLAP Virtuelle vs. phsische Datenintegration Mehrdimensionale Datensicht Star-Schema -Anfragen Data Mining SS11 Prof. Dr. E. Rahm 1-2

Ausgangsproblem Data Warehouses viele Unternehmen haben Unmengen an Daten ohne daraus ausreichend Informationen und Wissen für kritische Entscheidungsaufgaben ableiten zu können Data Warehouse (Def.): für Analsezwecke optimierte zentrale Datenbank die Daten aus mehreren i.a. heterogenen Quellen zusammenführt und verdichtet (Integration und Transformation) OLTP Online Transaction Processing operationale DB OLAP Online Analtical Processing Decision Support-Anfragen / Data Mining operationale DB operationale DB SS11 Prof. Dr. E. Rahm 1-3 Data Warehouse initiales Laden und periodisches Auffrischen des Warehouse

Szenario: Getränkemarkt Quelle: Sattler/Saake Umsatz Sortiment SSaufland Werbung Anfragen: Wie viele Flaschen Cola wurden letzten Monat verkauft? Wie hat sich der Verkauf von Rotwein im letzten Jahr entwickelt? Wer sind unsere Top-Kunden? Von welchem Lieferanten beziehen wir die meisten Kisten? SS11 Prof. Dr. E. Rahm 1-4

Szenario (2) Saufland Saufland Saufland Quelle: Sattler/Saake Anfragen Verkaufen wir in Ilmenau mehr Bier als in Erfurt? Wie viel Cola wurde im Sommer in ganz Thüringen verkauft? Mehr als Wasser? SS11 Prof. Dr. E. Rahm 1-5

Warenhauskette Einsatzbeispiele Verkaufszahlen und Lagerbestände aller Warenhäuser mehrdimensionale Analsen: Verkaufszahlen nach Produkten Regionen Warenhäusern Ermittlung von Kassenschlagern und Ladenhütern Analse des Kaufverhaltens von Kunden (Warenkorbanalse) Erfolgskontrolle von Marketing-Aktivitäten Minimierung von Beständen Optimierung der Produktpalette Optimierung der Preisgestaltung Versicherungsunternehmen Bewertung von Filialen Vertriebsbereichen Schadensverlauf... automatische Risikoanalse schnellere Entscheidung über Kreditkarten Lebensversicherung; Krankenversicherung... Banken Versandhäuser Restaurant-Ketten wissenschaftliche Einsatzfälle (z.b. Bioinformatik) SS11 Prof. Dr. E. Rahm 1-6

DW-Eigenschaften nach Inmon A Data Warehouse is a subject-oriented integrated non-volatile and time variant collection of data in support of managements decisions (W. H. Inmon Building the Data Warehouse 1996) Themenorientiert (subject-oriented): Zweck des Sstems ist nicht Erfüllung einer dedizierten Aufgabe (z.b. Personaldatenverwaltung) sondern Unterstützung übergreifender Auswertungsmöglichkeiten aus verschiedenen Perspektiven alle Daten - unternehmensweit - über ein Subjekt (Kunden Produkte Regionen...) und nicht versteckt in verschiedenen Anwendungen operationale DB Data Warehouse SS11 Prof. Dr. E. Rahm 1-7

DW-Eigenschaften nach Inmon (2) Integrierte Datenbasis (integrated): Daten aus mehreren verschiedenen Datenquellen Operational DB Data Warehouse DB A - mf DB B - male female DB C - x DB D - 10 m f inconsistent consistent SS11 Prof. Dr. E. Rahm 1-8

DW-Eigenschaften nach Inmon (3) Nicht-flüchtige Datenbasis (non-volatile): Daten im DW werden i.a. nicht mehr geändert stabile persistente Datenbasis Change Delete operationale DB Select Insert Load Data Warehouse Access regelmäßige Änderungen von Sätzen SS11 Prof. Dr. E. Rahm 1-9

DW-Eigenschaften nach Inmon (4) Historische Daten (time-variant): Vergleich der Daten über Zeit möglich (Zeitreihenanalse) Speicherung über längeren Zeitraum operationale DB Time Varianc Data Warehouse aktuelle Datenwerte: Zeitbezug optional Zeithorizont: 60-90 Tage Daten änderbar Schnappschuss-Daten Zeitbezug aller Objekte Zeithorizont: 2-10 Jahre keine Änderung nach Schnappschuss-Erstellung SS11 Prof. Dr. E. Rahm 1-10

Operationale Datenbanken vs. Data Warehouses (OLTP vs. OLAP) Operationale Datenbanken /OLTP Data Warehouses/OLAP Entstehung Bedeutung jeweils für eine Applikation oder aus einer bestimmten Perspektive heraus Tagesgeschäft Nutzer Datenzugriff Änderungen/Aktualität #Datenquellen Sachbearbeiter Online-Nutzer sehr häufiger Zugriff; kleine Datenmengen pro Operation; Lesen Schreiben Modifizieren Löschen sehr häufig / stets aktuell meist eine Datenmerkmale Optimierungsziele nicht abgeleitet zeitaktuell autonom dnamisch hoher Durchsatz sehr kurze Antwortzeiten (ms.. s) hohe Verfügbarkeit SS11 Prof. Dr. E. Rahm 1-11

Warum separates Data Warehouse? Unterschiedliche Nutzung und Datenstrukturierung Performance OLTP optimiert für kurze Transaktionen und bekannte Lastprofile komplexe OLAP-Anfragen würden gleichzeitige OLTP-Transaktionen des operationalen Betriebs drastisch verschlechtern spezieller phsischer und logischer Datenbankentwurf für multidimensionale Sichten/Anfragen notwendig Transaktionseigenschaften (ACID) nicht wichtig Funktionalität historische Daten Konsolidierung (Integration Bereinigung und Aggregation) von Daten aus heterogenen Datenquellen Sicherheit Nachteile der separaten Lösung Datenredundanz Daten nicht vollständig aktuell hoher Administrationsaufwand hohe Kosten SS11 Prof. Dr. E. Rahm 1-13

Grobarchitektur einer DW-Umgebung Führungs- Informationsssteme Entscheidungsunterstützungsssteme Business- Intelligence Berichts- und Abfragessteme Designer Workbench Repositor Data Marts Cubes Data Administator Workbench Metadaten Zentrale Datenbasis Warehouse Daten-Extraktion / -Transformation / -Laden DB2 ORACLE Files WWW... Interne Daten Externe Daten operative Datenquellen Datenflüsse Metadatenf lüsse SS11 Prof. Dr. E. Rahm 1-14

DW-Prozesse Data Warehousing umfaßt mehrere Teilprozesse Entwurf ( design it ) Aufbau ( build it populate ) Nutzung ( use it analze ) sowie Betrieb und Administration ( maintain it / administer ) Entwurf Aufbau Nutzung Betrieb Metadaten DW ist meist kein monolithisches Sstem meist Nutzung von Tools / Komponenten unterschiedlicher Hersteller sowie eigenprogrammierten Anteilen zentrale Bedeutung der Metadaten jedoch oft unzureichend unterstützt SS11 Prof. Dr. E. Rahm 1-15

Datenintegration: phsisch vs. virtuell Phsische (Vor-) Integration (Data Warehousing) Virtuelle Integration (Mediator/Wrapper-Architekturen förderierte DBS) Front-End Tools Client 1 Client k Data Marts Metadaten Metadaten Data Warehouse Mediator / FDBS Import (ETL) Wrapper 1 Wrapper m Wrapper n Operationale Sseme Source 1 (DBS 1) Source m (DBS j) Source n SS11 Prof. Dr. E. Rahm 1-16

Datenintegration: phsisch vs. virtuell (2) Integrationszeitpunkt: Metadaten Integrationszeitpunkt: Daten Aktualität der Daten Autonomie der Datenquellen Erreichbare Datenqualität Analsezeitbedarf für große Datenmengen Hardwareaufwand Phsisch (Data Warehouse) Vorab (DW-Schema) vorab Virtuell Vorab (globale Sicht) Dnamisch (zur Anfragezeit) Skalierbarkeit auf viele Datenquellen SS11 Prof. Dr. E. Rahm 1-17

Mehrdimensionale Datensicht Ost Nord Region Kennzahlen (Fakten Measures) 10 25 56 4 1Q 2Q 3Q 4Q Süd West Elektronik Fahrzeuge Lebensmittel Software Branche Dimensionen Kennzahlen: numerische Werte als Grundlage für Aggregationen/Berechnungen (z.b. Absatzzahlen Umsatz etc.) Dimensionen: beschreibende Eigenschaften Operationen: Zeit Aggregierung der Kennzahlen über eine oder mehrere Dimension(en) Slicing and Dicing: Bereichseinschränkungen auf Dimensionen SS11 Prof. Dr. E. Rahm 1-19

Hierarchische Dimensionierung Region Branche Zeit Bundesland Produktgruppe Jahr Ort Produkt Quartal Monat Woche Tag Operationen zum Wechsel der Dimensionsebenen Drill-Down Roll-Up SS11 Prof. Dr. E. Rahm 1-20

OLAP (Online Analtical Processing) interaktive multidimensionale Analse auf konsolidierten Unternehmensdaten Merkmale / Anforderungen multidimensionale konzeptionelle Sicht auf die Daten unbegrenzte Anzahl an Dimensionen und Aggregationsebenen unbeschränkte dimensionsübergreifende Operationen intuitive interaktive Datenmanipulation und Visualisierung transparenter (integrierter) Zugang zu heterogenen Datenbeständen mit logischer Gesamtsicht Skalierbarkeit auf große Datenmengen stabile volumenunabhängige Antwortzeiten Mehrbenutzerunterstützung Client/Server-Architektur SS11 Prof. Dr. E. Rahm 1-21

Multidimensional vs. relational 10 25 56 4 1Q 2Q 3Q 4Q Ost Nord Süd West Elektronik Fahrzeuge Lebensmittel Software Region Branche Bestellnr Region Branche Zeit Menge 1406 Ost Fahrzeuge 2Q 5 4123 West Elektronik 1Q 58 7829 Süd Fahrzeuge 2Q 30 5327 Ost Lebensmittel 4Q 3000 9306 Nord Software 1Q 25 2574 Ost Elektronik 4Q 2 Zeit multidimensionale Darstellung (MOLAP): Kreuzprodukt aller Wertebereiche mit aggregiertem Wert pro Kombination Annahme: fast alle Kombinationen kommen vor relationale Darstellung (ROLAP): Relation: Untermenge des Kreuzproduktes aller Wertebereiche nur vorkommende Wertekombinationen werden gespeichert (Tupel) Hbrides OLAP (HOLAP): ROLAP + MOLAP SS11 Prof. Dr. E. Rahm 1-22

Star-Schema zentrale Faktentabelle sowie 1 Tabelle pro Dimension Kunde Zeit KundenNr KundenName Geschlecht Alter Produkt ProduktNr ProduktName Produktgruppe Branche Hersteller Farbe Preis Verkauf KundenNr ProduktNr Datum Fname Anzahl Umsatz Datum Tag Monat Quartal Jahr Filiale Fname Ort Land Region SS11 Prof. Dr. E. Rahm 1-23

Anfragen Beispielanfrage: Welche Auto-Hersteller wurden von weiblichen Kunden in Sachsen im 1. Quartal 2008 favorisiert? select p.hersteller sum (v.anzahl) from Verkauf v Filialen f Produkt p Zeit z Kunden k where z.jahr = 2008 and z.quartal = 1 and k.geschlecht = W and p.produkttp = Auto and f.land = Sachsen and v.datum = z.datum and v.produktnr = p.produktnr and v.fname = f. FName and v.kundennr = k.kundennr group b p.hersteller; Star-Join sternförmiger Join der (relevanten) Dimensionstabellen mit der Faktentabelle Einschränkung der Dimensionen Verdichtung der Kennzahlen durch Gruppierung und Aggregation SS11 Prof. Dr. E. Rahm 1-24

(Ad Hoc-) Quer-Tools Analsewerkzeuge Reporting-Werkzeuge Berichte mit flexiblen Formatierungsmöglichkeiten OLAP-Tools interaktive mehrdimensionale Analse und Navigation (Drill Down Roll Up...) Gruppierungen statistische Berechnungen... Data Mining-Tools Darstellung Tabellen insbesondere Pivot-Tabellen (Kreuztabellen) Analse durch Vertauschen von Zeilen und Spalten Veränderung von Tabellendimensionen Graphiken sowie Text und Multimedia-Elemente Nutzung über Web-Browser Spreadsheet-Integration SS11 Prof. Dr. E. Rahm 1-25

Beispiel: OLAP-Ausgabe (Excel) SS11 Prof. Dr. E. Rahm 1-26

Knowledge Discover Selektion Vorverarbeitung/ Transformation Rohdaten Daten Data Mining Daten Interpretation Muster Wissen SS11 Prof. Dr. E. Rahm 1-27

Data Mining: Techniken Data Mining: Einsatz statistischer und wissensbasierter Methoden auf Basis von Data Warehouses Auffinden von Korrelationen Mustern und Trends in Daten Knowledge Discover : setzt im Gegensatz zu OLAP ( knowledge verification ) kein formales Modell voraus Clusteranalse Objekte werden aufgrund von Ähnlichkeiten in Klassen eingeteilt (Segmentierung) Bsp.: ähnliche Kunden ähnliche Website-Nutzer... Assoziationsregeln Warenkorbanalse (z.b. Kunde kauft A und B => Kunde kauft C) Klassifikation Klassifikation von Objekten Erstellung von Klassifikationsregeln / Vorhersage von Attributwerten (z.b. guter Kunde wenn Alter > 25 und... ) mögliche Realisierung: Entscheidungsbaum SS11 Prof. Dr. E. Rahm 1-28

Beispiel Warenkorbanalse SS11 Prof. Dr. E. Rahm 1-29

Enterprise Information Portale einheitlicher unternehmensweiter Zugang zu strukturierten und unstrukturierten Daten Enterprise Information Portal Shared Metadata Management Data Access Quer / Report OLAP Data Mining Data Access Word Document Processing Management Text Mining ETL Data Mart Modeling Data Sources Data Warehouse W W W Operational Documents Multimedia Web Data Warehouse Environment Structured Data Intranet/Internet Environment Unstructured Data SS11 Prof. Dr. E. Rahm 1-30

Data Warehouse Hpe & Realität turning data into knowledge 360 view of customer a single version of the truth getting ou closer to the customer Better decision making Fragen Wie werden welche Kundendaten genutzt? Wie erfolgt die Sicherung der Datenqualität? SS11 Prof. Dr. E. Rahm 1-31

GeWare: Expression Data Warehouse* Verwaltung und Analse großer Mengen von Genexpressionsdaten Integration weiterer Informationen zu Genen Patienten etc. Data Sources Data Warehouse Web Interface CEL Files & Expression/ CGH Matrices (CSV) Expression/Mutation Data Dail Import from Stud Management Sstem Manual User Input Experimental & Clinical Annotation Data Staging Area Pre-processing Results Mapping DB Core Data Warehouse Multidimensional Data Model including Gene Expression Data Clone Cop Numbers Experimental & clinical Annotations Public Data Data Im-/Export Database API Stored Procedure Data Mart Data pre-processing Data analsis (canned queries statistics visualization) Administration Public Data Sources GO Ensembl NetAffx Local Copies SRS Expression / CGH Matrix Gene Annotations *E. Rahm T. Kirsten J. Lange: The GeWare data warehouse platform for the analsis of molecular-biological and clinical data. Journal of Integrative Bioinformatics 4(1):47 2007. SS11 Prof. Dr. E. Rahm 1-32

Zusammenfassung Data Warehousing: DB-Anfrageverarbeitung und Analsen auf integriertem Datenbestand für Decision Support (OLAP) riesige Datenvolumina Hauptschwierigkeit: Integration heterogener Datenbestände sowie Bereinigung von Primärdaten Phsische Datenintegration ermöglicht aufwändige Datenbereinigung und effiziente Analse auf großen Datenmengen Mehrdimensionale Datenmodellierung und -organisation Breites Spektrum an Auswertungs- und Analsemöglichkeiten Data Mining: selbständiges Aufspüren relevanter Muster in Daten Data Warehouse ist weit mehr als Datenbank SS11 Prof. Dr. E. Rahm 1-33