1. Data Warehouses - Einführung



Ähnliche Dokumente
1. Data Warehouses - Einführung

1. Data Warehouses - Einführung

Data Warehousing Kapitel 1: Einführung

Data Warehousing. Kapitel 1: Einführung. 1. Data Warehouses - Einführung. Dr. Andreas Thor Wintersemester 2009/10

1. Data Warehouses - Einführung

OLAP und Data Warehouses

Data Warehouse ??? Ein Data Warehouse ist keine von der Stange zu kaufende Standardsoftware, sondern immer eine unternehmensindividuelle

Data Warehouses und Moderne Betriebliche Anwendungen von Datenbanksystemen

Einführungsveranstaltung: Data Warehouse

Seminar im Sommersemester 2004 an der Universität Karlsruhe (TH)

Business Intelligence Data Warehouse. Jan Weinschenker

Data Warehousing. Fragen des Marketingleiters. Beispiel: : Amazon. Technisch... Amazon weltweit... Datenbank. Aufbau eines DWH OLAP <-> OLTP Datacube

Data Warehouse Definition (1)

Übung zur Einführung in die Wirtschaftsinformatik Cognos Powerplay als Beispiel für ein DSS

Data Warehouse Technologien

Veit Köppen Gunter Saake Kai-Uwe Sattler. 2. Auflage. Data Warehouse Technologien

eevolution Business Intelligence Oliver Rzeniecki COMPRA GmbH Programmierer & Datenbankadministrator

Marketing Intelligence Vorstellung der Softwarekomponenten. Josef Kolbitsch Manuela Reinisch

Seminar in der Seminarreihe Business Intelligence 1. OLAP und Datawarehousing

Einführung in OLAP und Business Analysis. Gunther Popp dc soft GmbH

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

BI Konsolidierung: Anspruch & Wirklichkeit. Jacqueline Bloemen. in Kooperation mit

1Ralph Schock RM NEO REPORTING

Business Intelligence und Geovisualisierung in der Gesundheitswirtschaft

BIW - Überblick. Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004

GESCHÄFTSSTELLENERÖFFNUNG HAMBURG, 25. APRIL 2013

Mala Bachmann September 2000

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Logische Modelle für OLAP. Burkhard Schäfer

IT-basierte Kennzahlenanalyse im Versicherungswesen

Einführung relationale Datenbanken. Themenblock: Erstellung eines Cube. Schlüssel. Relationenmodell Relationenname Attribut. Problem.

Themenblock: Erstellung eines Cube

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

2 Datenbanksysteme, Datenbankanwendungen und Middleware... 45

Data Warehouse Grundlagen

OLTP: Online Transaction Processing

Online Analytical Processing

Kapitel 17: Date Warehouse

Pivotieren. Themenblock: Anfragen auf dem Cube. Roll-up und Drill-down. Slicing und Dicing. Praktikum: Data Warehousing und Data Mining. Produkt.

Das Multidimensionale Datenmodell

Data Warehouse und Data Mining

Aufgabe 1: [Logische Modellierung]

Data Warehousing. Sommersemester Ulf Leser Wissensmanagement in der Bioinformatik

Kapitel 2 Terminologie und Definition

Datenmanagement. Simone Unfried, Passau Vitaly Aleev, Passau Claus Schönleber, Passau. Strategisches Informationsmanagement 1 (01/2006)

Kapitel 6. Vorlesung: PD Dr. Peer Kröger

Einführung. Informationssystem als Abbild der realen Welt

pro4controlling - Whitepaper [DEU] Whitepaper zur CfMD-Lösung pro4controlling Seite 1 von 9

Verwandt, logisch kohärent, zweckspezifisch, an reale Welt orientiert. Entität kann in einer oder mehreren Unterklassen sein

Data Warehouse schnell gemacht Performanceaspekte im Oracle DWH

Zusammenspiel von Business Intelligence mit betrieblicher Anwendungssoftware Falk Neubert, Universität Osnabrück

10. Vorlesung: Datenorganisation SS 2007

Data Warehouse. Kapitel 17. Abbildung 17.1: Zusammenspiel zwischen OLTP und OLAP. Man unterscheidet zwei Arten von Datenbankanwendungen:

Logische Modellierung von Data Warehouses

Data Warehouse. für den Microsoft SQL SERVER 2000/2005

INFORMATION LIFECYCLE MANAGEMENT

MIS by Franziska Täschler, Winformation GmbH Ausgabe 01/2001

THEOBALD XTRACT PPS IXTO GMBH. Mathias Slawik, Linda Kallinich

Marketing Intelligence Schwierigkeiten bei der Umsetzung. Josef Kolbitsch Manuela Reinisch

Hetero-Homogene Data Warehouses

Allgemeines zu Datenbanken

Web Data Management Systeme

Datenbanken. Prof. Dr. Bernhard Schiefer.

Diplomarbeit: GOMMA: Eine Plattform zur flexiblen Verwaltung und Analyse von Ontologie Mappings in der Bio-/Medizininformatik

ENTERBRAIN Reporting & Business Intelligence

Strategisches Informationsmanagement auf Basis von Data Warehouse-Systemen

Vertrautmachen mit Daten

OLAP und der MS SQL Server

Inhalt. 1 Übersicht. 2 Anwendungsbeispiele. 3 Einsatzgebiete. 4 Systemanforderungen. 5 Lizenzierung. 6 Installation. 7 Key Features.

Von der spezialisierten Eigenentwicklung zum universellen Analysetool. Das Controlling-Informationssystem der WestLB Systems

Data Warehousing und Data Mining

Möglichkeiten für bestehende Systeme

Datenbanksysteme 2 Frühjahr-/Sommersemester Mai 2014

HMS. Statistiken mit SAS ins Internet. HMS Analytical Software GmbH - Johannes Lang

Mobiles SAP für Entscheider. Permanente Verfügbarkeit der aktuellen Unternehmenskennzahlen durch den mobilen Zugriff auf SAP ERP.

3.17 Zugriffskontrolle

Performanceaspekte in der SAP BI Modellierung

Seminar C02 - Praxisvergleich OLAP Tools

Data Warehouse Grundlagen

Fragenkatalog zum Kurs 1666 (Datenbanken in Rechnernetzen) Kurstext von SS 96

Erstellen von Business Intelligence mit Office XP und SQL 2000 Analysis Services

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller

Kapitel II. Datenbereitstellung 2004 AIFB / FZI 1. Vorlesung Knowledge Discovery

Dipl. Inf. Dipl. Math. Y. Orkunoglu Datum:

Relationale Datenbanken Datenbankgrundlagen

Modellierung von OLAP- und Data- Warehouse-Systemen

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Business Intelligence Praktikum 1

Datenbanken und Informationssysteme

good. better. outperform.

Praxishandbuch SAP BW 3-1

ETL in den Zeiten von Big Data

Cubeware Connectivity for SAP Solutions

Transkript:

Grobarchitektur 1. Data Warehouses - Einführung Definition Data Warehouse Einsatzbeispiele OLTP vs. OLAP Virtuelle vs. physische Datenintegration Mehrdimensionale Datensicht Star-Schema -Anfragen Data Mining SS12 Prof. Dr. E. Rahm 1-1 Ausgangsproblem Data Warehouses viele Unternehmen haben Unmengen an Daten ohne daraus ausreichend Informationen und Wissen für kritische Entscheidungsaufgaben ableiten zu können Data Warehouse (Def.): für Analysezwecke optimierte zentrale Datenbank die Daten aus mehreren i.a. heterogenen Quellen zusammenführt und verdichtet (Integration und Transformation) OLTP Online Transaction Processing operationale DB OLAP Online Analytical Processing Decision Support-Anfragen / Data Mining operationale DB operationale DB SS12 Prof. Dr. E. Rahm 1-2 Data Warehouse initiales Laden und periodisches Auffrischen des Warehouse

Szenario: Getränkemarkt Quelle: Sattler/Saake Umsatz Sortiment S Saufland Werbung Anfragen: Wie viele Flaschen Cola wurden letzten Monat verkauft? Wie hat sich der Verkauf von Rotwein im letzten Jahr entwickelt? Wer sind unsere Top-Kunden? Von welchem Lieferanten beziehen wir die meisten Kisten? SS12 Prof. Dr. E. Rahm 1-3 Szenario (2) Saufland Saufland Saufland Quelle: Sattler/Saake Anfragen Verkaufen wir in Ilmenau mehr Bier als in Erfurt? Wie viel Cola wurde im Sommer in ganz Thüringen verkauft? Mehr als Wasser? SS12 Prof. Dr. E. Rahm 1-4

Warenhauskette Einsatzbeispiele Verkaufszahlen und Lagerbestände aller Warenhäuser mehrdimensionale Analysen: Verkaufszahlen nach Produkten Regionen Warenhäusern Ermittlung von Kassenschlagern und Ladenhütern Analyse des Kaufverhaltens von Kunden (Warenkorbanalyse) Erfolgskontrolle von Marketing-Aktivitäten Minimierung von Beständen Optimierung der Produktpalette Optimierung der Preisgestaltung Versicherungsunternehmen Bewertung von Filialen Vertriebsbereichen Schadensverlauf... automatische Risikoanalyse schnellere Entscheidung über Kreditkarten Lebensversicherung; Krankenversicherung... Banken Versandhäuser Restaurant-Ketten wissenschaftliche Einsatzfälle (z.b. Bioinformatik) SS12 Prof. Dr. E. Rahm 1-5 DW-Eigenschaften nach Inmon A Data Warehouse is a subject-oriented integrated non-volatile and time variant collection of data in support of managements decisions (W. H. Inmon Building the Data Warehouse 1996) Themenorientiert (subject-oriented): Zweck des Systems ist nicht Erfüllung einer dedizierten Aufgabe (z.b. Personaldatenverwaltung) sondern Unterstützung übergreifender Auswertungsmöglichkeiten aus verschiedenen Perspektiven alle Daten - unternehmensweit - über ein Subjekt (Kunden Produkte Regionen...) und nicht versteckt in verschiedenen Anwendungen operationale DB Data Warehouse SS12 Prof. Dr. E. Rahm 1-6

DW-Eigenschaften nach Inmon (2) Integrierte Datenbasis (integrated): Daten aus mehreren verschiedenen Datenquellen Operational DB Data Warehouse DB A - mf DB B - male female DB C - xy DB D - 10 m f inconsistent consistent SS12 Prof. Dr. E. Rahm 1-7 DW-Eigenschaften nach Inmon (3) Nicht-flüchtige Datenbasis (non-volatile): Daten im DW werden i.a. nicht mehr geändert stabile persistente Datenbasis Change Delete operationale DB Select Insert Load Data Warehouse Access regelmäßige Änderungen von Sätzen SS12 Prof. Dr. E. Rahm 1-8

DW-Eigenschaften nach Inmon (4) Historische Daten (time-variant): Vergleich der Daten über Zeit möglich (Zeitreihenanalyse) Speicherung über längeren Zeitraum operationale DB Time Variancy Data Warehouse aktuelle Datenwerte: Zeitbezug optional Zeithorizont: 60-90 Tage Daten änderbar Schnappschuß-Daten Zeitbezug aller Objekte Zeithorizont: 2-10 Jahre keine Änderung nach Schnappschuß-Erstellung SS12 Prof. Dr. E. Rahm 1-9 Operationale Datenbanken vs. Data Warehouses (OLTP vs. OLAP) Operationale Datenbanken /OLTP Data Warehouses/OLAP Entstehung Bedeutung Nutzer Datenzugriff Änderungen #Datenquellen für je eine Applikation / eine Perspektive Tagesgeschäft Sachbearbeiter Online-Nutzer sehr häufiger Zugriff; kleine Datenmengen pro Operation; Lesen Schreiben Modifizieren Löschen sehr häufig meist eine Datenmerkmale Optimierungsziele nicht abgeleitet zeitaktuell autonom dynamisch hoher Durchsatz sehr kurze Antwortzeiten (ms.. s) hohe Verfügbarkeit SS12 Prof. Dr. E. Rahm 1-10

Warum separates Data Warehouse? Unterschiedliche Nutzung und Datenstrukturierung Performance OLTP optimiert für kurze Transaktionen und bekannte Lastprofile komplexe OLAP-Anfragen würden gleichzeitige OLTP-Transaktionen des operationalen Betriebs drastisch verschlechtern spezieller physischer und logischer Datenbankentwurf für multidimensionale Sichten/Anfragen notwendig Transaktionseigenschaften (ACID) nicht wichtig Funktionalität historische Daten Konsolidierung (Integration Bereinigung und Aggregation) von Daten aus heterogenen Datenquellen Sicherheit Nachteile der separaten Lösung Datenredundanz Daten nicht vollständig aktuell hoher Administrationsaufwand hohe Kosten SS12 Prof. Dr. E. Rahm 1-11 Grobarchitektur einer DW-Umgebung Führungs - Informationssysteme Entscheidungsunterstützungssysteme Business- Intelligence Berichts- und Abfragesysteme Designer Workbench Repository Data Marts Cubes Data Administator Workbench Metadaten Zentrale Datenbasis Warehouse Daten-Extraktion / -Transformation / -Laden DB2 ORACLE Files WWW... Interne Daten Externe Daten operative Datenquellen Datenflüsse Metadatenf lüsse SS12 Prof. Dr. E. Rahm 1-12

DW-Prozesse Data Warehousing umfaßt mehrere Teilprozesse Entwurf ( design it ) Aufbau ( build it populate ) Nutzung ( use it analyze ) sowie Betrieb und Administration ( maintain it / administer ) Entwurf Aufbau Nutzung Betrieb Metadaten DW ist meist kein monolithisches System meist Nutzung von Tools / Komponenten unterschiedlicher Hersteller sowie eigenprogrammierten Anteilen zentrale Bedeutung der Metadaten jedoch oft unzureichend unterstützt SS12 Prof. Dr. E. Rahm 1-13 Datenintegration: physisch vs. virtuell Physische (Vor-) Integration (Data Warehousing) Virtuelle Integration (Mediator/Wrapper-Architekturen förderierte DBS) Front-End Tools Client 1 Client k Data Marts Metadaten Metadaten Data Warehouse Mediator / FDBS Import (ETL) Wrapper 1 Wrapper m Wrapper n Operationale Syseme Source 1 (DBS 1) Source m (DBS j) Source n SS12 Prof. Dr. E. Rahm 1-14

Datenintegration: physisch vs. virtuell (2) Integrationszeitpunkt: Metadaten Integrationszeitpunkt: Daten Aktualität der Daten Autonomie der Datenquellen Erreichbare Datenqualität Analysezeitbedarf für große Datenmengen Hardwareaufwand Physisch (Data Warehouse) Vorab (DW-Schema) vorab Virtuell Vorab (globale Sicht) Dynamisch (zur Anfragezeit) Skalierbarkeit auf viele Datenquellen SS12 Prof. Dr. E. Rahm 1-15 Mehrdimensionale Datensicht Ost Kennzahlen (Fakten Measures) 10 y 25 y 56 y 4 1Q 2Q 3Q 4Q Nord Süd West Elektronik Fahrzeuge Lebensmittel Software Region Branche Dimensionen Kennzahlen: numerische Werte als Grundlage für Aggregationen/Berechnungen (z.b. Absatzzahlen Umsatz etc.) Dimensionen: beschreibende Eigenschaften Operationen: Zeit Aggregierung der Kennzahlen über eine oder mehrere Dimension(en) Slicing and Dicing: Bereichseinschränkungen auf Dimensionen SS12 Prof. Dr. E. Rahm 1-16

Hierarchische Dimensionierung Region Branche Zeit Bundesland Produktgruppe Jahr Ort Produkt Quartal Monat Woche Operationen zum Wechsel der Dimensionsebenen Drill-Down Roll-Up SS12 Prof. Dr. E. Rahm 1-17 Tag OLAP (Online Analytical Processing) interaktive multidimensionale Analyse auf konsolidierten Unternehmensdaten Merkmale / Anforderungen multidimensionale konzeptionelle Sicht auf die Daten unbegrenzte Anzahl an Dimensionen und Aggregationsebenen unbeschränkte dimensionsübergreifende Operationen intuitive interaktive Datenmanipulation und Visualisierung transparenter (integrierter) Zugang zu heterogenen Datenbeständen mit logischer Gesamtsicht Skalierbarkeit auf große Datenmengen stabile volumenunabhängige Antwortzeiten Mehrbenutzerunterstützung Client/Server-Architektur SS12 Prof. Dr. E. Rahm 1-18

Multidimensional vs. relational 10 y 25 y 56 y 4 1Q 2Q 3Q 4Q Ost Nord Süd West Elektronik Fahrzeuge Lebensmittel Software Region Branche Bestellnr Region Branche Zeit Menge 1406 Ost Fahrzeuge 2Q 5 4123 West Elektronik 1Q 58 7829 Süd Fahrzeuge 2Q 30 5327 Ost Lebensmittel 4Q 3000 9306 Nord Software 1Q 25 2574 Ost Elektronik 4Q 2 Zeit multidimensionale Darstellung (MOLAP): Kreuzprodukt aller Wertebereiche mit aggregiertem Wert pro Kombination Annahme: fast alle Kombinationen kommen vor relationale Darstellung (ROLAP): Relation: Untermenge des Kreuzproduktes aller Wertebereiche nur vorkommende Wertekombinationen werden gespeichert (Tupel) Hybrides OLAP (HOLAP): ROLAP + MOLAP SS12 Prof. Dr. E. Rahm 1-19 Star-Schema zentrale Faktentabelle sowie 1 Tabelle pro Dimension Kunde Zeit KundenNr KundenName Geschlecht Alter Produkt ProduktNr ProduktName Produktgruppe Branche Hersteller Farbe Preis Verkauf KundenNr ProduktNr Datum Fname Anzahl Umsatz Datum Tag Monat Quartal Jahr Filiale Fname Ort Land Region SS12 Prof. Dr. E. Rahm 1-20

Anfragen Beispielanfrage: Welche Auto-Hersteller wurden von weiblichen Kunden in Sachsen im 1. Quartal 2008 favorisiert? select p.hersteller sum (v.anzahl) from Verkauf v Filialen f Produkt p Zeit z Kunden k where z.jahr = 2008 and z.quartal = 1 and k.geschlecht = W and p.produkttyp = Auto and f.land = Sachsen and v.datum = z.datum and v.produktnr = p.produktnr and v.filiale = f. FName and v.kundennr = k.kundennr group by p.hersteller; Star-Join sternförmiger Join der (relevanten) Dimensionstabellen mit der Faktentabelle Einschränkung der Dimensionen Verdichtung der Kennzahlen durch Gruppierung und Aggregation SS12 Prof. Dr. E. Rahm 1-21 (Ad Hoc-) Query-Tools Analysewerkzeuge Reporting-Werkzeuge Berichte mit flexiblen Formatierungsmöglichkeiten OLAP-Tools interaktive mehrdimensionale Analyse und Navigation (Drill Down Roll Up...) Gruppierungen statistische Berechnungen... Data Mining-Tools Darstellung Tabellen insbesondere Pivot-Tabellen (Kreuztabellen) Analyse durch Vertauschen von Zeilen und Spalten Veränderung von Tabellendimensionen Graphiken sowie Text und Multimedia-Elemente Nutzung über Web-Browser Speadsheet-Integration SS12 Prof. Dr. E. Rahm 1-22

Beispiel: OLAP-Ausgabe (Excel) Oct Dec Jan Mar Apr Jun Jul Sep IPHONE Q1 Q2 Q3 Q4 2009 4363 3793 5208 7367 2010 8737 8752 8398 14102 2011 16240 18650 20340 17070 2012 37044 IPAD Q1 Q2 Q3 Q4 2010 3270 4188 2011 7331 4694 9246 11123 2012 15434 40000 35000 30000 Verkaufszahlen in TSD (Apple) 25000 20000 15000 IPAD Iphone 10000 5000 0 Q1 Q2 Q3 Q4 Q1 Q2 Q3 Q4 Q1 Q2 Q3 Q4 Q1 2009 2010 2011 2012 SS12 Prof. Dr. E. Rahm 1-23 Knowledge Discovery Selektion Vorverarbeitung/ Transformation Rohdaten Daten Data Mining Daten Interpretation Muster Wissen SS12 Prof. Dr. E. Rahm 1-24

Data Mining: Techniken Data Mining: Einsatz statistischer und wissensbasierter Methoden auf Basis von Data Warehouses Auffinden von Korrelationen Mustern und Trends in Daten Knowledge Discovery : setzt im Gegensatz zu OLAP ( knowledge verification ) kein formales Modell voraus Clusteranalyse Objekte werden aufgrund von Ähnlichkeiten in Klassen eingeteilt (Segmentierung) Bsp.: ähnliche Kunden ähnliche Website-Nutzer... Assoziationsregeln Warenkorbanalyse (z.b. Kunde kauft A und B => Kunde kauft C) Klassifikation Klassifikation von Objekten Erstellung von Klassifikationsregeln / Vorhersage von Attributwerten (z.b. guter Kunde wenn Alter > 25 und... ) mögliche Realisierung: Entscheidungsbaum SS12 Prof. Dr. E. Rahm 1-25 Beispiel Warenkorbanalyse SS12 Prof. Dr. E. Rahm 1-26

Data Warehouse Hype & Realität turning data into knowledge 360 view of customer a single version of the truth getting you closer to the customer Better decision making Fragen Wie werden welche Kundendaten genutzt? Wie erfolgt die Sicherung der Datenqualität? SS12 Prof. Dr. E. Rahm 1-27 DWH-Anwendung 1: Weblog-Analyse Web-Site Web-Zugriffsanalyse Site-Struktur Produktkatalog Log-Daten Datentransformation Web Data Warehouse Kunden-Daten OLAP/Mining: Pfade Segmente Kaufverhalten Produktaffinität... Reports: Hits Page Views Sitzungen Antwortzeiten... Umsetzung SS12 Prof. Dr. E. Rahm 1-28

DWH-Anwendung 2: Genexpressionsanalyse* Verwaltung und Analyse großer Mengen von Genexpressionsdaten Integration weiterer Informationen zu Genen Patienten etc. Data Sources Data Warehouse Web Interface CEL Files & Expression/ CGH Matrices (CSV) Expression/Mutation Data Daily Import from Study Management System Manual User Input Experimental & Clinical Annotation Data Staging Area Pre-processing Results Mapping DB Core Data Warehouse Multidimensional Data Model including Gene Expression Data Clone Copy Numbers Experimental & clinical Annotations Public Data Data Im-/Export Database API Stored Procedure Data Mart Data pre-processing Data analysis (canned queries statistics visualization) Administration Public Data Sources GO Ensembl NetAffx Local Copies SRS Expression / CGH Matrix Gene Annotations *E. Rahm T. Kirsten J. Lange: The GeWare data warehouse platform for the analysis of molecular-biological and clinical data. Journal of Integrative Bioinformatics 4(1):47 2007. SS12 Prof. Dr. E. Rahm 1-29 Zusammenfassung Data Warehousing: DB-Anfrageverarbeitung und Analysen auf integriertem Datenbestand für Decision Support (OLAP) riesige Datenvolumina Hauptschwierigkeit: Integration heterogener Datenbestände sowie Bereinigung von Primärdaten Physische Datenintegration ermöglicht aufwändige Datenbereinigung effiziente Analyse auf großen Datenmengen Mehrdimensionale Datenmodellierung und -organisation Breites Spektrum an Auswertungs- und Analysemöglichkeiten Data Mining: selbständiges Aufspüren relevanter Muster in Daten SS12 Prof. Dr. E. Rahm 1-30