Data Warehousing und Data Mining

Ähnliche Dokumente
Data Warehousing und Data Mining

Data Warehousing. Sommersemester Ulf Leser Wissensmanagement in der Bioinformatik

Data Warehousing und Data Mining

Data Warehousing. Fragen des Marketingleiters. Beispiel: : Amazon. Technisch... Amazon weltweit... Datenbank. Aufbau eines DWH OLAP <-> OLTP Datacube

Data Warehousing. Einleitung und Motivation. Ulf Leser Wissensmanagement in der Bioinformatik

8. Datenbank-Benchmarks Benchmark-Anforderungen TPC-Benchmarks OLTP-Benchmarks

Data Warehouses. Kapitel 1 Einführung. Sommersemester Melanie Herschel melanie.herschel@uni-tuebingen.de

Datenbanken und Informationssysteme

Orientierungsveranstaltung für Studierende der Bachelorstudiengänge. Wirtschaftsinformatik. Prof. Dr. Stefan Lessmann

5.4 Benchmarks für Data Warehouses

Data-Warehouse-Technologien

Seminar in der Seminarreihe Business Intelligence 1. OLAP und Datawarehousing

Einführung relationale Datenbanken. Themenblock: Erstellung eines Cube. Schlüssel. Relationenmodell Relationenname Attribut. Problem.

Themenblock: Erstellung eines Cube

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung

Kap. 7: DB/TP Benchmarks

Veit Köppen Gunter Saake Kai-Uwe Sattler. 2. Auflage. Data Warehouse Technologien

Überblick. Informationsintegration Materialisierte vs. Virtuelle Integration Felix Naumann. Ankündigungen

Data Warehousing. DWH Projekte. Ulf Leser Wissensmanagement in der Bioinformatik

Data Warehouse Technologien

Data Warehousing. Einleitung und Motivation. Wissensmanagement in der. Bioinformatik. Ulf Leser

Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick.

Oracle BI&W Referenz Architektur Big Data und High Performance Analytics

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Inhaltsverzeichnis. vii.

Kapitel 17: Date Warehouse

Data Warehouse Technologien

30. Juni Technische Universität Kaiserslautern. Paul R. Schilling

Data Warehousing 0-1. DBS-Module

Data Warehouse und Data Mining

BIW - Überblick. Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse

Präsentation der Bachelorarbeit

Index- und Zugriffsstrukturen für. Holger Brämer, 05IND-P

Wiederholung VU Datenmodellierung

REAL-TIME DATA WAREHOUSING

Oracle OLAP 11g: Performance für das Oracle Data Warehouse

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle

Vorlesung Wissensentdeckung in Datenbanken

Anfragebearbeitung. Anfrage. Übersetzer. Ausführungsplan. Laufzeitsystem. Ergebnis

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

Oracle 10g Einführung

Datenintegration & Datenherkunft Verteilung, Autonomie und Heterogenität

Data Warehousing. Ausführung von OLAP Operationen. Ulf Leser Wissensmanagement in der Bioinformatik

Datenbanken Unit 9: OLAP, OLTP und objektrelationale Datenbanken

EXASOL AG Zahlen & Fakten

SQL - Datenbankdesign - Aufbau

Data Warehousing. Architektur Komponenten Prozesse. Ulf Leser Wissensmanagement in der Bioinformatik

Data Warehouses und Moderne Betriebliche Anwendungen von Datenbanksystemen

Hauptspeicher- Datenbanksysteme. Hardware-Entwicklungen Column- versus Row-Store...

Die Bedeutung der Prozessmodellierung bei der Weiterentwicklung des DWHs der DAK Der Innovator als Missing Link

Ausgangspunkt. Datenintegration. Ziel. Konflikte. Architekturen. Transparenz

Von Big Data zu Executive Decision BI für den Fachanwender bis hin zu Advanced Analytics

Technologischen Rahmenbedingungen und Werkzeuge für eine wertschöpfende Controller-Rolle

SS 2011 IBB4C Datenmanagement Fr 15:15 16:45 R Vorlesung #1

Betriebliche Anwendungen

Stresstest für Oracle Einführung und Live Demo Swingbench

Datenbanken & Informationssysteme (WS 2015/2016)

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht)

Data Warehousing und Data Mining

Übung Blatt 5. Materialized Views. Ulf Leser Wissensmanagement in der Bioinformatik

3.17 Zugriffskontrolle

Prüfungsberatungs-Stunde Datenbanksysteme 1 (Dbs1)

Big Data Neue Erkenntnisse aus Daten gewinnen

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie Januar 2011

Datenbanken und Informationssysteme. Datenbanken und Informationssysteme

Datenbanken und Informationssysteme

Step 0: Bestehende Analyse-Plattform

Kap. 6 Data Warehouse

Die IBM Netezza Architektur für fortgeschrittene Analysen

Vorlesung Datenbankmanagementsysteme

Milliarden in Sekunden: Demo zu PureData for Analytics. Marc Bastien Senior Technical Professional Big Data, IBM

OLAP und Data Warehouses

Einführung in Datenbanksysteme ++ Datenbanken für Bioinformatiker

IBM Netezza Data Warehouse Appliances - schnelle Analysen mit hohen Datenmengen

Informationsintegration

Data Mining - Marketing-Schlagwort oder ernstzunehmende Innovation?

Datenbanksysteme I. Lehrveranstaltungen zu Datenbanken (SS 07) DBS 2 (2+1) DBS2 IDBS2. Datenschutz und Datensicherheit. Data-Warehouse- Praktikum

eevolution Business Intelligence Oliver Rzeniecki COMPRA GmbH Programmierer & Datenbankadministrator

Data Mining im Einzelhandel Methoden und Werkzeuge

Lars Priebe Senior Systemberater. ORACLE Deutschland GmbH

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2

SQL Server Technischer Überblick. Patrick Heyde

Big Data und Oracle bringen die Logistik in Bewegung

Big Data in Marketing und IT

Data Warehouse schnell gemacht Performanceaspekte im Oracle DWH

XML in der Oracle Datenbank "relational and beyond"

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221

Data Warehousing Grundbegriffe und Problemstellung

Oracle Big Data Technologien Ein Überblick

Data/Information Quality Management

SQL für Trolle. mag.e. Dienstag, Qt-Seminar

GROUP BY, HAVING und Sichten

Kap. 7: DB/TP Benchmarks

SAP HANA ist schnell erklärt. TOBA Trainerwochenende vom Mai 2013 in Prag

Data Warehouses. Kapitel 2 Architektur. Sommersemester Melanie Herschel melanie.herschel@uni-tuebingen.de

Lehrgebiet Informationssysteme

Repetitorium. Data Warehousing und Data Mining 11/12. Sebastian Wandelt 13./16. Februar 2012

Transkript:

Data Warehousing und Data Mining Wintersemester 2017 / 2018 Ulf Leser Wissensmanagement in der Bioinformatik

ecommerce Daten bank Ulf Leser: Data Warehousing und Data Mining 2

Datenbanken und Datenanalyse... Der typische Wal-Mart Kaufagent verwendet täglich mächtige Data Mining Werkzeuge, um die Daten der 300 Terabyte Datenbank zu erforschen [Jim Gray, Computer Zeitung 17/2003] Today, Wal-Mart is logging one million customer transactions per hour and feeding information into databases estimated at 2.5 petabytes in size. [Rogers, Big Data is Scaling BI and Analytics, 2011] Really Big Data At Walmart: Real-Time Insights From Their 40+ Petabyte Data Cloud. [Forbes report, 2017] Ulf Leser: Data Warehousing und Data Mining 3

ecommerce Backup Durchsatz Loadbalancing Portfolio Umsatz Marketing Daten bank Ulf Leser: Data Warehousing und Data Mining 4

Strategische Fragen (Analytics) Was kaufen Kunden Welche Produkte? Wann? Welche gehen zurück? Welche werden wie bewertet? Wie kann man liefern Lagerhaltung, Lagerplatzierung, Auslieferungslogistik, Reklamationen, Kundenzufriedenheit, Wie kann man mehr verkaufen Kundensegmentierung, Manipulation der Suchergebnisse, personalisierter Werbung, predictive Recommendations Wie kann man besser planen Sortimentplanung, Saisongeschäft, Einkaufsrabatte, Wer sind unsere Kunden? Einkommensklassen, Kaufverhalten, Influencer, Ulf Leser: Data Warehousing und Data Mining 5

year year customer name cust_class Die Datenbank dazu discount customer_ productg_ discount line_item order_ product_ amount single_price productgroup name product productgroup_ month Month year_ day day month_ session cust_ day_ time order session_ supply_ total_amount order_status order_ supply_ status supply_station region_ region name Ulf Leser: Data Warehousing und Data Mining 6

Fragen eines Marketingleiters Wie viele abgeschlossene Bestellungen haben wir jeweils im Monat vor Weihnachten, aufgeschlüsselt nach Produktgruppen und Promotion? year year customer name cust_class discount customer_ productg_ discount line_item order_ product_ amount single_price name productgroup product productgroup_ month Month year_ day day month_ session cust_ day_ time order session_ supply_ total_amount order_status order_ supply_ status supply_station region_ name region Ulf Leser: Data Warehousing und Data Mining 7

SELECT Y.year, PG.name, DI.disc, count(*) FROM year Y, month M, day D, session S, line_item I, order O, product P, productgroup PG, discount DI, order_status OS WHERE M.year_ = Y. and D.month_ = M. and S.day_ = D. and O.session_ = S. and I.order_ = O. and I.product_ = P. and P.productgroup_ customer = PG. and name cust_class DI.productgroup_ = PG. and O. = OS.order_ D.day < 24 and M.month = 12 and OS.status= FINISHED year GROUP BY Y.year, PG.name, DI.discount year ORDER BY Y.year, DI.discount discount customer_ productg_ discount line_item order_ product_ amount single_price Technisch name productgroup product productgroup_ month Month year_ day day month_ session cust_ day_ time order session_ supply_ total_amount supply_station region_ name region order_status order_ supply_ Ulf Leser: Data Warehousing und Data Mining status 8

Ergebnis 9 Joins year: month: day: 3650 Records session: 36.000.000 order: 37.000.000 line_item: 72.000.000 order_status: 37.000.000 product: 200.000 productgroup: 100 discount: 50 SELECT Y.year, PG.name, DI.disc, count(*) FROM year Y, month M, day D, session S, line_item I, order O, product P, productgroup PG, discount DI, order_status OS WHERE M.year_ = Y. and D.month_ = M. and S.day_ = D. and O.session_ = S. and I.order_ = O. and I.product_ = P. and P.productgroup_ = PG. and DI.productgroup_ = PG. and O. = OS.order_ D.day < 24 and M.month = 12 and OS.status= FINISHED GROUP BY Y.year, PG.name, DI.discount 10 Records ORDER BY Y.year, DI.discount 120 Records Problem! Schwierig zu optimieren (Join-Order) Ja nach Ausführungsplan riesige Zwischenergebnisse Viele strategische Anfragen werden ähnlich aussehen jedes Mal die gleichen Probleme Ulf Leser: Data Warehousing und Data Mining 9

In Wahrheit... DE FR UK IT AT Ulf Leser: Data Warehousing und Data Mining 10

Eine Möglichkeit CREATE VIEW christmas AS SELECT FROM WHERE... GROUP BY UNION ALL... SELECT FROM WHERE... GROUP BY SELECT FROM GROUP BY ORDER BY Y.year, PG.name, DI.disc, count(*) AS o_count FR.year Y, FR.month M, FR.day D, FR.session S, M.year = Y. and Y.year, DI.discount Y.year, PG.name, DI.disc, count(*) AS o_count UK.year Y, UK.month M, UK.day D, UK.session S, M.year = Y. and Y.year, DI.discount year, name, disc, sum(o_count) christmas year, name, disc year, disc Ulf Leser: Data Warehousing und Data Mining 11

Probleme Count über Union über verteilte Datenbanken Heterogenität Quellen werden Schemata verändern Länderspezifischer Eigenheiten müssen berücksichtigt werden MWST, Versandart /-kosten, Verbraucherschutz... Oftmals verborgene Änderungen in der Semantik der Daten Datenmenge: Nicht so schlimm (Präaggregation) Divergierende Anforderungen Anfrage belastet die operativen Systeme Operative Systeme brauchen die historischen Daten nicht Admin-Ziel: Frühes löschen (abgeschlossene Bestellungen) Planung braucht historische Perspektive Admin-Ziel: Alles aufheben Ulf Leser: Data Warehousing und Data Mining 12

Ursprüngliches Szenario SQL-API Prinzipiell schnelle operative Anfragen Aber erhebliche Belastung durch Planungs-Anfragen Lange Antwortzeiten für strategische Anfragen Heterogenität muss im View abgefangen werden Ulf Leser: Data Warehousing und Data Mining 13

Zentrale Datenbank Zweigstellen schreiben übers Netz Lange Antwortzeiten im operativen Betrieb Erheblicher Datentransport Schnelle Planungsanfragen (alles lokal) Heterogenität muss beim Schreiben abgefangen werden Ulf Leser: Data Warehousing und Data Mining 14

Replizierte Datenbanken A A A Replikation Replikation Langsamer operativer Betrieb: Vielfältiges replizieren, mehr Daten Planungsanfragen können auf jeder Instanz beantwortet werden Heterogenität muss in der Replikation abgefangen werden Ulf Leser: Data Warehousing und Data Mining 15

Data Warehouse DWH Redundante Datenhaltung DWH kann unabhängig von Quellen entworfen werden Optimiert für andere Arten von Anfragen Quellen werden nur bei periodischen Uploads belastet Heterogenität muss beim Upload abgefangen werden Ulf Leser: Data Warehousing und Data Mining 16

Vergleich Klassisch (SQL-API) Historische Daten bei OLTP Heterogenität OLTP & OLAP Anforderungen Gesamte Datenmen ge Ja Im View Ja k*n Zentral Ja Im Upload Ja k*n Repliziert Ja In Replikation Ja k 2 *n DWH Nein Im Upload Nein 2*k*n Ulf Leser: Data Warehousing und Data Mining 17

Data Warehousing und Data Mining Modul 4+2 SWS Mo, 11.00 13.00 Uhr, RUD 26, 1 306 Mi, 11.00 13.00 Uhr, RUD 26, 1 306 Übung (Patrick Schäfer) Mo, 13-15, RUD26, 1'306 Mi, 13-15, RUD26, 1'306 Erster Termin: Montag, 23.10.2017 Teilnahme und Bestehen ist Voraussetzung für Prüfung Sprechstunde Nach Vereinbarung IV.401, (030) 2093 3902 leser(...)informatik.hu-berlin.de Ulf Leser: Data Warehousing und Data Mining 18

Übung Sie bilden Teams Es gibt 5 Aufgaben a ca. 2 Wochen Praktisch orientiert: Arbeiten mit Oracle Alle Aufgaben müssen bestanden werden Ulf Leser: Data Warehousing und Data Mining 19

Einbettung Voraussetzung: DBS-I Relationales Modell und Algebra ER-Modell Selektion, Projektion, Joins, Group-by, Grundzüge der Anfrageoptimierung Keine Voraussetzung: DBS-II Aber nützlich wäre es schon Informationsintegration: Etwa 3 DS Überlappung Können bee angerechnet werden Anrechenbar Master Informatik, Schwerpunkt Datenmanagement (10 SP) Master Wirtschaftsinformatik (10 SP) Diplomhauptstudium, Praktische Informatik Ulf Leser: Data Warehousing und Data Mining 20

Data Warehousing und 100 80 60 40 20 0 1. Qrtl. 2. Qrtl. 3. 4. Qrtl. Qrtl. Architektur & Prozesse Multimensionale Modellierung Extraction, Transformation, Load (ETL) Indexstrukturen für DWH Logische Optimierung Materialisierte Sichten Column Stores, Main Memory, Map-Reduce Ulf Leser: Data Warehousing und Data Mining 21

Data Mining 100 80 60 40 20 0 1. Qrtl. 2. Qrtl. 3. 4. Qrtl. Qrtl. Datenaufbereitung Clustering Kundensegmentierung Klassifikation Kreditrating Assoziationsregeln Warenkorbanalyse Ulf Leser: Data Warehousing und Data Mining 22

Literatur Primär Lehner: Datenbanktechnologie für Data Warehouse Systeme, dpunkt.verlag, 2003 Han/Kamber: Data Mining, Morgan Kaufmann, 2006 Weitere Bauer/Günzel: Data Warehouse Systeme, dpunkt.verlag, 2012 Köppel / Saake: Data Warehouse Technologien, mitp, 2014 Cleve/Lämmel Data Mining, De Gruyter Studium, 2016 Übersichtsartikel Chaudhuri, Dayal: An Overview of Data Warehousing and OLAP Technology, SIGMOD Record, 1997 Jensen et al. (2010). "Multimensional Databases and Data Warehousing", Morgan & Claypool Publishers. Fayyad: From Data Mining to Knowledge Discovery in Databases, Ai Magazine, 1996 Ulf Leser: Data Warehousing und Data Mining 23

Gäste tba Ulf Leser: Data Warehousing und Data Mining 24

Webseite Ulf Leser: Data Warehousing und Data Mining 25

Bewertung 2014/2015 Ulf Leser: Data Warehousing und Data Mining 26

Was ich besser machen kann Nicht so gut 4 Übung passt nicht zur Vorlesung Für Wirtinfo sehr viel (vor allem physikalische Ebene) Klausur Mehr aktuelle Forschung Viel Hintergrundwissen notwendig Zu wenig Theorie / Praxis zum Thema (?) Mehr Implementierungsdetails Beispiele (?) Data Mining Zu viel Hohe Datenflut Physikalische Ebene Etwas zu theoretisch Einführung kürzen (aber habe InfoInt gehört) Tempo der Übungen Weitere Anregungen Mehr WI-Themen Übung zum Thema OLAP Modellierung Offene Fragen aus der VL in der Übung beantworten Gesamtstruktur öfter betonen Mehr Unterlagen zur Verfügung stellen Übung langsamer machen Bessere zeitliche Abstimmung 2-3 neue Themen Übung wieder da Ulf Leser: Data Warehousing und Data Mining 27

Fragen Diplominformatiker? Semester? Prüfung? Spezielle Erwartungen? Erfahrungen? Ulf Leser: Data Warehousing und Data Mining 28

TPC.ORG: Benchmarks Vergleich der Leistungsfähigkeit von Datenbanken TPC-C OLTP Benchmark TPC-H Ad-Hoc Decision Support (variable Anfragen) TPC-DS New Decision Support Benchmark (no results) TPC-R Reporting Decision Support (feste Anfragen) TPC-W ecommerce Transaktionsverarbeitung [TPC-D Abgelöst durch H und R] TPC-E Neuer OLTP Benchmark TPC-H Vorgegebene Schemata (Lieferwesen) Schema-, Anfrage- und Datengeneratoren Unterschiedliche DB-Größen 100 GB - 300 GB - 1 TB - 3 TB Ulf Leser: Data Warehousing und Data Mining 29

TPC-H Ergebnisse 3000 GB, 2003 Ulf Leser: Data Warehousing und Data Mining 30

TPC-H Ergebnisse 3000 GB, 2007 Ulf Leser: Data Warehousing und Data Mining 31

TPC-H Ergebnisse 3000 GB, 2011 Ulf Leser: Data Warehousing und Data Mining 32

2014 Ulf Leser: Data Warehousing und Data Mining 33