Data Warehouse Technologien



Ähnliche Dokumente
Veit Köppen Gunter Saake Kai-Uwe Sattler. 2. Auflage. Data Warehouse Technologien

Data Warehouse Technologien

Inhaltsverzeichnis. vii.

Sachindex. Array-Speicherung, 159 Attribut dimensionales, 48 Auswahl kostenbasierte, 232

Data Warehouse Technologien

OLAP mit dem SQL-Server

Inhaltsverzeichnis. Teil I OLAP und der Microsoft SQL-Server 1. 1 Theoretische Grundlagen 3

Data Warehouse Grundlagen

OLAP und Data Warehouses

Data Warehousing. Sommersemester Ulf Leser Wissensmanagement in der Bioinformatik

C09: Einsatz SAP BW im Vergleich zur Best-of-Breed-Produktauswahl

Datenbanktechnologie für Data-Warehouse-Systeme

Agile Softwareentwicklung

Möglichkeiten für bestehende Systeme

Business Intelligence für Controller

Die Bedeutung der Prozessmodellierung bei der Weiterentwicklung des DWHs der DAK Der Innovator als Missing Link

Die Reihe Xpert.press vermittelt Professionals in den Bereichen Softwareentwicklung, Internettechnologie und IT-Management aktuell und kompetent

Data-Warehouse-Technologien

Einstieg in Business Intelligence mit Microsoft SharePoint 2010

Data Warehouse ??? Ein Data Warehouse ist keine von der Stange zu kaufende Standardsoftware, sondern immer eine unternehmensindividuelle

1Ralph Schock RM NEO REPORTING

Christian Kurze BI-Praktikum IBM WS 2008/09

Seminar C16 - Datenmodellierung für SAP BW

Data-Warehouse-Systeme

Datenbanken und Informationssysteme

Seminar C02 - Praxisvergleich OLAP Tools

Data Warehousing 0-1. DBS-Module

Teil II: Architektur eines Data-Warehouse-Systems... 57

Inhaltsverzeichnis 1 Einleitung 2 Ansätze in Forschung und Praxis

Modellierung von OLAP- und Data- Warehouse-Systemen

IT-basierte Kennzahlenanalyse im Versicherungswesen

Aufgabe 1: [Logische Modellierung]

Big Data - Fluch oder Segen?

Business Intelligence Data Warehouse. Jan Weinschenker

Datenbanken. Prof. Dr. Bernhard Schiefer.

Marketing Intelligence Vorstellung der Softwarekomponenten. Josef Kolbitsch Manuela Reinisch

Nach Data Warehousing kommt Business Intelligence

Allgemeines zu Datenbanken

BI Konsolidierung: Anspruch & Wirklichkeit. Jacqueline Bloemen. in Kooperation mit

Das Multidimensionale Datenmodell

Business Intelligence Praktikum 1

Star-Schema-Modellierung mit ERwin - eine kritische Reflexion der Leistungspotentiale und Anwendungsmöglichkeiten

Data-Wa re house-systeme

SP03: Datenmodellierung in SAP NetWeaver BI im Vergleich zum klassischen Data Warehousing

Datenqualität erfolgreich steuern

Entwicklung eines Abrechnungsmodells für SAP-Business-Information-Warehouse-Systeme

Best Practice Infor PM 10 auf Infor Blending

Data Warehouse Definition (1)

Business Intelligence Praktikum 1

Einführung in OLAP und Business Analysis. Gunther Popp dc soft GmbH

Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick.

IT-basierte Kennzahlenanalyse im Versicherungswesen

ANTARES Informations-Systeme GmbH Stuttgarter Strasse 99 D Geislingen Tel / Fax /

IT-Servicemanagement mit ITIL V3

WS 2002/03. Prof. Dr. Rainer Manthey. Institut für Informatik III Universität Bonn. Informationssysteme. Kapitel 1. Informationssysteme

Geschäftsprozessmanagement in der Praxis

Vorwort zur zweiten Auflage...V. Vorwort zur ersten Auflage... VIII

MIS by Franziska Täschler, Winformation GmbH Ausgabe 01/2001

Vergleich von Open-Source und kommerziellen Programmen zur Durchführung eines ETL-Prozesses

Erfolgreiche Unternehmensführung durch den Einsatz von Corporate Performance Management

OLAP und der MS SQL Server

Inhaltsverzeichnis 1 Einleitung 2 Zielsetzung 3 Data Warehousing

Umsetzung der Anforderungen - analytisch

Andreas Heuer Gunter Saake Kai-Uwe Sattler. Datenbanken. kompakt

Seminar im Sommersemester 2004 an der Universität Karlsruhe (TH)

Inhaltsverzeichnis. 1 Was ist Business Intelligence?... 23

Entwicklung von Data-Warehouse-Systemen

Hetero-Homogene Data Warehouses

1. Übungsblatt. Besprechung: (Gruppe A), 3.11 (Gruppe B)

Inhalt. 4.1 Motivation. 4.2 Datenintegration. 4.3 Konzeptuelle Modellierung. 4.4 Anfragen an Data Warehouses. 4.5 Implementierungsaspekte

SAP HANA Einsatzmöglichkeiten und Potenziale

Einführung relationale Datenbanken. Themenblock: Erstellung eines Cube. Schlüssel. Relationenmodell Relationenname Attribut. Problem.

Future Digital Business

Themenblock: Erstellung eines Cube

Index- und Zugriffsstrukturen für. Holger Brämer, 05IND-P

Einführungsveranstaltung: Data Warehouse

Inhaltsverzeichnis. Vorwort...

Data Warehouse Grundlagen

eevolution Business Intelligence Oliver Rzeniecki COMPRA GmbH Programmierer & Datenbankadministrator

Thorsten Winsemann. Bewertung von Datenpersistenz in. mithilfe multikriterieller. Entscheidungsmodelle

ENTERBRAIN Reporting & Business Intelligence

Inhaltsverzeichnis. Holger Schrödl. Business Intelligence mit Microsoft SQL Server BI-Projekte erfolgreich umsetzen ISBN:

Von der spezialisierten Eigenentwicklung zum universellen Analysetool. Das Controlling-Informationssystem der WestLB Systems

Inhaltsübersicht...IX Inhaltsverzeichnis...XI Abbildungsverzeichnis...XVII Tabellenverzeichnis... XXIII Abkürzungsverzeichnis...

Betriebswirtschaftslehre mit Schwerpunkt Internationales Management Prof. Dr. Carola Jungwirth. Seminararbeit. Projekt-Seminar INSTEAD im SS 2011

Data Warehousing mit Oracle

Logische Modelle für OLAP. Burkhard Schäfer

Grundlagen von Datenbanken

Informationstechnik in der Kreditwirtschaft

Auswertung für Warenwirtschaft/ERP, Interbase und ODBC... 2

Controlling für Kleinst- und Kleinunternehmen

Marketing Intelligence Vorstellung der Übungsaufgabe. Josef Kolbitsch Manuela Reinisch

Betriebliche Kennzahlen

THE KNOWLEDGE PEOPLE. CompanyFlyer.indd :48:05

1 Business-Intelligence-Architektur 1

Soziale Marktwirtschaft im Studium

good. better. outperform.

extensible Business Reporting Language Status des Promotionsvorhabens und Ausblick

Software modular bauen

Transkript:

mitp Professional Data Warehouse Technologien von Veit Köppen, Gunter Saake, Kai-Uwe Sattler 2. Auflage 2014 Data Warehouse Technologien Köppen / Saake / Sattler schnell und portofrei erhältlich bei beck-shop.de DIE FACHBUCHHANDLUNG Thematische Gliederung: Datenbankmodelle, Datenbanktheorien mitp/bhv 2014 Verlag C.H. Beck im Internet: www.beck.de ISBN 978 3 8266 9485 1

Architekturprinzipien von Data-Warehouse-Systemen Datenstrukturen und Algorithmen Anwendungsfeld Business Intelligence Aus dem Inhalt: Data Warehousing Architekturkonzepte Extraktion, Transformation und Laden Datenqualität Business Intelligence Modellierung Multidimensionales Modell Relationale Umsetzung Star- und Snowflake- Schema Slowly Changing Dimensions Speicher- und Indexstrukturen ROLAP und MOLAP Partitionierung Row Stores, Column Stores und In-Memory Bitmap-Indexe Mehrdimensionale Indexstrukturen Data Warehouse: Anfragen und Verarbeitung OLAP-Anfrageoperatoren SQL-Operatoren im Data Warehouse Anfrageplanung Materialisierte Sichten Dieses Lehrbuch behandelt Konzepte und Techniken von Data-Warehouse-Systemen, die eine wesentliche Komponente in betrieblichen Entscheidungsprozessen darstellen. Im Mittelpunkt stehen dabei Architekturprinzipien sowie die Umsetzung des multidimensionalen Datenwürfels als zentrale Komponente des Data Warehouse. Die Zusammenführung der Daten aus verschiedenen betrieblichen und externen Quellen spielt eine ebenso wichtige Rolle wie Datenstrukturen und Algorithmen für die Realisierung von Speicher- und Indexstrukturen. Die Navigation im Datenwürfel und die Anfrageverarbeitung sowie Anwendungen aus dem Themenfeld Business Intelligence geben einen Einblick in den Umgang mit dem Data Warehouse. Detailliert werden sowohl der Aufbau als auch die Nutzung von Data-Warehouse-Systemen beleuchtet. Dabei stehen Modellierungskonzepte und die Thematik der multidimensionalen Anfragen im Vordergrund. Zudem werden Interna wichtiger Systemlösungen von Oracle, IBM und Microsoft anhand zahlreicher Beispiele erläutert. Das Buch fokussiert auf relationale Umsetzungsstrategien des Data Warehouse. Es ist daher empfehlenswert, sich ebenfalls mit den Grundlagenwerken Datenbanken - Konzepte und Sprachen sowie Datenbanken Implementierungstechniken auseinanderzusetzen; sie erlauben es dem Leser, die Konzepte aus Datenbanken für das Data Warehouse leichter zu transferieren. Das Buch ist geeignet für Studierende der Informatik oder verwandter Fächer im Masterbereich und bietet gleichzeitig auch dem Anwender bzw. Entwickler vertiefende Hintergrundinformationen zu aktuellen Data-Warehouse-Technologien. Die Autoren lehren und forschen im Bereich Datenbanken und Informationssysteme sowie Business Intelligence Veit Köppen und Gunter Saake an der Universität Magdeburg und Kai-Uwe Sattler an der TU Ilmenau. Außerdem bei mitp: ISBN 978-3-8266-9453-0 ISBN 978-3-8266-9467-7 ISBN 978-3-8266-9690-9 Köppen Saake Sattler Data Warehouse Technologien Veit Köppen Gunter Saake Kai-Uwe Sattler 2. Auflage ISBN 978-3-8266-9485-1 ISBN 978-3-8266-9485-1 (D) 29,99 Data Warehouse Technologien 978-3-8266-9485-1_umschlag.indd 1-3 08.05.2014 14:14:50

Inhaltsverzeichnis Inhaltsverzeichnis ix 1 Einführung in Data-Warehouse-Systeme 1 1.1 Anwendungsszenario Getränkemarkt... 2 1.2 OLTP versus OLAP... 4 1.2.1 OLAP- versus OLTP-Transaktionen... 5 1.2.2 Vergleich von OLTP und OLAP... 6 1.2.3 Abgrenzung: DBMS-Techniken... 7 1.3 Charakteristika und Begriffe... 8 1.4 Big Data und Data Warehousing... 9 1.5 Aufbau des Buches... 11 1.6 Vertiefende Literatur... 13 1.7 Übungen... 14 2 Architektur 15 2.1 Anforderungen... 15 2.1.1 Grobe Übersicht über Data-Warehouse-Systeme... 15 2.1.2 Anforderungen an die Architektur... 17 2.1.3 Die 12 OLAP-Regeln nach Codd... 18 2.1.4 Die FASMI-Anforderungen... 21 2.2 Datenfluss in einem Data-Warehouse-System... 22 2.2.1 Phasen des Data Warehousing... 22 2.2.2 Datenquellen... 23 2.2.3 Datenbereinigungsbereich... 26 2.2.4 Extraktionskomponenten... 27 2.2.5 Transformationskomponenten... 27 2.2.6 Ladekomponente..... 29 2.2.7 Basisdatenbank...... 29 2.2.8 Befüllen... 29 2.2.9 Der Datenwürfel..... 30 ix

2.2.10 Data Marts... 30 2.2.11 Das Data Warehouse... 31 2.3 Referenzarchitektur... 31 2.3.1 Data-Warehouse-Manager... 32 2.3.2 Monitore... 33 2.3.3 Repository... 35 2.3.4 Metadaten-Manager... 35 2.3.5 Diskussion der kompletten Referenzarchitektur... 35 2.4 Architektur des Data Warehouse... 36 2.4.1 Rolle der Data Marts... 36 2.4.2 Abhängige Data Marts: Nabe und Speiche... 37 2.4.3 Unabhängige Data Marts... 38 2.4.4 Föderierte und virtuelle Datenwürfel... 39 2.4.5 Data-Warehouse-Architektur in der Praxis... 39 2.4.6 Ein Multi-Schichten-Architekturansatz... 40 2.5 Vertiefende Literatur... 43 2.6 Übungen... 44 3 Modellierung von Data Warehouses 45 3.1 Das multidimensionale Datenmodell... 45 3.1.1 Grundbegriffe... 45 3.1.2 Dimensionen... 47 3.1.3 Fakten und Kennzahlen... 48 3.1.4 Schema des multidimensionalen Datenwürfels... 50 3.2 Konzeptuelle Modellierung... 52 3.2.1 Das ME/R-Modell..... 53 3.2.2 ADAPT... 54 3.3 Relationale Umsetzung... 56 3.3.1 Prinzip der relationalen Abbildung... 56 3.3.2 Snowflake-Schema.... 57 3.3.3 Star-Schema... 59 3.3.4 Vergleich von Snowflake- und Star-Schema... 60 3.3.5 Fact-Constellation-Schema und Galaxie-Schema... 61 3.3.6 Alternative Modellierung von Klassifikationshierarchien 64 3.3.7 Vermeidung von Semantikverlusten... 65 3.4 Slowly Changing Dimensions... 67 3.4.1 Berichtsanforderungen im Data Warehouse... 69 3.4.2 Typdefinitionen nach Kimball... 72 3.4.3 Realisierungen im Data Warehouse... 74 3.5 Vertiefende Literatur... 79 3.6 Übungen... 80 x Inhaltsverzeichnis

4 Extraktions-, Transformations- und Ladeprozess 81 4.1 Qualitätsaspekte... 82 4.1.1 Der Datenbereinigungsprozess... 84 4.1.2 Duplikaterkennung... 88 4.1.3 Vergleichsfunktionen... 90 4.1.4 Beheben von Datenkonflikten... 96 4.2 Der ETL-Prozess... 97 4.3 Die Extraktionsphase... 99 4.3.1 Extraktionstechniken... 100 4.3.2 Methode des Differential Snapshot... 101 4.4 Die Transformationsphase... 105 4.4.1 Daten- und Schemakonflikte... 107 4.4.2 Mappings im Transformationsschritt... 109 4.5 Die Ladephase... 113 4.5.1 Verwendung des Oracle SQL-Loader... 114 4.5.2 Multi-Table-Insert.... 116 4.6 Alternativer Ansatz: ELT... 118 4.7 Vertiefende Literatur... 119 4.8 Übungen... 120 5 Anfragen an Data-Warehouse-Datenbanken 123 5.1 Einführung und Anforderungen... 123 5.2 OLAP-Operationen... 125 5.3 SQL-Operationen für das Data Warehouse... 128 5.3.1 Relationale Umsetzung multidimensionaler Anfragen.. 128 5.3.2 CUBE und ROLLUP... 134 5.3.3 OLAP-Funktionen in SQL:2003... 138 5.4 MDX... 145 5.5 Vertiefende Literatur... 151 5.6 Übungen... 152 6 Speicherung 153 6.1 Speicherung des Datenwürfels: Array vs. Relationen... 153 6.1.1 Relationale Implementierung ROLAP... 154 6.1.2 Implementierung als Array MOLAP... 156 6.1.3 Vergleich ROLAP und MOLAP-Speicherung... 160 6.1.4 Hybride Speicherung HOLAP... 163 6.1.5 Alternative Speicherungsformen... 164 6.2 Partitionierung... 167 6.2.1 Partitionierung in relationalen Datenbanken... 167 6.2.2 Partitionierung in Data Warehouses... 170 6.2.3 Partitionierung von Datenwürfeln... 171 xi

6.3 Spaltenorientierte Datenhaltung... 176 6.3.1 Basisideen der spaltenorientierten Datenhaltung... 176 6.3.2 Operationen und Anfragen in spaltenorientierter Datenhaltung... 177 6.3.3 Speichervarianten in spaltenorientierter Datenhaltung. 179 6.4 Hauptspeicherdatenbanken... 185 6.4.1 Was sind Hauptspeicherdatenbanken?... 185 6.4.2 Technologien aktueller Hauptspeicherdatenbanken... 187 6.4.3 Komprimierung von Daten... 188 6.4.4 Delta-Relationen..... 190 6.5 Vertiefende Literatur... 191 6.6 Übungen... 192 7 Indexstrukturen 195 7.1 Klassifikation von Indexstrukturen... 195 7.2 B-Bäume und Varianten... 198 7.2.1 Der B + -Baum... 199 7.2.2 Degenerierte B-Bäume... 200 7.2.3 Ordnungsabhängigkeit in B-Bäumen... 201 7.2.4 B + -Baum-Tricks: Oversized Index... 202 7.2.5 B + -Baum-Tricks: Berechnete Indexe... 203 7.3 Bitmap-Indexe... 203 7.3.1 Prinzip von Bitmap-Indexen... 204 7.3.2 Bitmap-Index: Realisierung... 205 7.3.3 Standard-Bitmap-Index... 206 7.3.4 Mehrkomponenten-Bitmap-Index... 207 7.3.5 Bereichskodierter Bitmap-Index... 208 7.3.6 Mehrkomponenten-bereichskodierter Bitmap-Index... 208 7.3.7 Intervallkodierte Indexierung... 210 7.3.8 Auswahl von Bitmap-Indexstrukturen... 211 7.4 Verbundindexe... 212 7.4.1 Prinzip des Verbundindex... 212 7.4.2 Bitmap-Verbundindex... 213 7.5 Mehrdimensionale Indexstrukturen... 214 7.5.1 Grid-File... 214 7.5.2 Mehrdimensionales Hashen MDH... 216 7.5.3 KdB-Baum... 217 7.5.4 R-Bäume... 218 7.5.5 Varianten von R-Bäumen... 220 7.5.6 Der UB-Baum... 221 7.6 Indexierung von Hierarchien... 226 7.6.1 Kodierung von Hierarchien... 226 7.6.2 Mehrdimensionales hierarchisches Clustering... 227 xii Inhaltsverzeichnis

7.7 Vertiefende Literatur... 228 7.8 Übungen... 229 8 Anfrageverarbeitung und materialisierte Sichten 231 8.1 Anfrageplanung... 231 8.1.1 Überblick... 232 8.1.2 Star-Join-Optimierung... 234 8.2 Berechnung des CUBE-Operators... 237 8.3 Materialisierte Sichten... 241 8.3.1 Anfragebeantwortung mit materialisierten Sichten... 242 8.3.2 Auswahl materialisierter Sichten... 250 8.3.3 Aktualisierung materialisierter Sichten... 252 8.3.4 Materialisierte Sichten in aktuellen DBMS... 257 8.4 Vertiefende Literatur... 260 8.5 Übungen... 261 9 Business-Intelligence-Anwendungen 263 9.1 Business Intelligence... 264 9.1.1 Begriffsklärung...... 264 9.1.2 Knowledge Discovery... 268 9.1.3 Datenanalyse... 271 9.2 Reporting... 272 9.2.1 Balanced Scorecard.... 275 9.2.2 Navigation im Datenwürfel für Ad-hoc-Reporting... 277 9.3 Data Mining im BI-Umfeld... 279 9.3.1 Warenkorbanalyse.... 281 9.3.2 Kunden-Clustering.... 289 9.3.3 Klassifikationsverfahren... 293 9.3.4 Zeitreihenanalyse & Prognose... 297 9.3.5 Data Mining Extensions... 299 9.4 Vertiefende Literatur... 301 9.5 Übungen... 302 Abbildungsverzeichnis 304 Tabellenverzeichnis 310 Sachindex 312 Literaturverzeichnis 319 xiii