Andreas Bauer Holger Günzel (Hrsg.) Data-Warehouse-Systeme Architektur» Entwicklung Anwendung Гв dpunkt.verlag
Inhaltsverzeichnis A Architektur 1 1 Abgrenzung und Einordnung 5 1.1 Begriffliche Einordnung 5 1.1.1 Definitionen 6 1.1.2 Abgrenzung von transaktionalen Systemen 8 1.2 Historie des Themenbereichs 11 1.3 Anwendungsbereiche 12 1.3.1 Informationsorientierte Anwendungen 14 1.3.2 Analyseorientierte Anwendungen 17 1.3.3 Planungsorientierte Anwendungen 21 1.3.4 Kampagnenorientierte Anwendungen 23 1.4 Beispielhaftes Projekt 25 1.5 Überblick über das Buch 28 2 Referenzarchitektur 31 2.1 Aspekte einer Referenzarchitektur 31 2.1.1 Referenzmodell für die Architektur von Data-Warehouse-Systemen 32 2.1.2 Beschreibung der Referenzarchitektur 34 2.2 Data-Warehouse-Manager 36 2.3 Datenquelle 38 2.3.1 Bestimmung der Datenquellen 39 2.3.2 Datenqualität 42 2.3.3 Klassifikation der Quelldaten 44 2.4 Monitor 46 2.5 Arbeitsbereich 48 2.6 Extraktionskomponente 48 2.7 Transformationskomponente 49 2.8 Ladekomponente 50 2.9 Basisdatenbank 51 2.9.1 Charakterisierung, Aufgaben und Abgrenzung 52 2.9.2 Aktualisierungsalternativen der Basisdatenbank 54 2.9.3 Qualität der Daten in der Basisdatenbank 55 2.10 Data Warehouse 56 2.10.1 Unterstützung des Ladeprozesses 57 2.10.2 Unterstützung des Analyseprozesses 57 2.10.3 Data Marts - Verteilung des Data Warehouse 58
viii Inhaltsverzeichnis 2.11 Analyse 63 2.11.1 Darstellungsformen 63 2.11.2 Funktionalität 64 2.11.3 Realisierung 66 2.11.4 Plattformen 67 2.12 Repositorium 68 2.13 Metadatenmanager 69 2.14 Zusammenfassung 71 3 Phasen des Data Warehousing 75 3.1 Monitoring 75 3.1.1 Realisierungen des Monitoring 76 3.1.2 Monitoring-Techniken 77 3.2 Extraktionsphase 81 3.3 Transformationsphase 83 3.3.1 Datenintegration 83 3.3.2 Bereinigung 89 3.4 Ladephase 93 3.5 Analysephase 95 3.5.1 Data Access 95 3.5.2 Online Analytical Processing (OLAP) 96 3.5.3 Data Mining 107 3.6 Zusammenfassung 115 4 Physische Architektur 117 4.1 Speicherarchitekturen für das Data Warehouse 117 4.1.1 Architektur eines Datenbankverwaltungssystems 118 4.1.2 Speichermodelle für Daten 118 4.2 Schichtenarchitekturen 119 4.2.1 Einschichtenarchitektur 122 4.2.2 Zweischichtenarchitektur 122 4.2.3 Dreischichtenarchitektur 123 4.2.4 N-Schichtenarchitektur 124 4.2.5 Web-basierte Architektur 125 4.3 Middleware 130 4.3.1 Normen und Spezifikationen 130 4.3.2 Middleware-Systeme 130 4.3.3 Common Object Request Broker Architecture (CORBA) 132 4.3.4 Distributed Component Object Model (DCOM) 134 4.4 Schnittstellen 135 4.4.1 Klassifikation von Schnittstellen 136 4.4.2 Techniken und Standards 136 4.4.3 Datenaustauschformate 139 4.5 Sicherheit 140 4.5.1 Kommunikationssicherheit 140 4.5.2 Benutzeridentifikation und Authentifizierung 143 4.5.3 Auditing 144 4.5.4 Zugriffskontrolle 145 4.6 Zusammenfassung 147
Inhaltsverzeichnis "ьп В Entwicklung 149 5 Das multidimensionale Datenmodell 153 5.1 Exkurs: Modell und Schema 153 5.2 Konzeptuelle Modellierung 156 5.2.1 Verschiedene Vorgehensweisen zur Definition einer Methodik 159 5.2.2 Vorstellung verschiedener Designnotationen 160 5.3 Logische Modellierung 169 5.3.1 Notwendigkeit der Formalisierung des multidimensionalen Modells. 170 5.3.2 Struktur des multidimensionalen Datenmodells 171 5.3.3 Fehlende Werte in Würfelzellen (Nullwerte) 175 5.3.4 Operatoren des multidimensionalen Modells 176 5.3.5 Weitere Ansätze zur Formalisierung 180 5.3.6 Grenzen und Erweiterungen des multidimensionalen Datenmodells.. 182 5.4 Unterstützung von Veränderungen 183 5.4.1 Zeitaspekte 183 5.4.2 Aspekte der Klassifikationsveränderungen 185 5.4.3 Aspekte der Schemaänderung 188 5.5 Zusammenfassung 194 6 Umsetzung des multidimensionalen Datenmodells 197 6.1 Relationale Speicherung 198 6.1.1 Abbildungsmöglichkeiten auf Relationen 198 6.1.2 Relationale Umsetzung multidimensionaler Anfragen 208 6.1.3 Relationale Versionierungs- und Evolutionsaspekte 216 6.2 Multidimensionale Speicherung 221 6.2.1 Datenstrukturen 222 6.2.2 Speicherung multidimensionaler Daten 231 6.2.3 Dateneingabe 235 6.2.4 Grenzen der multidimensionalen Datenhaltung 237 6.2.5 Hybride Speicherung: Hybrides OLAP (HOLAP) 238 6.3 Realisierung der Zugriffskontrolle 239 6.3.1 Zugriffskontrollanforderungen 240 6.3.2 Realisierungskonzepte 243 6.4 Zusammenfassung 248 7 Optimierung 249 7.1 Anfragen im multidimensionalen Modell 250 7.2 Indexstrukturen 251 7.2.1 Klassifikation der Indexstrukturen 253 7.2.2 Eindimensionale Baumindexstrukturen 254 7.2.3 Mehrdimensionale Baumindexstrukturen 259 7.2.4 Bitmap-Indizes 267 7.2.5 Vergleich der Indizierungstechniken 272 7.3 Partitionierung 274 7.3.1 Horizontale Partitionierung 275 7.3.2 Vertikale Partitionierung 276 7.3.3 Mini-Dimensionen als Spezialfall vertikaler Partitionierung 277 7.3.4 Partitionierungssteuerung 279
пг Inhaltsverzeichnis 7.4 Relationale Optimierung von Star-Joins 280 7.5 Einsatz materialisierter Sichten 283 7.5.1 Verwendung materialisierter Sichten 284 7.5.2 Bestimmung des Auswertekontextes für Aggregatanfragen 289 7.5.3 Statische Auswahl materialisierter Sichten 294 7.5.4 Dynamische Auswahl materialisierter Sichten 301 7.5.5 Aktualisierung materialisierter Sichten 304 7.6 Optimierung eines multidimensionalen Datenbanksystems 314 7.6.1 Partitionierung 316 7.6.2 Speicherung der Zellen 319 7.6.3 Datenblockindizierung 321 7.7 Zusammenfassung 321 8 Metadaten 325 8.1 Die Rolle von Metadaten beim Data Warehousing 325 8.2 Metadatenmanagement 328 8.2.1 Anforderungen an Data-Warehouse-Repositorien 329 8.2.2 Repositorium- und Metadatenaustauschstandards 331 8.3 Data-Warehouse-Metadatenschemata 333 8.3.1 Eine Klassifikation für Metadaten 334 8.3.2 Standards und Referenzmodelle 336 8.4 Entwurf eines Schemas zur Verwaltung von Data-Warehouse-Metadaten.. 340 8.4.1 Funktionale Aspekte 340 8.4.2 Personen, Organisation und Aufgaben 342 8.4.3 Business-Metadaten 343 8.4.4 Abstraktionsstufen 344 8.5 Zusammenfassung 345 С Anwendung 347 9 Aufbau eines Data-Warehouse-Systems 351 9.1 Data-Warehouse-Strategie 351 9.1.1 Strategiefindung 352 9.1.2 Machbarkeitsbetrachtung zum Data Warehousing 355 9.1.3 Festlegung der Architektur 356 9.1.4 Vorgehensweisen bei der Einführung 362 9.2 Data-Warehouse-Projektorganisation 365 9.2.1 Projektrollen und Projektsteuerung 367 9.2.2 Projektteam und Rollenverständnis 367 9.2.3 Kommunikation 370 9.2.4 Konfliktmanagement 371 9.2.5 Qualitätssicherung 373 9.2.6 Dokumentation 374 9.3 Data-Warehouse-Projektphasen 374 9.3.1 Phasenkonzept 375 9.3.2 Analysephase 378 9.3.3 Designphase 382 9.3.4 Implementierungsphase 384
Inhaltsverzeichnis xi 9.4 Softwareauswahl 386 9.4.1 Nutzen und Notwendigkeit der Produktauswahl 387 9.4.2 Klassifikation der Produkte anhand der Referenzarchitektur 388 9.4.3 Vorgehensweise 389 9.4.4 Allgemeine Kriterien für die Produktauswahl 397 9.4.5 Kriterien für Datenbeschaffungswerkzeuge 398 9.4.6 Kriterien für OLAP-Produkte 402 9.5 Hardwareauswahl 408 9.5.1 Auswahlbestimmende Faktoren 409 9.5.2 Datenspeicherung 409 9.5.3 Archivspeichermedien 411 9.5.4 Multiprozessorsysteme 412 9.5.5 Fehlertoleranz als Planungsziel 414 9.5.6 Flaschenhälse und Fallstricke 414 9.5.7 Backup-Strategien und Notfallpläne 415 9.6 Erfolgsfaktoren beim Aufbau eines Data Warehouse 416 9.6.1 Institutionelle Aufgaben des Projektmanagements: Projekt organisation 417 9.6.2 Funktionale Aufgaben des Projektmanagements: Projektabwicklung 419 9.6.3 Empfehlungen für ein Data-Warehouse-Projekt 421 9.7 Wirtschaftlichkeitsbetrachtungen 422 9.7.1 Kostenbetrachtung 423 9.7.2 Nutzenbetrachtung 424 9.8 Zusammenfassung 428 10 Betrieb eines Data-Warehouse-Systems 429 10.1 Administration 429 10.1.1 Anforderungen und resultierende Aufgaben 430 10.1.2 Organisationsformen für den Betrieb 437 10.2 Iterativer Datenbeschaffungsprozess 439 10.3 Performanz-Tuning von Data-Warehouse-Systemen 445 10.3.1 Der Performanz-Tuning-Prozess 445 10.3.2 Maßnahmen aus Sicht des Informationsmanagements 446 10.3.3 Maßnahmen aus Sicht des Datenbankdesigns 448 10.3.4 Maßnahmen aus Sicht der Applikationsumgebung 451 10.3.5 Maßnahmen aus Sicht der Datenbankanfragen 452 10.3.6 Maßnahmen aus Sicht der Datenbankkonfiguration 453 10.3.7 Maßnahmen aus Sicht des Betriebssystems 456 10.3.8 Maßnahmen aus Sicht des Netzwerks 457 10.3.9 Maßnahmen aus Sicht des Hardwaresystems 457 10.4 Analyseprozess 458 10.4.1 Schere zwischen Systemleistung und Anwendererwartungen 459 10.4.2 Anwenderbetreuung 462 10.4.3 Tips und Tricks im Umgang mit Anwendern 463 10.5 Rolle des Repositoriums 464
xii Inhaltsverzeichnis 10.6 Sicherungsmanagement 465 10.6.1 Backup und Recovery 466 10.6.2 Entsorgung von Daten 467 10.6.3 Datenbank- und Systemverfügbarkeit 470 10.6.4 Phasen eines Recovery-Plans 471 10.7 Zusammenfassung 472 11 Praxisbeispiele 473 11.1 Data Warehousing in der Gesundheitsberichterstattung 474 11.1.1 Das Epidemiologische Krebsregister Niedersachsen (EKN) 474 11.1.2 Unterstützung umweltbezogener epidemiologischer Forschung durch modernes Data Warehousing 475 11.1.3 Fazit 481 11.2 Praxisbeispiel aus dem Verlagswesen 481 11.2.1 Vorstellung des Axel Springer Verlages 481 11.2.2 Das Data-Warehouse-Projekt im Anzeigenbereich 482 11.2.3 Fazit 487 11.3 Panelorientierte Marktforschung 488 11.3.1 Das Unternehmen GfK AG und die GfK Marketing Services GmbH 488 11.3.2 Data Warehousing in der panelorientierten Marktforschung 489 11.3.3 Fazit 495 11.4 Grundlagenforschung: Geowissenschaften 496 11.4.1 Das ICDP-Projekt und sein Träger 496 11.4.2 Data Warehousing in den Geowissenschaften 497 11.4.3 Fazit 502 11.5 Chemie: Distribution von Produktdaten 503 11.5.1 Das Unternehmen Merck KGaA 503 11.5.2 Data Warehousing für Produktdaten 504 11.5.3 Fazit 507 11.6 Zusammenfassung 509 A Abkürzungen 511 В Glossar 515 С Autorenverzeichnis 521 D Autorenzuordnung 531 E Literatur und Web-Referenzen 535 F Stichwortverzeichnis 565