Multidimensionale Datenbanksysteme Modellierung und Verarbeitung Von Dr.-Ing. Wolfgang Lehner IBM Almaden Research Center, San Jose, USA Technische Universität Darrr:ctadi FACHBEREICH INFORMATIK BIBLIOTHEK Inventar-Nr.: Sachgebiete: Standort: B.G.Teubner Stuttgart Leipzig 1999
Inhaltsverzeichnis A Multidimensionale Datenanalyse: Exemplarischer Einsatz und allgemeine Methodik 15 1 Einleitung 16 1.1 Statistische Informationsverarbeitung 16 1.1.1 Prozeß der statistischen Datenanalyse 17 1.1.2Charakteristika statistischer Informationsgewinnung 19 1.1.3 Versuch einer Taxonomie der Begriffe 'SSDBMS', 'Data Warehouse' und 'Online Analytical Processing' 20 1.2 Beispiele statistischer Informationsverarbeitungssysteme 21 1.2.1 Regionaldatenanalyse bei 'Statistics Norway', 22 1.2.2 Paneldatenanalyse bei der 'Gesellschaft für Konsum-, Markt- und Absatzforschung' 23 1.2.3 Zusammenfassung 25 1.3 Gegenstand und Struktur des Buches 25 2 'Data Warehouse' und 'Online Analytical Processing' 28 2.1 Das Konzept des 'Data Warehouse' 29 2.1.1 Versuch einer Definition von 'Data Warehouse' 29 2.1.2 Trennung von operativen und 'Data Warehouse'-Umgebungen 31 2.2 Konzeptionelle 'Data Warehouse'-Architektur 34 2.2.1 'Data Warehouse'-Architektur entsprechend den Phasen des Prozesses statistischer Datenanalyse 34 2.2.2Konfigurationen der Datenbasis eines 'Data Warehouse' 36
8 Inhaltsverzeichnis 2.3 Multidimensionale Datenexploration: 'Online Analytical Processing' 37 2.3.1 Die Evolution des 'Online Analytical Processing' 37 2.3.2 Logische multidimensionale Sichtweise 38 2.3.3 Dünnbesetztheit multidimensionaler Datenwürfel 39 2.3.4Realisierungsalternativen der multidimensionalen Sichtweise 40 2.4 Zusammenfassung 42 3 Allgemeine Methodik multidimensionaler Datenanalyse 44 3.1 Mikro- und Makrodaten in multidimensionalen Auswertungen 44 3.1.1 Übergang von Mikro- zu Makrodaten 45 3.1.2Beschreibung von Makrodaten 46 3.2 Einsatz klassifikatorischer Strukturen zur Aggregationsunterstützung 48 3.2.1 Das Prinzip der Klassifikation 49 3.2.2 Betrachtung klassenspezifischer Eigenschaften 51 3.2.3 Die Verwendung klassifikatorischer Strukturen beim Übergang von Mikro- zu Makrodaten 52 3.3 Sprachkritische Rekonstruktion der multidimensionalen Aggregation 54 3.3.1 Grundlegende Terminologie 54 3.3.2Rekonstruktion intensionaler Aspekte einer Klassifikation 55 3.3.3 Rekonstruktion extensionaler Aspekte einer Klassifikation 56 3.4 Zusammenfassung 57 B Modellierungs- und Verarbeitungsmethodologie in der multidimensionalen Datenanalyse 58 4 Modellierungsmethodologie in statistischen Datenmodellen... 59 4.1 Eigenschaften multidimensionaler statistischer Datenmodelle 60 4.1.1 Grundlegende Struktur statistischer Tabellen 60 4.1.2 Grundlegende Struktur statistischer Modellierungsansätze 62
Inhaltsverzeichnis 9 4.2 Multidimensionale Datenorganisationskonzepte 64 4.2.1 Grundlegende Modellierungskonstrukte 64 4.2.2 Erweiterte konzeptionelle Modellierungskonstrukte 66 4.2.3 Zusammenfassung 69 4.3 Multidimensionale Dätenstrukturkonzepte 70 4.4 Multidimensionale Datenmanipulationskonzepte 72 4.4.1 Projektions- und Selektionsoperation 74 4.4.2 Multidimensionale Verbundoperation 74 4.4.3 Multidimensionale Aggregationsoperation 76 4.4.4 Zusammenfassung 78 4.5 Bewertung multidimensionaler statistischer Datenmodellierungsansätze.. 78 5 Relationale Abbildung multidimensionaler Strukturen und Operatoren 80 5.1 Das relationale Datenmodell 81 5.1.1 Relationales Datenstrukturkonzept 81 5.1.2 Relationales Datenmanipulationskonzept 82 5.1.3 Erweiterung der relationalen Algebra um die Aggregationsoperation 83 5.2 Relationale Abbildung multidimensionaler Strukturen 84 5.2.1 Relationale Abbildung nach dem Muster des S/M-Schemas 85 5.2.2Relationale Abbildung nach dem Muster des Star-Schemas 88 5.2.3 Relationale Abbildung nach dem Muster des Snowflake-Schemas... 91 5.2.4Nullwertbehandlung in der relationalen Abbildung 93 5.2.4.1 Nullwertbehandlung im multidimensionalen Kontext 94 5.2.4.2 Nullwertbehandlung im qualifizierenden Kontext 94 5.2.5 Zusammenfassung 95
10 Inhaltsverzeichnis 5.3 Aggregatspezifikation auf Ebene relationaler Anfragesprachen 96 5.3.1 Aggregatformulierung in SQL 96 5.3.2 Erweiterung der statistischen Funktionen in SQL 97 5.3.3 Erweiterung der Gruppierungsfunktionalität 100 5.4 Optimierung der relationalen Aggregatverarbeitung 103 5.4.1 Optimierungsstrategien in der Aggregatverarbeitung 103 5.4.1.1 Approximative Anfragebeantwortung /-auswertung 103 5.4.1.2 Nutzung und Auswahl materialisierter Sichten 104 5.4.1.3 Klassifikation wissenschaftlicher Arbeiten im Bereich der Aggregatverarbeitung 106 5.4.2 Grundlagen der Anfrageverarbeitung 108 5.4.3 Restrukturierungstechniken für Aggregationsanfragen 111 5.4.4Restrukturierungstechniken zur Integration von Präaggregaten 116 5.4.5 Zusammenfassung 121 5.5 Bewertung relationaler Abbildungs- und Verarbeitungstechniken 122 6 Methoden der Präaggregationstechnik 124 6.1 Theorie der aggregationsbezogenen Ableitbarkeit 125 6.1.1 Additivität von Aggregationsfunktionen 125 6.1.2 Ableitbarkeit von Aggregationsfunktionen 127 6.2 Konzept des aggregatbezogenen Auswertekontextes 129 6.2.1 Aggregationsgitter ohne funktionale Abhängigkeiten 129 6.2.2 Aggregationsgitter mit funktionalen Abhängigkeiten 132 6.2.3 Ausprägungen eines Aggregationsgitters 136 6.3 Präaggregationsstrategien 137 6.3.1 Klassifikation von Präaggregationsstrategien 139 6.3.2 Verhältnis von Speicherplatz und Laufzeit 141
Inhaltsverzeichnis 11 6.4 Konstruktive Materialisierungsstrategien auf relationalen Anfragegraphen 143 6.4.1 Strategie nach Yang, Karlapalem und Li 144 6.4.2 Strategie nach H. Gupta 145 6.4.3 Zusammenfassung 146 6.5 Konstruktive Präaggregationsstrategien über einem Aggregationsgitter. 146 6.5.1 Strategie nach Harinarayan, Rajaraman und Ullman 147 6.5.2 Strategie nach Baralis, Paraboschi und Teniente 150 6.5.3 Zusammenfassung 151 6.6Adaptive Strategien für materialisierte Anfrageergebnisse 151 6.6.1 Strategie nach Scheuermann, Shim und Vingralek 152 6.6.2 Strategie nach Deshpande, Ramasamy, Shukla und Nauhgton 153 6.6.3 Zusammenfassung 154 6.7Bewertung existierender Präaggregationsstrategien 155 C CubeStar: Methodologie einer erweiterten multidimensionalen Datenanalyse 158 7 Geschachteltes multidimensionales Datenmodell 159 7.1 Multidimensionales Datenorganisationskonzept 160 7.1.1 Basisklassen für Mikrodatenidentifikationsobjekte 161 7.1.2 Konzept der Dimension und Primärklassifikation 163 7.1.3 Konzept der Sekundärklassifikationen 165 7.1.4 Konzept der Klassifikationsobjekte 166 7.1.4.1 Klassifikationsobjekte 167 7.1.4.2 Wertebereich von Klassifikationsobjekten 168
12 Inhaltsverzeichnis 7.1.4.3 Abstand von Klassifikationsobjekten 170 7.1.4.4 Mengentheoretische Operationen auf Klassifikationsobjekten 170 7.1.5 Zusammenfassung 172 7.2 Multidimensionales Datenstrukturkonzept 173 7.2.1 Grundlegende Konzepte multidimensionaler Strukturen 173 7.2.2 Konzept der klassischen und kompakten multidimensionalen Objekte 175 7.2.2.1 Klassische multidimensionale Objekte 176 7.2.2.2 MO-'Inlays' 178 7.2.2.3 Kompakte multidimensionale Objekte 179 7.2.3 Konzept der nicht-kompakten multidimensionalen Objekte 184 7.3 Multidimensionales Datenmanipulationskonzept 186 7.3.1 Datenmanipulationskonzepte für die interaktive multidimensionale Datenanalyse 186 7.3.1.1 Klassifikationsbasierte Bereichsspezifikation 187 7.3.1.2 Klassifikationsorientierte Navigationsoperatoren 188 7.3.1.3 Eigenschaftsorientierte Navigationsoperatoren 190 7.3.1.4 Implizite Aggregation 191 7.3.2 Datenmanipulationskonzepte für die Analyse komplexer Strukturen 192 7.3.2.1 Explizite Aggregation 192 7.3.2.2 Zellenorientierte Operationen 193 7.3.3 Vertikale Komposition multidimensionaler Objekte 196 7.3.4Horizontale Komposition kompakter multidimensionaler Objekte ('Patch-Working') 197 7.4 Zusammenfassung 201
Inhaltsverzeichnis 13 8 Multidimensionales Verarbeitungsmodell 203 8.1 Ableitbarkeit und Aggregationsgitter 204 8.1.1 Ableitbarkeit multidimensionaler Objekte 205 8.1.2 Aggregationsgitter für multidimensionale Objekte 206 8.2 Konstruktive Apriori-Präaggregationsstrategie 210 8.2.1 Prinzip der Apriori-Präaggregationsstrategie 211 8.2.2 Zusammenfassung und Bewertung 214 8.3 Adaptive Präaggregationsstrategie 215 8.3.1 Idee und Positionierung des Ansatzes 216 8.3.2 Einflußfaktoren der Aggregatverdrängungsstrategie 218 8.3.2.1 Bestimmung der multidimensionalen gewichteten relativen Referenzierungshäufigkeitsdichte 219 8.3.2.2 Bestimmung des Verwandtschaftsgrades multidimensionaler Objekte 223. 8.3.2.3 Bestimmung der Wiederherstellungskosten eines multidimensionalen Objektes 225 8.3.3 Relativer Nutzen eines multidimensionalen Objektes 226 8.3.4 Verdrängungsalgorithmus 228 8.4 Simulation der Präaggregationsstrategien 231 8.4.1 Simulationsumgebung und Simulationskonfiguration 231 8.4.2 Simulation mit ädaptiver Präaggregationsstrategie 234 8.4.3 Vergleich von ädaptiver und Apriori-Präaggregationstrategie 238 8.4.4 Zusammenfassung und Bewertung 240 8.5 Zusammenfassung 242 9 Relationales Implementierungsmodell 244 9.1 Logische Architektur des CubeStar-Systems 245 9.1.1 Architektur des CubeStar-Systems 245 9.1.2 Interne Struktur des CubeStar-Servers 247
14 Inhaltsverzeichnis 9.1.3 Phasen der multidimensionalen Anfrageverarbeitung im CubeStar-Server 248 9.1.4 Zusammenfassung 251 9.2 Relationale Abbildung multidimensionaler Strukturen 252 9.3 Relationale Abbildung multidimensionaler Operatoren 255 9.3.1 Relationale Abbildung von Selektionsund Aggregationsoperation 255 9.3.2Relationale Abbildung der horizontalen Komposition 259 9.3.3 Relationale Abbildung der vertikalen Komposition 260 9.4 Zusammenfassung 263 D Zusammenfassung und Ausblick 265 Literaturverzeichnis 269 Stichwortverzeichnis 282