Data Warehouse Technologien

Veit Köppen Gunter Saake Kai-Uwe Sattler Data Warehouse Technologien

Sachindex B + -Baum, 185 R -Baum, 207 R a-baum, 207 R + -Baum, 206 abgeleitete Partitionierung, 154 abhängiger Data Mart, 35 Ableitbarkeit, 224, 230, 236 Ableiten, 29 Achse MDX, 130 Achsenspezifikation, 130 Aggregatfunktion, 231 Aggregation, 113 Aggregationsgitter, 224, 236 Aktualisierung inkrementelle, 239 synchrone, 238 vollständige, 239 Algebraterm, 219 Allokation, 153 Analyse, 5 Analysedatenbank, 28 Analysedatenmodell, 28 Anfrage äquivalente, 228 Anfrageersetzung, 229 Anfrageplan, 219 Anfrageumformulierung, 229 Append-Mode-Tabelle, 140 Apriori-Algorithmus, 268 Arbeitsbereich, 24 Architektur, 9 Array-Speicherung, 145 Auswahl kostenbasierte, 218 B-Baum, 184 degenerierter, 186 ordnungsabhängigkeit, 187 Balanced Scorecard, 261 Basisdatenbank, 21, 27 BAT-Algebra, 173 Batchläufe, 83 BDB, 27 Befüllen, 21 berechneter Index, 189 bereichsgeclusterte Tabelle, 140 bereichskodierter Bitmap-Index, 194 Bereichspartitionierung, 153 Bereinigung, 26 Bestandsgrößen, 83 Bit Interleaving, 202, 208 Bit-Array, 189 Bitmap-Index, 189 bereichskodierter, 194 intervallkodierter, 196 Mehrkomponenten-, 193 Standard-, 192 Bitmap-Verbundindex, 199 296 Sachindex

Blocking, 73 bulk loader, 28 Bulk-Loader, 89, 97 Business Intelligence, 9, 10, 250 Cache Lines, 173 Cache-Lokalität, 173 Checkpoints, 97 Clustering, 182 Codd, 16 Codeerzeugung, 218 column-oriented DBMS, 162 confidence, 267 Cube-Operator, 151 Data Auditing, 26 Data Cleaning, 14, 68 data cube, 28 Data Mart, 9, 14, 28, 34 abhängiger, 35 unabhängiger, 36 Data Profiling, 68 Data Scrubbing, 26 Data Warehouse, 1, 29 föderiertes, 37 virtuelles, 36 Data Warehousing, 9 Data-Warehouse-Manager, 30 Data-Warehouse-System, 13 Datenbereinigung, 66 Datenbereinigungsbereich, 21, 24 Datenfehler, 66 Datenintegration, 18, 26, 90 Datenkonflikt, 79 Datenorganisation spaltenorientierte, 174 Datenqualität, 23, 66 Datentransformationen, 92 Datenwurfel, 129 Datenwürfel, 28 föderierter, 37 Partitionierung, 157 virtueller, 36 dauerhaft, 8 DB2, 140, 245 DBB, 24 Decomposed Storage Model, 162, 167 degenerierter B-Baum, 186 Dekompression, 175 Delta-Relation, 177 DeweyID, 212 Dictionary Encoding, 175 Differential-Snapshot-Problem, 84 Dimension, 9, 129 Mini-, 156 Dimensionalitat generische, 17 Dimensionalität, 182 Dimensionstabelle, 117 DIRECTPATH, 97 DMX, 285 Drill-down, 117 DSM, 167 dunnbesetzte Strukturen, 17 Duplikaterkennung, 72 Durchschnitt gleitender, 128 DW-System, 13 Dwarf, 150 dynamisches Hashen, 202 dünn besetzte Indexe, 141 Edit-Distanz, 75 einheitsabhängige Daten, 83 ELT, 101 ELT-Prozess, 101 Entscheidungsbaum, 279, 282 Entscheidungsunterstützung, 8 Erweiterbarkeit, 15 ETL, 5, 21, 65, 80 ETL light, 101 Euklidische Distanz, 75 exegetisches Modell, 18 Extraktion, 25 Extraktions-, Transformations- und Ladeprozess, 10 Extraktionstechniken, 83 Sachindex 297

Fact-Constellation-Schema, 57 Faktentabelle, 112 FASMI, 19 Fenster, 122 dynamische, 127 Fensteranfrage, 183 Flussgrößen, 82 formelbasiertes Modell, 18 Fragment, 153 Frequent Pattern Tree, 271 Frequent-Pattern-Growth-Algorithmus, 271 Full-Table-Scan, 181, 183 föderierte Datenbanken, 8 föderierter Datenwürfel, 37 föderiertes Data Warehouse, 37 Galaxie-Schema, 57 gemischte Partitionierung, 154 Genauigkeit, 24 generische Dimensionalitat, 17 Gini-Index, 282 Gitter, 200 Glaubwürdigkeit, 24 Granularität, 24 Grid, 201 Grid-Directory, 201 Grid-File, 200 Grid-Region, 201 Grid-Zelle, 201 Gruppierung, 113, 223 Gruppierungskombination, 118, 230 Hash-Funktionen, 87 Hash-Partitionierung, 153 Hashen dynamisches, 202 lineares, 202 mehrdimensionales, 202 Hauptspeicherdatenbank, 171 Heterogenität, 89 HOLAP, 149 Homogenisierung, 25 horizontale Partitionierung, 153 hub and spoke, 35 hybride Speicherung, 149 hybrides OLAP, 149 In-Memory-Datenbank, 8, 101 Index, 10, 181 berechneter, 189 Bitmap-, 189 dünn besetzt, 141 mehrdimensionaler, 200 Oversized, 188 Verbund-, 198 Indexierung intervallkodierte, 196 Informationsgewinn, 282 inkrementelle Vorberechnung, 144 Integration, 5, 26 integriert, 8 Integritätsbeziehung, 79 intervallkodierte Indexierung, 196 intervallkodierter Bitmap-Index, 196 Jaro-Distanz, 78 Jaro-Winkler-Distanz, 78 k-means, 277 Kachel, 157 Kachelung, 157 kategorisches Modell, 18 KdB-Baum, 203 Kennzahl, 129 Kennzahlen, 9 Kern-Data-Warehouse, 37 Kompensationsanfrage, 230, 233 Konsistenz, 23 Konsistenzprüfung, 79 kontemplatives Modell, 18 Korrektheit, 23 L1 Cache, 173 Laden, 21, 27 Ladevorgang, 96 Lauflängenkodierung, 174 lineares Hashen, 202 298 Sachindex

Linearisierung, 145 Log, 83 log-basierte Monitorstrategie, 32 main memory database, 171 Massenlader, 28, 89, 97 Masterrelation, 153 Materialisierung, 228 Materialisierungskonfiguration, 237 Materialized View, siehe Sicht, materialisierte MDC, 140 MDH, 202 MDX, 129, 264 Mehrbenutzerbetrieb, 17 mehrdimensionales Hashen, 202 Mehrdimensionales hierarchisches Clustering, 213 Mehrkomponenten-bereichskodierter Bitmap-Index, 195 Mehrkomponenten-Bitmap-Index, 193 Mehrkomponentensurrogat, 213 memory wall, 172 Merge-Sort-Verfahren, 87 Metadaten, 33 Metadaten-Manager, 33 Methode des Differential Snapshot, 84 MHC, 213 Mini-Dimension, 156 Minkowski, 75 MKBKBMI, 195 Modell exegetisches, 18 formelbasiertes, 18 kategorisches, 18 kontemplatives, 18 MOLAP, 142 MonetDB, 173 Monitor, 31 Monitorstrategie, 31 log-basiert, 32 replikations-basiert, 31 snapshot-basiert, 32 trigger-basiert, 31 zeitstempel-basiert, 32 Multi-Attribut-Index, 187 Multi-Core-Architekturen, 173 Multi-Pass-Technik, 74 Multi-Table-Insert, 100 multidimensional clustering tables, 140 Multidimensional Expressions, 264 Multidimensionale Sicht, 16 multidimensionale Speicherung, 142 multidimensionales Datenmodell, 9 multidimensionalgeclusterte 140 Nabe-und-Speiche-Architektur, 35 Tabelle, Objektidentifikation, 79 ODS, 27 OLAP-Funktion, 122, 128 sequenzorientierte, 126 OLAP-Server, 129 OLAP-Zugriffe, 16 OLTP-Systeme, 90 Online Analytical Processing, 5, 16 Online Transactional Processing, 4 Operational Data Store, 27 Operatorbaum, 219 Optimierung, 218 algebraische, 218 logische, 218 physische, 218 Oracle, 243 Bitmap-Verbundindex, 199 Partitionierung, 155 Ordnung attributlokale, 125 Ordnungsabhängigkeit in B-Baum, 187 Oversized Index, 188 Partition, 153 Partitionierung, 153 Bereich-, 153 Sachindex 299

fensterbasierte, 122 gemischte, 154 Hash-, 153 horizontale, 153 Oracle, 155 Range-, 153 vertikale, 154 von Datenwürfeln, 157 Partitioning around Medoids, 277 PAX-Modell, 169 Performanz, 17 PipeSort, 225 Planparametrisierung, 218 positionaler Join, 165 Prefetching, 182 Primärindexe, 182 Prinzip der zwei Plattenzugriffe, 201 Purging, 79 q-gramm, 76 Quelle, 21 Query Containment, siehe Anfrageersetzung query execution plan, 219 Query Graph Model, 232 Query Rewriting, siehe Anfrageumformulierung R-Baum, 204 range-clustered tables, 140 Range-Partitionierung, 153 Ranking, 126 RCT, 140 Reconciliation, 79 record linkage, 26 Region, 200 relation merging, 26 relationale Speicherung, 140 Relevanz, 24 Replikation, 83 replikations-basierte Monitorstrategie, 31 Repository, 33 RLE, 174 ROLAP, 140 Roll-up, 117 row-oriented storage, 162 RQ-Algorithmus, 209 Run Length Encoding, siehe Lauflängenkodierung Schema Fact-Constellation, 57 Galaxie, 57 Snowflake, 53 Star, 55 Schemaintegration, 90 Seiten-Clustering, 182 Sekundärindexe, 182 Sequenzbildung, 127 Sequenznummer, 141 Sicht materialisierte, 228 Aktualisierung, 238 Sichtexpansion, 218 Skala, 201 Skalierbarkeit, 17 Slicer, 130 snapshot-basierte Monitorstrategie, 32 Snapshots, 83 Snowflake-Schema, 53 Sortierte Nachbarschaft, 73 Soundex, 77 spaltenorientierte DBMS, 162, 178 Speicherung, 10 Array-, 145 hybride, 149 SQL Server, 246 SQL-Loader, 98 SQL-Loader von Oracle, 27, 97 SQL/OLAP, 112 SQL:2003, 112, 122 staging area, 24 Standard-Bitmap-Index, 192 Star Join, 112 Star-Query-Transformation, 192 300 Sachindex

Star-Schema, 55 Summary Table, siehe Sicht, materialisierte support, 267 Surrogat, 213 Symmetrie, 182 Tabelle multidimensionalgeclusterte, 140 bereichsgeclusterte, 140 themenorientiert, 8 TID, 182 Transfomationskomponente, 25 Transformation, 21, 68 Transformationsphase, 89 Transparenz, 16 Trigger, 83 trigger-basierte Monitorstrategie, 31 Tupel-Clustering, 182 Tupelidentifikator, 182 Tupelrekonstruktion, 164 Tupelverweise, 182 UB-Baum, 207 Ubersetzung, 218 unabhängiger Data Mart, 36 Verbundindex, 198 Bitmap, 199 Vergleichsfunktionen, 74 Verständlichkeit, 24 Verteilte Datenbanken, 8 verteilte Datenbanken, 4 vertikale Partitionierung, 154 Verwendbarkeit, 24 virtueller Datenwürfel, 36 virtuelles Data Warehouse, 36 Vorberechnung, 144 Workload, 236 Z-Kurve, 208 Z-Region, 208 Z-Wert, 208 zeilenorientierte Speicherung, 162 zeitbezogen, 8 Zeitstempel, 32 zeitstempel-basierte Monitorstrategie, 32 Zelle, 200 zentrale Datenbank, 4 Zugriffsplan, siehe Anfrageplan Zugriffsstruktur, 181 Zuverlässigkeit, 24 Zwei-Ebenen-Speicherung, 161 Sachindex 301