Kapitel 8: Approximative Anfrageergebnisse

Transkript

1 Kapitel 8: Approximative Anfrageergebnisse () Weshalb approximative Antworten? Exakte Abfragen können zu lange dauern bei großem Datenvolumen. Antwortensollenauchmöglichsein, wenn Daten teilweise nicht verfügbar sind (z. B. bei teilweisem Ausfall der Datenspeicher). Nur komprimierte Daten verfügbar. Data Warehousing und Mining: Approximative Anfrageergebnisse Data Warehousing und Mining: Approximative Anfrageergebnisse () () Weshalb approximative Antworten (Forts.)? Anfragender ist an raschen, ungefähren Ergebnissen interessiert, wenn er den Datenbestand erkunden will, er überprüfen will, ob Anfrage wohlformuliert ist. Ergebnisse von Aggregatsfunktionen wie avg, sum und count erfordern nicht immer volle Präzision, sind also ideale Kandidaten für Approximation. Was ist überhaupt eine approximative Antwort? Ungefährer Wert mit Vertrauensintervall, obere bzw. untere Schranke. Beispiele: Durchschnittliche Verkäufe 999: 000, +/- 00 Anzahl Einbrüche Januar: <=000 Beschränkung auf OLAP-/Datenanalyse-Szenarien; andere Bedingungen im Bereich Ähnlichkeitssuche. Data Warehousing und Mining: Approximative Anfrageergebnisse 3 Data Warehousing und Mining: Approximative Anfrageergebnisse

2 Motivation für Komprimierung Anforderung an Kompression Platz sparen bei riesigen Datenmengen (bis mehrere TB). Erlaubt Kopien, z. B. auf Laptops. Schnelle (approximative) Beantwortung von Range Queries mit herkömmlichen Query-Processing Mechanismen. Kleiner Platzbedarf der komprimierten Daten (Kompression soll z. B. um Faktor 00 kleiner sein), kleine Qualitätseinbuße bei Kompression, am besten innerhalb einstellbarer und voraussagbarer Grenzen, schnelle und direkte Beantwortung der Queries aus komprimierten Daten, explizite Abstufung der Qualität bei Anfragebeantwortung möglich, effiziente inkrementelle Updates der komprimierten Daten möglich. Data Warehousing und Mining: Approximative Anfrageergebnisse 5 Data Warehousing und Mining: Approximative Anfrageergebnisse 6 Notwendigkeit für Komprimierung bei multidimensionaler Sicht Mögliche Fehlermaße Zeit Guinness Kilkenny s Murphy s W W W3 Marke PW Oliver Nelson s Twist Pub Aggregationen wie insbes. Summe, Durchschnitt oder Count Viele zusätzliche Punkte, wenn Aggregate betrachtet werden (für jede Projektionsmöglichkeit) Bei dünn gesäten (sparse) Daten sehr viel mehr Punkte durch Aggregation (relativ gesehen). Fehlerart Definition Erklärung absoluter Wert Approx. Standard-Definition Fehler F abs relativer Wert Approx. Relativer Fehler Fehler F rel max{, Wert} macht keinen Sinn, wenn Wert = 0. kombinierter min{ α Fabs, β Frel} Oft sind wir zufrieden, Fehler wenn absoluter oder relativer Fehler klein. Kleine Werte: OK, absoluten Fehler zu betrachten; große Werte: dto. relativer Fehler. Data Warehousing und Mining: Approximative Anfrageergebnisse 7 Data Warehousing und Mining: Approximative Anfrageergebnisse 8

3 Gliederung Online Aggregation (). Benutzerperspektive (eine Folie),. Stichproben Problem: mehrere Relationen, 3. Bessere ungefähre Zusammenfassung des Datenbestands als mit Stichproben. : Vertrauensintervall wird angezeigt und ständig verbessert. Anfragender kann Berechnung abbrechen, sobald zufrieden. Approximativer Wert: Vertrauensintervall: ±0.75 Abbrechen Verstrichene Zeit: h5m8s Neustart Data Warehousing und Mining: Approximative Anfrageergebnisse 9 Data Warehousing und Mining: Approximative Anfrageergebnisse 0 Online Aggregation () Eigenschaften des es: Von exakten zu ungefähren Repräsentationen des Datenbestands Vorteil: Beliebig genaue Annäherungen möglich, direkter Zugriff auf die Datenquellen, teilweise kombinierbar mit dem, was im folgenden kommt. Online Aggregation funktioniert für den ursprünglichen Datenbestand, Im folgenden: Zusammenfassung/Komprimierung des Datenbestands und Queryevaluierung für approximative Ergebnisse. Stichproben, (nur kurz), basierend auf. Data Warehousing und Mining: Approximative Anfrageergebnisse Data Warehousing und Mining: Approximative Anfrageergebnisse

4 Base Samples Thema im folgenden: Stichproben bei mehreren Relationen, Grundsätzlicher : Stichprobe/Zusammenfassung des Datenbestands ( ) wird generiert, Queries, für die approximative Antworten OK sind, werden über den evaluiert, Szenario: Azyklischer Query Graph. (Query Graph: Knoten sind Relationen, die in der Query vorkommen, Kanten entsprechen Join-Beziehungen.) - - Naiver : Base Samples. Base Samples sind uniforme Stichproben jeder Relation, d.h. jeder Tupel ist mit gleicher Wahrscheinlichkeit in der Stichprobe. Data Warehousing und Mining: Approximative Anfrageergebnisse 3 Data Warehousing und Mining: Approximative Anfrageergebnisse Base Samples Illustration Probleme mit Base Samples Book Invno Title ISBN Author 0007 Dr. No 3-5 James Bond 0 Objektbanken 3- Heuer 7 Datenbanken Vossen 7 Datenbanken 3-89 Ullman 77 Pascal Wirth Lending Invno Name 7 Meyer 0 Schulz 0007 Müller 7 Meyer. - - Base Samples sind problematisch, wenn Queries Relationen mit Join verknüpfen.. Join von uniformen Stichproben ist keine uniforme Stichprobe des Joins.. Sehr kleine Ergebnisgrößen. Book Invno Title ISBN Author 0007 Dr. No 3-5 James Bond 0 Objektbanken 3- Heuer 7 Datenbanken Vossen Lending Invno Name 7 Meyer 0 Schulz Data Warehousing und Mining: Approximative Anfrageergebnisse 5 Data Warehousing und Mining: Approximative Anfrageergebnisse 6

5 Illustration der Probleme (). Join von uniformen Stichproben ist keine uniforme Stichprobe des Joins. R.X a b a b a a b Jeder Tupel aus R und S ist mit WS=/r in der Stichprobe. a, a, b sind Tupel des Joins. WS(a a)=/r 3 WS(a b)= /r, wenn Join über den Stichproben. a b S.X - - Illustration der Probleme () R.X a b a b a a b. Sehr kleine Ergebnisgrößen. Gleiche Wahrscheinlichkeiten (WS=/r) Ergebnisgröße: /r tatsächliche Größe beim Foreign Key Join. a b S.X Data Warehousing und Mining: Approximative Anfrageergebnisse 7 Data Warehousing und Mining: Approximative Anfrageergebnisse 8 Abhängigkeitsgraph der Relationen () Beispiel-Schema Grundlage für Definition von Join ist der Abhängigkeitsgraph der Relationen im DB-Schema. Knoten sind Relationen, Kanten sind Fremdschlüssel-Attribute. A ID B bedeutet: ID ist ein Fremdschlüssel für B.ID in A. D. h. Relation, die Ausgangspunkt des Pfeils ist, enthält Fremdschlüssel, die andere Relation enthält den Schlüssel. PERSON P_ID Name D_ID Szenario: Prüfungen der an TH KA FAKULTÄT D_ID DName - - NOTEN P_ID F_ID Semester Note Basisrelation TYP T_ID TName FACH F_ID FName T_ID Data Warehousing und Mining: Approximative Anfrageergebnisse 9 Data Warehousing und Mining: Approximative Anfrageergebnisse 0

6 Abhängigkeitsgraph der Relationen () Beispiel Fortsetzung Ein Join der Relationen A und B über eine solche Kante heißt Fremdschlüssel-Join. Die Relation A heißt dann Basisrelation des Joins. Verallgemeinerung über mehrere Stufen ist möglich (s. b. folgende Folien). - - Fremdschlüssel-Joins sind z. B.: N P N P D N F T N P D F N P F T N P D F T Abhängigkeitsgraph Beispielszenario P D N T F Keine Fremdschlüssel-Joins sind z. B.: N D P N P D T P F T Data Warehousing und Mining: Approximative Anfrageergebnisse Data Warehousing und Mining: Approximative Anfrageergebnisse Stichprobe von Joins Warum Stichprobe der Basisrelation? Lemma: Zwischen einem Tupel einer Relation r und einem Tupel eines Fremdschlüssel-Joins mit r als Basisrelation besteht :-Relation. Beispiel: Tupel aus Relation NOTEN entspricht genau ein Tupel aus NOTEN PERSON. Was bedeutet das Lemma? Sichprobe über r als Basisrelation für Fremdschlüssel-Join ist Stichprobe von Joins. - - Warum keine Stichprobe der anderen am Join beteiligten Relationen? Illustration: Note(Person-ID, Fach-ID, Note) Person(Person-ID, Alter) Welche ist die Basisrelation? Datenbankinhalt: eine Person (Alter: 3) mit fünfmal,0; fünf Personen mit Alter 3 mit einmal,0. D. h. Durchschnittsnote der 3-altrigen ist 3,0. Gesucht: Durchschnittsnote mit Alter 3 (d. h. wir brauchen den Join). Stichprobe: Zwei Personen z Data Warehousing und Mining: Approximative Anfrageergebnisse 3 Data Warehousing und Mining: Approximative Anfrageergebnisse

7 Join- () Beispiel Fortsetzung Unser Problem war ja: Wie sieht Stichprobe der Datenbank aus, so daß Query Processing möglich? Für jede Relation r i kann man man einen maximalen Fremdschlüssel-Join J(r i ) mit r i als Basisrelation bestimmen. - - Fremdschlüssel-Joins sind z. B.: N P N P D N F T N P D F N P F T N P D F T Abhängigkeitsgraph Beispielszenario P D N T F Keine Fremdschlüssel-Joins sind z. B.: N D P N P D T P F T Data Warehousing und Mining: Approximative Anfrageergebnisse 5 Data Warehousing und Mining: Approximative Anfrageergebnisse 6 Join- () Join- Theorem Sei S i eine Stichprobe der Relation r i. J(S i ), d. h. Berechnung jenes maximalen Fremdschlüssel-Joins mit S i anstatt mit r i als Basisrelation, ist Join-Synopse. Es werden Join- aller Relationen berechnet und gespeichert. Bei Anfragen werden keine Joins mehr berechnet. - - u Knoten im Schemagraphen, r Relation, die u entspricht, J(r ) Ergebnis des maximalen Foreign Key Joins r r k J(S u ) dto. S u r r k Theorem: π a J(S u ) ist eine uniforme Stichprobe von π a (r r k ) = π a J(r ), mit S u Tupeln. z Data Warehousing und Mining: Approximative Anfrageergebnisse 7 Data Warehousing und Mining: Approximative Anfrageergebnisse 8

8 Komprimierung Im folgenden: Techniken, die üblicherweise bessere Ergebnisse liefern als Random Sampling. Orthogonal zu den bisherigen Überlegungen: Bis jetzt: Welche Daten sind Grundlage der Komprimierung/Stichprobe? Im folgenden: Welche Komprimierungstechnik? Originalwerte:,,,,,, 6, 6, 6, 6, 7,,, 5, 5, 5, 9, 9, 9, 9, 9 Häufigkeit 5 0 Jedem Wert entspricht ein Bucket Attributwerte Attributwert Häufigkeit Kompaktere Darstellung als ursprüngliche Werteliste. Data Warehousing und Mining: Approximative Anfrageergebnisse 9 Data Warehousing und Mining: Approximative Anfrageergebnisse 30 Erläuterungen Equi-Width Zeigt Häufigkeit, mit der einzelne Werte auftreten. Die Breite aller Buckets ist gleich. Kompression: Einteilen der Dimension in eine vorgegebene Anzahl Intervalle = Buckets, sehr verbreitet in der Praxis, i. a. relativ gute Approximation, Alternativen bezüglich Partitionierung; Auswahl schwierig. Häufigkeit Attributwerte Attributwerte [, 6] [7, ] [, 9] Häufigkeit 7 + = + = = 8 Data Warehousing und Mining: Approximative Anfrageergebnisse 3 Data Warehousing und Mining: Approximative Anfrageergebnisse 3

9 Equi-Depth Probleme mit n Die Tiefe aller Buckets (Summe der Häufigkeiten) ist überall gleich. Häufigkeit 5 Bucket Bucket Bucket 3 Ungeeignet für viele Dimensionen, keine Antwortverfeinerung, Genauigkeit der Approximation könnte noch besser sein, wie wir gleich sehen werden. wird im folgenden verbessert Attributwerte Attributwerte [6, ] [5, 9] Häufigkeit 6 3 x = 6 x 3 = 6 Data Warehousing und Mining: Approximative Anfrageergebnisse 33 Data Warehousing und Mining: Approximative Anfrageergebnisse 3 Gliederung Signalverarbeitungstechnik zur Reduktion eines d-dimensionalen Signals, Vereinfachung des Signals: Ausreißer ausgleichen, ohne Gesamtbild zu beeinträchtigen. Wavelet-Zerlegung, Evaluierung einfacher Anfragen, Komprimierung, Zerlegung im Mehrdimensionalen, approximative Evaluierung von Ausdrücken der relationalen Algebra, - - approximative Evaluierung von Anfragen im Data Cube. - - Data Warehousing und Mining: Approximative Anfrageergebnisse 35 Data Warehousing und Mining: Approximative Anfrageergebnisse 36

10 Ausgangsdaten Signal S Wavelet-Zerlegung, stark vereinfacht Data Warehousing und Mining: Approximative Anfrageergebnisse 37 Data Warehousing und Mining: Approximative Anfrageergebnisse Schritt Außerdem: Man hebt i.a. noch sog. Detail-Koeffizienten auf, die Rekonstruktion des Signals erlauben. Hier im Beispiel: [0, -, -, 0] Wavelet-Zerlegung, stark vereinfacht () - Wavelet-Zerlegung (3) Auflösung Werte Detail- Koeffizienten 8 [,, 0,, 3, 5,, ] [,,, ] [0, -, -, 0] [½, ] [½, 0] [¾] [-¼] Zerlegung ˆ S = [ 3,,,0, 0,,,0] Mittel St. St. Stufe 3 -. Schritt,5 Außerdem: Man hebt i.a. noch sog. Detail-Koeffizienten auf, die Rekonstruktion des Signals erlauben, hier [½, 0]. Data Warehousing und Mining: Approximative Anfrageergebnisse 39 - Noch kein Informationsverlust, Gleiches Datenvolumen wie Ausgangsdaten. Wie rekonstruiert man Element des ursprünglichen Signals? Data Warehousing und Mining: Approximative Anfrageergebnisse 0

11 - - Query-Evaluierung Point-Query Exakte Evaluierung der Anfrage: Ŝ() S(0) Ŝ() Ŝ(0).75 Ŝ() Ŝ(5) Ŝ(6) Ŝ(7) S() 0 S() S(3) 3 S() 5 S(5) Bsp. : S(3) = Sˆ(0) + Sˆ() Sˆ() Sˆ(5) Ŝ(3) S(6) S(7) +, wenn in linker Hälfte;, wenn in rechter Hälfte. Data Warehousing und Mining: Approximative Anfrageergebnisse - - Summe(:5) Queryevaluierung Range Query Beispiel: Summe (:5) S(0) = S() = S() = S(3) = S() = S(5) = S(6) = S(7) = Sˆ(0) + Sˆ(0) + Sˆ(0) + Sˆ(0) + Sˆ(0) Sˆ(0) Sˆ(0) Sˆ(0) Sˆ() + Sˆ() Sˆ() + Sˆ() Sˆ() Sˆ() Sˆ() Sˆ() Sˆ() + Sˆ() + Sˆ() Sˆ() Sˆ(3) Sˆ(3) Sˆ(3) Sˆ(3) + Sˆ() Sˆ() + Sˆ(5) Sˆ(5) + Sˆ(6) Sˆ(6) Summe ( : 5) = Sˆ(0) Sˆ() + Sˆ(3) Die Koeffizienten weiter hinten haben einen viel kleineren Einfluß auf die Summe und heben sich oft sogar auf. + Sˆ(7) Sˆ(7) Data Warehousing und Mining: Approximative Anfrageergebnisse - - Alternative Codierung der Koeffizienten Mit bisheriger Darstellung geht Bedeutung der Koeffizienten aus Position hervor. Zerlegung ˆ S = [ 3,,,0, 0,,,0] Mittel St. St. Stufe 3 Alternative Darstellungen ohne diese Eigenschaft: 3 Sˆ' = {(,0),(7,0),(5, ),(, ),(3,0),(0, ),(6, ),(, )} Sˆ" = {(3,0,0),(3,3,0),(3,, ),(,0, 3,, ),(,0, )} ( (Erste Tupel-Komponente: Stufe, zweite Komponente: Position, dritte: Wert) ),(,,0),(0,0, 3 ), - - Komprimierung Bis jetzt kein Informationsverlust, aber auch keine Komprimierung. Komprimierung möglich durch Weglassen weniger wichtiger Koeffizienten, tendenziell die hinteren. Die wegzulassenden Koeffizienten werden so ausgewählt, daß der Approximation Error möglichst klein ist. Zwei Aspekte: Wie wird der Fehler gemessen? Gegeben Vektoren von Einzelfehlern, wie werden diese verglichen? D. h. wie berechnet man den Gesamtfehler? L p -Norm Data Warehousing und Mining: Approximative Anfrageergebnisse 3 Data Warehousing und Mining: Approximative Anfrageergebnisse

12 Auswahl der Koeffizienten () Auswahl der Koeffizienten () - Normalisierung der Koeffizienten: Koeffizienten Ŝ( j ),, Ŝ( j+ -) teilen durch Also beispielsweise: Ŝ(0) Wurzel bleibt unverändert. Ŝ() Abweichung linke Hälfte/rechte Hälfte teilen durch sqrt(). Ŝ() Abweichung erstes Viertel/zweites Viertel teilen durch sqrt(); dto Ŝ(3). Ŝ() - Ŝ(7) teilen durch sqrt(). j - Einfaches Szenario: Anfragen sind alle Point-Queries. -Norm der absoluten Fehler. Man kann zeigen, daß Auswahl der größten Koeffizienten (nach Normalisierung) den -Fehler für alle Point-Queries minimiert. Ŝ(8) - Ŝ(5) teilen durch sqrt(8). - - Data Warehousing und Mining: Approximative Anfrageergebnisse 5 Data Warehousing und Mining: Approximative Anfrageergebnisse 6 Begrifflichkeiten. Decomposition: Zerlegung des Data Cubes in Wavelet-Koeffizienten.. Ranking und Thresholding: Nur die wichtigsten Koeffizienten werden behalten. 3. Reconstruction: Aus den wichtigsten k Koeffizienten wird approximative Antwort rekonstruiert, k je nach verfügbarer Zeit. Standard-Zerlegung im Mehrdimensionalen Eine Dimension nach der anderen betrachten. Jede Zeile entlang der Dimension gemäß eben vorgestelltem Verfahren transformieren Data Warehousing und Mining: Approximative Anfrageergebnisse 7 Data Warehousing und Mining: Approximative Anfrageergebnisse 8

13 Nicht-Standardzerlegung in zwei Dimensionen Formeln für Zerlegung - - Ursprüngliches Array Nach Neuanordnung Nach erster Decomposition Nach zweiter Decomposition Data Warehousing und Mining: Approximative Anfrageergebnisse a + b c d a + b + c + d a + d b c a + c b d Links oben: c, rechts oben: d, Links unten: a, rechts unten: b. Ursprüngliche Inhalte der Zellen lassen sich wiederum rekonstruieren. Data Warehousing und Mining: Approximative Anfrageergebnisse Nicht-Standardzerlegung in zwei Dimensionen Ursprüngliches Array Nach Neuanordnung Nach erster Decomposition Nach zweiter Decomposition Data Warehousing und Mining: Approximative Anfrageergebnisse 5 Alternative Codierung der Koeffizienten Mit bisheriger Darstellung geht Bedeutung der Koeffizienten aus Position hervor. Zerlegung ˆ S = [ 3,,,0, 0,,,0] Folie von vorhin - - Mittel St. St. Stufe 3 Alternative Darstellungen ohne diese Eigenschaft: 3 Sˆ' = {(,0),(7,0),(5, ),(, ),(3,0),(0, ),(6, ),(, Sˆ" = {(3,0,0),(3,3,0),(3,, ),(,0, 3,, ),(,0, )} ( (Erste Tupel-Komponente: Stufe, zweite Komponente: Position, dritte: Wert) )} Data Warehousing und Mining: Approximative Anfrageergebnisse 5 ),(,,0),(0,0, 3 ),

14 Bedeutung der Koeffizienten Repräsentation der Koeffizienten () Wie kann man die Koeffizienten abspeichern? Verallgemeinerung des eindim. Falls Signal nach Decomposition Ursprüngliches Signal - - Größe und Position des Quadrats, Muster (vier im zweidim. Fall; Muster/Farbe stehen für Art der Verrechnung ), Wert. Data Warehousing und Mining: Approximative Anfrageergebnisse 53 Data Warehousing und Mining: Approximative Anfrageergebnisse 5 Repräsentation der Koeffizienten () Relation Wavelet-Repräsentation - Im folgenden: Bedeutung eines Koeffizienten geht nicht mehr aus der Position in der Liste/ im Cube hervor, sondern wird explizit gemacht. Koeffizient wird durch Tripel W=(R,S,v) repräsentiert. v Wert, R Hyper-Rechteck, S Vorzeichen (d. h. Muster ). Gut geeignet für relationale Speicherung. - Attribute Dimensionen, Zahl im Raum Anzahl entsprechender Tupel, Dann: Wavelet-Zerlegung, wie eben beschrieben. Illustration: Kunden-ID Alter Einkommen Kontostand HS AS Kontostand Alter y - z - Einkommen Data Warehousing und Mining: Approximative Anfrageergebnisse 55 Data Warehousing und Mining: Approximative Anfrageergebnisse 56

15 Query-Processing unter Verwendung von () Query-Processing unter Verwendung von () - - Herkömmliches relationales Query Processing: Mengen von Tupeln (Tabellen), Algebra-Operatoren, die aus (einer oder mehrerer) Tabellen neue Tabelle erzeugen. - - Jetzt: Mengen von Koeffizienten (nur die wichtigsten), gleiche Algebra-Operatoren wie in der relationalen Algebra und Aggregation, Algebra-Operatoren erzeugen aus einer (oder mehreren) Menge(n) von Koeffizienten neue Menge. Data Warehousing und Mining: Approximative Anfrageergebnisse 57 Data Warehousing und Mining: Approximative Anfrageergebnisse 58 Query-Processing () Query-Processing () Illustration am Beispiel des Select-Operators. Diese Technik läßt sich kombinieren mit den Überlegungen zu Join-. D. h. Wavelet-Zerlegung der maximalen Fremdschlüssel-Joins z Data Warehousing und Mining: Approximative Anfrageergebnisse 59 Data Warehousing und Mining: Approximative Anfrageergebnisse 60

16 Data Cube Repräsentation aggregierter Werte Opel Audi - BMW Hessen Bayern Saarland Bundesland - Marke Datum Marke Bundesland Anzahl BMW Hessen 8 BMW Bayern 37 BMW Saarland Opel Hessen 8 Opel Bayern 6 Opel Saarland 00 Audi Hessen 55 Audi Bayern - - Anfragen im Data Cube () Bisher: Anfragen haben stets die gleichen Dimensionen, keine Berücksichtigung von Aggregaten. Das ist aber im folgenden das Ziel. Standardzerlegung. Darstellung der Koeffizienten als Vektor c=(i,, i d, S, v) S Vorzeichen, v Wert, i j Intervall in Dimension j i j =0 gesamtes Intervall; Data Warehousing und Mining: Approximative Anfrageergebnisse 6 Data Warehousing und Mining: Approximative Anfrageergebnisse 6 Anfragen im Data Cube () Szenario, das den Überlegungen von Vitter/Wang zugrundeliegt Bereichsanfragen mit folgendem Anfragemuster: Auswahl der Dimensionen zufällig, für nicht ausgewählte Dimensionen Aggregation über gesamte Dimension. Für ausgewählte Dimension Intervalle zufällig auswählen. Anfragen im Data Cube (3) Vermutung/Behauptung von Vitter/Wang: Koeffizient mit mehr Nullen in den i j s trägt mit größerer Wahrscheinlichkeit zu d -dimensionaler range-sum Query bei. Heuristisches Vorgehen zur Auswahl der Koeffizienten, die man behält:. Auswahl von C Koeffizienten mit dem größten Wert, - -. Aus diesen Auswahl von C Koeffizienten mit den meisten Nullen. - - Data Warehousing und Mining: Approximative Anfrageergebnisse 63 Data Warehousing und Mining: Approximative Anfrageergebnisse 6

17 Eigenschaften dieses Algorithmus Literatur Relativ gute Approximation bei praktisch allen Kompressionsraten und Datencharakteristika (dense/sparse). Ergebnis schrittweise verfeinerbar. Swarup Acharya et al. Join Synopses for Approximate Query Answering. Proceedings of the 999 ACM SIGMOD International Conference on Management of Data. - Inkrementelles Update schwierig J. S. Vitter, Min Wang. Approximate Computation of Multidimensional Aggregates of Sparse Data Using. Proceedings of the 999 ACM SIGMOD International Conference on Management of Data. Kaushik Chakrabarti et al. Approximate Query Processing Using. Proc. of the 6th Int'l Conference on Very Large Databases, Data Warehousing und Mining: Approximative Anfrageergebnisse 65 Data Warehousing und Mining: Approximative Anfrageergebnisse 66 Prüfungsfragen, beispielhaft () Prüfungsfragen, beispielhaft () In der Vorlesung wurde illustriert, wie der select-operator auf Wavelet-Koeffizienten arbeitet. Illustrieren Sie nun in ähnlicher Weise, wie der project-operator funktioniert. Was ist der Zusammenhang zwischen approximativen Anfrageergebnissen in unserem Kontext und Komprimierung? Welche Anforderungen an Komprimierungsverfahren ergeben sich in unserem Kontext? Warum sollte man Anfragen nicht auf Samples der Basisrelationen ausführen, selbst wenn man mit ungefähren Ergebnissen zufrieden ist? Wie sieht Maintenance der bei Updates aus? (Beispiel für Frage für Kandidaten mit hohen bis sehr hohen Ansprüchen) Wie lassen sich Relationen Wavelet-basiert komprimieren? Wie funktioniert die Auswertung von Operatoren der relationalen Algebra, z. B. select, project, join (etwas schwieriger). Erklären Sie die folgenden Begriffe: Online Aggregation, Join, Equi-Width-/Equi-Depth Histogramm. Data Warehousing und Mining: Approximative Anfrageergebnisse 67 Data Warehousing und Mining: Approximative Anfrageergebnisse 68