Kapitel 8: Approximative Anfrageergebnisse

Größe: px
Ab Seite anzeigen:

Download "Kapitel 8: Approximative Anfrageergebnisse"

Transkript

1 Kapitel 8: Approximative Anfrageergebnisse () Weshalb approximative Antworten? Exakte Abfragen können zu lange dauern bei großem Datenvolumen. Antwortensollenauchmöglichsein, wenn Daten teilweise nicht verfügbar sind (z. B. bei teilweisem Ausfall der Datenspeicher). Nur komprimierte Daten verfügbar. Data Warehousing und Mining: Approximative Anfrageergebnisse Data Warehousing und Mining: Approximative Anfrageergebnisse () () Weshalb approximative Antworten (Forts.)? Anfragender ist an raschen, ungefähren Ergebnissen interessiert, wenn er den Datenbestand erkunden will, er überprüfen will, ob Anfrage wohlformuliert ist. Ergebnisse von Aggregatsfunktionen wie avg, sum und count erfordern nicht immer volle Präzision, sind also ideale Kandidaten für Approximation. Was ist überhaupt eine approximative Antwort? Ungefährer Wert mit Vertrauensintervall, obere bzw. untere Schranke. Beispiele: Durchschnittliche Verkäufe 999: 000, +/- 00 Anzahl Einbrüche Januar: <=000 Beschränkung auf OLAP-/Datenanalyse-Szenarien; andere Bedingungen im Bereich Ähnlichkeitssuche. Data Warehousing und Mining: Approximative Anfrageergebnisse 3 Data Warehousing und Mining: Approximative Anfrageergebnisse

2 Motivation für Komprimierung Anforderung an Kompression Platz sparen bei riesigen Datenmengen (bis mehrere TB). Erlaubt Kopien, z. B. auf Laptops. Schnelle (approximative) Beantwortung von Range Queries mit herkömmlichen Query-Processing Mechanismen. Kleiner Platzbedarf der komprimierten Daten (Kompression soll z. B. um Faktor 00 kleiner sein), kleine Qualitätseinbuße bei Kompression, am besten innerhalb einstellbarer und voraussagbarer Grenzen, schnelle und direkte Beantwortung der Queries aus komprimierten Daten, explizite Abstufung der Qualität bei Anfragebeantwortung möglich, effiziente inkrementelle Updates der komprimierten Daten möglich. Data Warehousing und Mining: Approximative Anfrageergebnisse 5 Data Warehousing und Mining: Approximative Anfrageergebnisse 6 Notwendigkeit für Komprimierung bei multidimensionaler Sicht Mögliche Fehlermaße Zeit Guinness Kilkenny s Murphy s W W W3 Marke PW Oliver Nelson s Twist Pub Aggregationen wie insbes. Summe, Durchschnitt oder Count Viele zusätzliche Punkte, wenn Aggregate betrachtet werden (für jede Projektionsmöglichkeit) Bei dünn gesäten (sparse) Daten sehr viel mehr Punkte durch Aggregation (relativ gesehen). Fehlerart Definition Erklärung absoluter Wert Approx. Standard-Definition Fehler F abs relativer Wert Approx. Relativer Fehler Fehler F rel max{, Wert} macht keinen Sinn, wenn Wert = 0. kombinierter min{ α Fabs, β Frel} Oft sind wir zufrieden, Fehler wenn absoluter oder relativer Fehler klein. Kleine Werte: OK, absoluten Fehler zu betrachten; große Werte: dto. relativer Fehler. Data Warehousing und Mining: Approximative Anfrageergebnisse 7 Data Warehousing und Mining: Approximative Anfrageergebnisse 8

3 Gliederung Online Aggregation (). Benutzerperspektive (eine Folie),. Stichproben Problem: mehrere Relationen, 3. Bessere ungefähre Zusammenfassung des Datenbestands als mit Stichproben. : Vertrauensintervall wird angezeigt und ständig verbessert. Anfragender kann Berechnung abbrechen, sobald zufrieden. Approximativer Wert: Vertrauensintervall: ±0.75 Abbrechen Verstrichene Zeit: h5m8s Neustart Data Warehousing und Mining: Approximative Anfrageergebnisse 9 Data Warehousing und Mining: Approximative Anfrageergebnisse 0 Online Aggregation () Eigenschaften des es: Von exakten zu ungefähren Repräsentationen des Datenbestands Vorteil: Beliebig genaue Annäherungen möglich, direkter Zugriff auf die Datenquellen, teilweise kombinierbar mit dem, was im folgenden kommt. Online Aggregation funktioniert für den ursprünglichen Datenbestand, Im folgenden: Zusammenfassung/Komprimierung des Datenbestands und Queryevaluierung für approximative Ergebnisse. Stichproben, (nur kurz), basierend auf. Data Warehousing und Mining: Approximative Anfrageergebnisse Data Warehousing und Mining: Approximative Anfrageergebnisse

4 Base Samples Thema im folgenden: Stichproben bei mehreren Relationen, Grundsätzlicher : Stichprobe/Zusammenfassung des Datenbestands ( ) wird generiert, Queries, für die approximative Antworten OK sind, werden über den evaluiert, Szenario: Azyklischer Query Graph. (Query Graph: Knoten sind Relationen, die in der Query vorkommen, Kanten entsprechen Join-Beziehungen.) - - Naiver : Base Samples. Base Samples sind uniforme Stichproben jeder Relation, d.h. jeder Tupel ist mit gleicher Wahrscheinlichkeit in der Stichprobe. Data Warehousing und Mining: Approximative Anfrageergebnisse 3 Data Warehousing und Mining: Approximative Anfrageergebnisse Base Samples Illustration Probleme mit Base Samples Book Invno Title ISBN Author 0007 Dr. No 3-5 James Bond 0 Objektbanken 3- Heuer 7 Datenbanken Vossen 7 Datenbanken 3-89 Ullman 77 Pascal Wirth Lending Invno Name 7 Meyer 0 Schulz 0007 Müller 7 Meyer. - - Base Samples sind problematisch, wenn Queries Relationen mit Join verknüpfen.. Join von uniformen Stichproben ist keine uniforme Stichprobe des Joins.. Sehr kleine Ergebnisgrößen. Book Invno Title ISBN Author 0007 Dr. No 3-5 James Bond 0 Objektbanken 3- Heuer 7 Datenbanken Vossen Lending Invno Name 7 Meyer 0 Schulz Data Warehousing und Mining: Approximative Anfrageergebnisse 5 Data Warehousing und Mining: Approximative Anfrageergebnisse 6

5 Illustration der Probleme (). Join von uniformen Stichproben ist keine uniforme Stichprobe des Joins. R.X a b a b a a b Jeder Tupel aus R und S ist mit WS=/r in der Stichprobe. a, a, b sind Tupel des Joins. WS(a a)=/r 3 WS(a b)= /r, wenn Join über den Stichproben. a b S.X - - Illustration der Probleme () R.X a b a b a a b. Sehr kleine Ergebnisgrößen. Gleiche Wahrscheinlichkeiten (WS=/r) Ergebnisgröße: /r tatsächliche Größe beim Foreign Key Join. a b S.X Data Warehousing und Mining: Approximative Anfrageergebnisse 7 Data Warehousing und Mining: Approximative Anfrageergebnisse 8 Abhängigkeitsgraph der Relationen () Beispiel-Schema Grundlage für Definition von Join ist der Abhängigkeitsgraph der Relationen im DB-Schema. Knoten sind Relationen, Kanten sind Fremdschlüssel-Attribute. A ID B bedeutet: ID ist ein Fremdschlüssel für B.ID in A. D. h. Relation, die Ausgangspunkt des Pfeils ist, enthält Fremdschlüssel, die andere Relation enthält den Schlüssel. PERSON P_ID Name D_ID Szenario: Prüfungen der an TH KA FAKULTÄT D_ID DName - - NOTEN P_ID F_ID Semester Note Basisrelation TYP T_ID TName FACH F_ID FName T_ID Data Warehousing und Mining: Approximative Anfrageergebnisse 9 Data Warehousing und Mining: Approximative Anfrageergebnisse 0

6 Abhängigkeitsgraph der Relationen () Beispiel Fortsetzung Ein Join der Relationen A und B über eine solche Kante heißt Fremdschlüssel-Join. Die Relation A heißt dann Basisrelation des Joins. Verallgemeinerung über mehrere Stufen ist möglich (s. b. folgende Folien). - - Fremdschlüssel-Joins sind z. B.: N P N P D N F T N P D F N P F T N P D F T Abhängigkeitsgraph Beispielszenario P D N T F Keine Fremdschlüssel-Joins sind z. B.: N D P N P D T P F T Data Warehousing und Mining: Approximative Anfrageergebnisse Data Warehousing und Mining: Approximative Anfrageergebnisse Stichprobe von Joins Warum Stichprobe der Basisrelation? Lemma: Zwischen einem Tupel einer Relation r und einem Tupel eines Fremdschlüssel-Joins mit r als Basisrelation besteht :-Relation. Beispiel: Tupel aus Relation NOTEN entspricht genau ein Tupel aus NOTEN PERSON. Was bedeutet das Lemma? Sichprobe über r als Basisrelation für Fremdschlüssel-Join ist Stichprobe von Joins. - - Warum keine Stichprobe der anderen am Join beteiligten Relationen? Illustration: Note(Person-ID, Fach-ID, Note) Person(Person-ID, Alter) Welche ist die Basisrelation? Datenbankinhalt: eine Person (Alter: 3) mit fünfmal,0; fünf Personen mit Alter 3 mit einmal,0. D. h. Durchschnittsnote der 3-altrigen ist 3,0. Gesucht: Durchschnittsnote mit Alter 3 (d. h. wir brauchen den Join). Stichprobe: Zwei Personen z Data Warehousing und Mining: Approximative Anfrageergebnisse 3 Data Warehousing und Mining: Approximative Anfrageergebnisse

7 Join- () Beispiel Fortsetzung Unser Problem war ja: Wie sieht Stichprobe der Datenbank aus, so daß Query Processing möglich? Für jede Relation r i kann man man einen maximalen Fremdschlüssel-Join J(r i ) mit r i als Basisrelation bestimmen. - - Fremdschlüssel-Joins sind z. B.: N P N P D N F T N P D F N P F T N P D F T Abhängigkeitsgraph Beispielszenario P D N T F Keine Fremdschlüssel-Joins sind z. B.: N D P N P D T P F T Data Warehousing und Mining: Approximative Anfrageergebnisse 5 Data Warehousing und Mining: Approximative Anfrageergebnisse 6 Join- () Join- Theorem Sei S i eine Stichprobe der Relation r i. J(S i ), d. h. Berechnung jenes maximalen Fremdschlüssel-Joins mit S i anstatt mit r i als Basisrelation, ist Join-Synopse. Es werden Join- aller Relationen berechnet und gespeichert. Bei Anfragen werden keine Joins mehr berechnet. - - u Knoten im Schemagraphen, r Relation, die u entspricht, J(r ) Ergebnis des maximalen Foreign Key Joins r r k J(S u ) dto. S u r r k Theorem: π a J(S u ) ist eine uniforme Stichprobe von π a (r r k ) = π a J(r ), mit S u Tupeln. z Data Warehousing und Mining: Approximative Anfrageergebnisse 7 Data Warehousing und Mining: Approximative Anfrageergebnisse 8

8 Komprimierung Im folgenden: Techniken, die üblicherweise bessere Ergebnisse liefern als Random Sampling. Orthogonal zu den bisherigen Überlegungen: Bis jetzt: Welche Daten sind Grundlage der Komprimierung/Stichprobe? Im folgenden: Welche Komprimierungstechnik? Originalwerte:,,,,,, 6, 6, 6, 6, 7,,, 5, 5, 5, 9, 9, 9, 9, 9 Häufigkeit 5 0 Jedem Wert entspricht ein Bucket Attributwerte Attributwert Häufigkeit Kompaktere Darstellung als ursprüngliche Werteliste. Data Warehousing und Mining: Approximative Anfrageergebnisse 9 Data Warehousing und Mining: Approximative Anfrageergebnisse 30 Erläuterungen Equi-Width Zeigt Häufigkeit, mit der einzelne Werte auftreten. Die Breite aller Buckets ist gleich. Kompression: Einteilen der Dimension in eine vorgegebene Anzahl Intervalle = Buckets, sehr verbreitet in der Praxis, i. a. relativ gute Approximation, Alternativen bezüglich Partitionierung; Auswahl schwierig. Häufigkeit Attributwerte Attributwerte [, 6] [7, ] [, 9] Häufigkeit 7 + = + = = 8 Data Warehousing und Mining: Approximative Anfrageergebnisse 3 Data Warehousing und Mining: Approximative Anfrageergebnisse 3

9 Equi-Depth Probleme mit n Die Tiefe aller Buckets (Summe der Häufigkeiten) ist überall gleich. Häufigkeit 5 Bucket Bucket Bucket 3 Ungeeignet für viele Dimensionen, keine Antwortverfeinerung, Genauigkeit der Approximation könnte noch besser sein, wie wir gleich sehen werden. wird im folgenden verbessert Attributwerte Attributwerte [6, ] [5, 9] Häufigkeit 6 3 x = 6 x 3 = 6 Data Warehousing und Mining: Approximative Anfrageergebnisse 33 Data Warehousing und Mining: Approximative Anfrageergebnisse 3 Gliederung Signalverarbeitungstechnik zur Reduktion eines d-dimensionalen Signals, Vereinfachung des Signals: Ausreißer ausgleichen, ohne Gesamtbild zu beeinträchtigen. Wavelet-Zerlegung, Evaluierung einfacher Anfragen, Komprimierung, Zerlegung im Mehrdimensionalen, approximative Evaluierung von Ausdrücken der relationalen Algebra, - - approximative Evaluierung von Anfragen im Data Cube. - - Data Warehousing und Mining: Approximative Anfrageergebnisse 35 Data Warehousing und Mining: Approximative Anfrageergebnisse 36

10 Ausgangsdaten Signal S Wavelet-Zerlegung, stark vereinfacht Data Warehousing und Mining: Approximative Anfrageergebnisse 37 Data Warehousing und Mining: Approximative Anfrageergebnisse Schritt Außerdem: Man hebt i.a. noch sog. Detail-Koeffizienten auf, die Rekonstruktion des Signals erlauben. Hier im Beispiel: [0, -, -, 0] Wavelet-Zerlegung, stark vereinfacht () - Wavelet-Zerlegung (3) Auflösung Werte Detail- Koeffizienten 8 [,, 0,, 3, 5,, ] [,,, ] [0, -, -, 0] [½, ] [½, 0] [¾] [-¼] Zerlegung ˆ S = [ 3,,,0, 0,,,0] Mittel St. St. Stufe 3 -. Schritt,5 Außerdem: Man hebt i.a. noch sog. Detail-Koeffizienten auf, die Rekonstruktion des Signals erlauben, hier [½, 0]. Data Warehousing und Mining: Approximative Anfrageergebnisse 39 - Noch kein Informationsverlust, Gleiches Datenvolumen wie Ausgangsdaten. Wie rekonstruiert man Element des ursprünglichen Signals? Data Warehousing und Mining: Approximative Anfrageergebnisse 0

11 - - Query-Evaluierung Point-Query Exakte Evaluierung der Anfrage: Ŝ() S(0) Ŝ() Ŝ(0).75 Ŝ() Ŝ(5) Ŝ(6) Ŝ(7) S() 0 S() S(3) 3 S() 5 S(5) Bsp. : S(3) = Sˆ(0) + Sˆ() Sˆ() Sˆ(5) Ŝ(3) S(6) S(7) +, wenn in linker Hälfte;, wenn in rechter Hälfte. Data Warehousing und Mining: Approximative Anfrageergebnisse - - Summe(:5) Queryevaluierung Range Query Beispiel: Summe (:5) S(0) = S() = S() = S(3) = S() = S(5) = S(6) = S(7) = Sˆ(0) + Sˆ(0) + Sˆ(0) + Sˆ(0) + Sˆ(0) Sˆ(0) Sˆ(0) Sˆ(0) Sˆ() + Sˆ() Sˆ() + Sˆ() Sˆ() Sˆ() Sˆ() Sˆ() Sˆ() + Sˆ() + Sˆ() Sˆ() Sˆ(3) Sˆ(3) Sˆ(3) Sˆ(3) + Sˆ() Sˆ() + Sˆ(5) Sˆ(5) + Sˆ(6) Sˆ(6) Summe ( : 5) = Sˆ(0) Sˆ() + Sˆ(3) Die Koeffizienten weiter hinten haben einen viel kleineren Einfluß auf die Summe und heben sich oft sogar auf. + Sˆ(7) Sˆ(7) Data Warehousing und Mining: Approximative Anfrageergebnisse - - Alternative Codierung der Koeffizienten Mit bisheriger Darstellung geht Bedeutung der Koeffizienten aus Position hervor. Zerlegung ˆ S = [ 3,,,0, 0,,,0] Mittel St. St. Stufe 3 Alternative Darstellungen ohne diese Eigenschaft: 3 Sˆ' = {(,0),(7,0),(5, ),(, ),(3,0),(0, ),(6, ),(, )} Sˆ" = {(3,0,0),(3,3,0),(3,, ),(,0, 3,, ),(,0, )} ( (Erste Tupel-Komponente: Stufe, zweite Komponente: Position, dritte: Wert) ),(,,0),(0,0, 3 ), - - Komprimierung Bis jetzt kein Informationsverlust, aber auch keine Komprimierung. Komprimierung möglich durch Weglassen weniger wichtiger Koeffizienten, tendenziell die hinteren. Die wegzulassenden Koeffizienten werden so ausgewählt, daß der Approximation Error möglichst klein ist. Zwei Aspekte: Wie wird der Fehler gemessen? Gegeben Vektoren von Einzelfehlern, wie werden diese verglichen? D. h. wie berechnet man den Gesamtfehler? L p -Norm Data Warehousing und Mining: Approximative Anfrageergebnisse 3 Data Warehousing und Mining: Approximative Anfrageergebnisse

12 Auswahl der Koeffizienten () Auswahl der Koeffizienten () - Normalisierung der Koeffizienten: Koeffizienten Ŝ( j ),, Ŝ( j+ -) teilen durch Also beispielsweise: Ŝ(0) Wurzel bleibt unverändert. Ŝ() Abweichung linke Hälfte/rechte Hälfte teilen durch sqrt(). Ŝ() Abweichung erstes Viertel/zweites Viertel teilen durch sqrt(); dto Ŝ(3). Ŝ() - Ŝ(7) teilen durch sqrt(). j - Einfaches Szenario: Anfragen sind alle Point-Queries. -Norm der absoluten Fehler. Man kann zeigen, daß Auswahl der größten Koeffizienten (nach Normalisierung) den -Fehler für alle Point-Queries minimiert. Ŝ(8) - Ŝ(5) teilen durch sqrt(8). - - Data Warehousing und Mining: Approximative Anfrageergebnisse 5 Data Warehousing und Mining: Approximative Anfrageergebnisse 6 Begrifflichkeiten. Decomposition: Zerlegung des Data Cubes in Wavelet-Koeffizienten.. Ranking und Thresholding: Nur die wichtigsten Koeffizienten werden behalten. 3. Reconstruction: Aus den wichtigsten k Koeffizienten wird approximative Antwort rekonstruiert, k je nach verfügbarer Zeit. Standard-Zerlegung im Mehrdimensionalen Eine Dimension nach der anderen betrachten. Jede Zeile entlang der Dimension gemäß eben vorgestelltem Verfahren transformieren Data Warehousing und Mining: Approximative Anfrageergebnisse 7 Data Warehousing und Mining: Approximative Anfrageergebnisse 8

13 Nicht-Standardzerlegung in zwei Dimensionen Formeln für Zerlegung - - Ursprüngliches Array Nach Neuanordnung Nach erster Decomposition Nach zweiter Decomposition Data Warehousing und Mining: Approximative Anfrageergebnisse a + b c d a + b + c + d a + d b c a + c b d Links oben: c, rechts oben: d, Links unten: a, rechts unten: b. Ursprüngliche Inhalte der Zellen lassen sich wiederum rekonstruieren. Data Warehousing und Mining: Approximative Anfrageergebnisse Nicht-Standardzerlegung in zwei Dimensionen Ursprüngliches Array Nach Neuanordnung Nach erster Decomposition Nach zweiter Decomposition Data Warehousing und Mining: Approximative Anfrageergebnisse 5 Alternative Codierung der Koeffizienten Mit bisheriger Darstellung geht Bedeutung der Koeffizienten aus Position hervor. Zerlegung ˆ S = [ 3,,,0, 0,,,0] Folie von vorhin - - Mittel St. St. Stufe 3 Alternative Darstellungen ohne diese Eigenschaft: 3 Sˆ' = {(,0),(7,0),(5, ),(, ),(3,0),(0, ),(6, ),(, Sˆ" = {(3,0,0),(3,3,0),(3,, ),(,0, 3,, ),(,0, )} ( (Erste Tupel-Komponente: Stufe, zweite Komponente: Position, dritte: Wert) )} Data Warehousing und Mining: Approximative Anfrageergebnisse 5 ),(,,0),(0,0, 3 ),

14 Bedeutung der Koeffizienten Repräsentation der Koeffizienten () Wie kann man die Koeffizienten abspeichern? Verallgemeinerung des eindim. Falls Signal nach Decomposition Ursprüngliches Signal - - Größe und Position des Quadrats, Muster (vier im zweidim. Fall; Muster/Farbe stehen für Art der Verrechnung ), Wert. Data Warehousing und Mining: Approximative Anfrageergebnisse 53 Data Warehousing und Mining: Approximative Anfrageergebnisse 5 Repräsentation der Koeffizienten () Relation Wavelet-Repräsentation - Im folgenden: Bedeutung eines Koeffizienten geht nicht mehr aus der Position in der Liste/ im Cube hervor, sondern wird explizit gemacht. Koeffizient wird durch Tripel W=(R,S,v) repräsentiert. v Wert, R Hyper-Rechteck, S Vorzeichen (d. h. Muster ). Gut geeignet für relationale Speicherung. - Attribute Dimensionen, Zahl im Raum Anzahl entsprechender Tupel, Dann: Wavelet-Zerlegung, wie eben beschrieben. Illustration: Kunden-ID Alter Einkommen Kontostand HS AS Kontostand Alter y - z - Einkommen Data Warehousing und Mining: Approximative Anfrageergebnisse 55 Data Warehousing und Mining: Approximative Anfrageergebnisse 56

15 Query-Processing unter Verwendung von () Query-Processing unter Verwendung von () - - Herkömmliches relationales Query Processing: Mengen von Tupeln (Tabellen), Algebra-Operatoren, die aus (einer oder mehrerer) Tabellen neue Tabelle erzeugen. - - Jetzt: Mengen von Koeffizienten (nur die wichtigsten), gleiche Algebra-Operatoren wie in der relationalen Algebra und Aggregation, Algebra-Operatoren erzeugen aus einer (oder mehreren) Menge(n) von Koeffizienten neue Menge. Data Warehousing und Mining: Approximative Anfrageergebnisse 57 Data Warehousing und Mining: Approximative Anfrageergebnisse 58 Query-Processing () Query-Processing () Illustration am Beispiel des Select-Operators. Diese Technik läßt sich kombinieren mit den Überlegungen zu Join-. D. h. Wavelet-Zerlegung der maximalen Fremdschlüssel-Joins z Data Warehousing und Mining: Approximative Anfrageergebnisse 59 Data Warehousing und Mining: Approximative Anfrageergebnisse 60

16 Data Cube Repräsentation aggregierter Werte Opel Audi - BMW Hessen Bayern Saarland Bundesland - Marke Datum Marke Bundesland Anzahl BMW Hessen 8 BMW Bayern 37 BMW Saarland Opel Hessen 8 Opel Bayern 6 Opel Saarland 00 Audi Hessen 55 Audi Bayern - - Anfragen im Data Cube () Bisher: Anfragen haben stets die gleichen Dimensionen, keine Berücksichtigung von Aggregaten. Das ist aber im folgenden das Ziel. Standardzerlegung. Darstellung der Koeffizienten als Vektor c=(i,, i d, S, v) S Vorzeichen, v Wert, i j Intervall in Dimension j i j =0 gesamtes Intervall; Data Warehousing und Mining: Approximative Anfrageergebnisse 6 Data Warehousing und Mining: Approximative Anfrageergebnisse 6 Anfragen im Data Cube () Szenario, das den Überlegungen von Vitter/Wang zugrundeliegt Bereichsanfragen mit folgendem Anfragemuster: Auswahl der Dimensionen zufällig, für nicht ausgewählte Dimensionen Aggregation über gesamte Dimension. Für ausgewählte Dimension Intervalle zufällig auswählen. Anfragen im Data Cube (3) Vermutung/Behauptung von Vitter/Wang: Koeffizient mit mehr Nullen in den i j s trägt mit größerer Wahrscheinlichkeit zu d -dimensionaler range-sum Query bei. Heuristisches Vorgehen zur Auswahl der Koeffizienten, die man behält:. Auswahl von C Koeffizienten mit dem größten Wert, - -. Aus diesen Auswahl von C Koeffizienten mit den meisten Nullen. - - Data Warehousing und Mining: Approximative Anfrageergebnisse 63 Data Warehousing und Mining: Approximative Anfrageergebnisse 6

17 Eigenschaften dieses Algorithmus Literatur Relativ gute Approximation bei praktisch allen Kompressionsraten und Datencharakteristika (dense/sparse). Ergebnis schrittweise verfeinerbar. Swarup Acharya et al. Join Synopses for Approximate Query Answering. Proceedings of the 999 ACM SIGMOD International Conference on Management of Data. - Inkrementelles Update schwierig J. S. Vitter, Min Wang. Approximate Computation of Multidimensional Aggregates of Sparse Data Using. Proceedings of the 999 ACM SIGMOD International Conference on Management of Data. Kaushik Chakrabarti et al. Approximate Query Processing Using. Proc. of the 6th Int'l Conference on Very Large Databases, Data Warehousing und Mining: Approximative Anfrageergebnisse 65 Data Warehousing und Mining: Approximative Anfrageergebnisse 66 Prüfungsfragen, beispielhaft () Prüfungsfragen, beispielhaft () In der Vorlesung wurde illustriert, wie der select-operator auf Wavelet-Koeffizienten arbeitet. Illustrieren Sie nun in ähnlicher Weise, wie der project-operator funktioniert. Was ist der Zusammenhang zwischen approximativen Anfrageergebnissen in unserem Kontext und Komprimierung? Welche Anforderungen an Komprimierungsverfahren ergeben sich in unserem Kontext? Warum sollte man Anfragen nicht auf Samples der Basisrelationen ausführen, selbst wenn man mit ungefähren Ergebnissen zufrieden ist? Wie sieht Maintenance der bei Updates aus? (Beispiel für Frage für Kandidaten mit hohen bis sehr hohen Ansprüchen) Wie lassen sich Relationen Wavelet-basiert komprimieren? Wie funktioniert die Auswertung von Operatoren der relationalen Algebra, z. B. select, project, join (etwas schwieriger). Erklären Sie die folgenden Begriffe: Online Aggregation, Join, Equi-Width-/Equi-Depth Histogramm. Data Warehousing und Mining: Approximative Anfrageergebnisse 67 Data Warehousing und Mining: Approximative Anfrageergebnisse 68

Kapitel 8: Approximative Anfrageergebnisse

Kapitel 8: Approximative Anfrageergebnisse Kapitel 8: Approximative Anfrageergebnisse (1) Weshalb approximative Antworten? Exakte Abfragen können zu lange dauern bei großem Datenvolumen. Antworten sollen auch möglich sein, wenn Daten teilweise

Mehr

Vorlesung Wissensentdeckung in Datenbanken

Vorlesung Wissensentdeckung in Datenbanken Vorlesung Wissensentdeckung in Datenbanken Data Cube Katharina Morik, Uwe Ligges Informatik LS 8 22.04.2010 1 von 26 Gliederung 1 Einführung 2 Aggregation in SQL, GROUP BY 3 Probleme mit GROUP BY 4 Der

Mehr

Vorlesung Wissensentdeckung in Datenbanken

Vorlesung Wissensentdeckung in Datenbanken Gliederung Vorlesung Wissensentdeckung in Datenbanken Data Cube Katharina Morik, Claus Weihs 14.07.2009 1 Einführung 2 Aggregation in SQL, GROUP BY 3 Probleme mit GROUP BY 4 Der Cube-Operator 5 Implementierung

Mehr

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer.

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer. Anwendung Input: Query-Bild, Ergebnis: Menge ähnlicher Bilder. Kapitel 8: Ähnlichkeitsanfragen und ihre effiziente Evaluierung Wie zu finden? Corbis, NASA: EOS Bilddatenbank Folie Folie 2 Ähnlichkeitssuche

Mehr

Data Cubes PG Wissensmangement Seminarphase

Data Cubes PG Wissensmangement Seminarphase PG 402 - Wissensmangement Seminarphase 23.10.2001-25.10.2001 Hanna Köpcke Lehrstuhl für Künstliche Intelligenz Universität Dortmund Übersicht 1. Einführung 2. Aggregation in SQL, GROUP BY 3. Probleme mit

Mehr

Data Cube. 1. Einführung. 2. Aggregation in SQL, GROUP BY. 3. Probleme mit GROUP BY. 4. Der Cube-Operator. 5. Implementierung des Data Cube

Data Cube. 1. Einführung. 2. Aggregation in SQL, GROUP BY. 3. Probleme mit GROUP BY. 4. Der Cube-Operator. 5. Implementierung des Data Cube Data Cube 1. Einführung 2. Aggregation in SQL, GROUP BY 3. Probleme mit GROUP BY 4. Der Cube-Operator 5. Implementierung des Data Cube 6. Zusammenfassung und Ausblick Dank an Hanna Köpcke! 1 On-line Analytical

Mehr

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Einleitung In welchen Situationen ist Apriori teuer, und warum? Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Data Warehousing und Mining 1 Data Warehousing und Mining 2 Schnelles Identifizieren

Mehr

Universität Trier. Fachbereich IV. Wintersemester 2004/2005. Wavelets made easy. Kapitel 2 Mehrdimensionale Wavelets und Anwendungen

Universität Trier. Fachbereich IV. Wintersemester 2004/2005. Wavelets made easy. Kapitel 2 Mehrdimensionale Wavelets und Anwendungen Universität Trier Fachbereich IV Wintersemester 2004/2005 Wavelets made easy Kapitel 2 Mehrdimensionale Wavelets und Anwendungen Thomas Queckbörner 16.11.2004 Übersicht des Kapitels: 1. Einführung 2. Zweidimensionale

Mehr

Datenbanken Unit 9: OLAP, OLTP, Data Warehouse Ranking Algorithmen

Datenbanken Unit 9: OLAP, OLTP, Data Warehouse Ranking Algorithmen Datenbanken Unit 9: OLAP, OLTP, Data Warehouse Ranking Algorithmen 28. V. 2018 Outline 1 Organisatorisches 2 OLTP, OLAP, SAP, and Data Warehouse OLTP and OLAP SAP 3 Ranking 4 SQL Organisatorisches Ergebnisse

Mehr

Multidimensionale Modellierung

Multidimensionale Modellierung Multidimensionale Modellierung Vorlesung: Übung: Patrick Schäfer Berlin, 27. November 2017 patrick.schaefer@hu-berlin.de https://hu.berlin/vl_dwhdm17 https://hu.berlin/ue_dwhdm17 Grundlagen Fakten (Kennzahlen/Messgrößen):

Mehr

Dimensionen, Measures

Dimensionen, Measures ... Operationen und peicherung Multi-dimensionaler Daten Aggregate um RED WHITE BLUE Group By (with total) By Color um Cross Tab Chevy Ford By Color RED WHITE BLUE By Make um By Make & Year By Year FORD

Mehr

Kapitel 3: Indices und Sichten

Kapitel 3: Indices und Sichten Kapitel 3: Indices und Sichten Data Warehousing und Mining - 1 Gliederung im folgenden: Klassifikation Aggregationsfunktionen, Materialisierte Sichten Grundsätzliche Alternativen beim Updaten materialisierter

Mehr

Kapitel 5: Vom relationalen zum multidimensionalen Datenmodell

Kapitel 5: Vom relationalen zum multidimensionalen Datenmodell Kapitel 5: Vom relationalen zum multidimensionalen Datenmodell Data Warehousing und Mining 1 Data Warehousing, Gliederung Dimensionen und Measures Schematypen für Data Warehousing GroupBy und Data Cubes

Mehr

Kapitel 5: Vom relationalen zum multidimensionalen Datenmodell

Kapitel 5: Vom relationalen zum multidimensionalen Datenmodell Data Warehousing, Gliederung Kapitel 5: Vom relationalen zum multidimensionalen Datenmodell Dimensionen und Measures Schematypen für Data Warehousing GroupBy und Data Cubes Operatoren für den Data Cube

Mehr

Kapitel 7 Studie: Verwaltung von E-Commerce Daten

Kapitel 7 Studie: Verwaltung von E-Commerce Daten Kapitel 7 Studie: Verwaltung von E-Coerce Daten Was ist speziell? (1 Produt-Daten, z. B. Eletronibauteile 2000 Produtategorien, insgesat über 5000 Attribute über alle Kategorien, ständig neue Teile it

Mehr

Grundlagen von Datenbanken

Grundlagen von Datenbanken Agenda: Grundlagen von Datenbanken SS 2010 3. Relationale Algebra Prof. Dr. Stefan Böttcher Universität Paderborn mit Material von Prof. Dr. Gregor Engels Grundlagen von Datenbanken - SS 2010 - Prof. Dr.

Mehr

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY Data Cube On-line Analytical Processing (OLAP). Einführung Ziel: Auffinden interessanter Muster in großen Datenmengen 2. Aggregation in SQL, GROUP BY 3. Probleme mit GROUP BY 4. Der Cube-Operator! Formulierung

Mehr

mit Musterlösungen Prof. Dr. Gerd Stumme, Dipl.-Inform. Christoph Schmitz 14. Mai 2007 σ KID= 11a (Schüler) π S Name (σ KID= 11a (Schüler))

mit Musterlösungen Prof. Dr. Gerd Stumme, Dipl.-Inform. Christoph Schmitz 14. Mai 2007 σ KID= 11a (Schüler) π S Name (σ KID= 11a (Schüler)) 3. Übung zur Vorlesung Datenbanken im Sommersemester 2007 mit Musterlösungen Prof. Dr. Gerd Stumme, Dipl.-Inform. Christoph Schmitz 14. Mai 2007 Hinweis: Wir schlagen vor, die Aufgaben in der Reihenfolge

Mehr

Antwort auf QB ist Menge von Tupeln, i-e. selbst wieder Relation (wie bei rel. Algebra) in QB "Zugriff" auf Tupel mit Tupel-Variablen

Antwort auf QB ist Menge von Tupeln, i-e. selbst wieder Relation (wie bei rel. Algebra) in QB Zugriff auf Tupel mit Tupel-Variablen Kapitel 6.3 SQL als Anfragesprache Kap. 6.3.1 Allgemeine Begriffe Identifiers: Var-Name ~ Tupel-Variable Table-Name ~ Rel., View Field-Name ~ Attribut-Bez. Key-Words: select where key is integer string

Mehr

Relationale Algebra. Thomas Heimrich. Rel. Algebra. Grundlagen. Beispielrelationen. rel. Algebra. Definition der rel. Algebra.

Relationale Algebra. Thomas Heimrich. Rel. Algebra. Grundlagen. Beispielrelationen. rel. Algebra. Definition der rel. Algebra. 1 / 17 Rel. Relationale Thomas Heimrich rel. Formale Sprachen Rel. relationale Die relationale ist prozedural orientiert. Sie beinhaltet implizit einen Abarbeitungsplan für die Anfrage. Die rel. ist wichtig

Mehr

Dieser Foliensatz darf frei verwendet werden unter der Bedingung, dass diese Titelfolie nicht entfernt wird.

Dieser Foliensatz darf frei verwendet werden unter der Bedingung, dass diese Titelfolie nicht entfernt wird. Thomas Studer Relationale Datenbanken: Von den theoretischen Grundlagen zu Anwendungen mit PostgreSQL Springer, 2016 ISBN 978-3-662-46570-7 Dieser Foliensatz darf frei verwendet werden unter der Bedingung,

Mehr

Seminar: Data Mining. Referat: Andere Möglichkeiten des Data Mining in verteilten Systemen. Ein Vortrag von Mathias Rohde. 11.

Seminar: Data Mining. Referat: Andere Möglichkeiten des Data Mining in verteilten Systemen. Ein Vortrag von Mathias Rohde. 11. Referat: Andere Möglichkeiten des Data Mining in verteilten Systemen 11. Juni 2009 Gliederung 1 Problemstellung 2 Vektorprodukt Approximationen Samplesammlung 3 Schritte Lokalität und Nachrichtenkomplexität

Mehr

3. Grundlagen relationaler Datenbanksysteme

3. Grundlagen relationaler Datenbanksysteme 3. Grundlagen relationaler Datenbanksysteme Hier nur kurze Rekapitulation, bei Bedarf nachlesen 3.1 Basiskonzepte des Relationenmodells 1 Darstellung der Miniwelt in Tabellenform (DB = Menge von Relationen

Mehr

6.6 Vorlesung: Von OLAP zu Mining

6.6 Vorlesung: Von OLAP zu Mining 6.6 Vorlesung: Von OLAP zu Mining Definition des Begriffs Data Mining. Wichtige Data Mining-Problemstellungen, Zusammenhang zu Data Warehousing,. OHO - 1 Definition Data Mining Menge von Techniken zum

Mehr

Wintersemester 2016/ Matrikelnummer: Hinweise. Unterschrift

Wintersemester 2016/ Matrikelnummer: Hinweise. Unterschrift Fachbereich für Computerwissenschaften Prof. Dr. Nikolaus Augsten Jakob-Haringer-Str. 2 5020 Salzburg, Austria Telefon: +43 662 8044 6347 E-Mail: nikolaus.augsten@sbg.ac.at Datenbanken II Prüfung Wintersemester

Mehr

SQL. Ziele. Grundlagen von SQL. Beziehung zur relationalen Algebra SELECT, FROM, WHERE. Joins ORDER BY. Aggregatfunktionen. dbis.

SQL. Ziele. Grundlagen von SQL. Beziehung zur relationalen Algebra SELECT, FROM, WHERE. Joins ORDER BY. Aggregatfunktionen. dbis. SQL Lehr- und Forschungseinheit Datenbanken und Informationssysteme Ziele Grundlagen von SQL Beziehung zur relationalen Algebra SELECT, FROM, WHERE Joins ORDER BY Aggregatfunktionen Lehr- und Forschungseinheit

Mehr

Algorithmische Methoden zur Netzwerkanalyse

Algorithmische Methoden zur Netzwerkanalyse Algorithmische Methoden zur Netzwerkanalyse Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische

Mehr

Anfragesprachen für On-Line Analytical Processing (OLAP)

Anfragesprachen für On-Line Analytical Processing (OLAP) Anfragesprachen für On-Line Analytical Processing (OLAP) Seminar Business Intelligence Teil I: OLAP & Data Warehousing René Rondot rondot@informatik.uni-kl.de Universität Kaiserslautern Anfragesprachen

Mehr

SQL Data Manipulation Language (DML) und Query Language (QL)

SQL Data Manipulation Language (DML) und Query Language (QL) Innsbruck Information System University of Innsbruck School of Management Information Systems Universitätsstraße 15 6020 Innsbruck SQL Data Manipulation Language (DML) und Query Language (QL) Universität

Mehr

Fokus bisher lag bisher auf sinnvoller Abbildung eines Ausschnitts der realen Welt in einer relationalen Datenbank

Fokus bisher lag bisher auf sinnvoller Abbildung eines Ausschnitts der realen Welt in einer relationalen Datenbank 8. Datenbanktuning Motivation Fokus bisher lag bisher auf sinnvoller Abbildung eines Ausschnitts der realen Welt in einer relationalen Datenbank Beliebige SQL-Anfragen können auf den Daten ausgewertet

Mehr

Evidenzpropagation in Bayes-Netzen und Markov-Netzen

Evidenzpropagation in Bayes-Netzen und Markov-Netzen Einleitung in Bayes-Netzen und Markov-Netzen Thomas Thüm 20. Juni 2006 1/26 Thomas Thüm in Bayes-Netzen und Markov-Netzen Übersicht Einleitung Motivation Einordnung der Begriffe 1 Einleitung Motivation

Mehr

Data Warehousing. Sommersemester Ulf Leser Wissensmanagement in der Bioinformatik

Data Warehousing. Sommersemester Ulf Leser Wissensmanagement in der Bioinformatik Data Warehousing Sommersemester 2004 Ulf Leser Wissensmanagement in der Bioinformatik ... Der typische Walmart Kaufagent verwendet täglich mächtige Data Mining Werkzeuge, um die Daten der 300 Terabyte

Mehr

Datenbanken Grundlagen und Design

Datenbanken Grundlagen und Design Frank Geisler Datenbanken Grundlagen und Design 3., aktualisierte und erweiterte Auflage mitp Vorwort 15 Teil I Grundlagen 19 i Einführung in das Thema Datenbanken 21 i.i Warum ist Datenbankdesign wichtig?

Mehr

d.h. zu Definitions-Stelle eindeutiger Funktionswert x X! y Y : (x,y) f umgekehrt: (x 1,y), (x 2,y) f ist o.k. X Y f(x) = y

d.h. zu Definitions-Stelle eindeutiger Funktionswert x X! y Y : (x,y) f umgekehrt: (x 1,y), (x 2,y) f ist o.k. X Y f(x) = y Kapitel 7 Normalformen und DB-Entwurf Kap. 7.1 Normalformen Theorie Funktionale Abhängigkeit: f X Y f als Relation, d.h. Menge von Paaren {(x,y)} x: Definitions-Stelle, y: Funktionswert f ist Funktion

Mehr

Wiederholung VU Datenmodellierung

Wiederholung VU Datenmodellierung Wiederholung VU Datenmodellierung VL Datenbanksysteme Reinhard Pichler Arbeitsbereich Datenbanken und Artificial Intelligence Institut für Informationssysteme Technische Universität Wien Wintersemester

Mehr

Einführung relationale Datenbanken. Themenblock: Erstellung eines Cube. Schlüssel. Relationenmodell Relationenname Attribut. Problem.

Einführung relationale Datenbanken. Themenblock: Erstellung eines Cube. Schlüssel. Relationenmodell Relationenname Attribut. Problem. Themenblock: Erstellung eines Cube Einführung relationale Datenbanken Problem Verwaltung großer Mengen von Daten Praktikum: Data Warehousing und Data Mining Idee Speicherung der Daten in Form von Tabellen

Mehr

Themenblock: Erstellung eines Cube

Themenblock: Erstellung eines Cube Themenblock: Erstellung eines Cube Praktikum: Data Warehousing und Data Mining Einführung relationale Datenbanken Problem Verwaltung großer Mengen von Daten Idee Speicherung der Daten in Form von Tabellen

Mehr

Anfrageoptimierung Kostenmodelle

Anfrageoptimierung Kostenmodelle Web Science & Technologies University of Koblenz Landau, Germany Grundlagen der Datenbanken Anfrageoptimierung Kostenmodelle Dr. Jérôme Kunegis Wintersemester 2013/14 Regel vs. Kostenbasierte Optimierung

Mehr

Physischer DB-Entwurf

Physischer DB-Entwurf Physischer DB-Entwurf Prof. Dr. T. Kudraß 1 Überblick Ausgangslage: Konzeptuelles und externes Schema sind erstellt: ER Modell, Schemaverfeinerung und Definition von Sichten Nächster Schritt: Physischer

Mehr

Seminar 2. SQL - DML(Data Manipulation Language) und. DDL(Data Definition Language) Befehle.

Seminar 2. SQL - DML(Data Manipulation Language) und. DDL(Data Definition Language) Befehle. Seminar 2 SQL - DML(Data Manipulation Language) und DDL(Data Definition Language) Befehle. DML Befehle Aggregatfunktionen - werden auf eine Menge von Tupeln angewendet - Verdichtung einzelner Tupeln yu

Mehr

SQL. DDL (Data Definition Language) Befehle und DML(Data Manipulation Language)

SQL. DDL (Data Definition Language) Befehle und DML(Data Manipulation Language) SQL DDL (Data Definition Language) Befehle und DML(Data Manipulation Language) DML(Data Manipulation Language) SQL Abfragen Studenten MatrNr Name Vorname Email Age Gruppe 1234 Schmidt Hans schmidt@cs.ro

Mehr

Datenbanken Unit 9: OLAP, OLTP und objektrelationale Datenbanken

Datenbanken Unit 9: OLAP, OLTP und objektrelationale Datenbanken Datenbanken Unit 9: OLAP, OLTP und objektrelationale Datenbanken 17. V. 2017 Outline 1 Organisatorisches 2 SQL 3 OLTP, OLAP, SAP, and Data Warehouse OLTP and OLAP SAP 4 Objekt-relationale Datenbanken Beispiel

Mehr

Datenbanken Unit 5: Datenintegrität und funktionale Abhängigkeit

Datenbanken Unit 5: Datenintegrität und funktionale Abhängigkeit Datenbanken Unit 5: Datenintegrität und funktionale Abhängigkeit 23. IV. 2018 Outline 1 Organisatorisches 2 Relationale Algebra Notation 3 Datenintegrität 4 Funktionale Abhängigkeit 5 SQL Outline 1 Organisatorisches

Mehr

SQL für Trolle. mag.e. Dienstag, 10.2.2009. Qt-Seminar

SQL für Trolle. mag.e. Dienstag, 10.2.2009. Qt-Seminar Qt-Seminar Dienstag, 10.2.2009 SQL ist......die Abkürzung für Structured Query Language (früher sequel für Structured English Query Language )...ein ISO und ANSI Standard (aktuell SQL:2008)...eine Befehls-

Mehr

Wiederholung VU Datenmodellierung

Wiederholung VU Datenmodellierung Wiederholung VU Datenmodellierung VU Datenbanksysteme Reinhard Pichler Arbeitsbereich Datenbanken und Artificial Intelligence Institut für Informationssysteme Technische Universität Wien Wintersemester

Mehr

Aggregatfunktionen in SQL

Aggregatfunktionen in SQL Aggregatfunktionen in SQL Michael Dienert 14. April 2008 1 Definition von Aggregatfunktionen Ihren Namen haben die Aggregatfunktionen vom englischen Verb to aggregate, was auf deutsch anhäufen, vereinigen,

Mehr

insert, update, delete Definition des Datenbankschemas select, from, where Rechteverwaltung, Transaktionskontrolle

insert, update, delete Definition des Datenbankschemas select, from, where Rechteverwaltung, Transaktionskontrolle Einführung in SQL insert, update, delete Definition des Datenbankschemas select, from, where Rechteverwaltung, Transaktionskontrolle Quelle Wikipedia, 3.9.2015 SQL zur Kommunikation mit dem DBMS SQL ist

Mehr

6.5 Workshop: Operationen auf dem Cube Multidimensional Expressions (MDX)

6.5 Workshop: Operationen auf dem Cube Multidimensional Expressions (MDX) 6.5 Workshop: Operationen auf dem Cube Multidimensional Expressions (MDX) Was ist MDX? Microsoft Terminologie im OLAP Bereich MDX Basiskonstrukte MDX weiterführende Konstrukte Fazit MDX.- 1 Was ist MDX?

Mehr

Datenbanken Unit 4: Das Relationale Modell & Datenintegrität

Datenbanken Unit 4: Das Relationale Modell & Datenintegrität Datenbanken Unit 4: Das Relationale Modell & Datenintegrität 15. III. 2016 Outline 1 Organisatorisches 2 SQL 3 Relationale Algebra Notation 4 Datenintegrität Organisatorisches Erster Zwischentest: nach

Mehr

WS 2010/11 Datenbanksysteme Fr 15:15 16:45 R Vorlesung #3. SQL (Teil 1)

WS 2010/11 Datenbanksysteme Fr 15:15 16:45 R Vorlesung #3. SQL (Teil 1) Vorlesung #3 SQL (Teil 1) Fahrplan Wiederholung/Zusammenfassung Relationales Modell Relationale Algebra Relationenkalkül Geschichte der Sprache SQL SQL DDL (CREATE TABLE...) SQL DML (INSERT, UPDATE, DELETE)

Mehr

4. Objektrelationales Typsystem Kollektionstypen. Nested Table

4. Objektrelationales Typsystem Kollektionstypen. Nested Table Nested Table Bei einer Nested Table handelt es sich um eine Tabelle als Attributwert. Im Gegensatz zu Varray gibt es keine Beschränkung bei der Größe. Definition erfolgt auf einem Basistyp, als Basistypen

Mehr

Dieser Foliensatz darf frei verwendet werden unter der Bedingung, dass diese Titelfolie nicht entfernt wird.

Dieser Foliensatz darf frei verwendet werden unter der Bedingung, dass diese Titelfolie nicht entfernt wird. Thomas Studer Relationale Datenbanken: Von den theoretischen Grundlagen zu Anwendungen mit PostgreSQL Springer, 2016 ISBN 978-3-662-46570-7 Dieser Foliensatz darf frei verwendet werden unter der Bedingung,

Mehr

Häufige Mengen ohne Kandidatengenerierung

Häufige Mengen ohne Kandidatengenerierung Häufige Mengen ohne Kandidatengenerierung Jiawei Han, Micheline Kamber 2006 (2nd ed.) Ziel 1: Kompression der Datenbank in eine Frequent-Pattern Tree Struktur (FP-Tree) Stark komprimiert, vollständig bzgl.

Mehr

Vorlesung Wissensentdeckung in Datenbanken

Vorlesung Wissensentdeckung in Datenbanken Vorlesung Wissensentdeckung in Datenbanken Data Cube Katharina Morik, Claus Weihs 21.04.2015 1 von 40 Gliederung 1 Einführung 2 Aggregation in SQL, GROUP BY 3 Probleme mit GROUP BY 4 Der Cube-Operator

Mehr

Datenbanken. Schemaerweiterung zur Abbildung von Imperfekten Daten. Andreas Merkel

Datenbanken. Schemaerweiterung zur Abbildung von Imperfekten Daten. Andreas Merkel Seminar Impferfektion und Datenbanken Schemaerweiterung zur Abbildung von Imperfekten Daten Andreas Merkel Inhalt Einführung - Eigenschaften des relationalen Modells - Erweiterungsmöglichkeiten Zwei unterschiedliche

Mehr

Aggregatfunktionen in der Relationenalgebra?

Aggregatfunktionen in der Relationenalgebra? Aggregatfunktionen in der Relationenalgebra? Dieter Sosna Aggregatfunktionen in der Relationenalgebra p.1/23 Gliederung Motivation Begriffe Definitionen Anwendungen Zusammenfassung Aggregatfunktionen in

Mehr

Datenbanken Unit 9: OLAP, OLTP und objektrelationale Datenbanken

Datenbanken Unit 9: OLAP, OLTP und objektrelationale Datenbanken Datenbanken Unit 9: OLAP, OLTP und objektrelationale Datenbanken 31. V. 2016 Outline 1 Organisatorisches 2 SQL 3 OLTP, OLAP, SAP, and Data Warehouse OLTP and OLAP SAP 4 Objekt-relationale Datenbanken Beispiel

Mehr

Bereichsabfragen. Dr. Martin Nöllenburg Vorlesung Algorithmische Geometrie

Bereichsabfragen. Dr. Martin Nöllenburg Vorlesung Algorithmische Geometrie Vorlesung Algorithmische Geometrie LEHRSTUHL FÜR ALGORITHMIK I INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK Martin Nöllenburg 17.05.2011 Geometrie in Datenbanken In einer Personaldatenbank

Mehr

Gruppe B Bitte tragen Sie SOFORT und LESERLICH Namen und Matrikelnr. ein, und legen Sie Ihren Studentenausweis bereit.

Gruppe B Bitte tragen Sie SOFORT und LESERLICH Namen und Matrikelnr. ein, und legen Sie Ihren Studentenausweis bereit. Gruppe B Bitte tragen Sie SOFORT und LESERLICH Namen und Matrikelnr. ein, und legen Sie Ihren Studentenausweis bereit. PRÜFUNG AUS DATENMODELLIERUNG (184.685) GRUPPE B 22.06.2012 Matrikelnr. Familienname

Mehr

Anfrageoptimierung Kostenabschätzung

Anfrageoptimierung Kostenabschätzung Institute for Web Science & Technologies WeST Grundlagen der Datenbanken Kostenabschätzung Dr. Thomas Gottron Wintersemester 2012/13 Regel vs. Kostenbasierte Optimierung Bisher: Regeln, wie Optimierung

Mehr

Structured Query Language (SQL) als standardisierte Anfragesprache für relationale Datenbanken

Structured Query Language (SQL) als standardisierte Anfragesprache für relationale Datenbanken Rückblick Structured Query Language (SQL) als standardisierte Anfragesprache für relationale Datenbanken Data Definition Language zur Schemadefinition (z.b. CREATE TABLE zum Anlegen von Tabellen) Data

Mehr

Grundlagen von SQL. Informatik 2, FS18. Dr. Hermann Lehner (Material von Dr. Markus Dahinden) Departement Informatik, ETH Zürich

Grundlagen von SQL. Informatik 2, FS18. Dr. Hermann Lehner (Material von Dr. Markus Dahinden) Departement Informatik, ETH Zürich Grundlagen von SQL Informatik 2, FS18 Dr. Hermann Lehner (Material von Dr. Markus Dahinden) Departement Informatik, ETH Zürich Markus Dahinden 13.05.18 1 Grundlagen von SQL (Structured Query Language)

Mehr

Mehrwegbäume Motivation

Mehrwegbäume Motivation Mehrwegbäume Motivation Wir haben gute Strukturen (AVL-Bäume) kennen gelernt, die die Anzahl der Operationen begrenzen Was ist, wenn der Baum zu groß für den Hauptspeicher ist? Externe Datenspeicherung

Mehr

Geoinformation Abbildung auf Tabellen

Geoinformation Abbildung auf Tabellen Folie 1 von 32 Geoinformation Abbildung auf Tabellen Folie 2 von 32 Abbildung auf Tabellen Übersicht Motivation des relationalen Datenmodells Von Objekten zu Tabellen Abbildung von Objekten Schlüssel Abbildung

Mehr

Medizininformatik Software Engineering

Medizininformatik Software Engineering Vorlesung Software Engineering Inhaltsverzeichnis 1. Einleitung 2. Software und Medizinprodukt 3. Vorgehensmodelle 4. Strukturierter Entwurf von Echtzeitsystemen 4.1 Echzeit, was ist das? 4.2 Einführung

Mehr

5/14/18. Grundlagen von SQL. Grundlagen von SQL. Google, Facebook und Co. setzen auf SQL. Whatsapp

5/14/18. Grundlagen von SQL. Grundlagen von SQL. Google, Facebook und Co. setzen auf SQL. Whatsapp 5/14/18 Grundlagen von SQL (Structured Query Language) Datenbanksprache Befehle Datenbanken und Tabellen erstellen/verändern Daten manipulieren (eingeben, ändern, löschen) Datenbank durchsuchen (Queries

Mehr

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D.

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D. TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D. Blatt Nr. 07 Übung zur Vorlesung Grundlagen: Datenbanken im WS15/16 Harald Lang, Linnea Passing (gdb@in.tum.de)

Mehr

Semesterklausur Datenbanksysteme 1 SS 2015

Semesterklausur Datenbanksysteme 1 SS 2015 Universität Augsburg, Institut für Informatik Sommersemester 2015 Prof. Dr. W. Kießling 10. April 2015 F. Wenzel, L.Rudenko Datenbanksysteme 1 Semesterklausur Datenbanksysteme 1 SS 2015 Hinweise: Die Bearbeitungszeit

Mehr

UNABHÄNGIGER LASTEN. Vorlesung 9 BALANCIERUNG DYNAMISCHER. Graphenalgorithmen und lineare Algebra Hand in Hand

UNABHÄNGIGER LASTEN. Vorlesung 9 BALANCIERUNG DYNAMISCHER. Graphenalgorithmen und lineare Algebra Hand in Hand Vorlesung 9 BALANCIERUNG DYNAMISCHER UNABHÄNGIGER LASTEN 266 Lastbalancierung Motivation! Ein paralleles System besteht aus! verschiedenen Recheneinheiten,! die miteinander kommunizieren können! Warum

Mehr

Daten-Definitionssprache (DDL) Bisher: Realwelt -> ERM -> Relationen-Modell -> normalisiertes Relationen-Modell. Jetzt: -> Formulierung in DDL

Daten-Definitionssprache (DDL) Bisher: Realwelt -> ERM -> Relationen-Modell -> normalisiertes Relationen-Modell. Jetzt: -> Formulierung in DDL Daten-Definitionssprache (DDL) Bisher: Realwelt -> ERM -> Relationen-Modell -> normalisiertes Relationen-Modell Jetzt: -> Formulierung in DDL Daten-Definitionssprache (DDL) DDL ist Teil von SQL (Structured

Mehr

NoSQL Datenbanken EIN ÜBERBLICK ÜBER NICHT-RELATIONALE DATENBANKEN UND DEREN POTENTIALE IM ALLGEMEINEN UND IN DER INDUSTRIE

NoSQL Datenbanken EIN ÜBERBLICK ÜBER NICHT-RELATIONALE DATENBANKEN UND DEREN POTENTIALE IM ALLGEMEINEN UND IN DER INDUSTRIE NoSQL Datenbanken EIN ÜBERBLICK ÜBER NICHT-RELATIONALE DATENBANKEN UND DEREN POTENTIALE IM ALLGEMEINEN UND IN DER INDUSTRIE Was bedeutet NoSQL? Ein Sammelbegriff für alternative Datenbanklösungen, die

Mehr

Datenbanksysteme II Multidimensionale Indizes (Kapitel 14) Felix Naumann

Datenbanksysteme II Multidimensionale Indizes (Kapitel 14) Felix Naumann Datenbanksysteme II Multidimensionale Indizes (Kapitel 14) 14.5.2007 Felix Naumann Motivation 2 Annahme bisher: Eine Dimension Ein einziger Suchschlüssel Suchschlüssel kann auch Kombination von Attributen

Mehr

Datenbankanwendungen werden oft über einen sehr langen Zeitraum (z.b. Jahrzehnte) eingesetzt

Datenbankanwendungen werden oft über einen sehr langen Zeitraum (z.b. Jahrzehnte) eingesetzt 2. Datenbankentwurf Motivation Datenbankanwendungen werden oft über einen sehr langen Zeitraum (z.b. Jahrzehnte) eingesetzt Fehler sind umso teurer zu beheben, je weiter die Entwicklung bzw. der Einsatz

Mehr

Datenbanken Vertiefung Wintersemester 2013/ Matrikelnummer: Hinweise. Unterschrift

Datenbanken Vertiefung Wintersemester 2013/ Matrikelnummer: Hinweise. Unterschrift Fachbereich für Computerwissenschaften Prof. Dr. Nikolaus Augsten Jakob-Haringer-Str. 2 5020 Salzburg, Austria Telefon: +43 662 8044 6347 E-Mail: nikolaus.augsten@sbg.ac.at Datenbanken Vertiefung Prüfung

Mehr

1. Hierarchische Basen. 1. Hierarchische Basen Perlen der Informatik I, Hans-Joachim Bungartz page 1 of 33

1. Hierarchische Basen. 1. Hierarchische Basen Perlen der Informatik I, Hans-Joachim Bungartz page 1 of 33 Perlen der Informatik I, Hans-Joachim Bungartz page 1 of 33 1.1. Quadratur nach Archimedes Näherungsweise Berechnung von F 1 := 1 0 4 x (1 x) dx = 2 3 1 t=1 t=2 ¼ 0 ½ 1 ¼ 0 ½ 1 0 ½ 1 Perlen der Informatik

Mehr

Kapitel 8: Data Warehouse 1

Kapitel 8: Data Warehouse 1 Objektverwaltung höherer Ordnung (OHO) SS 23 Kapitel 8: Data Warehouse Kap. 8 Data Warehouse 8. Was ist ein Data Warehouse, Motivation? 8.2 Data Cube und SQL-Operationen 8.3 Cube-Operationen 8.4 Physischer

Mehr

Datenbanken: Relationales Modell und SQL. Dr. Matthias Uflacker, Stefan Klauck 23. April 2018

Datenbanken: Relationales Modell und SQL. Dr. Matthias Uflacker, Stefan Klauck 23. April 2018 Datenbanken: Relationales Modell und SQL Dr. Matthias Uflacker, Stefan Klauck 23. April 2018 Vorlesungsinhalte/-aufbau Phase 1 Einführung zu Unternehmensanwendungen (2 Vorlesungen) Grundlagen von spaltenorientierten

Mehr

Begriffsklärung: Dominanz

Begriffsklärung: Dominanz Einführung Begriffsklärung: Dominanz Gegeben: d-dimensionaler Raum, jeder Punkt p im Raum hat d Attribute: (p 1,,p d ) Definition Dominanz: 1 i d : p i p i und 1 i d : p i < p i Begriffsklärung: Dominanz

Mehr

Kapitel 3: Relationale Algebra

Kapitel 3: Relationale Algebra Kapitel 3: Relationale Algebra Algebra Motivation (1) Wir wollen aus Relationen für uns interessante Informationen extrahieren, Tabellen modifizieren und neue Tabellen aus alten generieren Datenbankeinsatz:

Mehr

Anfragen an multidimensionale Daten

Anfragen an multidimensionale Daten Anfragen an multidimensionale Daten Alexander Heidrich - BID8 09.06.2005 Hintergrundbild: http://www.csc.calpoly.edu/~zwood/teaching/csc471/finalproj02/afternoon/mfouquet/cube.jpg Inhaltsübersicht Motivation

Mehr

Kommunikation und Datenhaltung. Übungsblatt D1. (Relationale Algebra & SQL)

Kommunikation und Datenhaltung. Übungsblatt D1. (Relationale Algebra & SQL) Kommunikation und Datenhaltung Übungsblatt D1 (Relationale Algebra & SQL) Ausgabe: 18.05.2009 Besprechung: 25.05.2009 Alle Aufgaben auf diesem Übungsblatt beziehen sich auf ein leicht abgewandeltes Datenbankschema

Mehr

Bereichsabfragen II. Dr. Martin Nöllenburg Vorlesung Algorithmische Geometrie

Bereichsabfragen II. Dr. Martin Nöllenburg Vorlesung Algorithmische Geometrie Vorlesung Algorithmische Geometrie LEHRSTUHL FÜR ALGORITHMIK I INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK Martin Nöllenburg 17.07.2012 Objekttypen in Bereichsabfragen y0 y0 y x x0 Bisher

Mehr

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D.

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D. TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D. Blatt Nr. 07 Übung zur Vorlesung Grundlagen: Datenbanken im WS16/17 Harald Lang, Linnea Passing (gdb@in.tum.de

Mehr

Singulärwertzerlegung

Singulärwertzerlegung LMU München Centrum für Informations- und Sprachverarbeitung WS 10-11: 13.12.2010 HS Matrixmethoden im Textmining Dozent: Prof.Dr. Klaus U. Schulz Referat von: Erzsébet Galgóczy Singulärwertzerlegung 1

Mehr

Bereichsabfragen II. Dr. Martin Nöllenburg Vorlesung Algorithmische Geometrie

Bereichsabfragen II. Dr. Martin Nöllenburg Vorlesung Algorithmische Geometrie Vorlesung Algorithmische Geometrie LEHRSTUHL FÜR ALGORITHMIK I INSTITUT FÜR THEORETISCHE INFORMATIK FAKULTÄT FÜR INFORMATIK Martin Nöllenburg 17.07.2012 Objekttypen in Bereichsabfragen y0 y x x0 Bisher

Mehr

Integriertes Seminar Datenbanken und Informationssysteme. Was sind Peer-to-Peer Systeme? Wie kann man diese effizient nutzen?

Integriertes Seminar Datenbanken und Informationssysteme. Was sind Peer-to-Peer Systeme? Wie kann man diese effizient nutzen? Integriertes Seminar Datenbanken und Informationssysteme P2P-Computing Lehrgebiet Datenverwaltungssysteme Prof. Dr. Dr. h.c. Härder Prof. Dr. Deßloch Björn Jung b_jun@informatik.uni-kl.de Technische Universität

Mehr

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D.

TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D. TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D. Blatt Nr. 2 Übung zur Vorlesung Grundlagen: Datenbanken im WS3/4 Henrik Mühe (muehe@in.tum.de) http://www-db.in.tum.de/teaching/ws34/dbsys/exercises/

Mehr

Aufgabe 1: Verschachtelte Anfragen

Aufgabe 1: Verschachtelte Anfragen Aufgabe 1: Verschachtelte Anfragen (1 P.) (a) Betrachten Sie folgenden Ausschnitt des TPC-H Schemas: CREATE TABLE partsupp ( ps_ availqty INT, ps_ partkey INT ); CREATE TABLE lineitem ( l_ partkey INT,

Mehr

Algorithmen zur Berechnung der Transitiven Hülle einer Datenbankrelation

Algorithmen zur Berechnung der Transitiven Hülle einer Datenbankrelation Algorithmen zur Berechnung der Transitiven Hülle einer Datenbankrelation Daniel Reinhold Shenja Leiser 6. Februar 2006 2/28 Gliederung Einführung Transitive Hülle Definition Iterative Algorithmen 1. Naive

Mehr

Algorithmische Methoden zur Netzwerkanalyse

Algorithmische Methoden zur Netzwerkanalyse Algorithmische Methoden zur Netzwerkanalyse Juniorprof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische

Mehr

IR Seminar SoSe 2012 Martin Leinberger

IR Seminar SoSe 2012 Martin Leinberger IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite

Mehr

Query Languages (QL) Relationale Abfragesprachen/Relational

Query Languages (QL) Relationale Abfragesprachen/Relational Relationale Algebra Relationale Abfragesprachen/Relational Query Languages (QL) Abfragesprachen: Daten aus einer Datenbank zu manipulieren und abzufragen (retrieve information) Das relationalle Modell

Mehr

Einführung in die Informatik II

Einführung in die Informatik II Einführung in die Informatik II Relationale Datenbanken und SQL Theorie und Anwendung Prof. Dr. Nikolaus Wulff Gründe für eine Datenbank Meist werden Daten nicht in XML-Dokumenten, sondern innerhalb einer

Mehr