5.4 Logische Anfrageoptimierung

Transkript

1 5 Anfragebearbeitung Übersicht 5. Einleitung 5. Indexstrukturen 5.3 Grundlagen der Anfrageoptimierung 5.4 Logische Anfrageoptimierung 5.5 Kostenmodellbasierte Anfrageoptimierung Logische Anfrageoptimierung Äquivalenzregeln der elationalen Algebra Join, Vereinigung, chnitt und Kreuzprodukt sind kommutativ = = = = Join, Vereinigung, chnitt und Kreuzprodukt sind assoziativ ( T = ( T ( T = ( T ( T = ( T ( T = ( T elektionen sind untereinander vertauschbar σ ed( σ ed ( = σ ed ( σ ed( 0

2 5.4 Logische Anfrageoptimierung Äquivalenzregeln d. elationalen Algebra (cont. Konjunktionen in einer elektionsbedingung können in mehrere elektionen aufgebrochen werden, bzw. nacheinander ausgeführte elektionen können zu einer konjunktiven elektion zusammengefasst werden σ = σ ( σ (...( σ ( n( n Geschachtelte Projektionen können eliminiert werden π A( π A(...( π An(... = π A( Damit eine solche chachtelung sinnvoll ist, muss gelten: A A... An elektion und Projektion sind vertauschbar, falls die Projektion keine Attribute der elektionsbedingung entfernt π ( σ ( = σ ( π (, falls attr ( A A A 5.4 Logische Anfrageoptimierung Äquivalenzregeln d. elationalen Algebra (cont. elektion und Join (Kreuzprodukt können vertauscht werden, falls die elektion nur Attribute eines der beiden Join-Argumente verwendet σ ( = σ (, falls attr ( attr ( σ ( = σ ( Projektionen können teilweise in den Join verschoben werden π A( = π A( π A( π A(, falls A = attr( ( A attr ( A = attr( ( A attr( elektionen können mit Vereinigung, chnitt und Differenz vertauscht werden σ ( = σ ( σ (

3 5.4 Logische Anfrageoptimierung Äquivalenzregeln d. elationalen Algebra (cont. Der Projektionsoperator kann mit der Vereinigung, aber nicht mit chnitt oder Differenz vertauscht werden(iehe Übung! π ( = π ( π ( A A A elektion und ein Kreuzprodukt können zu einem Join zusammengefasst werden, wenn die elektionsbedingung eine Joinbedingung ist (z.. Equi-Join σ. A=. A( =. A=. A Auch an edingungen können Veränderungen vorgenommen werden - Kommutativgesetze, Assoziativgesetze, z.. = - Distributivgesetze, z.. ( 3 = ( ( 3 - De Morgan, z.. ( = Logische Anfrageoptimierung estrukturierungsalgorithmus Aufbrechen der elektionen Verschieben der elektionen so weit wie möglich nach unten im Operatorbaum Zusammenfassen von elektionen und Kreuzprodukten zu Joins Einfügen und Verschieben von Projektionen so weit wie möglich nach unten Zusammenfassen einzelner elektionen zu komplexen elektionen 4

4 5.4 Logische Anfrageoptimierung eispiel Fahrzeug-Datenbank -Kunde(KNr, Name, Adresse, egion, aldo KNr Name Adresse egion aldo 0 Klein Lilienthal remen Horn Dieburg hein-main erger München München Weiss Würzburg Unterfranken estellt(nr, Datum, KNr, KNr, PNr Nr Datum KNr PNr PNr ezeichnung Anzahl Preis MW 38i Produkt(PNr, ezeichnung, Anzahl, Preis 4 Golf Fiat Uno Ferrari Opel Corsa Logische Anfrageoptimierung eispiel (cont. QL Anfrage: select Name, from Kunde k, estellt b, Produkt p where bknr=kknr b.knr k.knr and b.pnr = p.pnr and ezeichnung = Fiat Uno and aldo π[name] Kanonischer Auswertungsplan: σ[ezeichnung= aldo >= ] x Produkt p x estellt b Kunde k 6

5 5.4 Logische Anfrageoptimierung eispiel (cont. - Aufbrechen der elektionen - Verschieben der elektionen π[name] σ[aldo ] σ[ezeichnung= ] 5 σ[b.pnr=p.pnr] 5 σ[b.knr=k.knr] 00 5 Produkt p x x σ[ezeichnung= ] 5 Produkt p π[name] σ[b.pnr=p.pnr] PNr] estellt b x σ[b.knr=k.knr] 0 x 5 σ[aldo ] 4 Kunde k estellt b Kunde k Logische Anfrageoptimierung eispiel (cont. - Zusammenfassen zu Joins - Einfügen zusätzlicher elektionen σ[ezeichnung= ] 5 Produkt p estellt b π[name] b.pnr=p.pnr 5 b.knr=k.knr σ[aldo ] 4 Kunde k σ[ezeichnung= ] 5 Produkt p estellt b π[name] bpnr=p b.pnr p.pnr 5 π[name, b.pnr] b.knr=k.knr σ[aldo ] 4 Kunde k 8

6 5 Anfragebearbeitung Übersicht 5. Einleitung 5. Indexstrukturen 5.3 Grundlagen der Anfrageoptimierung 5.4 Logische Anfrageoptimierung 5.5 Kostenmodellbasierte Anfrageoptimierung Kostenmodellbasierte Anfrageoptimierung elektivität Der Anteil der qualifizierenden Tupel wird elektivität sel genannt. Für die elektion und den Join ist sie folgendermaßen definiert: elektion mit edingung : sel σ ( = (relativer Anteil der Tupel, die erfüllen sel Join von und : = = (Anteil relativ zur Kardinalität des Kreuzprodukts 30

7 5.5 Kostenmodellbasierte Anfrageoptimierung elektivität Die elektivität muss geschätzt werden, für pezialfälle gibt es einfache Methoden: Die elektivität von σ.a=c, also Vergleich mit einer Konstante c beträgt /, falls A ein chlüssel ist Falls A kein chlüssel ist, aber die Werte gleichverteilt sind, ist sel= / I (I ist dabei die image size, d.h. die Anzahl verschiedener A-Werte in esitzt bei einem Equi-Join A.A=. das Attribut A chlüssel- eigenschaft, kann die Größe des Join-Ergebnisses mit abgeschätzt werden, da jedes Tupel aus maximal einen Joinpartner findet. Die elektivität ist also sel = / logisches UND: sel σ = sel ( σ sel ( σ ( logisches ODE: sel ( σ = sel ( σ + sel ( σ sel ( σ sel ( σ logisches NICHT: sel ( σ = sel ( σ ( Kostenmodellbasierte Anfrageoptimierung elektivität Im Allgemeinen benötigt man anspruchsvollere Methoden um zu schätzen, wieviele Tupel sich in einem bestimmten Wertebereich befinden. Drei Grundsätzliche Arten von chätzmethoden: Parametrische Verteilungen Histogramme tichproben eispiel: chätzung der Verteilung der Noten der D II Klausur anhand des Ergebnisse von 007: 3

8 5.5 Kostenmodellbasierte Anfrageoptimierung elektivität: Parametrische Verteilungen estimme zu der vorhandenen Werteverteilung die Parameter einer Funktion so, dass die Verteilung möglichst gut angenähert wird. Probleme: - Wahl des Verteilungstyps t (Normalverteilung, Exponentialverteilung t il und Wahl der Parameter, besonders bei mehrdimensionalen Anfragen (also z.. bei elektionen, die sich auf mehrere Attribute beziehen Kostenmodellbasierte Anfrageoptimierung elektivität: Histogramme Unterteile den Wertebereich des Attributs in Intervalle und zähle die Tupel, die in ein bestimmtes Intervall fallen. - Equi-Width-Histograms: Intervalle gleicher reite - Equi-Depth-Histograms: Unterteilung so, dass in jedem Intervall gleich viele Tupel sind - Flexible Annäherung an die Verteilung 34

9 5.5 Kostenmodellbasierte Anfrageoptimierung elektivität: tichproben ehr einfaches Verfahren Ziehe eine zufällige Menge von n Tupeln aus einer elation, und betrachte deren Verteilung als repräsentativ für die gesamte elation. Problem der Größe des tichprobenumfangs n: - n zu klein: Wenig repräsentative tichprobe - n zu gross: Ziehen der tichprobe erfordert zu viele teure Zugriffe auf den Hintergrundspeicher Kostenmodellbasierte Anfrageoptimierung eispiel: elektivität von Fensteranfragen zenario: - Datenobjekte (Tupel sind Punkte in einem d-dimensionalen Featureraum (z.. geographische Objekte auf einer D Karte - Fensteranfragen: Gegeben ein Anfragefenster W (d-dimensionales Hyper-echteck Gesucht: alle Objekte innerhalb des Anfragefensters W W 36

10 5.5 Kostenmodellbasierte Anfrageoptimierung eispiel: elektivität von Fensteranfragen (cont ekannte Ansätze: - ampling Problem: Genauigkeit abhängig von der amplegröße - D Histogramme Problem: Annahme der Unabhängigkeit zwischen den Attributen - Mutli-D Histogramme Problem: Anzahl der Gridzellen steigt exponentiell mit d - Parametrische Methoden Problem: nur für D und 3D Daten geeignet Kostenmodellbasierte Anfrageoptimierung eispiel: elektivität von Fensteranfragen (cont tattdessen: - Modellierung der Datenverteilung durch eine Menge von Gauss-Verteilungen - EM-Algorithmus: Input: Datenbank, Anzahl der Gaussverteilungen k Output: k Gaussverteilungen, die die Objekte der Datenbank optimal repräsentieren elektivitätsabschätzung: G - Integral des chnitts von W mit 3 allen k Gauss-Verteilungen G G W 38

11 5 Anfragebearbeitung Übersicht 5. Einleitung 5. Indexstrukturen 5.3 Grundlagen der Anfrageoptimierung 5.4 Logische Anfrageoptimierung 5.5 Kostenmodellbasierte Anfrageoptimierung Einfacher Nested-Loop-Join Algorithmus for each Tupel r do for each Tupel s do if r. A = s. then result : = result ( r s Matrixnotation ( ( 3 ( ( ( Der einfache Nested-Loop-Join entspricht der ildung des kartesischen Produktes in kanonischer Ordnung mit anschließender elektion. Die elation wird mal eingelesen: Performanz ist deshalb inakzeptabel wird als innere elation und als äußere elation bezeichnet 40

12 Nested-lock-Loop-Join Algorithmus Matrixnotation for each lock do ( ( 3 ( ld lade lock for each lock lade lock do for each Tupel r for each Tupel s do do if r. A = s. then result : = result ( r s ( ( 4 Nested-lock-Loop-Join (cont. eispiel: Angestellter Gehaltsgruppe Gehaltsgruppe Gehalt Müller ( chneider ( ( chuster chmidt (3 ( chütz (3 Anzahl lockzugriffe: + = 8 lockzugriffe ohne Cache ( = Anzahl löcke der elation D.h. die kleinere elation sollte die äußere sein 4

13 Cache trategien für Nested-lock-Loop-Join. eiten der inneren elation im Cache halten Cache wird überhaupt nicht ausgenutzt, wenn Cache kleiner als elation ist eispiel: eiten Cache für, eite Cache für ( : Zugriff Platte ( ( ( (3 ( ( ( (3 ( ( (3 ( 3 ( Cache trategien für NL-Join (cont.. eiten der inneren elation im Cache, aber innere elation jedes zweite mal rückwärts Pro Durchlauf der äußeren chleife werden ( C - lockzugriffe eingespart (ab. Durchlauf C = Anzahl löcke, die in den Cache passen, ein Cache- lock wird jeweils für -elation elation benötigt lockzugriffe: + ( - C + + C - eispiel: eiten Cache für, eite Cache für ( ( ( (3 ( (3 ( ( ( ( (3 ( 3 (

14 Cache trategien für NL-Join (cont. 3. C - löcke der äußeren elation werden in den Cache eingelesen, zu jedem lock der inneren elation werden diese löcke gejoint lockzugriffe: + C i eispiel: ili eiten Cache für, eite Cache für ( ( ( ( (3 (4 (5 (3 (4 ( ( (3 (4 (5 ( ( (3 (4 (5 ( ( ( ( Cache trategien für NL-Join (cont. Algorithmus für trategie 3: for i: = 0 to lade lock for each lock step C do lade lock ( i K do ( i+ C for each Tupel r (i K for each Tupel s if r. A = s. then result : = result ( r s do ( i+ C do Leistung: * Vergleiche von Tupel (ist nur bei schlechter ht elektivität gerechtfertigt Effizienteste Ausführung von θ Joins mit θ = 46

15 lockgrößen-optimierung NL-Join Problem: Zu kleine lockgröße: Innere elation wird in sehr kleinen chritten eingelesen ei jedem I/O-Auftrag Latenzzeit des Plattenlaufwerks Zu große lockgröße (z..: Cache wird in -3 löcke geteilt: Zu wenig Cache steht für die äußere elation zur Verfügung Innere elation muss öfter gescanned werden Äquivalente Frage: Wie viel vom Cache für äußere/innere elation? 47 lockgrößen-optimierung NL-Join (cont. I/O-Kosten für den gesamten Join: t NL Join (tseek tlat b ( C ttr ( t C C lat + b t tr f bzw. f : Größe der elationen in ytes c: Größe des Cache in ytes t tr : Transferzeit pro yte t lat : durchschnittliche Latenzzeit des Disk-Laufwerkes b: lockgröße (Parameter, der optimiert wird Vernachlässigung des -cans (da nur mal und in großen löcken t NL Join fs b c f / b / b ( t + b t lat tr 48

16 lockgrößen-optimierung NL-Join (cont. Anzahl lockzugriffe Äußere elation uchen zum aktuellen lock von + uchen zum tart von Innere elation + C t NL Join (t C seek + t lat + b ( C t tr + ( t C lat + b t tr t NL Join in einer Leseoperation werden C - löcke der äußeren elation gelesen ignorieren, da nur x und in großen löcken f bzw. f : Größe der elationen in ytes c: Größe des Cache in ytes t tr : Transferzeit pro yte Jeweils ein lock wird gelesen, aber nächster lock startet meist auf gleicher pur fs b c f / b / b ( t + b t lat tr 49 lockgrößen-optimierung NL-Join (cont. Weglassen der undungsfunktion (unproblematisch für f, f >> b, d.h. relativer Fehler ist vernachlässigbar ergibt stückweise differenzierbaren Term f f tnl Join ( tlat + b ttr b c b ( / Optimierung der Hüllfunktion t hull b f f (( c / b ( t + b t lat tr Joinkosten bei f = f = 0Myte c = 500 Kyte t lat = 5 ms t tr = 0,5 s /Myte b opt = 85 Kyte 50

17 lockgrößen-optimierung NL-Join (cont. Optimierung durch Differenzieren Gleichsetzen der. Ableitung mit 0 Lösungen, von denen nur eine positiv ist tlat + ttr tlat c tlat 0 = thull bopt = b ttr Lösung ist Minimum (s.. Ableitung An den tellen, an denen c / b konstant ist, ist t NLJoin streng monoton fallend (negative Ableitung Deshalb kann das Minimum von t NLJoin nur an der ersten prungstelle e links oder rechts vom Minimum von t hull sein: c c b = c /, b = c / b opt b opt 5 lockgrößen-optimierung NL-Join (cont. CPU-Kosten Im wesentlichen müssen * Vergleiche durchgeführt werden ei 0. µs pro Vergleich und Tupel pro elation ergibt sich eine earbeitungszeit von 000 s. D.h. wesentlich mehr als die 75 s I/O-Zeit Der NL-Join ist also CPU-bound Maßnahmen zur enkung des CPU-Aufwands später 5

18 ort-merge-join Zweistufiger Algorithmus.chritt: sortiere bzgl. Attribut A sortiere bzgl. Attribut.chritt: j =; 9 s = erstes Tupel von ; 0 for i = to do r = i - tes Tupel von ; while s s. < ra r.a 3 4 j = j + ; s = j - tes Tupel von ; if r. A = s. then result : = result (( r r. A s; Achtung: Dieser Algorithmus funktioniert nur, falls und auf dem Joinattribut keine Duplikate enthalten. Wie muss der Algorithmus erweitert t werden um Duplikate zu erfassen? Matrixnotation ort-merge-join (cont. Leistung Jede elation wird genau einmal durchlaufen: O( + Vergleiche ortieren der elation kostet O( log + log ortieren ist nicht notwendig, wenn bereits ein Index existiert Verfahren versagt, g, wenn in beiden elationen sehr viele Duplikate (d.h. mehr als in den Puffer passen auftreten. In diesem Fall muss auf Nested-Loop-Join umgeschaltet werden 54

19 Einfacher Hash-Join eduktion des CPU-Aufwandes bei der Join-erechnung Der Join-Partner eines -Tupels wird gezielt mit Hilfe eines Hash- Verfahrens gesucht, anstatt das -Tupel sequentiell mit jedem Tupel der elation zu vergleichen. Zu diesem Zweck wird die elation gehasht, d.h. es wird zu allen Tupeln der Hash-Key bestimmt und die Tupel in einer Tabelle unter diesem Key eingetragen. Nicht alle -Tupel, die den passenden Hash-Key haben, sind Join-Partner eines -Tupels, T l aber alle Join-Partner haben denselben Hash-Key. Im Idealfall soll der Join im Hauptspeicher ablaufen: die Hashtabelle soll für die kleinere elation erzeugt werden. Hash-Join Verfahren können nur für Equi-Join und Natürlichen Join effizient genutzt werden. Leistung hängt stark ab von der Güte der Hashfunktion: O( + im Idealfall verschlechtert sich, wenn Werte ungleichmäßig belegt sind Modifikation ist notwendig, wenn Hauptspeicher zu klein (kleiner als 55 Einfacher Hash-Join (cont. Algorithmus for each Tupel r do berechne adr berechne adr = hash(r ; speichere r in HT[adr] ab; for each Tupel s do //prüfe in der Hashtabelle HT = hash(s ; for each Tupel r HT[ adr] do if r. A = s. then result : = result (( r r. A s Matrixnotation hash(x = MOD 3 56

20 Hashed-Loop-Join Kombination aus dem Nested-Loop-Join und dem einfachen Hash-Join elation wird in große löcke eingeteilt, deren Hashtabellen in den Puffer passen Für jeden dieser löcke wird die elation gescannt und ein einfacher Hash-Join durchgeführt Algorithmus repeat lese soviel Tupel von in Hauptspeic her bis der Platz aufgebrauc ht ist; erzeuge für diese Tupel eine Hashtabell e for each Tupel s do berechne adr = hash(s ; for each Tupel r HT [ adr ] do if r. A = s. then result : = result (( r r. A s until alle Tupel der lti elation HT ; sind id eingelesen ; 57 Hashed-Loop-Join (cont. Matrixnotation -Tupel, die in den Puffer passen auf fden einzelnen löcken: Hash-Join hj Ablauf chritt A:. Eintragen der Tupel von in die Hashtabelle, bis sie voll ist. Prüfen, ob Einträge für Hashwert der Tupel von in der Hashtabelle vorhanden sind und ggf. ildung des Joins Hashtabelle Hintergrundspeicher Hauptspeicher chritt : Wiederhole chritt A für die restlichen Tupel von 58

21 Hash-Partitioned-Join (GACE Der Hashed-Loop-Join zerlegt die elationen willkürlich in löcke, jeder lock der -elation l i muss mit ijd jedem lock kder -elation l i kombiniert i werden Idee: Zerlege die elationen und mit Hilfe einer Hashfunktion in Partitionen, so dass nur Partitionen mit demselben Hash-Key kombiniert werden müssen Zweistufiges Verfahren. Partitioniere die elationen und in,, N und,, N. erechne den Join der einzelnen Partitionen i und i mit einem beliebigen Join Verfahren (z.. einfacher Hash-Join oder Hashed-Loop- Join wenn Partition zu groß Matrixnotation -Tupel, die in den Puffer passen Auf den einzelnen löcken: einfacher Hash-Join oder Hashed-Loop-Join 59 Hash-Partitioned-Join (GACE (cont. Ablauf Partitionierungsphase chritt A: Hintergrundspeicher chritt : Wiederhole chritt A für Join-Phase i i Hintergrundspeicher Puffer Puffer Puffer 3 3 Puffer n n Hauptspeicher Hintergrundspeicher. Eintragen der Tupel von i in die Hashtabelle, bis sie voll ist. Prüfen, ob Einträge für Hashwert der Tupel von i in der Hashtabelle vorhanden sind und ggf. ildung des Joins Hashtabelle Hauptspeicher 60

22 Hybrid Hash-Join Algorithmus for each Tupel r do berechne adr if (adr = then else = hash(r ; füge r in eine Hashtabelle HT ein (bzgl. neuer Hashfkt.; speichere ih r in einem Pff Puffer / * wenn der Puffer voll ist, for each Tupel s do berechne adr if (adr = then else = hash(s ; adr wird er stets auf Platte geschrieben */ suche in HT nach entsprechenden Tupel r mit r.a = s.; speichere s in einem Puffer for i = to N do berechne den Join der Partitionen adr i und i mit dem Hashed - Loop - Join 6 Hybrid Hash-Join (cont. Ablauf der Partitionierungsphase: Hintergrundspeicher Hashtabelle Puffer 3 Puffer 3 3 n Puffer n n Hauptspeicher Hintergrundspeicher 3 4 n Hintergrundspeicher 3 4 n Hintergrundspeicher 6

23 Hybrid Hash-Join (cont. Leistung eduzierung der I/O-Kosten (im Vergleich zu GACE, da eine Partition im Hauptspeicher gehalten wird vorteilhaft, wenn viel Hauptspeicher zur Verfügung steht, aber die elation nicht komplett im Hauptspeicher gehalten werden kann Probleme aller Hash-Join-Verfahren ungleiche Datenverteilung (extrem hohe elegung eines Wertes durch Datensätze Wie wird die Hashfunktion (und damit die Partitionen der einzelnen Verfahren gewählt? 63