Implementierung von Datenbanken und Informationssystemen

Transkript

1 Anwendersoftware (AS) Implementierung von Datenbanken und Informationssystemen Kapitel 8: Tabellenoperationen Teile dieses Foliensatzes beruhen auf ähnlichen Vorlesungen, gehalten von Prof. Dr. T. Härder am Fachbereich Informatik der Universität Kaiserslautern und Prof. Dr. B. Mitschang / Dr. Holger Schwarz am Fachbereich Informatik der Universität Stuttgart. Für das vorliegende Material verbleiben alle echte (insbesondere für den Nachdruck) bei den Autoren. 8. Tabellenoperationen Implementierung Ziele Planoperatoren auf einer Tabelle Planoperatoren auf mehreren Tabellen Verbundalgorithmen Nested-Loop-Verbund Sort-Merge-Verbund Hash-Verbund (classic hashing, simple hash join, hybrid hash join) Nutzung von typübergreifenden Zugriffspfaden verteilte Verbundalgorithmen weitere binäre Operationen (Mengenoperationen) Quelle: [Mit95] 2

2 Ziele Ziele Systematische Entwicklung von relationalen Verarbeitungskonzepten für eine oder mehrere Tabellen ealisierung von Planoperatoren Operationen der elationenalgebra unäre Operationen: π, σ binäre Operationen:,,,,, Planoperatoren SQL-Anfragen enthalten logische Ausdrücke, die auf die Operationen der elationenalgebra zurückgeführt werden können. Sie werden in Zugriffspläne umgesetzt. So genannte Planoperatoren implementieren diese logischen Operationen. 3 Planoperatoren für Selektion und Projektion Allgemeine Auswertungsmöglichkeitenfür die Selektion: direkter Zugriff über ein gegebenes TID, über ein Hash-Verfahren oder eine ein- bzw. mehrdimensionale Indexstruktur sequentielle Suche in einer Tabelle Suche über eine Indexstruktur (Indextabelle, Bitliste) Auswahl mit Hilfe mehrerer Verweislisten, wobei mehr als eine Indexstruktur ausgenutzt werden kann Suche über eine mehrdimensionale Indexstruktur Projektion wird typischerweise in Kombination mit Sortierung, Selektion oder Verbund durchgeführt 4

3 Planoperatoren für die Selektion Nutzung des Scan-Operators Definition von Start- und Stopp- Bedingung Definition von einfachen Suchargumenten (Simple Search Argument) Definition der Suchrichtung: NEXT/PIO, FIST/LAST, n-th Weitere Planoperatoren in Kombination mit der Selektion Sortierung Gruppenbildung (siehe Sortieroperator) spezielle Operatoren z.b. in Data- Warehouse-Anwendungen zur Gruppen- und Aggregatbildung (CUBE-Operator) 5 Planoperatoren für die Selektion Tabellen-Scan (elationen-scan) immer möglich SCAN-Operator implementiert die Selektionsoperation Index-Scan Auswahl des kostengünstigsten Index Spezifikation des Suchbereichs (Start-, Stopp-Bedingung) k-d-scan Auswertung mehrdimensionaler Suchkriterien Nutzung verschiedener Auswertungsrichtungen durch Navigation I Tabelle TID-Algorithmus Auswertung aller brauchbaren" Indexstrukturen Auffinden von variabel langen TID-Listen Boolesche Verknüpfung der einzelnen Listen Zugriff zu den Tupeln entsprechend der Trefferliste I 1 I 2 TID-Listen 6

4 Planoperatoren für Modifikationen Änderungen sind in SQL mengenorientiert, aber auf eine Tabelle beschränkt INSET, DELETE und UPDATE werden direkt auf die entsprechenden Operationen der Speicherungsstrukturen abgebildet automatische Abwicklung von Wartungsoperationen zur Aktualisierung von Zugriffspfaden, zur Gewährleistung von Cluster-Bildung und eorganisation usw. Durchführung von Logging- und ecovery-maßnahmen usw. 7 Planoperatoren auf mehreren Tabellen SQL erlaubt komplexe Anfragen über k Tabellen Ein-Variablen-Ausdrücke: beschreiben Bedingungen für die Auswahl von Elementen aus einer Tabelle. Zwei-Variablen-Ausdrücke: beschreiben Bedingungen für die Kombination von Elementen aus zwei Tabellen. k-variablen-ausdrücke: werden typischerweise in Ein- und Zwei-Variablen-Ausdrücke zerlegt und durch entsprechende Planoperatoren ausgewertet 8

5 Planoperatoren auf mehreren Tabellen Allgemeine Auswertungsmöglichkeiten: Schleifeniteration (nested iteration) für jedes Element der äußeren Tabelle a Durchlauf der inneren Tabelle i - O(N a N i + N a ) - wichtigste Anwendung: nested loops join Mischmethode (merge method) sequentieller, schritthaltender Durchlauf beider Tabellen 1, 2 - O(N 1 + N 2 ) - ggf. zusätzliche Sortierkosten - wichtigste Anwendung: merging join Hash-Methode (hashing) Partitionierung der inneren Tabelle i. Laden der p Partitionen in eine Hash- Tabelle HT im HSP. Probing der äußeren Tabelle a oder ihrer entsprechenden Partitionen mit HT: - O(p N a + N i ) 9 Planoperatoren auf mehreren Tabellen n-wege-verbunde Zerlegung in n-1 Zwei-Wege-Verbunde Wahl der Verbundreihenfolge - maximal n! verschiedene eihenfolgen - Anzahl der Verbundreihenfolgen ist abhängig von den gewählten Verbundattributen - Optimale eihenfolge abhängig von Größe der Operanden Planoperatoren passende Sortierordnungen für Verbundattribute Einsatz von Pipelining-Techniken, etc. - Heuristic: Größe der Zwischenergebnisse minimieren Wahl des Planoperators für die einzelnen Zwei-Wege-Verbunde - Kosten der Operation abhängig von Größe der Operanden passende Sortierordnungen, etc. Mengenoperationen analoge Vorgehensweise 10

6 Planoperatoren auf mehreren Tabellen Einige Verbundreihenfolgen mit Zwei-Wege-Verbunden (n=5) Ergebnis Ergebnis Ergebnis left-deep bushy right-deep Tabellenoperationen Implementierung Ziele Planoperatoren auf einer Tabelle Planoperatoren auf mehreren Tabellen Verbundalgorithmen Nested-Loop-Verbund Sort-Merge-Verbund Hash-Verbund (classic hashing, simple hash join, hybrid hash join) Nutzung von typübergreifenden Zugriffspfaden verteilte Verbundalgorithmen weitere binäre Operationen (Mengenoperationen) 12

7 Planoperatoren für den Verbund Verbund satztypübergreifende Operation: gewöhnlich sehr teuer häufige Nutzung: wichtiger Optimierungskandidat typische Anwendung: Gleichverbund allgemeiner Θ-Verbund selten Implementierung der Verbundoperation kann gleichzeitig Selektionen auf den beteiligten Tabellen und S ausführen SELECT * FOM, S WHEE.VA Θ S.VA AND P AND P S VA: Verbundattribute P und P S : Prädikate definiert auf Selektionsattributen (SA) von und S 13 Planoperatoren für den Verbund Mögliche Zugriffspfade Scans über und S (immer) Scans über I (VA), I S (VA) (wenn vorhanden) liefern Sortierreihenfolge nach VA Scans über I (SA), I S (SA) (wenn vorhanden) ggf. schnelle Selektion für P und P S Scans über andere Indexstrukturen (wenn vorhanden) ggf. schnelleres Auffinden aller Sätze VA: Verbundattribute P und P S : Prädikate definiert auf Selektionsattributen (SA) von und S 14

8 Nested-Loop-Verbund Annahmen: Sätze in und S sind nicht nach den Verbundattributen geordnet es sind keine Indexstrukturen I (VA) und I S (VA) vorhanden Algorithmus für Θ -Verbund: Scan über S, für jeden Satz s, falls P S : Scan über, für jeden Satz r, falls P AND (r.va Θ s.va): führe Verbund aus, d. h., übernehme kombinierten Satz (r, s) in die Ergebnismenge. Komplexität: O(N 2 ) für N = N = N S Inakzeptables Leistungsverhalten wenn die Tupel der inneren elation nicht vollständig in den Hauptspeicher passen. Quelle: [Gra93] 15 Nested-Loop-Verbund Nested-Loop-Verbund mit Indexzugriff Scan über S, für jeden Satz s, falls P S : ermittle mittels Zugriff auf I (VA) alle TIDs für Sätze mit r.va = s.va, für jedes TID: hole Satz r, falls P : übernehme kombinierten Satz (r, s) in die Ergebnismenge. Nested-Block-Verbund Scan über S, für jede Seite (bzw. Menge aufeinander folgender Seiten) von S: Scan über, für jede Seite (bzw. Menge aufeinander folgender Seiten) von : für jeden Satz s der S-Seite, falls P S : für jeden Satz r der -Seite, falls P AND (r.va Θ s.va): übernehme kombinierten Satz (r, s) in die Ergebnismenge. 16

9 Sort-Merge-Verbund Algorithmus besteht aus 2 Phasen: Phase 1: Sortierung von und S nach (VA) und S(VA) (falls nicht bereits vorhanden), dabei frühzeitige Eliminierung nicht benötigter Sätze (P, P S ) Phase 2: schritthaltende Scans über sortierte - und S-Sätze mit Durchführung des Verbundes bei r.va = s.va Komplexität: O(N log N) für N = N = N S Spezialfall: Falls I (VA) und I S (VA) oder verallgemeinerte Zugriffspfadstruktur über (VA) und S(VA) (Join-Index) vorhanden Ausnutzung von Indexstrukturen auf Verbundattributen: Schritthaltende Scans über I (VA) und I S (VA): für jeweils zwei Schlüssel aus I (VA) und I S (VA), falls r.va = s.va: hole mit den zugehörigen TIDs die Tupel, falls P und P S : übernehme kombinierten Satz (r, s) in die Ergebnismenge. 17 Hash-Verbund Einfachster Fall (classic hashing): Schritt 1: Abschnittsweises Lesen der (kleineren) Tabelle und Aufbau einer Hash-Tabelle mit h A (r(va)) nach Werten von (VA) entsprechend den Abschnitten i (1 i p), so dass jeder der p Abschnitte in den verfügbaren Hauptspeicher passt und jeder Satz P erfüllt. Schritt 2: Überprüfung (Probing) für jeden Satz von S der P S erfüllt. Im Erfolgsfall Durchführung des Verbunds. Schritt 3: Wiederhole Schritt 1 und 2 solange, bis erschöpft ist. 18

10 Hash-Verbund Aufbau der Hash-Tabelle und Probing Es erfolgt ein Scan über Dabei wird die Hash-Tabelle H i (1 i p) der eihe nach im HSP aufgebaut H 1 S Scan über S mit Probing von H 1 S Scan über S mit Probing von H p H p Komplexität: O(p N S ) Spezialfall: passt in den Hauptspeicher: eine Partition (p = 1) ein Scan über S genügt 19 Hash-Verbund Partitionieren von mit h p (r(va)) #Tupel/ VA-Wert #Tupel/ VA-Wert h P (r(va)) VA Ableitung der H i Partitionierung von in Teilmengen 1, 2,..., p Ein Satz r von ist in i, wenn h p (r(va)) in H i ist. h p Warum ist diese Partitionierung eine kritische Operation? Welche Hilfsoperationen können erforderlich sein? Ist für die Partitionierung der Einsatz einer Hash-Funktion notwendig? VA' H 1 H 2 H p Tabelle S wird mit derselben Funktion h p unter Auswertung von P S partitioniert Varianten des Hash-Verbundes Unterschiede vor allem in der Art der Partitionsbildung 20

11 Simple Hash Join Schritt 1: Führe Scan auf kleinerer Tabelle aus Überprüfe P und wende auf qualifizierte Tupel r die Hash-Funktion h p an Fällt h p (r(va)) in den gewählten Bereich, trage r in H 1 ein Anderenfalls schreibe r in einen Puffer für die Ausgabe in eine Datei rest für übergangene r-tupel Schritt 2: Führe Scan auf S aus Überprüfe P S und wende auf qualifizierte Tupel s die Hash-Funktion h p an Fällt h p (s(va)) in den gewählten Bereich, suche in H 1 einen Verbundpartner (Probing) Falls erfolgreich, bilde ein Verbundtupel und ordne es dem Ergebnis zu Anderenfalls schreibe s in einen Puffer für die Ausgabe in eine Datei S rest für übergangene s-tupel Schritt 3: Wiederhole Schritt 1 und 2 mit den bisher übergangenen Tupeln auf H i solange, bis rest erschöpft ist Dabei ist die Überprüfung von P und P S nicht mehr erforderlich Partitionierungstechnik beim einfachen Hash-Verbund gezeigt an Aufbau und Probing von H 1 : 1. Iteration Schritt 1 Schritt 2 S H 1 rest S rest 21 Grace Join Partitionsbildung findet vor dem Verbund statt Partitionen i und S i sind in Dateien zwischengespeichert Aufbau von H i im HSP mit i und Probing mit S i 1 H 1 S 1 Scan über S 1 mit Probing von H 1 p S p... H P Scan über SP mit Probing von HP 22

12 Hybrid Hash Join Optimiert das Verfahren dadurch, dass parallel zur Partitionsbildung Aufbau und Probing von H 1 erfolgt 1) Scan 2 3 p 1 in H 1 aufgebaut a) HSP... b) S Scan sofortiges Probing von S 1 -Tupel S 2 S 3 S p HSP-Bereich jeweils 1 Seite 2) 3)... 2 H 2 S 2 Scan wie bei Grace-Verbund 23 Nutzung typübergreifender Zugriffspfade Verbund über Link-Strukturen Ausnutzung hierarchischer Zugriffspfade für den Gleichverbund Scan über (Owner-Tabelle), für jeden Satz r, falls P : Scan über zugehörige Link-Struktur L -S (VA), für jeden Satz s, falls P S : übernehme kombinierten Satz (r, s) in die Ergebnismenge Weitere Verfahren Verbundindexe, die für bestimmte Θ-Verbunde eingerichtet sind TID r1 S TID s4 TID s3 TID s2 TID s6 logische Sicht VI TID r1 S TID s3 TID s2 TID s4 TID s6 Index auf TID VI S S TID s2 TID s3 TID s4 TID s6 Nutzung von verallgemeinerten Zugriffspfadstrukturen TID r1 Index auf TID S K53 K25 K36 K K58 K78 K88 Zeigerlisten für A1 A Z11 Z 21 Z22 Z23 Z31 Z 41 Z42 Z43 Z44 K55 Zeigerlisten für A2 und A4 Optionaler Zeiger zur Überlaufseite 24

13 Eingabestrom 2 e 21 e 22 e Verbundalgorithmen Vergleich e 11 e 12 e 13 Eingabestrom 1 Elementvergleich Elementvergleich, der zu einem Verbundelement führt (a) Nested-Loop-Verbund (b) Merge-Verbund Hash-Partitionen (c) Hash-Verbund Nested-Loop-Verbund ist immer anwendbar, jedoch ist dabei stets das vollständige Durchsuchen des gesamten Suchraums in Kauf zu nehmen. Merge-Verbund benötigt die geringsten Suchkosten, verlangt aber, dass die Eingabeströme bereits sortiert sind. Indexstrukturen auf beiden Verbundattributen erfüllen diese Voraussetzung. Sonst reduziert das Sortieren beider Tabellen nach den Verbundattributen den Kostenvorteil in erheblichem Maße. Ein Sort-Merge-Verbund kann dennoch zusätzliche Vorteile besitzen, falls das Ergebnis in sortierter Folge verlangt wird und das Sortieren des großen Ergebnisses aufwendiger ist als das Sortieren zweier kleiner Ergebnismengen. Beim Hash-Verbund wird der Suchraum partitioniert. In Bild c ist unterstellt, dass die gleiche Hash- Funktion h auf die Tabellen und S angewendet worden ist. Die Partitionsgröße (bei der kleineren) Tabelle richtet sich nach der verfügbaren Puffergröße im Hauptspeicher. Eine Verkleinerung der Partitionsgröße, um den Fall b anzunähern, verursacht höhere Vorbereitungskosten und ist deshalb nicht zu empfehlen. 25 Verbundalgorithmen in verteilten DBS Problemstellung: Anfrage in Knoten K, die einen Verbund zwischen (Teil-)Tabellen am Knoten K und (Teil-)Tabelle S am Knoten K S erfordert Festlegung des Ausführungsknotens: K, K oder K S Bestimmung der Auswertestrategie Sende beteiligte Tabellen vollständig an einen Knoten und führe lokale Verbundberechnung durch ( ship whole ) - minimale Nachrichtenanzahl - sehr hohes Übertragungsvolumen Fordere für jeden Verbundwert der ersten Tabelle zugehörige Tupel der zweiten an ( fetch as needed ) - hohe Nachrichtenanzahl - nur relevante Tupel werden berücksichtigt Kompromisslösungen: Mit Semi-Verbund bzw. Erweiterungen wie Bit-Vektor- Verbund (hash filter join) Semi-Verbund Versenden einer Liste der VA von ( ' = π VA () ) zum Knoten S Ermitteln der Verbundpartner in S ( S' = S VA' = π S (S VA') ) Zurückschicken zum Knoten von Durchführung des Verbunds ( S' ) Bit-Vektor-Verbund ähnlich wie Semi-Verbund, nur Versenden eines durch Hash-Funktion erstellten Bitvektors (Bloom-Filter) ücksenden einer Obermenge der Verbundpartner in S 26

14 Frankfurt Semi-Verbund ABTEILUNGEN ABTN OT MG Verbund ABTN NAME Hans Verschicke projizierte Verbundpartner zurück 39 Anna 64 Verschicke die ganze VA-Spalte München ABTN Finde Verbundpartner ANGESTELLTE ABTN NAME ADESSE TEL Hans Anna 27 Bit-Vektor-Verbund Frankfurt ABTEILUNGEN ABTN OT MG ABTN NAME ADESSE TEL 39 Test + Verbund 28 Hans 64 Anna Erzeuge Bit-Vektor durch Hashing Verschicke die potentiellen Verbundkandidaten zurück München Verschicke Bit-Vektor ANGESTELLTE ABTN NAME ADESSE TEL Hashing der ABTN-Werte, um potentielle Verbundkandidaten zu finden Hans Anna 28

15 8. Tabellenoperationen Implementierung Ziele Planoperatoren auf einer Tabelle Planoperatoren auf mehreren Tabellen Verbundalgorithmen Nested-Loop-Verbund Sort-Merge-Verbund Hash-Verbund (classic hashing, simple hash join, hybrid hash join) Nutzung von typübergreifenden Zugriffspfaden verteilte Verbundalgorithmen weitere binäre Operationen (Mengenoperationen) 29 Mengenoperationen Welche Mengenoperationen werden benötigt? A B C S, S vereinigungsverträgliche Eingabeströme A, B, C Elementmengen Übereinstimmung Operationsergebnis oder mehreren Attributen Übereinstimmung in einem in allen Attributen A B C A, B A, C B, C A, B, C Differenz (-S) Durchschnitt Differenz (S-) Anti-Differenz Vereinigung Anti-Semiverbund Verbund, Semiverbund Anti-Semiverbund Linksseitiger Äußerer Verbund Anti-Verbund echtsseitiger Äußerer Verbund Symmetrischer Äußerer Verbund Welche Algorithmen lassen sich für diese Mengenoperationen heranziehen? Was muss jeweils verglichen werden? Wie lässt sich eine Verbindung zu den Verbundalgorithmen herstellen? Quelle: [Gra93] 30

16 Binäre Matching-Operationen Mengen- und Verbundoperationen sind eng miteinander verwandt! erledigen grundsätzlich dieselbe Aufgabe: binary one-to-one matching operations ein Eingabe-Element trägt zur Ausgabe abhängig von seinem Match mit einem anderen Eingabe-Element bei Operationen erfordern immer wieder die gleichen Schritte und können deshalb mit denselben Algorithmen implementiert werden Gleiche logische Vorgehensweise aus und S werden drei Elementmengen gebildet: A, B, C Elemente in B passen zueinander! Wie können diese drei Elementmengen gebildet werden? - mit Schleifeniteration - mit Mischmethode - mit Hash-Methode 31 Binäre Matching-Operationen Vereinheitlichtes ealisierungskonzept Vergleich von Verbund- vs. Primärschlüssel-Attributen Gemeinsamkeit: Sätze werden auf der Basis von Attributwerten gruppiert Dabei sind einige unäre Operationen mit speziellen Maßnahmen möglich - Gruppierung und Sortierung erlaubt einfache Duplikateliminierung - Bei Aggregation wird ein Attributwert pro Gruppe bestimmt - Beim Verbund ist die Gruppierung der potentiellen Verbundpartner kosteneffektiv (entweder in Partitionen oder einer Sortierordnung) - Bei Mengenoperationen können die Elementmengen A, B, C gefunden werden; dabei wird Duplikateliminierung möglich 32

17 Zusammenfassung Selektionsoperationen vorhandene Zugriffspfadtypen erfordern zugeschnittene Operationen und effiziente Abbildung Kombination verschiedener Zugriffspfade möglich (TID-Algorithmus) Allgemeine Klassen von Auswertungsverfahren für binäre Operationen Schleifeniteration (nested iteration) Mischmethode (merge method) Hash-Methode (hashing) Viele Optionen zur Durchführung von Verbundoperationen Nested-Loop-Verbund Sort-Merge-Verbund Hash-Verbund und Variationen Mengenoperationen prinzipiell Nutzung der gleichen Verfahrensklassen Variation der Vergleichsdurchführung 33 LiteraturzudiesemKapitel [Gra93] [Mit95] Goetz Graefe: Query Evaluation Techniques for Large Databases. ACM Comput. Surv. Vol. 25, No. 2, Mitschang, B.: Anfrageverarbeitung in Datenbanksystemen - Entwurfsund Implementierungskonzepte, eihe Datenbanksysteme, Vieweg- Verlag,