Rückblick: Pufferverwaltung

Transkript

1 Rückblick: Pufferverwaltung Datenbankpuffer zum Schließen der Zugriffslücke zwischen Primär- und Sekundärspeicher Ersetzungsstrategien berücksichtigen Zeitpunkte und/oder Anzahl der Zugriffe auf bestimmte Seite FIFO, LFU, LRU (als klassische Verfahren) LRU-K und CLOCK (als moderne Verfahren) Caching kommt auch an anderen Stellen in einem RDBMS, z.b. für Anfrageergebnisse, zum Einsatz 73

2 3.4 Zugriffsstrukturen Tupel einer Relation lassen sich als Datensätze in den Seiten einer Datei speichern (vgl. Kapitel 3.2) Wie können wir solch eine Datei organisieren, um effizient auf Tupel zugreifen zu können, z.b. anhand ihrer Primärschlüsselattribute Anfrage Ergebnis Welche Zugriffsstrukturen gibt es, um effizient auf Tupel zugreifen zu können, z.b. anhand anderer Nichtschlüsselattribute Anfragebearbeitung Optimierung Auswertung Pufferverwaltung Hintergrundspeicher Daten Indizes Logs 74

3 Daten und Indizes Wir machen die (vereinfachende) Annahme, dass das RDBMS Daten und Indizes voneinander getrennt speichert Daten Index Index Echte RDBMS trennen u.u. weniger scharf: Oracle kennt z.b. sogenannte Index-Organized Tables (IOTs), wobei die Daten selbst als Index gespeichert werden 75

4 Zugriffsarten Nachschlagen eines Tupels anhand von Tupelnummer (z.b. Tupel mit Tupelnummer (198,12)) Nachschlagen eines Tupels anhand von Primärschlüssel (z.b. Tupel zu Kunde mit KundenNr ) Finde Tupel mit bestimmtem Attributwert (z.b. Tupel zu Kunden mit PLZ 66117) Finde Tupel mit Kombination von Attributwerten (z.b. Tupel zu Kunden namens Müller mit PLZ 66117) 76

5 Zugriffsarten Finde Tupel mit Attributwert in bestimmten Bereich (z.b. alle Kunden mit PLZ in 661*) Finde Tupel mit Attributwerten in bestimmten Bereichen (z.b. alle Kunden namens M* mit PLZ in 661*) Wie können wir diese Zugriffsarten durch Organisation der Daten bzw. zusätzliche Indizes unterstützen? 77

6 3.4.1 Datenorganisation Welche Organisationsformen gibt es, um Tupel einer Relation als Datensätze in einer Datei abzulegen? Primäres Ziel ist effizienter Zugriff auf Datensätze anhand von Tupelnummer oder Primärschlüssel Wie gut kann die Organisationsform mit dynamischen Daten, d.h. Einfügen/Löschen von Tupeln, umgehen? 78

7 Haufen (Heap) Datensätze organisiert als Haufen (Heap, jedoch nicht zu verwechseln mit der gleichnamigen Datenstruktur) Datensätze werden ohne Ordnung in Seiten gespeichert Neue Datensätze werden am Ende der Datei angefügt Datensätze werden durch Markieren mit Löschbit gelöscht Suche von Datensätzen mittels linearer Suche (d.h. Durchlaufen einer bzw. aller Seiten) 7 11 (133, Max, Imum, PI, 1) (331, Tom, Scheel, PI, 1) (412, Nora, Nolte, WI, 7) (122, Isa, Meier, KI, 3) 79

8 Haufen (Heap) Zusammenfassung: Ineffiziente Suche von Datensätzen Effizientes Einfügen von Datensätzen Ineffizientes Löschen von Datensätzen mit zunehmender Platzverschwendung mangels Freigabe von Speicherplatz 80

9 Sequenzielle Speicherung Datensätze organisiert als sequenzielle Datei Datensätze werden sortiert gespeichert Neue Datensätze werden sortiert eingefügt Datensätze werden gelöscht mit Freigabe von Speicherplatz Suche von Datensätze mittels linearer bzw. binärer Suche (linear über Seiten, binär innerhalb einer Seite) 7 11 (122, Isa, Meier, KI, 3) (133, Max, Imum, PI, 1) (331, Tom, Scheel, PI, 1) (412, Nora, Nolte, WI, 7) 81

10 Sequenzielle Speicherung Beim Einfügen und Löschen von Datensätzen wird evtl. ein Verschieben von Datensätze innerhalb der Seite oder über Seiten hinweg notwendig Zusammenfassung: Ineffiziente Suche von Datensätzen Ineffizientes Einfügen von Datensätzen Ineffizientes Löschen von Datensätzen allerdings ohne Platzverschwendung sofern Fragmentierung vermieden wird 82

11 Indexsequenzielle Speicherung (ISAM) Datensätze organisiert in sequenzieller Datei mit zusätzlicher Indexdatei Datensätze werden sortiert gespeichert Neue Datensätze werden sortiert eingefügt Datensätze werden gelöscht bei Freigabe von Speicherplatz Suche von Datensätze mittels linearer bzw. binärer Suche (linear über Seiten der Indexdatei, binär innerhalb Seite) (122, 7) (122, Isa, Meier, KI, 3) (331, 11) (133, Max, Imum, PI, 1) (331, Tom, Scheel, PI, 1) (412, Nora, Nolte, WI, 7) 83

12 Indexsequenzielle Speicherung (ISAM) Beim Einfügen und Löschen von Datensätzen wird evtl. ein Verschieben von Datensätze innerhalb der Seite oder über Seiten hinweg notwendig; zusätzlich muss die Indexdatei entsprechend aktualisiert werden Zusammenfassung: (Relativ) effiziente Suche von Datensätzen Effizientes Einfügen von Datensätzen Effizientes Löschen von Datensätzen ohne Platzverschwendung sofern Fragmentierung vermieden wird 84

13 Indexsequenzielle Speicherung (ISAM) Indexsequenzielle Speicherung (indexed sequential access method) kann mehrstufig verwendet werden, dann ist die Indexdatei selbst wieder indexsequenziell gespeichert 85

14 3.4.2 Indexstrukturen Indexsequenzielle Speicherung (ISAM) ist eine Möglichkeit, Tupel relativ effizient zugreifbar anhand ihres Primärschlüssels zu machen Zusätzliche Indizes (sogenannte Sekundärindizes) unterstützen effizienten Zugriff anhand von (Gruppen von) Attributen Je nach Zugriffsart eignen sich verschiedene Indexstrukturen; diese greifen meist Ideen bereits bekannter Datenstrukturen auf 86

15 Rückblick: Binäre Suchbäume Binäre Suchbäume zur effizienten Suche im Hauptspeicher Balancierte binäre Suchbäume (z.b. AVL-Bäume und Rot-Schwarz-Bäume) Jeder Knoten hat bis zu zwei Kinder Suchen, Einfügen, Löschen in O(log 2 n) Wieso nicht unverändert geeignet als Indexstrukturen? 87

16 Rückblick: Binäre Suchbäume Indexstruktur ebenfalls in Seiten einer Datei gespeichert Knoten des binären Suchbaums könnten jeweils in unterschiedlichen Seiten liegen, so dass man z.b. zum Suchen O(log 2 n) Zugriffe auf den Sekundärspeicher (I/Os) bräuchte Gesucht ist ein Suchbaum, der bei einer Seitengröße B alle Operationen mit O(log B n) I/Os unterstützt und O(n/B) Seiten belegt Bemerkung: Betrachtet man die Zahl der Zugriffe auf den Sekundärspeicher, spricht man von I/O-Komplexität 88

17 B-Bäume B-Baum ist ein balancierter Suchbaum, bei dem sich die Gestalt der Knoten an der Seitengröße orientiert Knoten muss in eine Seite passen Knoten bestehen aus mehreren Werten als Schlüssel mehreren Verweisen auf Kindknoten mehreren Tupelnummern (oder gar den Tupeln selbst) 12 (2,1) 20 (7,2) 34 (9,3) 42 (2,3) 89

18 B-Bäume B-Bäume haben damit typischerweise einen höheren Verzweigungsgrad (fan out) als binäre Suchbäume Balancierung eines B-Baums wird mittels seiner Ordnung m und den Füllgraden der Knoten erreicht jeder Knoten außer der Wurzel enthält mindestens m Einträge jeder Knoten enthält höchstens 2*m Einträge jeder Knoten ist entweder Blattknoten ohne Kinder oder hat ein Kind mehr als Einträge alle Blattknoten liegen auf der gleichen Stufe 90

19 B-Bäume Beispiel: B-Baum der Ordnung m=

20 Suche in B-Bäumen Suche in B-Baum Beginne beim Wurzelknoten Falls der gesuchte Wert einem Schlüssel entspricht, gibt die zugehörige Tupelnummer zurück Verfolge ansonsten Verweis zu Kindknoten, der links vom kleinsten Schlüssel größer als gesuchter Wert steht rechts vom größten Schlüssel kleiner als gesuchter Wert steht Fahre mit Kindknoten analog fort Höhe des B-Baums ist in O(log m n) Suche auf B-Baum benötigt O(log m n) Zugriffe 92

21 Suche in B-Bäumen Beispiel: Suche nach dem Wert 22 im B-Baum Wert 22 nicht enthalten 93

22 Einfügen in B-Bäumen Einfügen in B-Baum Suche Blattknoten, in dem der einzufügende Wert stünde Enthält der Blattknoten mehr als m und weniger als 2*m Einträge, dann füge den Wert im Blattknoten ein Enthält der Blattknoten bereits genau 2*m Einträge, dann zerteile diesen in zwei Blattknoten mit je m Einträgen und reiche mittleres Element an Elternknoten hoch; dort wird analog fortgefahren Einfügen in B-Baum benötigt O(log m n) Zugriffe 94

23 Einfügen in B-Bäumen Beispiel: Einfügen des Werts

25 Einfügen in B-Bäumen Beispiel: Einfügen des Werts Knoten voll 97

27 Löschen in B-Bäumen Löschen im B-Baum Suche Knoten, in dem der gesuchte Wert steht Handelt es sich dabei um einen Blattknoten, so entferne den Eintrag und behandle evtl. Unterlauf des Knotens, falls Knoten danach weniger als m Einträge enthält Handelt es sich um einen inneren Knoten, so ersetze den Eintrag durch den Eintrag von einem Blattknoten mit nächstkleineren Schlüssel und behandle evtl. Unterlauf 99

28 Löschen in B-Bäumen Behandlung eines Unterlaufs (weniger als m Einträge) durch Ausgleichen oder Verschmelzen mit Nachbarknoten Hat der Nachbarknoten mehr als m Einträge, werden diese und die Einträge des untergelaufenen Knotens auf beide Knoten verteilt Hat der Nachbarknoten genau m Einträge, so werden die beiden Knoten verschmolzen und der mittlere Eintrag, wie beim Einfügen, zum Elternknoten weitergereicht Löschen im B-Baum benötigt O(log m n) Zugriffe 100

29 Löschen in B-Bäumen Beispiel: Löschen des Werts

30 Löschen in B-Bäumen Beispiel: Löschen des Werts in innerem Knoten, ersetze durch 20 aus Blattknoten 102

31 Löschen in B-Bäumen Beispiel: Löschen des Werts Unterlauf des Blattknotens 103

32 Löschen in B-Bäumen Beispiel: Löschen des Werts Ausgleichen mit Nachbarknoten 104

33 B-Bäume Im B-Baum enthalten sowohl innere Knoten als auch Blattknoten Tupelnummer (oder gar Tupel) B-Bäume unterstützen Suche nach einem bestimmten Wert effizient; die Suche nach allen Einträgen mit einem Schlüssel in einem bestimmten Wertebereich wird jedoch nicht effizient unterstützt, da eine Traversierung des entsprechenden Unterbaums notwendig wäre 105

34 B + -Bäume B + -Bäume sind eine verbesserte Variante der B-Bäume, die in der Praxis sehr häufig eingesetzt werden B + -Bäume sind hohle Bäume, d.h. Tupelnummern (oder Tupel selbst) befinden sich nur in den Blattknoten; die inneren Knoten enthalten nur Schlüssel und Verweise, sie dienen somit nur der Navigation B + -Bäume verketten die Blattknoten doppelt, wodurch Bereichsanfragen effizient ermöglicht werden 106

35 B + -Bäume Beispiel: B + -Baum der Ordnung m=

36 Bereichsanfragen in B + -Bäumen Bereichsanfrage in B + -Bäumen Suche nach linker Grenze des Wertebereichs Durchlaufe Blattknoten bis ein Schlüssel mit größerem Wert als rechte Grenze des Wertebereichs erreicht Bereichsanfrage benötigt O(log m n + r/m) Zugriffe, mit r als Anzahl der zurückgelieferten Einträge 108

37 Bereichsanfragen in B + -Bäumen Beispiel: Suche Einträge mit Schlüssen im Bereich [13,31]

38 Rückblick: Hashverfahren Hashtabellen zur effizienten Suche im Hauptspeicher Werte werden mittels Hashfunktion auf Buckets eines Arrays abgebildet Typische Hashfunktion: 2 h(k) = (k mod p) mod n mit Primzahl p und Kapazität n Kollisionen können z.b. 5 durch Verkettung behandelt werden 6 13 Suche, Einfügen, Löschen in O(1) (erwartet) p = 31 n = 7 110

39 Hashbasierte Indizes Hashbasierte Indizes in Datenbanksystemen Werte des Primärschlüssels oder anderer Attribute werden mittels einer Hashfunktion auf Buckets abgebildet Jedes Bucket entspricht initial einer Seite, in der die Tupel oder Tupelnummern gespeichert werden Kollisionen können wie im Hauptspeicher z.b. durch Verkettung von Seiten behandelt werden 111

40 Hashbasierte Indizes Hashbasierte Indizes unterstützen Suche, Einfügen und Löschen effizient, sofern vorab bekannt ist, wie viele Datensätze indiziert werden und die Zahl der Buckets entsprechend gewählt werden kann Verwendet man zu viele Buckets (Seiten) wird übermäßig viel Speicher verwendet; bei zu wenigen häufen sich die Kollisionen und die Effizienz nimmt ab Hashbasierte Indizes unterstützen nur die Suche nach einem bestimmten Wert, jedoch keine Bereichsanfragen 112

41 Indizes in RDBMSs RDBMSs (z.b. PostgreSQL und Oracle) implementieren verschiedene Arten von Indizes und erlauben dem Benutzer, die Art des Index sowie zusätzliche Parameter (z.b. den Füllgrad) anzugeben Beispiel: Hashbasierter Index in PostgreSQL 1 CREATE INDEX Studenten_MatrNr 2 ON Studenten USING hash(matrnr) Beispiel: Index (B + -Baum) über mehrere Attribute 1 CREATE INDEX Studenten_Name_Vorname 2 ON Studenten (Name, Vorname) 113

42 Zusammenfassung Datenorganisation der Tupel einer Relation als Haufen, sequenzielle Datei oder indexsequenzielle Datei Indexstrukturen zum effizienteren Zugriff auf Datensätze anhand Primärschlüssel oder anhand anderer Attribute B-Bäume als Indexstruktur auf Sekundärspeicher, die Wertanfragen effizient unterstützt B+-Bäume als Verbesserung, die auch Bereichsanfragen effizient unterstützt Hashbasierte Indizes als Indexstruktur, die Wertanfragen effizient unterstützen 114

43 Literatur [1] A. Kemper und A. Eickler: Datenbanksysteme Eine Einführung, De Gruyter Oldenbourg, 2015 (Kapitel 7) [2] G. Saake, K.-U. Sattler und A. Heuer: Datenbanken - Implementierungstechniken, mitp Professional, 2011 (Kapitel 5) 115