Datenbanksysteme I WS 2012/13 - Übung 0 - Bernhard Pietsch Friedrich-Schiller-Universität Jena Lehrstuhl für Datenbanken und Informationssysteme

Transkript

1 Datenbanksysteme I WS 2012/13 - Übung 0 - Bernhard Pietsch Friedrich-Schiller-Universität Jena Lehrstuhl für Datenbanken und Informationssysteme

2 Organisatorisches (I) Prüfungsmodalitäten Organisatorisches und Hinweise Ergänzende Materialien zur Vorlesung und Übung Klausur: 18. Februar Uhr HS 1, Carl-Zeiss-Str. 3 Klausurteilnahme nur für angemeldete Studenten: B.Sc.: elektronisch über Friedolin Diplom und M.Sc.: schriftlich über Formular 2 DBS1-Übung

3 Organisatorisches (II) 2 Übungsgruppen Mo, 14:15 15:45 Uhr, SR 130 CZ Do, 08:15 9:45 Uhr, SR 226 CZ Einschreibung per Friedolin 7 Übungstermine Vertiefung und praktische Erprobung des Vorlesungsstoffes Vorbereitung auf die Klausur 1. Übungstermin: Zugriffspfade Motivation Mehrwegbäume (B-Bäume, B*-Bäume) Streuspeicherverfahren (Hashing, Extendible Hashing) Übungstermin: Besprechung der Aufgabenblätter 3 DBS1-Übung

4 Seite / Page grundlegende Einheit der Datenspeicherung in DBMS Dateneinheit fester Größe, welche bei den meisten DBMS von Datenbankadministrator festgelegt werden kann Typische Seitengrößen sind 4,8,16 oder 32 KB enthält einen Header und eine Menge von Datensätzen Header 11 Küspert Pietsch Göbel Koch Büchse Friedel Eichner 3244 Header 12 Rossak 3243 Datensätze werden seitenweise auf Externspeicher abgelegt Um schnellen Zugriff zu erzielen, werden einige Seiten im Arbeitsspeicher gepuffert 4 DBS1-Übung

5 Zielstellung der Ablage Ablage von Daten soll einfachen, schnellen und inhaltsbezogenen Zugriff ermöglichen Bsp: "Gib mir alle Angestellten, die im Raum 3240 arbeiten und deren Nachname mit B beginnt. Randbedingungen Große Datenmengen nicht komplett im Hauptspeicher ablegbar I.d.R. mehr Suchanfragen als Änderungen auf Informationen Header 11 Küspert Pietsch Göbel Koch Büchse Friedel Eichner 3244 Header 12 Rossak DBS1-Übung

6 Zugriffspfade Motivation: Sequentielle Suche über GB/TB an Daten nicht akzeptabel Zielstellung: Minimierung der Anzahl von Externspeicherzugriffen (Latenz um Faktor 10 6 langsamer als beim Arbeitsspeicher) Zugriff auf Daten mit konstantem oder logarithmischem Aufwand durch zusätzliche Speicherpfade Zielkonflikt: Zugriffsbeschleunigung vs. Aktualisierungsaufwand Header 11 Küspert Pietsch Göbel Koch Büchse Friedel Eichner 3244 Header 12 Rossak DBS1-Übung

7 Speicherstrukturen Entnommen aus Datenbanksysteme: Konzepte und Techniken der Implementierung von Theo Härder, Erhard Rahm 7 DBS1-Übung

8 Mehrwegbäume Ausgangspunkt: vollständig balancierter binärer Suchbaum Abbildung der Knoten inkl. ausgehender Kanten auf eine Seite Pro Knoten aber nur ein Schlüsselwert Seiten sind nur zu einem Bruchteil ausgelastet geringer Verzweigungsgrad und große Baumhöhe viele Seitenzugriffen und somit viele Externspeicherzugriffe Zielstellung der Mehrwegbäume Zusammenfassung mehrerer Sätze/Schlüssel zu einem Knoten Höherer Verzweigungsgrad führt zu niedriger Baumhöhe Kompromiss für wahlfreien Schlüsselzugriff und sortierte Verarbeitung Aufwand von Änderungsoperationen akzeptabel Beispiele: B- und B+, B*-Baum 8 DBS1-Übung

9 B-Baum Vorschlag von R. Bayer und E. McCreight (1970) Daten und Suchinformationen in Baumstruktur angeordnet Baumknoten werden auf Seiten abgebildet, die vom DBMS verwaltet werden Seiten- bzw. Knotenaufbau: Beispielknoten: DBS1-Übung

10 B-Baum Definition eines B-Baums mit Ordnung n: Jeder Weg von der Wurzel zum Blatt hat die gleiche Länge h Jeder Knoten (außer Wurzel und Blätter) hat mindestens n+1 Söhne. Die Wurzel ist ein Blatt oder hat mindestens 2 Söhne. Jedes Blatt besitzt mindestens n Einträge. Jeder Knoten hat höchstens 2n+1 Söhne Beispiel mit n=2: Beschränkung der Höhe für N Datensätze (N>0): log 2n +1 ( N +1 ) h log n +1 ( N DBS1-Übung )

11 Suchen im B-Baum 11 DBS1-Übung

12 Einfügen im B-Baum (I) 12 DBS1-Übung

13 Einfügen im B-Baum (II) 13 DBS1-Übung

14 Löschen im B-Baum (I) 14 DBS1-Übung

15 Löschen im B-Baum (II) 15 DBS1-Übung

16 Löschen im B-Baum (III) 16 DBS1-Übung

17 Löschen im B-Baum (IV) 17 DBS1-Übung

18 Löschen im B-Baum (V) 18 DBS1-Übung

19 Bewertung B-Baum ist robust gegen Entartung durch Reorganisation Ordnung n beeinflusst Effizienz großes n niedrige Baumhöhe bessere Performance Jede zusätzliche Seitenanforderung kostet viel Zeit ( Pufferverwaltung) Wurzelknoten möglichst im Hauptspeicher halten ABER: n ist durch Seitengröße beschränkt (z.b. 4, 8, 16 KB) Doppelrolle der Schlüsselwerte s i s i bildet ab auf Datensatz d i und ist Weiche zur Suchsteuerung Datenteil für Suchsteuerung nicht erforderlich Idee: Datenteile nur auf Blattebene speichern B+-Baum 19 DBS1-Übung

20 B+-Baum 20 DBS1-Übung

21 B+-Baum Häufigste Art der Index-Implementierung in DBMS Indexbaum: keine Datensätze, sondern Schlüssel und Zeiger auf Kinder Datensätze befinden sich ausschl. in der Blattebene des B+-Baums Gesamtbaum somit flacher als B-Baum Platz für mehr Schlüssel bei fester Seitengröße Lösch-Vorgang einfacher als im B-Baum Daten werden nur in Blättern entfernt Schlüssel in inneren Knoten bleiben als Wegweiser erhalten Weniger Seiten müssen geändert werden 21 DBS1-Übung

22 Verkettung der Blätter im B+-Baum Blattfolge entspricht sequentieller Datei, üblicherweise mit (doppelter) Verkettung zwischen den Seiten Gleiche logarithmische Zugriffszeit für alle Daten sequentieller sortierter Zugriff und wahlfreier Schlüsselzugriff sind effizient Bereichsanfragen, Extremwertanfragen 22 DBS1-Übung

23 B+-Bäume in der Praxis Typische Werte: Ordnung: 100 Höhe: 3-4 Füllfaktor: 70% Durchschnittliche Anzahl von Söhnen: ~133 Daraus resultierende Kapazitäten: Höhe 3: = 2,352,637 Sätze Höhe 4: = 312,900,700 Sätze Pufferung der obersten Stufen: Ebene 0: 1 Seite = 8 KB Ebene 1: 133 Seiten = 1 MB Ebene 2: 17,689 Seiten = 133 MB 23 DBS1-Übung

24 Historie und Terminologie Überblick der Baumarten: D. Comer: The Ubiquitous B-Tree. ACM Computing Surveys, 11:2, Juni 1979, pp Originalpublikation B-Baum: R. Bayer, E. M. McCreight: Organization and Maintenance of Large Ordered Indexes. Acta Informatica, 1: Originalpublikation B*-Baum: D. E. Knuth: The Art of Computer Programming, Vol. 3, Addison-Wesley, Heutige Literatur: B*-Baum = B+-Baum 24 DBS1-Übung

25 Speicherstrukturen Entnommen aus Datenbanksysteme: Konzepte und Techniken der Implementierung von Theo Härder, Erhard Rahm 25 DBS1-Übung

26 Statisches Hashing: Beschreibung Hashtabelle als Indexstruktur ("Von der Ordnung ins Chaos") Verwendung von Streuspeicherverfahren bzw. Hashfunktionen Berechnung der Speicheradresse eines Datensatzes über den Schlüssel (Schlüsseltransformation) Hashfunktion h(x) liefert die Seite (Bucket) bzw. Speicheradresse mit dem Dateneintrag zu Schlüssel x Beispiel einer Hashfunktion: "Divisionsrestverfahren" Geeignete Division des Schlüssels Rest der Division ergibt die relative Adresse in der Hashtabelle 26 DBS1-Übung

27 Statisches Hashing: Hashfunktion Hashfunktion h: S {1, 2,..., n} S = Schlüsselraum, n = Größe des statischen Hash-Bereichs (Anzahl der Buckets) Idealfall: h ist injektiv (keine Kollisionen) Nur in Ausnahmefällen möglich Jeder Satz kann mit einem Seitenzugriff referenziert werden Ziel: möglichst gute Gleichverteilung einer konkreten Schlüsselmenge 27 DBS1-Übung

28 Statisches Hashing: Operationen (vereinfacht) Gegeben: Hashfunktion h, Wertebereich der Hashfunktion W, mit h: S W Datensatz D i mit Schlüssel K i Einfügen Generierung der zukünftigen Speicheradresse: h(k i ) = W i Datensatz D i mit Schlüssel K i wird auf Adresse W i gespeichert Direkte Suche Ermittlung der zugehörigen Speicheradresse: h(k i ) = W i Bereitstellung von Datensatz D i mit Schlüssel K i von Adresse W i 28 DBS1-Übung

29 Statisches Hashing: Operationen (vereinfacht) II Gegeben: Hashfunktion h, Wertebereich der Hashfunktion W, mit h: S W Datensatz D i mit Schlüssel K i Löschen Ermittlung der zugehörigen Speicheradresse: h(k i ) = W i Datensatz D i mit Schlüssel K i wird auf Adresse W i gelöscht Sequentielle Suche Sequentieller Durchlauf des Wertebereichs W = W 1... W n Keine geordnete Schlüsselfolge keine sequentielle Suche möglich! 29 DBS1-Übung

30 Statisches Hashing: Kollision Definition: Zwei Schlüssel K i und K n kollidieren bezüglich einer Hashfunktion h, wenn gilt: h(k i ) = h(k n ) K i und K n nennt man dann auch Synonyme, sie gehören zu einer Kollisionsklasse Kollisionsbehandlung umfasst folgende Aufgaben Einfügen: Finden einer freien Speicheradresse beim Einfügen Suchen: Auffinden eines Schlüssels, der nicht auf der Adresse gespeichert wurde, die die Hashfunktion bestimmt Alle Operationen werden durch Kollisionsbehandlung komplexer Viele Hashfunktionen (z.b. Modulo) bilden eine größere Schlüsselmenge in einen kleineren Wertebereich ab Kollision ist dann zwangsläufig 30 DBS1-Übung

31 Statisches Hashing: Kollisionsbehandlung Offenes Hashen Kollisionen werden im Primärbereich untergebracht Suche einer anderen noch nicht belegten Adresse in der Hashtabelle Lineares/quadratisches Sondieren, Doppeltes Hashen Gleiche Strategie beim Wiederauffinden Lösch-Problematik: Einträge dürfen nicht einfach gelöscht werden, sonst herrschen veränderte Voraussetzungen (Lösung: Delete-Flag) h(k x ) = h(k m ) K x K m K i K x K o 31 DBS1-Übung

32 Statisches Hashing: Kollisionsbehandlung II Geschlossenes Hashen Kollisionen werden im separaten Überlaufbereich gespeichert Überlaufbereich für alle Kollisionen Überlaufbereich pro Adresse Gefahr der Entartung Überlauflisten werden zu lang Performance sinkt (Suche in einer Liste!) h(k x ) = h(k m ) K x K m K x K i K o 32 DBS1-Übung

33 Statisches Hashing: Fazit Vorteile: Bei Kollisionsfreiheit: Suchen/Einfügen/Löschen in O(1) Nachteile: Meist Kollisionsbehandlung nötig: Suchen/Einfügen/Löschen in O(n) Kein sequentieller Zugriff auf Daten möglich Hashfunktion entscheidend für die Qualität des Hashverfahrens beeinflusst Performance, Berechnungs-Komplexität, Datenverteilung und Kollisions-Wahrscheinlichkeit Es gibt keine optimale Hashfunktion für beliebige Schlüsselmengen! Ineffizienz bei unvorhersehbaren / stark wachsenden Datenmengen Primärbereich anfangs überdimensioniert (a priori Allokation des benötigten Speichers), Freihalten von Leerstellen Wachsende Überlaufketten verschlechtern Laufzeitverhalten Nachträgliche Vergrößerung der Hashtabelle (Re-Hash) teuer / nicht möglich (24h-Dauerbetrieb!) Übergang zum Erweiterbaren Hashing (Fagin et al, 1979) 33 DBS1-Übung

34 Erweiterbares Hashing: Ziele Dynamisches Wachsen und Schrumpfen des Wertebereichs der Hashfunktion Buckets werden erst bei Bedarf bereitgestellt Dichte Speicherplatzbelegung möglich Vermeidung von Überlaufmechanismen und totaler Reorganisation Konstantes Laufzeitverhalten Zugriffszeit unabhängig vom Umfang des Datenbestands Auffinden eines Satzes soll nicht mehr als zwei Seitenzugriffe erfordern 34 DBS1-Übung

35 Erweiterbares Hashing: Beschreibung Hashtabelle gegliedert in zwei Bereiche Directory (Inhaltsverzeichnis) Eigentliche Hashbuckets Zugriff zu den Werten in den Hashbuckets nur über Directory möglich Zusätzliche Indirektion (evtl. Externspeicherzugriff!) Notwendiges Hilfsmittel für die gewünschten Erweiterungseigenschaften Bucket mit fester Länge (z.b. Seitengröße 4KB) und Kapazität b Abhängig von den zu hashenden Daten (Wertlänge) Abhängig von Datenintegration (Einbettung vs. Auslagerung) Hashfunktion h generiert Pseudoschlüssel zu einem Satz x 35 DBS1-Übung

36 Erweiterbares Hashing: Realistische Werte Bucketkapazität: b=100, b=1000 Abhängig von der Seitengröße (2, 4, 8, 16 KB, etc.) Abhängig von Wahl der Einbettung (eingebetteter vs. ausgelagerter Ansatz) h(x) mit h: S [0, ] Gewährleistet hinreichend viele Bitpositionen 36 DBS1-Übung

37 Erweiterbares Hashing: Beispiel (1) Ein leeres Bucket mit Bucket-Kapazität b = 4 Hashfunktion h(x) = x mod 32 Lokale Tiefe eines Bucket d : Anzahl von Bits, die benötigt wird, um zu entscheiden, ob ein Eintrag in dieses Bucket gehört Globale Tiefe des Directory d: Maximale Anzahl Bits, die benötigt wird, um zu entscheiden, in welches Bucket ein Eintrag gehört (d = max(d )) d = 0 d = 0 B 1 37 DBS1-Übung

38 Erweiterbares Hashing: Beispiel (2) Schrittweiser Aufbau einer Hashtabelle durch sukzessives Einfügen einiger Werte in der vorgegebenen Reihenfolge: x h(x) [h(x)] Einfügen von Werten 134, 8, 113 und 89 B Alle Werte in Bucket B [00110] 8 [01000] 17 [10001] 25 [11001] 38 DBS1-Übung

39 Erweiterbares Hashing: Beispiel (3) / Split Im Beispiel: Einfügen von Wert 20 Bucket-Überlauf in B 1 Splitting von B 1 Allokation eines neuen Buckets B 2 mit d (B 2 ) = d (B 1 ) Erhöhung der lokalen Tiefen von B 1 und B 2 um 1 Hinweis: mögliche weitere lokale Tiefen werden nicht verändert Hashfunktion h generiert Pseudoschlüssel der Einträge Füllen der Buckets: jedes Bucket enthält nur Sätze, deren Pseudoschlüssel in den ersten d' Bits übereinstimmen Falls d max(d ): Erhöhung der globalen Tiefe um 1 Directory enthält 2 d Einträge verdoppelt sich mit jedem zusätzlichen Bit B 1 B [00110] 8 [01000] 17 [10001] 20 [10100] 25 [11001] 39 DBS1-Übung

40 Erweiterbares Hashing: Beispiel (4) Einfügen des Werts 118 Suche des zugehörigen Buckets ergibt B 2 aufgrund 1. Bitposition Freie Kapazität in B 2 ( B 2 < b) B 1 B [00110] 8 [01000] 17 [10001] 20 [10100] 22 [10110] 25 [11001] Einfügen des Werts 30 Bucket-Überlauf in B 2 Splitting und Erhöhung der lokalen Tiefe (d'=2) in Buckets B 2 und B 3 Erhöhung globaler Tiefe (d=2) Directory-Verdopplung Differenzierung bei Neuverteilung gemäß ersten zwei Bits im Hashwert Bucket B 1 bleibt unverändert mit lokaler Tiefe d'= B 1 B 2 B [00110] 8 [01000] 17 [10001] 20 [10100] 22 [10110] 25 [11001] 30 [11110] 40 DBS1-Übung

41 Erweiterbares Hashing: Beispiel (5) Einfügen der Werte 107, 37 und 77 Wert 107 wird in Bucket B 1 abgelegt durch Zuordnung über "01..." Wert 37 wird in Bucket B 1 abgelegt durch Zuordnung über "00..." Bucket-Überlauf in B 1 bei Wert 77, Splitting in B 1 und B 4 Erhöhung der lokalen Tiefe für Bucket B 1 und B 4 (d'=2) Keine Directory-Verdopplung, da weiterhin die globale Tiefe mit d=2 (d=max(d')) bleibt B 1 B 4 B 2 B [00101] 6 [00110] 8 [01000] 11 [01011] 13 [01101] 17 [10001] 20 [10100] 22 [10110] 25 [11001] 30 [11110] 41 DBS1-Übung

42 Erweiterbares Hashing: Operationen Gegeben: Hashfunktion h, Buckets B 1,, B n mit Kapazität b Datensatz D mit Schlüssel K Suche von D: Anwendung der Hashfunktion h(k) ergibt Pseudoschlüssel für Directory Ermittlung des zugeordneten Buckets B i über das Directory Durchsuchen von Bucket B i nach K (z.b. mit binärer Suche) Einfügen von D: Suche von D gefunden? Ja: Fehlermeldung, fertig! Nein: Ist noch Platz im Bucket B i, also B i <b? Ja: Einfügen von D in Bucket B i Nein: Splitting von Bucket B i zwei neue Buckets» Lokale Neuverteilung der Einträge aus B i und Verweiskorrektur» Eventuell Verdopplung des Directory wegen Selektivität 42 DBS1-Übung

43 Erweiterbares Hashing: Fazit Hashfunktion sollte gut gewählt sein Möglichst "zufälliges" Ergebnis h(x) sollte an jeder Bitposition den Wert 0/1 mit gleicher Wahrscheinlichkeit (0.5) generieren Hashverfahren reagieren empfindlich auf unausgewogene Hashfunktionen 43 DBS1-Übung

44 Erweiterbares Hashing: Sonderfall 1 (Entartung) Eine Einfügung kann mehrere Directory-Verdopplungen zur Folge haben Alle betrachteten b+1 Hashwerte h(x) haben an Position i den gleichen Wert 0 oder 1 Bei guter Hashfunktion und großer Bucketkapazität b sehr selten Beispiel: b=2, h(x): S [0, 31] Einfügereihenfolge: 2 (00010), 3 (00011), 6 (00110) 44 DBS1-Übung

45 Extendible Hashing vs. B+-Baum Speicherplatzbelegung: Extendible Hashing: 70% [ln2] für gesamten (!) Hash- Bucket-Bereich (nur Einfügen, ideale Hashfunktion) Zusatzaufwand (Speicher) für Directory moderat (anwachsend) B+-Baum: 70% [ln2] Füllgrad der Baumknoten Wahlfreier Zugriff Extendible Hashing: O(1) durch Anwenden der Hashfunktion B+-Baum: O(log n N) durch Abstieg im Indexbaum Sequentieller Zugriff: Extendible Hashing: Keine direkte Unterstützung B+-Baum: Abstieg im Baum und Nutzung der verketteten Blattebene 45 DBS1-Übung