Datenbanksysteme Kapitel 3: Datenorganisation

Transkript

1 Datenbanksysteme Kapitel 3: Datenorganisation Prof. Dr. Peter Chamoni Mercator School of Management Lehrstuhl für Wirtschaftsinformatik, insb. Business Intelligence Prof. Dr. Peter Chamoni Prof. Dr. Peter Chamoni - Datenbanksysteme - Wintersemester 2014/

2 Gliederung 1 Grundlagen - Datenbanksysteme 2 SQL Data Definition Language 3 Datenorganisation 4 Datenintegrität und Transaktionsverwaltung 5 SQL Data Manipulation Language 6 Neue Konzepte der Datenbanktechnologie Prof. Dr. Peter Chamoni Datenbanksysteme 2 2

3 Gliederung 3 Datenorganisation 3.1 Grundlagen der Datenorganisation 3.2 Physische Datenorganisation - Speichersystem 3.3 Logische Datenorganisation - Zugriffssystem 3.4 Logische Datenorganisation - Zugriffsmethoden 3.5 Exkurs: Bäume Prof. Dr. Peter Chamoni Datenbanksysteme 3 3

4 3.1 Datenorganisation Zwischenbetrachtung Während des konzeptuellen Datenbankentwurfs wird untersucht, welche Daten benötigt werden und wie sie zusammenhängen. Im logischen Entwurf wird ein geeignetes Datenbankmodell ausgewählt. Der konzeptuelle Entwurf wird in dieses Datenmodell überführt und ggf. noch optimiert. Bei beiden Entwurfsaktivitäten stellt sich nicht die Frage, wie die Daten gespeichert werden. Physischer Entwurf Aspekte der physischen Datenorganisation/ -speicherung und der Zugriffsoptimierung unter Beachtung der Besonderheiten des verwendeten DBMS und des Betriebssystems Prof. Dr. Peter Chamoni Datenbanksysteme 4 4

5 3.1 Grundlagen der Datenorganisation Einführung in die Datenorganisation (I) Zentrale Fragen im Rahmen des physischen Entwurfsprozesses Wie erfolgt die Abbildung der logischen Ebene auf die physische Ebene? Wie wird in einer Datenbank die Speicherung der Daten organisiert? Wie kann effizient auf diese gespeicherten Daten zugegriffen werden? Die Leistungsfähigkeit eines DBMS wird maßgeblich bestimmt durch - die Daten- und Zugriffsstrukturen auf der physischen Ebene und - die physische Speicherorganisation Hauptspeicher sekundäre Speichermedien Prof. Dr. Peter Chamoni Datenbanksysteme 5 5

6 3.1 Grundlagen der Datenorganisation Einführung in die Datenorganisation (II) Ziel der Datenorganisation ist es, Daten logisch so zu strukturieren und physisch so zu speichern, dass sie - einen schnellen Zugriff gestatten, - leicht zu aktualisieren sind, Effizienter, sicherer Effizienter Zugriff Zugriff auf Daten auf Daten - sich beliebig auswerten und verknüpfen lassen sowie - vor Verlust, Zerstörung und unbefugtem Zugriff geschützt sind. Außerdem soll ein effizientes Speichermanagement betrieben Effizientes Speichermanagement werden, das heißt - eine dem tatsächlichen Bedarf angepasste Speicherkapazität und - die Vermeidung von Redundanzen, d.h. der Mehrfachspeicherung derselben Daten. Prof. Dr. Peter Chamoni Datenbanksysteme 6 6

7 3.1 Grundlagen der Datenorganisation Einführung in die Datenorganisation (III) Arten der Datenorganisation Logische Datenorganisation Gegenstand: (programmgesteuerte) Zugriffsformen auf Daten - Analyse und Strukturierung der Daten hinsichtlich ihrer Zusammenhänge - Festlegung von Zugriffspfaden auf diese Daten Physische Datenorganisation Gegenstand: (hardwaremäßige) Speicherung von Daten - Gesamtheit aller Verfahren und Vorschriften zur Aufbewahrung von Daten auf oder in Speichermedien - Optimierung der physischen Speicherstruktur - Zusammenhang zwischen Speichermedium und Zugriffsform Prof. Dr. Peter Chamoni Datenbanksysteme 7 7

8 3.1 Grundlagen der Datenorganisation Grundbegriffe der Datenorganisation (I) Datenstrukturen Datenelement (Datenfeld) - Kleinste logische Dateneinheit, die aus einem oder mehreren Zeichen besteht und nicht weiter zerlegbar ist. - Physisch wird ein Datenelement in einem Datensatz Datenfeld gespeichert. Gruppierung von inhaltlich zusammenhängenden Datenelementen, die verschiedene Eigenschaften desselben Objekts beschreiben. Datei Logische Zusammenfassung von Datensätzen mit gleicher Struktur Datenbank (i.w.s.) Zusammenfassung logisch zusammengehöriger Dateien Prof. Dr. Peter Chamoni Datenbanksysteme 8 8

9 3.1 Grundlagen der Datenorganisation Grundbegriffe der Datenorganisation (II) Datei ist eine Sammlung gleichartiger Datensätze, die primär zur dauerhaften Speicherung von Daten auf einem Speichermedium dient. Speicherung - Logischer Datensatz Datensatz aus inhaltlich zusammengehörigen Datenelementen Elementareinheit einer Datei - Physischer Datensatz (Seite, Block) enthält einen oder mehrere logische Datensätze Elementareinheit des Plattenspeichers Allgemein besteht eine Datei somit aus mehreren physischen Datensätzen (Seiten); jede Seite enthält einen oder mehrere logische Datensätze. Prof. Dr. Peter Chamoni Datenbanksysteme 9 9

10 3.1 Grundlagen der Datenorganisation Grundbegriffe der Datenorganisation (III) Datei Physische Datensätze Prof. Dr. Peter Chamoni Datenbanksysteme 10 10

11 3.1 Grundlagen der Datenorganisation Grundbegriffe der Datenorganisation (IV) Zentrale Fragen im Rahmen des physischen Entwurfsprozesses Wie erfolgt die Abbildung der logischen Ebene auf die physische Ebene? Saake, Heuer (1999, S. 19) Prof. Dr. Peter Chamoni Datenbanksysteme 11 11

13 3.2 Physische Datenorganisation - Speichersystem Einführung Zentrale Fragen im Rahmen des physischen Entwurfsprozesses Wie wird in einer Datenbank die Speicherung der Daten organisiert? Saake, Heuer (1999, S. 19) Prof. Dr. Peter Chamoni Datenbanksysteme 13 13

14 3.2 Physische Datenorganisation - Speichersystem Externspeicherverwaltung (I) Technologischer Hintergrund: Speicherhierarchie Zeitliche Zugriffslücke Prof. Dr. Peter Chamoni Datenbanksysteme 14 14

15 3.2 Physische Datenorganisation - Speichersystem Externspeicherverwaltung (II) Sekundärspeicher Aufbau von Plattenspeichern (1) Logischer Aufbau Direkter Zugriff über logische Seitennummern Diese werden vom Betriebssystem oder Platten-Controller auf die physische Adresse (Zylinder-Nr Spur-Nr Sektor-Nr) transformiert. Physischer Aufbau Eine Reihe übereinanderliegender, rotierender Magnetplatten Physischer Adressraum Seite Strukturierung: Sektor Spur Zylinder (übereinanderliegende Spuren) Seite: eine Reihe zusammenhängender Sektoren auf einer bestimmten Spur Prof. Dr. Peter Chamoni Datenbanksysteme 15 15

16 3.2 Physische Datenorganisation - Speichersystem Externspeicherverwaltung (III) Sekundärspeicher Aufbau von Plattenspeichern (2) Auf physischer Ebene: blockorientierte (seitenorientierte) Aufzeichnung und Zugriff Seite ist die kleinste Transfereinheit, die zwischen Haupt- und Sekundärspeicher übertragen wird. Wahlfreier Zugriff Typische Blockgrößen (block size, page size): 512 Byte,1k, 2k, 4k, Eine Datei verteilt sich je nach Größe auf mehrere Seiten; jede Datei nutzt eine Seite exklusiv, d.h. auf einer Seite befinden sich nur logische Datensätze dieser Datei. Prof. Dr. Peter Chamoni Datenbanksysteme 16 16

17 3.2 Physische Datenorganisation - Speichersystem Externspeicherverwaltung (IV) Verwaltung externer Speichermedien Die physischen Datenobjekte eines DBS werden während ihrer gesamten Lebenszeit auf externen Speichermedien aufbewahrt. Die Verwaltung der Externspeicher ist Aufgabe des Betriebssystems. Datei-Schnittstelle Auf Basis eines geeigneten Dateikonzepts repräsentieren Dateien externe Speichermedien in einer geräteunabhängigen Weise und bieten den zugreifenden Programmen (auch: DBMS!) eine abstrakte Sicht für ihre Verarbeitungslogik. Prof. Dr. Peter Chamoni Datenbanksysteme 17 17

18 3.2 Physische Datenorganisation - Speichersystem DB-Pufferverwaltung Datenbankmanagementsystem Wichtigstes Ziel Transfer von Daten zwischen Hauptspeicher und Plattenspeicher möglichst effizient gestalten: - optimieren/minimieren der Anzahl der Zugriffe - Anzahl der Blöcke minimieren - so viel Blöcke wie möglich im Hauptspeicher halten ( Puffer Manager) Hauptspeicher Externspeicher Hauptspeicherbereiche des DBMS so angepasst, dass sich die Anzahl physischer Zugriffe auf die sekundären Speichermedien minimiert. Prof. Dr. Peter Chamoni Datenbanksysteme 18 18

20 3.3 Logische Datenorganisation - Zugriffssystem Einführung (I) Zentrale Fragen im Rahmen des physischen Entwurfsprozesses Wie kann effizient auf die gespeicherten Daten zugegriffen werden? Interne (logische) Datenstrukturen Prof. Dr. Peter Chamoni Datenbanksysteme 20 20

21 3.3 Logische Datenorganisation - Zugriffssystem Einführung (II) Einordnung Das Speichersystem fordert von der DB-Pufferschnittstelle Seiten an und interpretiert diese Seiten als interne Datensätze. Interne Datensätze stellen die interne Realisierung von logischen Datensätzen mit Hilfe - von Zeigern, - speziellen Indexeinträgen - und weiteren Hilfsstrukturen dar. Diese internen Datensätze werden an das Zugriffssystem weitergereicht. Das Zugriffssystem wiederum abstrahiert von der konkreten Realisierung einer Speicherstruktur und geht von logischen Datensätzen in Dateien aus. Prof. Dr. Peter Chamoni Datenbanksysteme 21 21

22 3.3 Logische Datenorganisation - Zugriffssystem Einführung (III) Dateiarten Sequentielle Datei Zugriff auf Datensätze nur in der gespeicherten Reihenfolge Auf sequentiellen Speichern (z. B. Magnetband) Ebenfalls möglich auf Direktzugriffsspeichern (z. B. Magnetplatte, optische Speicherplatte) Datei mit wahlfreiem (direktem) Zugriff Auf jeden Datensatz kann bei Kenntnis seiner Speicheradresse direkt zugegriffen werden. Nur auf Direktzugriffsspeichern Prof. Dr. Peter Chamoni Datenbanksysteme 22 22

23 3.3 Logische Datenorganisation - Zugriffssystem Einführung (IV) Dateioperationen - Einfügen eines Datensatzes - Löschen eines Datensatzes - Modifizieren eines Datensatzes - Suchen und Finden eines Datensatzes Zugriff auf Datensätze Datensätze können in einer Datei - geordnet oder - gehashed (gestreut) gespeichert sein. Diese Anordnung bestimmt mögliche Zugriffsformen. Prof. Dr. Peter Chamoni Datenbanksysteme 23 23

24 3.3 Logische Datenorganisation - Zugriffssystem Einführung (V) Zugriffsformen Ermöglichung des direkten Zugriffs auf die logischen Datensätze anhand bestimmter Eigenschaften - i.d.r Attributwerte - z.b. Primärschlüssel Zugriffspfad Verfügbarkeit einer speziellen internen Datei, der Indexdatei. Diese enthält - Zugriffskriterium ( Suchschlüssel ) und - Adressverweise auf die Datensätze Im Falle einer Indexdatei ist somit der Zugriffspfad auf die Datensätze einer Datei selber eine Datei. [vgl.: Zehnder (2005), S. 222] Prof. Dr. Peter Chamoni Datenbanksysteme 24 24

25 3.3 Logische Datenorganisation - Zugriffssystem Einführung (VI) Dateiorganisationsform betrifft die innere Struktur einer Datei. Die Anordnung und Speicherung der Datensätze bestimmt, auf welche Weise auf die einzelnen Datensätze zugegriffen werden kann. Prof. Dr. Peter Chamoni Datenbanksysteme 25 25

26 3.3 Logische Datenorganisation - Zugriffssystem Dateiorganisationsformen (I) Sequentielle Dateiorganisation Speicherungsform Die Datensätze sind hintereinander fortlaufend abgelegt. Dieses kann in zwei Formen geschehen: unsortiert Sätze werden in der Reihenfolge ihrer Eingabe gespeichert. sortiert Dateien sind nach einem Sortierkriterium entweder aufoder absteigend sortiert. Neue Sätze müssen dann an der entsprechenden Stelle eingefügt werden. (nur möglich auf Speichermedien mit direktem Zugriff) Zugriffsform Sequentieller Zugriff, d.h. Datensätze können nur in einer bestimmten Reihenfolge angesprochen werden. Zeiger Sortierschlüssel Prof. Dr. Peter Chamoni Datenbanksysteme 26 26

27 3.3 Logische Datenorganisation - Zugriffssystem Dateiorganisationsformen (II) Indizierte Dateiorganisation Speicherungsform Die Datensätze sind sequentiell unter fortlaufender Adresse in der Datei gespeichert. Dieser sequentiellen Hauptdatei werden eine oder mehrere Indexdateien vorangestellt. Zugriffsform In der Indexdatei (Index) sind - der Suchschlüssel (Indexschlüssel) als Zugriffskriterium und - der Verweis auf die Speicheradresse des jeweiligen Datensatzes abgelegt. Der Zugriff auf die Datensätze in der Hauptdatei erfolgt indirekt über die Indexdatei. Prof. Dr. Peter Chamoni Datenbanksysteme 27 27

28 3.3 Logische Datenorganisation - Zugriffssystem Dateiorganisationsformen (III) Gestreute Dateiorganisation (Hash) Speicherungsform Die Datensätze liegen verstreut und voneinander unabhängig im Speicherbereich. Die Zuordnung von Schlüssel zur Speicheradresse der Datensätze erfolgt über eine Rechenvorschrift, der sog. Hash-Funktion. Zugriffsform Beim Hashing wird mit Hilfe einer Hashfunktion der Schlüssel eines Datensatzes auf die Seitenadresse abgebildet (Hashwert). Auf jeden Datensatz kann bei Kenntnis dieses Hashwerts direkt zugegriffen werden. Prof. Dr. Peter Chamoni Datenbanksysteme 28 28

30 3.4 Logische Datenorganisation - Zugriffsmethoden Indexsequentielle Dateiorganisation (I) Kombination von sequentieller Hauptdatei und Indexdatei (zweistufige Struktur) Definition eines Index über ein (Zugriffs-) Attribut, den sog. Suchschlüssel Indexarten Primärindex enthält den eindeutigen Primärschlüssel als Suchschlüssel und den Verweis auf Datensatz. Sekundärindex enthält ein Nicht-Schlüsselattribut als Suchschlüssel sowie einen Verweis auf den Datensatz. SQL-Syntax CREATE INDEX <Indexbezeichnung> ON <Tabellenname> (< Suchschlüssel > [ASC DESC]); Prof. Dr. Peter Chamoni Datenbanksysteme 30 30

31 3.4 Logische Datenorganisation - Zugriffsmethoden Indexsequentielle Dateiorganisation (II) Indexdatei Realisierung des Index als Unsortierte Datei unsortiert Sortierte Datei - Physisch sortierter Index - Logisch sortierter Index sortiert Prof. Dr. Peter Chamoni Datenbanksysteme 31 31

32 3.4 Logische Datenorganisation - Zugriffsmethoden Indexsequentielle Dateiorganisation (III) Physisch-sortierter Index Die Sortierreihenfolge der Indexeinträge in der Indexdatei entspricht der physischen Reihenfolge dieser Datensätze im Speicher. sequentielle Liste Suchverfahren bei physisch-sortiertem Index z.b. - Binäres Suchen - m-wege-suchen (2-stufiger Index) Prof. Dr. Peter Chamoni Datenbanksysteme 32 32

33 3.4 Logische Datenorganisation - Zugriffsmethoden Indexsequentielle Dateiorganisation (IV) Physisch-sortierter Index Binäres Suchverfahren (1) Verfahren Ein wiederholtes Halbieren des Suchbereichs, des Intervalls [l;r] Annahme Das gesuchte Element liegt in der Mitte des Indexbereiches: m = (l+r) DIV 2 Vergleich des gesuchten Elements mit dem Element in der Mitte. Ist dieses Element größer als das gesuchte Element, wird die Suche in der oberen Hälfte des Index fortgesetzt: Suchbereich [l; m-1] Ist dieses Element kleiner als das gesuchte Element, wird die Suche in der unteren Hälfte des Index fortgesetzt: Suchbereich [m+1; r] Die Suche wird so lange fortgesetzt, bis das gesuchte Element gefunden wurde oder die Länge des Suchbereichs = 1 ist. Prof. Dr. Peter Chamoni Datenbanksysteme 33 33

34 3.4 Logische Datenorganisation - Zugriffsmethoden Indexsequentielle Dateiorganisation (V) Physisch-sortierter Index Binäres Suchverfahren (2) Beispiel: Suche nach Kotler P. Schlüssel AV 1. Vergleiche das gesuchte Element mit dem Codd E.F. 8 Element in der Mitte des Suchbereichs [1;11] Date C.J. 2 Position: (1+11) DIV 2 = 6 Kotler P. < Lucas H. C. 2. Hansen H.R Gehe zur Mitte des neuen Suchbereichs [1;5] 3. Kent W. 3 (kleinere Einträge) Position: (1+5) DIV 2 = 3 Kotler P. > Hansen H.R. 4. Kotler P Gehe zur Mitte des neuen Suchbereichs [4;5] (größere Einträge). 1. Lucas H.C. Martin J. 4 1 Position: (4+5) DIV 2 = 4 Kotler P. > Kent W. Rockart J Gehe zur Mitte des neuen Suchbereichs [5;5] Sprague R. 7 Position: (5+5) DIV 2 = 5 Gefunden! Turban E Elemente = (2 16 1) Elemente: höchstens 16 Suchschritte Zachmann R. 5 Prof. Dr. Peter Chamoni Datenbanksysteme 34 34

35 3.4 Logische Datenorganisation - Zugriffsmethoden Indexsequentielle Dateiorganisation (VI) Physisch-sortierter Index m-wege Suchverfahren (1) Verfahren Die Indexdatei wird in Blöcke konstanter Länge eingeteilt. (hier: Indexstufe 2) 1. Ermittlung des Datenblocks, in dem sich der Suchschlüssel befindet. - Gehe zum letzten Element des ersten Blocks. - Falls der Suchschlüssel größer ist als dieses Element: Gehe zum nächsten Block. - Andernfalls befindet sich das gesuchte Element in diesem Block. Index:Stufe 1 Index:Stufe 2 2. Zur Suche des Schlüssels im gefundenen Block wird i.d.r. ein anderes Suchverfahren verwendet, z.b. - Sequentielle Suche - Binäre Suche u.w. Prof. Dr. Peter Chamoni Datenbanksysteme 35 35

36 3.4 Logische Datenorganisation - Zugriffsmethoden Indexsequentielle Dateiorganisation (VII) Physisch-sortierter Index m-wege Suchverfahren (2) Beispiel: mit einem 2-stufigen, hierarchischen Index Index: Stufe 1 Index: Stufe 2 Schlüssel AV Index 2 Kent W. 4 Rockart J. 8 Zachmann R. 11 AV = Adressverweis, RA = Relative Adresse Verweis auf das letzte Element im jeweiligen Block RA Schlüssel AV Hauptdatei 1 Codd E.F. 8 2 Date C.J. 2 3 Hansen H.R Kent W. 3 5 Kotler P. 9 6 Lucas H.C. 4 7 Martin J. 1 8 Rockart J. 6 9 Sprague R Turban E. 11 Prof. Dr. Peter Chamoni 11 Datenbanksysteme Zachmann R. 5 z.b. Binäre Suche Hauptdatei 36 36

37 3.4 Logische Datenorganisation - Zugriffsmethoden Indexsequentielle Dateiorganisation (VIII) Logisch-sortierter Index (1) Die Reihenfolge der Indexeinträge wird über Zeiger festgelegt, nicht durch die physische Reihenfolge der Datensätze im Speicher. gekettete Liste Suchverfahren - Verfahren: Sequentielle Suche Zugriffspfad: Ketten (Chaining) Die Reihenfolge der Indexeinträge wird über einen Zeiger auf die physische Adresse des nächsten Indexeintrags festgelegt. - Verfahren: Baumverfahren Zugriffspfad: Baumstruktur Die Reihenfolge der Indexeinträge wird über Zeiger auf die nachfolgenden Datensätze festgelegt. Prof. Dr. Peter Chamoni Datenbanksysteme 37 37

38 3.4 Logische Datenorganisation - Zugriffsmethoden Indexsequentielle Dateiorganisation (IX) Logisch-sortierter Index (2) - Ketten (Adress-) Verkettung Innerhalb eines Datensatzes verweist ein Zeiger (pointer) auf die physische Adresse des nachfolgenden Satzes (Nachfolger). Der Zeiger des letzten Datensatzes wird besonders gekennzeichnet: entweder durch einen Ende-Vermerk oder durch einen Verweis auf die Adresse des ersten Satzes der Kette. Der Zeiger auf den 1. Satz heißt Anker. Prof. Dr. Peter Chamoni Datenbanksysteme 38 38

39 3.4 Logische Datenorganisation - Zugriffsmethoden Indexsequentielle Dateiorganisation (X) Logisch-sortierter Index (3) - Ketten Einfügen neuer Sätze physisch am Ende der Datei. - Zeiger des Vorgängers wird auf das neu eingefügte Element gerichtet. - Zeiger des neuen Elementes wird auf das nächst größere Element gesetzt. Löschen eines Datensatzes - Der Zeiger des Vorgängers wird entsprechend angepasst. - Speicherplatz des gelöschten Datensatzes wird auf überschreibbar gesetzt. Lücken bleiben, Reorganisation erforderlich Pos. Schlüssel Pointer AV 1 Sprague R Date C.J Turban E Lucas H.C Stahlknecht P Pos. Schlüssel Pointer AV 1 Sprague R Date C.J Kent W Hansen H.R Turban E Prof. Dr. Peter Chamoni Datenbanksysteme 39 39

40 3.4 Logische Datenorganisation - Zugriffsmethoden Indexsequentielle Dateiorganisation (XI) Logisch-sortierter Index Bäume (1) Komponenten - Knoten: Enthalten Anwendungsinformation - Kanten: Enthalten Adressinformation Binärer Baum - Logische Struktur Es gibt genau einen Knoten, der keinen Vorgänger hat, die sog. Wurzel. Jeder Knoten - außer der Wurzel hat genau einen unmittelbaren Vorgänger. Zu jedem Nichtwurzelknoten gibt es genau einen Weg von der Wurzel zu diesem Knoten. Prof. Dr. Peter Chamoni Datenbanksysteme 40 40

41 3.4 Logische Datenorganisation - Zugriffsmethoden Indexsequentielle Dateiorganisation (XII) Logisch-sortierter Index Bäume (2) Binärer Baum - Logische Struktur Binärer Baum Physische Repräsentation KF li = linkes Kettenfeld, KF re = rechtes Kettenfeld, AV = Adressverweis Prof. Dr. Peter Chamoni Datenbanksysteme 41 41

42 3.4 Logische Datenorganisation - Zugriffsmethoden Indexsequentielle Dateiorganisation (XIII) Logisch-sortierter Index Bäume (3) Suche in einem sortierten Binärbaum? Kent Lucas H.C. < K Hansen H.R. Sprague R. > K Date C.J. Kotler P. Martin J. Turban E. < KE Codd E.F. Kent W. Rockart J. Zachmann R. Prof. Dr. Peter Chamoni Datenbanksysteme 42 42

43 3.4 Logische Datenorganisation - Zugriffsmethoden Gestreute Dateiorganisation (I) Hash-Verfahren (1) Prinzip Vorgegeben: ein Array fester Größe, das die Datensätze speichern soll (Hashtabelle) Eine Hash-Funktion berechnet für jeden Datensatz auf Basis des Zugriffsschlüssels die Speicheradresse im Array. Die Hash-Funktion basiert nur auf dem Wert des Zugriffsschlüssels. Divisions-Rest-Methode: h(k) = k mod m Als Ergebnis kann die Speicherstelle eines Datensatzes mit einem einzigen Zugriff gelesen werden. Prof. Dr. Peter Chamoni Datenbanksysteme 43 43

44 3.4 Logische Datenorganisation - Zugriffsmethoden Gestreute Dateiorganisation (II) Hash-Verfahren (2) Schlüsseltransformation: Speicheradresse wird aus dem Schlüssel berechnet Problem: Welche Funktion soll zur Berechnung verwendet werden? Eine Hash-Funktion sollte folgendes leisten: - Die Wahrscheinlichkeit von Kollisionen für typische Mengen von Zugriffsschlüsseln minimieren. I.d.R. weniger Speicheradressen als mögliche Zugriffsschlüssel; Da die Hash-Funktion keine Daten über bereits gespeicherte Sätze nutzen kann, können Mehrfachbelegungen (Kollisionen) prinzipiell nicht vermieden werden. - Das Hash-Verfahren muss eine Kollisionsstrategie realisieren, die bei einer Mehrfachbelegung die Speicherung der Datensätze ermöglicht, denen eine bereits besetzte Speicherstelle zugeordnet wurde. Prof. Dr. Peter Chamoni Datenbanksysteme 44 44

45 3.4 Logische Datenorganisation - Zugriffsmethoden Gestreute Dateiorganisation (III) Hash-Verfahren (3) Beispiel für die Anwendung eines Hash-Algorithmus I. Bestimmung des Schlüsselwerts Schlüssel Autor (alphabetisch, 10 Zeichen) - Z.B. Suche nach "HANSEN " - Zeichen: H A N S E N - EBCDIC: Wert = 200 * * * * * * * * * * = Prof. Dr. Peter Chamoni Datenbanksysteme 45 45

46 3.4 Logische Datenorganisation - Zugriffsmethoden Gestreute Dateiorganisation (IV) Hash-Verfahren (4) Fortsetzung des Beispiels für die Anwendung eines Hash-Algorithmus II. Hash-Verfahren Vorgabe: Größe des Arrays (Hashtabelle): 1117 relative Adressen Hash-Funktion (Divisions-Rest-Methode) Zuordnung des Schlüsselwerts zu einer von 1117 relativen Adressen: Adresse = mod 1117 = 403 Speichern des Schlüssels an der Adresse 403. III. Möglicherweise Kollision! An dieser Adresse könnte bereits ein anderer Schlüssel stehen (Kollision!) Kollisionsbehandlung: z. B.: Suche nach dem Schlüssel im Überlaufbereich, der die kollidierenden Sätze in untereinander verketteter Form enthält. Prof. Dr. Peter Chamoni Datenbanksysteme 46 46

47 3.4 Logische Datenorganisation - Zugriffsmethoden Vergleich der Dateiorganisationsformen Prof. Dr. Peter Chamoni Datenbanksysteme 47 47

48 3.4 Schlussbetrachtung Zentrale Fragen im Rahmen des physischen Entwurfsprozesses 1 Wie erfolgt die Abbildung der logischen Ebene auf die physische Ebene? 2 Wie wird in einer Datenbank die Speicherung der Daten organisiert? 3 Wie kann effizient auf diese gespeicherten Daten zugegriffen werden? Saake, Heuer (1999, S. 90) Prof. Dr. Peter Chamoni Datenbanksysteme 48 Zugriffssystem Speichersystem 48

50 3.5 Exkurs: Bäume Grundbegriffe (I) Graph Ein gerichteter Graph besteht aus - einer Menge von Knoten K und - einer Mengen von Kanten E. Eine gerichtete Kante ist durch ein geordnetes Paar von Knoten bestimmt ist. Hierbei gibt die erste Komponente den Anfangsknoten, die zweite den Endknoten an. Ein Kreis ist eine Folge von verschiedenen Knoten, wobei (ki,ki 1 ) E i 1,...,n 1 (k,k 1 ) E und weiterhin n. k i (i 1,...,n) Prof. Dr. Peter Chamoni Datenbanksysteme 50 50

51 3.5 Exkurs: Bäume Grundbegriffe (II) Baum (1) Ein gerichteter Baum ist ein zusammenhängender gerichteter Graph ohne Kreise. Ist in einem gerichteten Baum der Knoten k 2 von dem Knoten k 1 aus durch eine Kante erreichbar, so ist der Knoten k 1 der Vorgänger des Knotens k 2 und der Knoten k 2 der Nachfolger des Knotens k 1. Eine Wurzel ist ein Knoten eines Baumes, der keinen Vorgänger besitzt. Ein Blatt ist ein Knoten eines Baumes, der keinen Nachfolger besitzt. Ein gerichteter Wurzelbaum ist ein gerichteter Baum mit genau einer Wurzel. Ein innerer Knoten eines Baumes ist ein Knoten, der weder Wurzel noch Blatt eines Baumes ist. In einem Baum besitzt jeder Knoten mit Ausnahme der Wurzel genau einen Vorgänger. Prof. Dr. Peter Chamoni Datenbanksysteme 51 51

52 3.5 Exkurs: Bäume Grundbegriffe (III) Baum (2) Zu jedem Nichtwurzelknoten gibt es genau einen Weg von der Wurzel zu diesem Knoten. Die Tiefe eines Baumes gibt den längsten Weg eines Blattes zur Wurzel an. Das Gewicht eines Baumes gibt die Anzahl der Knoten an. Prof. Dr. Peter Chamoni Datenbanksysteme 52 52

53 3.5 Exkurs: Bäume Grundbegriffe (IV) Darstellung von Bäumen Wurzelbäume werden graphisch meist so dargestellt, dass die Wurzel auf der obersten Ebene liegt und die nachfolgenden Knoten jeweils eine Ebene tiefer. Die Richtung der Kanten zeigt nach unten. Oft wird auf die Darstellung der Richtungspfeile verzichtet. Prof. Dr. Peter Chamoni Datenbanksysteme 53 53

54 3.5 Exkurs: Bäume Binärbaum Grundsätzliches (I) Ein Binärbaum ist ein Baum, bei dem jeder Knoten höchstens zwei Nachfolger hat. Die Nachfolger werden als linker bzw. rechter Nachfolger bezeichnet. Die Knoten eines Binärbaumes werden in Ebenen eingeteilt. Prof. Dr. Peter Chamoni Datenbanksysteme 54 54

55 3.5 Exkurs: Bäume Binärbaum Grundsätzliches (II) Ein Binärbaum heißt voll, wenn außer der letzten alle seine Ebenen voll besetzt sind, d. h. wenn die Ebene k genau 2 k Knoten enthält. Die letzte Ebene darf auch in einem vollen Baum weniger als 2 k Knoten enthalten. Ein Binärbaum heißt komplett, wenn - er voll ist und - die Knoten auf der letzten Ebene alle linksbündig und dicht angeordnet sind. Prof. Dr. Peter Chamoni Datenbanksysteme 55 55

56 3.5 Exkurs: Bäume Binärbaum Grundsätzliches (III) Ein Binärbaum ist sortiert, wenn für jeden Knoten gilt: 1. kein Knoten im linken Unterbaum hat einen größeren Schlüssel; 2. kein Knoten im rechten Unterbaum hat einen kleineren Schlüssel. Ein Binärbaum ist streng sortiert, wenn für jeden Knoten gilt: 1. alle Knoten im linken Unterbaum haben kleinere Schlüssel 2. alle Knoten im rechten Unterbaum haben größere Schlüssel. Prof. Dr. Peter Chamoni Datenbanksysteme 56 56

57 3.5 Exkurs: Bäume Binärbaum Suchen Die binäre Suche ist am effektivsten in einem vollen sortierten Binärbaum. Ein voller sortierter Binärbaum mit n Knoten hat die Tiefe 2 log 2 n. O K? H K<O S K>H D L Q U K<L B F J N P R T V K>J A C E G I K M Prof. Dr. Peter Chamoni Datenbanksysteme 57 57

58 3.5 Exkurs: Bäume B-Baum (I) Ein B-Baum der Ordnung m ist ein Baum mit folgenden Eigenschaften: 1. Alle Blätter haben die gleiche Tiefe. 2. Jeder Knoten mit Ausnahme der Wurzel und der Blätter hat wenigstens (m/2) Söhne. 3. Die Wurzel hat wenigstens 2 Söhne. 4. Jeder Knoten hat höchstens m Söhne. 5. Jeder Knoten mit i Söhnen hat (i-1) Schlüssel. Prof. Dr. Peter Chamoni Datenbanksysteme 58 58

59 3.5 Exkurs: Bäume B-Baum (II) Ausgangspunkt Ausgeglichener, balancierter Suchbaum, d.h. alle Pfade von der Wurzel zu den Blättern des Baumes sind gleich lang. Einsatzbereiche Speicherstrukturen Hauptspeicher-Implementierungsstruktur: binäre Bäume Datenbankbereich Knoten der Suchbäume zugeschnitten auf Seitenstruktur des DBS Daten liegen sortiert auf dem Datenträger: - Aufteilung des Speichers in Indexblöcke und Datenblöcke. - Knoten Indexblöcke enthalten neben dem Schlüssel auch die Adresse des Datenblockes. Suchen findet in Indexblöcken statt. Ein letzter Zugriff liest den gefundenen Datenblock. Prof. Dr. Peter Chamoni Datenbanksysteme 59 59