Mehrdimensionale Zugriffspfade und Dateiorganisation

Transkript

1 Mehrdimensionale Zugriffspfade und Dateiorganisation Thomas Molka IN05

2 Inhaltsverzeichnis 1 Einleitung Anforderungen Implementierungen Eindimensionale Ansätze k-d-bäume Homogener k-d-baum Heterogener k-d-baum k-d-b-baum hb-baum Grid-File Mehrdimensionales Hashing Quellen

3 1 Einleitung Durch die Verbreitung von Datenbanken auf immer mehr Anwendungsgebiete, steigen ebenso die Anforderungen an diese. Eine der wichtigsten Anforderungen ist der schnelle Zugriff auf die Daten. Dafür sind zum Einen effiziente Speicherstrukturen und zum Anderen effiziente Zugriffsmethoden auf diese Speicherstrukturen von Nöten. Oft werden bei Datenbankanfragen Selektionsbedingungen angegeben, welche sich über mehrere Attribute erstrecken. Mittels einer mehrdimensionales Zugriffspfades können solche Anfragen wesentlich schneller verarbeitet werden. Im Besonderen gilt dies natürlich für Anwendungen, welche räumliche Daten verarbeiten, wie zum Beispiel in geographischen Informationssystemen. Auch bei der Verarbeitung geometrischer Daten (z.b. CAD), in Multimedia-Datenbanken und beim Informationretrieval kann von mehrdimensionalen Zugriffspfaden profitiert werden. Weitere Anwendungen finden sich z.b. in der Medizin (mehrdimensionale Speicherung von tomographisch aufgenommenen Bildern), sowie im Bereich der Architektur beim Laserscannen von Gebäuden. Im Allgemeinen kann bei Anfragen mit Selektionsbedingungen über k Attribute mit einem k- dimensionaler Zugriffspfad unter Nutzung von k Schlüsseln der/die entsprechende/n Datensatz/sätze direkt gefunden werden. Wichtig dabei ist neben einer möglichst gleichgewichteten Bedeutung der Schlüssel auch die Möglichkeit nur eine Teilmenge der k Schlüssel für eine Anfrageverarbeitung zu benutzen. Am einfachsten kann man sich das gesamte System als eine Struktur vorstellen, die im Folgenden als n-dimensionaler Datenraum bezeichnet wird. Dabei stellt jedes der vorkommenden Attribute eines Datensatzes eine Dimension dar. Das könnten etwa vier Attribute für einen medizinischen Datensatz sein, der zu jedem mit einer Kamera aufgenommenen Punkt eines menschlichen Armes, seine 3 Raumkoordinaten und die Farbe speichert, wobei die Farbe z.b. für eine bestimmte Knochendichte stehen könnte. Mit Hilfe von 3 Schlüsseln wird nun ein 3-dimensionaler Suchraum aufgespannt der das Auffinden der Datensätze im natürlich linear organisierten Plattenspeicher ermöglicht und so auch das Ermitteln der Knochendichte an einer bestimmten Stelle. Abbildung 1: 3-dimensionaler Datenraum, unterteilt in Blöcke (Buckets) 3

4 Auf dem Gebiet der mehrdimensionalen Zugriffspfade gibt es zahlreiche Ausarbeitungen unterschiedlichster Verfahren. Einige der in der Literatur am häufigsten erwähnten werde ich hier vorstellen. Dabei wird hier nur auf die Speicherung von Punktobjekten eingegangen und nicht auf räumlich ausgedehnte. 2 Anforderungen Bei Daten, für welche diese Zugriffsstrukturen von Nöten sind, ist dementsprechend hohes Datenvolumen zu erwarten. Die hauptsächlich ausgeführte Operation ist auf diesen Daten ist üblicherweise das Suchen. Dennoch sollten natürlich auch das Löschen, Einfügen und Ändern von Datensätzen unterstützt werden. Zur Bewertung der Strukturen wird dabei hauptsächlich die Anzahl der anfallenden I/O-Zugriffe genommen. Eine weitere Bewertungsmöglichkeit ist die Speicherplatzausnutzung, welche möglichst hoch sein sollte. Zur weiteren Einschätzung der Verfahren muss auch geklärt werden was für Anfragen auf die Speicherstruktur gestellt werden. Zunächst einmal lassen sich Anfragen auf mehrdimensionale Zugriffspfade in 4 Typen von sogenannten schnittbildenden Anfragen klassifizieren. Die exact match query nutzt jeden Schlüssel des k-dimensionalen Zugriffspfades, d.h. für jeden Schlüssel ist in der Anfrage ein Attributwert vorgegeben. In der partial match query sind nur für einen Teil der k Schlüssel Werte spezifiziert. Eine range query gibt für jeden der k Schlüssel einen bestimmten Bereich von Werten vor, die die Attribute einnehmen können. Bei der partial range query, einem Mix aus range- und partial match query wird ein Bereich für einen Teil der k Schlüssel vorgegeben. Ein weitere Anfragetyp stellen die nearest neighbour Anfragen dar, welche besonders bei Raumkoordinaten-Attributen eine Rolle spielen, wo zu einem gegebenen Punkt der nächstliegende Punkt bestimmt werden muss. Hier wird die matching Anforderung der Datensätze an die in der Anfrage spezifizierten Attributwerte in dem Sinne gelockert, dass die jeweiligen Werte nicht exakt vorkommen müssen, sondern auch Datensätze zurückgegeben werden, welche der Anfrage möglichst nahe kommen. Natürlich muss dieser Bereich durch eine bestimmte Distanzfunktion vorgegeben werden, die mitunter schwierig zu definieren ist, denn nicht immer kann dies, wie bei Raumkoordinaten durch ein einfaches Maß wie dem euklidischen Abstand geschehen. Ungeachtet der logischen Speicherstrukturen muss die physische Speicherung der Datensätze letztlich auf einem linear organisierten Plattenspeicher erfolgen. Deswegen müssen auch in der Organisation der Daten auf diesem Speicher einige Kriterien definiert werden, um die Geschwindigkeit der Anfrageverarbeitung und die effiziente Speicherplatzausnutzung physisch realisieren zu können. Ebenso wie der physische Speicher in Seiten eingeteilt ist, werden Datensätze der mehrdimensionalen Speicherstruktur gruppiert und zu im Weiteren als Buckets beschriebenen Blöcken zusammengefasst. In Abbildung 1 ist das Prinzip des in Buckets aufgeteilten Datenraumes anhand eines 3-dimensionalen Beispieles veranschaulicht. 4

5 Jeder der 18 Blöcke auf dem Bild repräsentiert eine Seite im Speicher, wobei man sich einzelne Punkte innerhalb der Buckets als Datensätze innerhalb einer Seite im Extern- Speicher vorstellen kann. Der wichtigste Aspekt für die Geschwindigkeit ist die Erhaltung der topologischen Struktur. Das bedeutet, dass man Datensätze welche in der logischen Struktur benachbart abgespeichert sind auch auf physischer Ebene benachbart ablegt. Insbesondere gilt diese Forderung für die Buckets bzw. die Seiten. Man kann hier von einer lokalen Clusterung innerhalb der Buckets sprechen. Dies wird auch als lokale Ordnungshaltung bezeichnet. Eine globale Clusterung ist natürlich wesentlich schwieriger einzuhalten und effektiv nur nach einer der k Dimensionen realisierbar. Leicht einzusehen ist große Bedeutung dieses Kriteriums, wenn man Bereichsanfragen betrachtet. Hier sollen benachbarte Datensätze bei einer Anfrage natürlich in einem Schwung aus dem externen Speicher in den Puffer gelesen werden können, um die Latenzzeiten bei Zugriffen auf entfernte Bereiche der Platte einzusparen. Ein weiterer wichtiger Punkt ist die Dichte der Datensätze. Auch bei extremen Verteilungen im logischen Datenraum, sollten die Buckets in etwa den gleichen Füllgrad haben, um eine akzeptable Speicherbelegung zu erzielen. Des Weiteren darf die logische Struktur bei einer Folge von Einfüge- oder Löschvorgängen nicht entarten. Das hätte unterschiedliche Zugriffszeiten auf die verschiedenen Datensätze als Auswirkung, ein höchst unerwünschtes Phänomen. Deswegen ist eine dynamische Reorganisation der Struktur notwendig, wobei darauf geachtet werden muss, dass die effiziente Speicherbelegung und lokale Ordnungshaltung erhalten bleiben. Abbildung 2: Dynamische Reorganisation 5

6 3 Implementierungen 3.1 Eindimensionale Ansätze Mehrattributzugriff ist auch mittels eindimensionalen Zugriffspfaden möglich. Dazu werden hier kurz einige Möglichkeiten betrachtet und ihre Nachteile erläutert. Der einfachste Ansatz ist sicherlich, für jedes Attribut in einer Anfrage einen entsprechenden Index wie etwa einen B*-Baum zu erstellen. Bei einer Anfrage vom Typ 'A1=a1i AND A2=a2j' würde man mit 2 Indexen auf die Attribute A1 und A2 nun nacheinander suchen und aus beiden Ergebnissen schließlich die Schnittmenge bilden. Die Nachteile dieser Methode sind offensichtlich: für hohe Dimensionsanzahlen entsprechend viele einzelne Indexe notwendig Sperrprotokoll für jeden einzelnen Index einzuhalten hoher Aufwand bei Inserts/Deletes Eine weitere Variante Mehrattributzugriff mit eindimensionalen Indexen zu realisieren, ist das Konkatenieren von Attributen. Dabei werden die einzelnen Schlüssel verkettet und damit eine Sortierreihenfolge vorgegeben. Damit sind exact match querys sowie Lösch- und Einfügevorgänge problemlos möglich. Die Nachteile dieser Methode liegen aber zum einen in der fehlenden Symmetrie, d.h. ein Index aus den Attributen A1 A2 kann nicht für Anfragen genutzt werden die die Reihenfolge A2 A1 verlangen. Man muss also für k Schlüssel k! verschiedene Indexe anlegen. Auch sind keine partial match querys möglich, was bedeutet dass man auch sämtlich Untermengen von Schlüsselkombinationen als Index anlegen müsste. Auch für nearest neighbour Anfragen fehlt jede Grundlage. 3.2 k-d-bäume Daher wird im Folgenden die Klasse der k-d-bäume vorgestellt, ein echter Vertreter mehrdimensionaler Zugriffspfade. Bei k-d-bäumen besteht der Gesamtschlüssel aus k Teilschlüsseln, wobei jeder Schlüssel ein Attribut und damit eine Dimension im Datenraum repräsentiert Homogener k-d-baum Die einfachste Variante aus dieser Familie heißt homogener k-d-baum. Der Aufbau gleicht einem gewöhnlichen binären Suchbaum. Das heißt also, trotz k Dimensionen findet auf jeder 6

7 Ebene des Baumes nur eine binäre Entscheidung statt. Der Unterschied zum binären Suchbaum besteht hier allerdings in der Auswahl des Attributs nach dem entschieden wird. Während dies beim binären Suchbaum immer das gleiche ist, wechselt beim homogenen k-d- Baum in jeder Ebene das Attribut. In jedem Knoten wird dafür ein sogenannter Diskriminator gespeichert, welcher entscheiden welcher Teilschlüssel zur Ordnung der Kind-Elemente des Knotens herangezogen wird. Eine einfache Formel zur Berechnung des Diskriminators wäre z.b. '(i mod k)+1' wobei k für die Anzahl der Teilschlüssel steht und i für die Nummer der Ebene auf der sich der aktuelle Knoten im Baum befindet. Ein Knoten speichert im homogenen k-d-baum also folgende Komponenten: den kompletten Datensatz, den Diskriminator und die Zeiger auf linkes bzw. rechtes Kind-Element. Bei einem 2-dimensionalen k-d-baum, welcher als Teilschlüssel in 2 Attributen die Koordinaten x und y besitzt, könnte zum Beispiel auf Wurzelebene der erste Punkt A mit den Koordinaten (60,40) eingefügt werden. Beim Einfügen eines weiteren Punktes B (30,60) könnte nun nach der x-koordinate entschieden werden und der Knoten somit als linkes Kind- Element eingefügt werden (da 30<60). Ein Punkt C (75,70) würde als rechtes Kind-Element eingefügt werden (da 75>60). Müsste nun ein weiterer Punkt D (45,30) eingefügt werden, muss dieser in der 2.Ebene gespeichert werden. Dazu wird in der Wurzel zunächst nach x- Koordinate entschieden und somit in das linke Kind-Element gegangen. Da hier ein Ebenenwechsel stattfindet muss nun auch das Attribut gewechselt werden nach dem entschieden wird. Das heißt auf der 2.Ebene wird nun nach der y-koordinate entschieden und der Punkt wird somit als linkes Kind-Element des Knoten B gespeichert (da 30<60). Abbildung 3: homogener k-d-baum 7

8 Zu bemerken ist hier die Abhängigkeit der Struktur des Baumes von der Einfüge-Reihenfolge. Wären die Knoten beispielsweise in der Reihenfolge 'E,F,B,G,A,C,D' eingefügt worden, wäre der Baum zu einer Liste entartet. Zu bemängeln ist also das fehlenden Konzept der dynamischen Reorganisation des Baumes, welche eine Entartung verhindern würde. Des Weiteren existieren keine Anhaltspunkte, wie die Knoten im physischen Speicher abgelegt werden könnten, d.h. Regeln für eine Zuordnung der Knoten in den Buckets. Damit ist das Prinzip der lokalen Topologieerhaltung verletzt. Bereichsanfragen und partial match querys sind nur über Rekursion möglich, da keine weitere Verkettung der Knoten untereinander besteht außer der 'Eltern-Kind' Beziehung. Hier noch einmal eine Zusammenfassung der Nachteile: keine Topologieerhaltung Bereichsanfragen, partial match querys nur über Rekursion möglich Entwartung des Baumes zur Liste möglich damit keine garantierte Gleichheit der Zugriffszeiten auf verschiedene Datensätze Insgesamt scheidet der homogene k-d-baum damit für den Einsatz in Datenbanksystemen aus Heterogener k-d-baum Der heterogen k-d-baum unterscheidet sich vom homogenen dadurch, dass Datensätze hier nur noch in den Blattknoten gespeichert werden und nicht mehr wie beim homogenen k-d- Baum auch in den Zwischenknoten. Damit kann man die Blätter 1:1 auf die Buckets abbilden und somit eine lokale Topologieerhaltung erzwingen. Falls ein Bucket überläuft kommt es zu einem Split und das Blatt wird zum Zwischenknoten, der nun auf 2 neue Blätter verweist. Dabei wechselt die Dimension nach der über die Ordnung der Nachfolgerknoten entschieden wird wieder, genau wie beim homogenen k-d-baum. Konnte man beim homogenen k-d-baum noch von einer Organisation der Datensätze sprechen, verfährt der heterogene nach dem Prinzip Organisation des umgebenden Datenraumes. 8

9 Abbildung 4: heterogener k-d-baum Dieses Prinzip kann man gut erkennen, wenn man Abbildung 3 mit Abbildung 4 vergleicht. Während die Datensätze beim homogenen k-d-baum noch keine feste Zuordnung zu Buckets erhielten, wird beim heterogenen k-d-baum der Datenraum in Buckets aufgeteilt und bei Einfüge oder Löschoperationen werden diese Gebiete weiter aufgeteilt beziehungsweise zusammengeführt. Dieses Prinzip nennt man auf Divide and Conquer. Am Beispiel ist zu sehen, dass mehrere Datensätze in eine Zelle untergebracht sind. Dazu wird eine feste maximale Zellgröße festgelegt. Wird diese Überschritten, kommt es zur Zellteilung, welcher die Zelle möglichst in der Mitte teilen sollte (z.b. durch einen Median- Split). In der Abbildung fand die erste Zellteilung des Datenraumes bei x=50 statt, die jeweils zweiten Zellteilungen bei y=60 und y=20. Dabei wird jeweils das Blatt was die Zelle repräsentiert in 2 Blätter aufgeteilt und selbst zum Zwischenknoten, die Datensätze teilen sich auf die beiden neuen Blätter auf. Die Vorteile dieses Prinzips liegen zum einen in der angesprochenen Topologieerhaltung, zum anderen ist durch die Restriktion, Datensätze nur in Blättern abspeichern zu dürfen, die Funktionalität der Zwischenknoten auf ihre Zeigereigenschaft und den Diskriminator verringert, was die Struktur natürlich beschleunigt. Es muss schließlich nicht in jedem Zwischenknoten ein kompletter Datensatz mit eingelesen werden. Allerdings beinhaltet diese Struktur immer noch einige Nachteile: auch hier existiert eine Abhängigkeit von der Einfüge-Reihenfolge damit sind wiederum Entartungen möglich auch für Bereichsanfragen und partial match querys gilt das Gleich wie beim homogenen k-d-baum Eine Weiterentwicklung des heterogenen k-d-baumes ist der sogenannte LSD-Baum. LSD steht hier für 'Local Split Decision'. Hier wurde die Zerlegung der Zellen und die Zuordnung zu den Buckets verbessert. Außerdem kann dieser Baum auch für räumlich ausgedehnte Objekte benutzt werden. 9

10 3.2.3 k-d-b-baum Eine weitere Verbesserung des k-d-baumes ist der k-d-b-baum. Das ist eine Mischung aus k- d-baum und B*-Baum. Die Datensätze bleiben wie beim heterogenen k-d-baum nur in den Blättern gespeichert. Allerdings ist bei dieser Struktur die Balancierungseigenschaft gewährleistet (durch die Eigenschaften des B*-Baumes). Durch die gleiche Länge aller Pfade von Wurzel bis Blatt isz damit ein gleich schneller Zugriff auf alle Datensätze garantiert. Hier wird findet also das Prinzip der Dynamischen Reorganisation statt, welche jegliche Entartung des Baumes verhindert. Dabei muss erwähnt werden, dass die Dynamische Reorganisation hier deutlich schwieriger und kostspieliger ist als bei einem gewöhnlichen B*-Baum. Bei einem Bucketüberlauf muss die Verfeinerung nach Aufteilung eines Blattes eventuell bis zur Wurzel hinauf stattfinden. Das Problem dabei ist, dass für den k-d-b-baum immer noch die Eigenschaft erhalten bleiben muss, dass auf jeder Ebene nach einer vorher festgelegten Diskriminatorfunktion geordnet werden muss. Bei den üblichen Reorganisationsmethoden des B*-Baumes wie etwa Rotation und Austausch von Datensätzen unter Geschwistern ist diese Eigenschaft nicht mehr gewährleistet, da die Ordnung wirklich für jede der k Dimensionen erhalten bleiben muss. Leicht einzusehen ist, dass dies enorm komplex ist für hohe k. Zudem ist keine Speicherauslastung von >50% garantiert. Experimentell konnte jedoch nachgewiesen werden das die Speicherauslastung im Average-Case bei 60% +-10% liegt. Der einzige große Nachteil ist damit wie erwähnt: eine sehr komplexe und teure Reorganisation Wird also hauptsächlich von Suchanfragen ausgegangen ist der k-d-b-baum eine gute Speicherstruktur. Bei viele Inserts und Deletes hingegen sollte man andere Implementierungen benutzen. 3.3 hb-baum Für den hb-baum sei hier nur kurz erwähnt, dass er eine Verbesserung des k-d-b-baumes darstellt. hb steht für holey brick und bedeutet, dass die Zellen nicht wie beim k-d-b-baum immer als Rechtecke ausgelegt sein müssen, sondern auch Löcher entstehen können. Damit lassen sich auch orthogonale Punktlinien ohne Probleme abspeichern und die Datensätze auf diesen Linien möglichst gleich auf Buckets aufteilen, was beim k-d-b-baum nicht erreicht werden kann. Durch eine höhere Anzahl an Freiheitsgraden pro Ebene muss auch nicht so oft reorganisiert werden wie bei k-d-b-baum. Der hb-baum ist damit sehr gut für den Einsatz in Datenbanksystemen geeignet. 10

11 3.4 Grid-File In der Klasse der Verfahren mit dem Prinzip 'Organisation des umgebenden Datenraumes' gibt es neben den 'Divide and Conquer' Verfahren auch noch das Prinzip der Dimensionsverfeinerung. Als Begründer dieser Theorien sind Nievergelt, Sevcik und Hinterberger zu nennen. Während bei den Divide and Conquer Verfahren immer nur lokal entschieden wird, ob es zu einem Split kommt und das Ergebnis dieses Splits auf möglichst lokal gehalten wird, um eine teure Reorganisation der kompletten Struktur zu verhindern, wird dies beim Prinzip der Dimensionsverfeinerung von vorn herein in Kauf genommen. Auch hier teilt man den Datenraum wiederum nach den entsprechenden Dimensionen geordnet in Zellen ein. Kommt es Allerdings zu einem Split einer Zelle nach wird nicht nur die Zelle sondern die gesamte Ebene auf der sich die Zelle befindet durch die entsprechende Dimension geschnitten. Veranschalicht ist dies am 3-dimensionalen Beispiel in Abbildung 5. Abbildung 5: Schnitt eines 3-dimensionalen Datenraumes nach Dimension A1 Das Grid-File gilt als bekannteste Implementierung dieses Ansatzes und auch als eine sehr häufig angewendete Technik in Datenbanksystemen. Es wurde konzipiert, um neben exact match querys auch Bereichs-, partial match- und nearest neighbour Asnfragen zu unterstützen. Die in Abbildung 5 gezeigte Struktur trifft auch auf das Grid-File zu, wobei erwähnt werden muss, dass nicht unbedingt für jede Zelle ein seperates Bucket benutzt wird sondern auch mehrere Zellen in einem Bucket zusammengefasst werden können. Dies geschieht je nachdem, ob die Anzahl der in der Zelle liegenden Punkte die maximale Größe eines Buckets erreicht hat oder kleiner ist, dann könnten soviele Zellen zu einem Bucket zusammengefasst werden, wie es die Bucketgröße erlaubt. Dadurch gewährleistet man eine bessere Speicherauslastung und verhindert größere Freistellen im Speicher zwischen den Buckets. Durch die damit höhere Datendichte ist natürlich ein schnelleres Auslesen größerer Blöcke von der Platte in den Puffer möglich, was I/O Kosten spart. 11

12 Für das Grid-File müssen für k Dimensionen auch k 'scales' angelegt werden. Dies sind Arrays welche die Schnitte (also die Grenzen zwischen den Zellen) innerhalb einer Dimension beschreiben. Für jede Grenze ist ein Element im Array abgespeichert. An das Erweiterbare Hashing angelehnt, basiert das Grid-File auf einem sogenannten Grid- Directory, in welchem letztlich die Bucket-Adressen gespeichert sind. In Abbildung 6 sind die 'scales' (als s1 und s2 bezeichnet) und das Grid-Directory (GD) an einem 2-dimensionalen Beispiel veranschaulicht. Das Grid-File garantiert für Lookup Querys, das gleich oder weniger als 2 Plattenzugriffe ausreichen um den Datensatz in den Puffer zu laden. Ein Zugriffs ist natürlich der Speicherzugriff auf den Datensatz selbst, der zweite wird benötigt, falls der entsprechende Teil des Grid-Directorys noch nicht im Puffer steht. Die Speicherplatzauslastung des Grid- Files liegt bei sehr guten 70%. Diese Vorteile machen es zur populärsten mehrdimensionalen Organisationsform in Datenbanksystemen. Das einzige Problem des Grid-Files ist das nichtlineare Wachstum des Grid-Directory, was dazuführen kann, dass es nicht komplett im Puffer gehalten werden kann und damit eventuell mehr als ein Plattenzugriff für Lookup Operationen benötigt wird. Auch kann der Datenraum dadurch teilweise viele leere Zellen enthalten. Verbessert werden können diese Eigenschaften mit Interpolationsbasierten Grid-Files, welche im worst case allerdings eine schlechtere Speichplatzauslastung haben. Auf diese Variante wird hier nicht näher eingegangen. Stattdessen wird noch an einem Beispiel die Reaktion dieser Organisationsform auf Einfüge- Operationen veranschaulicht. 12

13 Beispiel anhand einer Folge von Inserts: Datenraum und Grid-Directory (Bucketgröße 2) im Ausgangszustand Buckets A,B,C,E umfassen 2 Zellen nach dem einfügen des Punktes (200,250) ist die Bucketgröße 2 in A überschritten (Dimensionslinie nach der geschnitten wird ist schon vorhanden) ->Split von A in A und F, sodass diese nur noch eine Zelle umfassen Einfügen eines zweiten Punktes in A ->Grid-Directory bleibt wie es ist da Bucketgröße noch nicht überschritten 13

14 Einfügen eines dritten Punktes in A ->Zellteilung notwendig da Bucketgröße in A überschritten ->vertikaler Schnitt durch die komplette Ebene ->auch die Zellen F und D werden geteilt (Buckets F und D bleiben aber da sie je beide Zellen umfassen können) ->Grid-Directory muss vergrößert werden (neue Grenze im 'x-scale' mit x=250 eingefügt) 14

15 3.5 Mehrdimensionales Hashing Das mehrdimensionale Hashing wurde entwickelt um dem Nachteil des Grid-Directorys zu entgegnen, dass eventuell 2 Plattenzugriffe für eine Lookup-Operation notwendig sind und das Grid-Directory mit dem Einfügen großer Datenmengen nichtlinear wächst. Das mehrdimensionale Hashing baut auf dem linearen Hashing auf und benötigt damit kein Directory. Die Zuordnung der Zellen zu den Buckets erfolgt über eine Adressierungsfunktion. Dadurch wird eine garantierte Obergrenze von nur einem Plattenzugriff erreicht. Abbildung 6: Mehrdimensionales Hashing Bei annähernder Gleichverteilung ist diese Technik dem Grid-File weit überlegen, da kein Directory gepflegt und erweitert werden muss. Das gilt nicht nur für Lookup- sondern ebenfalls für partial match- und Bereichsanfragen. Außerdem weist es in diesen Fällen auch eine sehr gut Speicherplatzauslastung auf. Probleme treten allerdings bei starken Ungleichverteilungen auf, da in diesem Fall viele Buckets im Füllgrad stark variieren bzw. sogar leer sein können. Zusammenfassen kann man diese nicht, da sonst die Adressierungsfunktion nicht mehr korrekt arbeiten würde. Damit ist der wichtige Aspekt der effizienten Speicherauslastung nicht mehr gegeben. Aus diesen Gründen hat sich das mehrdimensionale Hashing in Datenbanksystem bis heute nicht durchsetzen können. 15

16 4 Quellen Bücher: Datenbanksysteme: Konzepte und Techniken der Implementierung Theo Härder, Erhard Rahm Taschenbuch Datenbanken Internet: (Insert- Beispiele) 16