Räumliche Indexstrukturen

Transkript

1 Referat Räumliche Indexstrukturen Alexander Bau 2. Juli 2008

2 Inhaltsverzeichnis 1 Einführung 3 2 Grundlagen Anforderungen Minimal umspannende Rechtecke Clipping Nachteile Punkttransformationen Nachteile Z-Ordnung FASS-Kurven Z-Werte Nachteile Quadtrees PR-Quadtree Einbettung einer Z-Ordnung Überlappende Blockregionen R-Baum R-Baum-Varianten R -Baum R + -Baum Quellen 16 2

3 1 Einführung Die Speicherung, Verwaltung und Abfrage von räumlichen Strukturen stellt eine besondere Herausforderung an ein Datenbankmanagementsystem (DBMS). So müssen viele Operatoren und Strukturen, die beim Umgang mit flachen Daten eingesetzt werden, erweitert oder sogar ersetzt werden, um diesen neuen Herausforderungen gerecht zu werden. Dieses Dokument stellt eine Auswahl von gebräuchlichen Indexstrukturen vor, die in heutigen DBMS zum Einsatz kommen. Anwendung finden die vorgestellten Verfahrung bspw. in Geodatenbanksystemen, CAD-Anwendungen (Computer Aided Design), aber auch in hochdimensionalen Problemen der Mathematik und Bioinformatik. 2 Grundlagen Indexstrukturen haben innerhalb eines Datenbankmanagementsystems zwei wichtige Aufgaben. Zum einen sollen sie eine effiziente Speicherplatzausnutzung der zugrunde liegenden Datenträger gewährleisten, andererseits sollen die Zugriffszeiten auf die gespeicherten Daten minimiert werden. Die Güte der Lösung dieser beiden Aufgaben stellt ein wichtiges Qualitätsmerkmal eines DBMS dar. Daher wurden Standardlösungen entwickelt, welche auch in vielen anderen Bereichen der Informatik Anwendung finden. Dazu gehören B-Bäume und Hashtabellen. Beide Ansätze werden in heutigen DBMS erfolgreich umgesetzt, stellen aber eine essentielle Anforderung an die zu speichernden Daten: Es muss eine Ordnungsrelation R (Lineare Ordnung bzw. Totalordnung) zwischen den Elementen der zu speichernden Datenmenge M definiert sein. x y {x M, y M, x y (x, y) R (y, x) R} Diese Bedingung ist für einfache Datenypen erfüllt. Bspw. können Strings durch eine lexikographische Ordnung und Zahlen anhand ihrer natürlichen Reihenfolge sortiert werden. Bei mehrdimensionalen Daten ist eine solche Ordnung aber nicht mehr gegeben. So kann z.b. nicht entschieden werden, welcher von zwei Punkten einer Ebene kleiner ist. Daher wäre es nicht möglich, diese Punkte in einem B-Baum zu speichern. Die im folgenden vorgestellten Indexstrukturen lassen sich anhand unterschiedlicher Kriterien klassifizieren. So spielt die Art der zu speichernden Daten eine wichtige Rolle. Dabei sind die Rechteckstrukturen von besonderer Bedeutung. Sie werden in Anwendungsfällen genutzt, bei denen es um die Speicherung von ausgedehnten Geometrien, wie z.b. Polygone und Linienzüge, geht. Durch die räumliche Ausdehnung dieser Objekte entstehen weitere Probleme, die von den einzelnen Strukturen jeweils anders behandelt werden. Falls jedoch ausschließlich Punktwolken zu speichern sind, können spezielle, meist weniger komplexe, Indexstrukturen genutzt werden. 3

4 2.1 Anforderungen Unabhängig von der Klassifizierung stellen die oben aufgeführten Anwendungsgebiete weitere Anforderungen an die jeweils gewählte räumliche Indexstruktur. So spielt die Suche bezüglich geometrischer Attribute eine wichtige Rolle. In der Praxis kommen hauptsächlich zwei Abfrageformen zum Einsatz: die Punktabfrage und die Rechteckanfrage. Bei der Punktabfrage sind alle Objekte von Interesse, die einen Abfragepunkt P schneiden. In den meisten Strukturen ist diese Abfrageform wesentlich einfacher zu verarbeiten als die Rechteckabfrage, bei der alle Objekte gesucht sind, die ein gegebenes Abfragerechteck R schneiden. Wie beide Abfragen in den einzelnen Verfahren umgesetzt wurden, wird an späterer Stelle beleuchtet. Der effiziente Umgang mit dynamischen Datenmanipulationen stellt eine weitere Herausforderung an die gewählte Indexstruktur dar. So muss die Struktur auf Einfüge-, Änderungs- und Löschoperationen entsprechend reagieren können. Viele Datenstrukturen sind von der Abarbeitungsreihenfolge solcher Operationen abhängig, so dass es im Worst-Case zu einer degenerierten Struktur kommen kann, die negative Laufzeiten zur Folge hat. Eine weitere Ursache für solche Abnormalitäten ist eine extreme Ungleichverteilung der Daten im Datenraum. 2.2 Minimal umspannende Rechtecke Die oben angesprochenen Rechteckstrukturen arbeiten meist nicht auf den rohen Anwendungsdaten, sondern nutzen eine angemessene Approximation. Dies hat mehrere Gründe: So gestaltet sich bspw. der Überlappungstest zwischen einem Anfragerechteck und einem komplexen Polygon als äußert schwierig. Da in vielen Datenbanken die Anfrage die am häufigsten genutzte Operation ist, würde ein solcher Test sich negativ auf die Laufzeit auswirken. Ein weiterer Grund stellt die Abstraktion von konkreten Daten dar. Da in Rechteckstrukturen unterschiedlich geartete Geometriedaten gespeichert werden können, ist es hilfreich, von der konkreten Form der Daten zu abstrahieren, um das System generisch zu halten und für eventuelle Weiterentwicklungen zu öffnen. Eine solche Abstraktion stellt der Ansatz der Konservativen Approximation dar. Bei dieser Form der Approximation wird eine umfassende Fläche F (bzw. Körper im R 3 ) um das zu speichernde Objekt O gelegt, welche gerade so groß ist, dass alle Punkte von O innerhalb von F liegen. Im R 2 wird häufig ein achsenausgerichtetes Rechteck genutzt, welches minimal umspannendes Rechteck (MUR) genannt wird. Als achsenausgerichtet bezeichnet man ein MUR, falls alle Kanten des MUR parallel zu den Koordinatenachsen sind. Im R 3 ist häufig auch von Axis Aligned Bounding Boxes die Rede. Diese und weitere Formen der konservativen Approximation sind in Bild 1 illustriert. Eine davon sind die gedrehten minimal umspannenden Rechtecke. Durch ihre stärkere Ausrichtung an der von ihnen umgebenen Geometrie werden sie häufig auch Object Oriented Bounding Boxes genannt. Eine weitere Form sind die konvexen Hüllen, die das von ihnen umgebene Objekt durch ein konvexes Polygon annähern. Beide Ausprägungen versuchen den offensichtlichen Nachteil der MUR zu minimieren, dass sie Punkte einschließen, die nicht zum approximierten Objekt gehören. Dadurch würde auch die 4

5 Abbildung 1: Verschiedene konservative Approximationen Wahrscheinlichkeit von Fehltreffern bei Abfragen verkleinert werden. Dieser Erfolg wird jedoch durch eine schwierigere Berechenbarkeit und eine aufwendige Verwaltung der Approximationen erkauft. Daher spielen bei den weiteren Verfahren nur die normalen MUR eine Rolle. 3 Clipping Eines der einfachsten Verfahren stellt das Clipping dar. Hierbei wird zunächst der Datenraum in gleichgroße, disjunkte Blöcke aufgeteilt. Die zentrale Idee beim Clipping ist, dass ein Objekt allen Blöcken des Datenraumes zugeordnet wird, die die MUR des betreffenden Objektes schneiden. Falls ein Objekt (bzw. dessen MUR) jedoch mehrere Blöcke überlappt, so wird das entsprechende Objekt an den Blockgrenzen zerschnitten und die einzelnen Teile werden den jeweiligen Blöcken zugeordnet. In Bild 2 ist ein einfacher Anwendungsfall illustriert. Im Beispiel wurde eine Auflösung von 3 * 3 Blöcken gewählt, um den kompletten Datenraum zu unterteilen. Man erkennt, dass bspw. das Rechteck R 2 von vier Blockregionen geschnitten wird. Demzufolge wird R 2 in R 2.1, R 2.2, R 2.3 und R 2.4 aufgeteilt und die einzelnen Teile werden nun den jeweils überlappenden Blöcken zugeordnet. Dadurch ergibt sich eine einfache 1:n-Beziehung zwischen den einzelnen Blockregionen und den Objektteilen (ein Objektteil ist genau einer Blockregion zugeordnet und eine Blockregionen speichert n Objektteile). Für eine Punktanfrage mit dem Punkt P muss geklärt werden, in welcher Blockregion P liegt. Alle Objekte, die in diesem Block gespeichert sind, müssen auf Überschneidung mit P getestet und ggf. der Ergebnismenge hinzugefügt werden. Bei einer Rechteckanfrage betrifft dies jedoch mehrere Blöcke. Daher muss hier über alle Blöcke iteriert werden, die sich mit dem Anfragerechteck R überschneiden. 5

6 Abbildung 2: Beispielanwendung des Clipping-Verfahrens 3.1 Nachteile Dem Vorteil der relativ einfachen Arbeitsweise dieses Verfahrens stehen eine Reihe Nachteile gegenüber. Der Offensichtlichste betrifft die getrennte Speicherung von Objekten. Das hat zur Folge das bei Rechteckanfragen das selbe Objekt mehrfach in der Ergebnismenge auftauchen kann, weil mehrere Teile des Objektes in unterschiedlichen Blockregionen das Anfragerechteck geschnitten haben. Daher müssen Duplikate in einem weiteren Arbeitsschritt erkannt und ggf. entfernt werden. Zwei wesentliche Faktoren beeinflussen die Effizienz dieses Verfahrens. Zum einen ist das die Auflösung der Datenraumaufteilung und zum anderen die durchschnittliche Größe der zu speichernden Objekte. Falls einer der beiden Faktoren ungünstig gewählt wurde, kann es entweder passieren, dass große Objekte sehr oft aufgeteilt werden müssen, was eine schlechte Speicherplatzausnutzung bedeutet, oder, dass viele Objekte in zu großen Blockregion gespeichert werden, was bei Rechteckanfragen Überlappungstest für viele Objekte nach sich zieht. Das würde eine sehr schlechte Antwortzeit für solche Anfrageformen bedeuten. 4 Punkttransformationen Um die Nachteile des Clippings bei Objekten mit geometrischer Ausdehnung zu vermeiden, bedient man sich der Punkttransformation in einen höherdimensionalen Raum. Bei dieser Operation werden achsenparallele Rechtecke im R 2 zu vierdimensionalen Punkten und achsenparallele Quader im R 3 zu sechsdimensionalen Punkten transformiert. Der Grund für diesen Aufwand ist die Idee, dass sich höherdimensionale Punkte einfacher verwalten lassen, als niederdimensionale Körper bzw. Flächen. Daher werden zur Spei- 6

7 cherung der transformierten Objekte mehrdimensionale Punktstrukturen genutzt, wie bspw. der k-d-baum zur Speicherung von Punkten im R k. Bild 3 zeigt am Beispiel der Mittentransformation, wie sich ein Rechteck in einen höherdimensionalen Punkt transformieren lässt. Abbildung 3: Parameter, die ein Rechteck eindeutig beschreiben (Mittentransformation) Bei der Mittentransformation wird ein Rechteck durch seinen Mittelpunkt M und seine Ausdehnung D in beide Dimensionen beschrieben. Da M und D zwei Koordinatenpaare bilden, lassen sich diese vier Zahlen als Punkt im R 4 auffassen und in einer entsprechenden Struktur speichern. Äquivalent arbeitet die Eckentransformation, die ein Rechteck durch zwei gegenüberliegende Eckpunkte beschreibt. 4.1 Nachteile Die Punkttransformation besitzt zwei erhebliche Nachteile. Zum einen geht die räumliche Beziehung zwischen Objekten im ursprünglichen Datenraum verloren. Diese Tatsache soll in Bild 4 verdeutlicht werden. Abbildung 4: Verlust räumlicher Beziehungen bei der Transformation von eindimensionalen Intervallen In diesem Beispiel wurden zur besseren Übersicht eindimensionale Intervalle (statt zwei- 7

8 dimensionaler Rechtecke) transformiert. I 2 und I 3 liegen dabei auf I 1, d.h. die räumliche Beziehung zwischen I 1 und I 2 und zwischen I 1 und I 3 ist höher als zwischen I 2 und I 3. Jedes Intervall wird durch die Abszisse der Intervallmitte und die Ausdehnung repräsentiert. Z. Bsp. hat I 1 eine Ausdehnung von 0.4 und die Mitte befindet sich bei x = 0.5. Diese beiden Parameter werden nun als Punkt im R 2 aufgefasst. Das rechte Bild zeigt die transformierten Intervalle (I x P x ), wobei alle Punkte P x unterhalb des eingezeichneten Dreiecks liegen. Nun ist erkennbar, dass bspw. die räumliche Beziehung zwischen I 1 und I 2 verloren gegeangen ist, da der Abstand zwischen P 1 und P 2 größer ist als der Abstand zwischen P 2 und P 3. Das hat zur Folge, dass Anfrageintervalle im transformierten Raum größer sein müssen, als Anfrageintervalle im Ursprungsraum, was wiederum eine schlechtere Laufzeit zur Folge hat. Ein weiterer bedeutender Nachteil ist die extreme Ungleichverteilung der Daten im transformierten Raum. Unter realen Bedingungen würden sich die meisten der transformierten Punkte P x knapp überhalb der Abszissenachse befinden. 5 Z-Ordnung Die Z-Ordnungen gehen einen anderen Weg als die bisher vorgestellten Verfahren. Bei dieser Indexstruktur wird eine lineare Ordnung, basierend auf einer FASS-Kurve, eingeführt. 5.1 FASS-Kurven Eine FASS-Kurve (space-f illing, self-avoiding, simple, self-similar - raumfüllend, selbstausweichend, einfach, selbstähnlich) ist eine eindimensionale Linie, die eine Gitterstruktur im R 2 oder R 3 komplett durchläuft. Sie besitzt eine Berechnungsvorschrift, die beliebig oft, rekursiv angewendet werden kann. Daher nähert sich eine FASS-Kurve jedem Punkt in der gewählten Dimension beliebig genau an. Zwei wichtige Kriterien, nach denen die Menge aller FASS-Kurve klassifiziert werden kann, sind die Güte der Nachbarschaftserhaltung (s.u.) und die Komplexität der Berechnungsvorschrift. Obwohl die Hilbert-Kurve eine bessere Nachbarschafterhaltung aufweist als die Z-Kurve, ist sie schwerer zu berechnen. Somit stellt die Z-Kurve einen guten Kompromiss zwischen beiden Anforderungen dar und gibt dem Verfahren daher seinen Namen. 5.2 Z-Werte Ähnlich wie beim Clipping wird bei diesem Verfahren der Datenraum zunächst durch eine Gitterstruktur aufgeteilt. Bei den Z-Ordnungen wird diese Gitterstruktur durch reguläre Binärregionen beschrieben. Reguläre Binärregionen der Auflösung n teilen den Datenraum in 2 n Blöcke. Im Bild 5 sind einige Beispiele für unterschiedliche Auflösungen angegeben. 8

9 Abbildung 5: Die Z-Ordnung bei verschiedenen Auflösungen Eine Binärregion x im Gitter wird durch ein Wertepaar (index x, auflösung x ), dem sog. Z-Wert, dargestellt, wobei index x durch die Durchlaufreihenfolge der Z-Kurve gegeben ist, d.h. die erste durchlaufende Binärregion bekommt den Index 0 zugewisen, die Nächste den Index 1 und die letzte Binärregion den Index 2 n 1. Für jede Binärregion wird ebenfalls die Auflösung des Gitters gespeichert. Der Grund für dieses Verhalten wird im Abschnitt Quadtrees erklärt. Das mittlere Beispiel in Bild 5 zeigt die Z-Werte für eine Gitteraufteilung der Auflösung 4. Hier ist die nachbarschaftserhaltende Eigenschaft der Z-Kurve gut erkennbar, da bspw. in unmittelbarer Umgebung von (1, 4) ebenfalls die Z-Werte (0, 4) und (2, 4) zu finden sind. Natürlich gilt dies nicht für alle Blöcke, da z.bsp. die Werte (3, 4) und (9, 4) ebenfalls nebeneinander liegen. Durch die Enumeration der einzelnen Binärregionen kann eine Ordnungsrelation basierend auf der Durchlaufreihenfolge der Z-Kurve definiert werden. X < Y index x < index y Durch diese Ordnungsrelation ist es nun möglich die einzelnen Binärregionen in einer herkömmlichen Indexstruktur, wie z.b. dem B + -Baum zu speichern. Bild 6 zeigt eine beispielhafte Situation bei der Nutzung der Z-Ordnung. Im Beispiel soll das Polygon P 1 und die Linie L 1 gespeichert werden, aber beide Objekte schneiden mehrere Binärregionen. In einem solchen Fall wird ähnlich verfahren wie beim Clipping. Es werden alle betroffenen Binärregionen mit einem Verweis auf das jeweilige Objekt im B + -Baum gespeichert. Da bspw. P 1 vier Binärregionen schneidet, existieren vier Verweise im Baum auf P 1. Um eine Punktanfrage zu bearbeiten, wird der entsprechende Z-Wert des Anfragepunktes 9

10 Abbildung 6: Beispielhafter Anwendungsfall berechnet und alle Objekte die im Baum durch die entsprechende Binärregion referenziert werden, müssen in weiteren Arbeitsschritten bedacht werden (Überschneidungstests etc.). Bei Rechteckanfragen muss die Menge M aller Binärregionen berechnet werden, die das Anfragerechteck approximieren. Aus M lassen sich dann mehrere (mindestens eine) Bereichsanfragen an den B + -Baum ableiten, die zur Ermittlung aller gewünschten Objekte führt. Dabei kann es jedoch vorkommen, dass es durch die mehrfache Speicherung gleicher Objekte zu Duplikaten innerhalb der Ergebnismenge kommt. Diese müssen in einem weiteren Arbeitsschritt erkannt und entfernt werden. 5.3 Nachteile Durch die ähnliche Verfahrensweise wie beim Clipping werden auch dessen Nachteile übernommen. D. h. dass bei einer zu hohen Auflösung der Binärregionen oder bei zu großen Objekten sehr viele Verweise auf das jeweilige Objekt im Baum existieren. Das hat negative Auswirkungen auf die Laufzeit und die Speicherausnutzung (siehe Clipping). 6 Quadtrees Quadtrees verfolgen einen anderen Ansatz als die bisher vorgestellten Verfahren um deren Nachteile zu umgehen. Die angesprochenen Laufzeit- und Speicherausnutzungsdefizite dieser Indexstrukturen begründen sich hauptsächlich auf der Tatsache, dass der Datenraum anhand eines statischen Faktors (z. Bsp. die Auflösung der Binärregionen bei der Z-Ordnung) aufgeteilt wurde. Dieser Faktor musste vor der eigentlichen Arbeit mit dieser Struktur passend zur erwarteten, durchschnittlichen Objektgröße gewählt werden. Bei den Quadtrees verzichtet man daher auf einen solchen konstanten Faktor und teilt den Datenraum anhand der bereits gespeicherten Objekte auf. Dabei legt man eine einfache Berechnungsvorschrift zugrunde: Jede Ebene im Quadtree wird in vier Teile geteilt (daher auch der Name Quadtree). Im Beispiel in Bild 7 wurden diese vier Teile mit NW (Nordwest), NO (Nordost), SO (Südost) und SW (Südwest) gekennzeichnet. Jedes dieser 10

11 vier Teile kann nun rekusiv weiter aufgeteilt werden bis eine bestimmte Tiefe erreicht oder eine Abbruchbedingung erfüllt ist. Ein Beispiel für eine solche Abbruchbedingung soll im nächsten Abschnitt vorgestellt werden. 6.1 PR-Quadtree Ein PR-Quadtree (Point-Region-Quadtree) ist ein Quadtree zur Speicherung von Punktwolken. Wie der Name bereits andeutet, wird dabei jeder Blockregion im Baum maximal ein Punkt zugeordnet. D. h. jede Blockregion wird so oft geteilt, bis alle in ihr enthaltenen Punkte sich allein in einer Blockregion befinden. In Bild 7 ist ein PR-Baum illustriert. Abbildung 7: Beispielhafter PR-Quadtree Es ist erkennbar, dass bspw. die größere Blockregion unten links nicht weiter aufgeteilt werden muss, da bereits nur ein Punkt in ihr gespeichert ist, wo hingegen ein Block am rechten Rand besonders weit aufgeteilt werden musste, da sich hier zwei Punkte in unmittelbarer Nähe befinden. Da die Speicherung von Punkten weniger interessant ist, wird im Folgenden auf eine Quadtree-Variante eingegangen, die auch zur Speicherung ausgedehnter Geometrien geeignet ist. 6.2 Einbettung einer Z-Ordnung Um nun auch Polygone oder Linienzüge im Quadtree zu speichern, wird versucht, diese Objekte durch rekursive Aufteilung einzelner Blockregionen so gut wie möglich zu approximieren. Dabei wird meist eine maximale Rekursionstiefe vorgegeben. In Bild 8 wird dies am Beispiel des Polygons P 1 und der Linie L 1 gezeigt. 11

12 Abbildung 8: Quadtree mit eingebetteter Z-Ordnung Um diese Objekte in einer herkömmlichen Indexstruktur speichern zu können, wird in den Quadtree eine Z-Ordnung eingebettet. Dabei werden den einzelnen Blockregionen des Baumes nun Z-Werte unterschiedlicher Auflösung zugewiesen. Dies funktioniert, da jede Blockregion als reguläre Binärregion innerhalb einer Z-Ordnung aufgefasst werden kann. Bspw. wird das Polygon P 1 in Bild 8 durch vier Blöcke der Auflösung 6 und einen Block der Auflösung 4 bestmöglich repräsentiert. Um nun einen B + -Baum nutzen zu können muss eine Ordnungsrelation zwischen Z-Werten unterschiedlicher Auflösung definiert werden: X < Y index x 2 auflösungx a < index y 2 auflösungy a Dabei steht für die ganzzahlige Division und a = min(auflösung x, auflösung y ). Durch diese Relation wird der höheraufgelöste Z-Wert auf die Ebene des Anderen umgerechnet, da der Vergleich von Z-Werten gleicher Aufflösung wohldefiniert ist (s.o.). Nun ist es möglich, alle Blöcke, die ein gegebenes Objekt O überlappen, mit einem Verweis auf O in einem B + -Baum zu speichern. Dabei kann es wie beim Clipping zur mehrfachen Speicherung gleicher Objekte kommen, aber durch die unterschiedlich aufgelösten Regionen im Quadtree tritt diese Situation weniger häufig auf als bei anderen Verfahren. 7 Überlappende Blockregionen Alle bisher vorgestellten Verfahren haben den Datenraum in disjunkte Teile aufgeteilt. Dieser Umstand führt jedoch dazu, dass es oft nötig ist, Objekte, die die Grenzen dieser disjunkten Blöcke überlappen, mehrfach gespeichert werden müssen. Das zieht, wie bereits beschrieben, einige Probleme nach sich. Daher existieren einige Indexstrukturen, welche einen anderen Ansatz wählen: Sie unterteilen den Datenraum ebenfalls in Blöcke, 12

13 aber diese dürfen sich überschneiden. Ein beliebter Vertreter dieser Art von Indexstrukturen soll im folgenden Abschnitt vorgestellt werden. 7.1 R-Baum Der R-Baum weist viele Parallelen zum B + -Baum auf. Er unterscheidet ebenso zwischen Verzeichniss- und Datenknoten. Letztere liegen alle auf einer Ebene. Die Verzeichnissknoten beinhalten neben den Verweisen auf ihre unmittelbaren Kinder auch ein minimal umspannendes Rechteck, welches den gesamten Teilbaum unter ihnen umspannt. Bild 9 zeigt ein Beispiel, dass diese Idee skizziert. Beispielsweise umspannt das MUR des Verzeichnissknotens a die Knoten c und d und die Datenknoten 1-5. Abbildung 9: Ein einfacher R-Baum (Verzeichnissknoten sind mit Kleinbuchstaben, Datenknoten mit Zahlen markiert) Ein Unterschied ergibt sich aus den überlappenden Blockregionen der R-Bäume gegenüber den Quadtrees. Während bei den Quadtrees die Reihenfolge der Einfügeoperationen keine Rolle für die resultierende Datenstruktur spielt, ist diese Reihenfolge bei den R- Bäumen relavant. Einen viel höheren Einfluss auf die Laufzeit der Indexstruktur hat jedoch weniger die Reihenfolge der Einfügeoperationen, als die Wahl des Datenknotens bzw. des Teilbaums in den ein neues Objekt gespeichert werden soll. Es lassen sich innerhalb dieser Operation drei Fälle unterscheiden: Das zu speichernde Objekt bzw. sein MUR liegt komplett innerhalb eines MUR eines Verzeichnissknotens. In diesem Fall wird dieser Knoten gewählt und es wird rekusiv weiterverfahren. Das zu speichernde Objekt bzw. sein MUR überlappen mehrere Verzeichnissknoten- MUR. Dann können zur Entscheidung verschiedene Heuristiken angewandt wer- 13

14 den, bspw. kann derjenige Knoten ausgewählt werden, dessen MUR den kleinsten Flächeninhalt hat. Das zu speichernde Objekt bzw. sein MUR überlappt kein Verzeichnissknoten- MUR. In diesem Fall können erneut verschiedene Heuristiken angewandt werden. So kann zum Beispiel derjenige Knoten gewählt werden, dessen MUR sich beim Hinzufügen des zu speichernden Objektes am wenigsten vergrößert. Eine weitere Operation ist für die Effizienz des R-Baumes von Bedeutung: Falls durch häufiges Hinzufügen von neuen Objekten ein Verzeichnissknoten seine maximale Kapazität (abhängig von der Ordnung des Baumes) erreicht, so muss dieser aufgeteilt werden. Es existieren verschieden Ansätze, wie räumlich am günstigsten aufgeteilt werden kann. Ein Vorteil von R-Bäumen sind die relativ einfach zu implementierenden Anfrageformen. So muss lediglich durch ein Überlappungstest zwischen der Anfragegeometrie und den MUR entschieden werden, welche Teilbäume rekursiv weiter untersucht werden müssen. Falls man auf ein Blattknoten stößt, ergibt sich die Ergebnismenge aus den erfolgreichen Überlappungstests zwischen der Anfragegeometrie und den gespeicherten Objekten. Da jedes Objekt nur einmal im gesamten Baum gespeichert wird, entfällt ein zweiter Arbeitsschritt zum Erkennen und Entfernen eventueller Duplikate. 7.2 R-Baum-Varianten R -Baum Der R -Baum versucht einige kritische Punkte des gewöhnlichen R-Baumes zu vermeiden. So kann es passieren, dass zu große Überlappungen dazu führen, dass bei Anfragen mehrere Teilbäume untersucht werden müssen. Daher ist eine Minimierung der Überlappungen erwünscht. Weiterhin soll die Fläche und die Anzahl der Blöcke minimiert werden, da kleinere Blöcke auch weniger oft gefunden werden. Es besteht ebenfalls in der Form der einzelnen Blockregionen Optimierungspotential. So soll versucht werden, eine möglichst quadratische Form der Blöcke zu erreichen. Diese Forderung wird mit der meist (fast) quadratischen Form der Anfragerechtecke begründet. Diese Annahme resultiert bspw. aus der annähernd quadratischen Form heutiger Bildschirmfenster oder Kartenblätter. So kann gezeigt werden, dass quadratische Blockregionen im Mittel weniger häufig gefunden werden, falls das Anfragerechteck ebenfalls annähernd quadratisch ist. Bei diesen konträren Forderungen muss ein passender Konsens zwischen allen Optimierungswünschen gefunden werden. Der R -Baum erreicht dies unter Ausnutzung bestimmer Heuristiken während der Einfüge und Splitoperationen. Diese erfolgreiche Umsetzung aller gewünschten Anforderungen mach diese Variante des R-Baumes zu einer sehr verbreiteten Indexstruktur in heutigen Datenbanksystemen. 14

15 7.2.2 R + -Baum Der R + -Baum vermeidet Überlappungen vollständig, in dem ein Verfahren, ähnlich dem Clipping, genutzt wird. Seine Struktur ist zwar äquivalent zum R-Baum, aber die MUR der Verzeichnissknoten dürfen sich nicht überlappen. Das hat Auswirkungen auf die Überlaufbehandlung von Knoten. So wird mittels Partitionierungslinien entlang jeder Dimension und einer zughörigen Kostenfunktion entschieden, wie ein Knoten aufgeteilt wird. Die Kostenfunktion gewichtet meist die Anzahl der Objekte, die durch die aktuelle Partitionierungslinie geschnitten werden. Diese Kosten sollen minimiert werden, d. h. es sollen so wenige Objekte wie möglich geschnitten werden. Häufig ist es jedoch nicht möglich eine günstige Partitionierungslinie zu finden. In einem solchen Fall muss unterschieden werden, ob der übergelaufene Knoten ein Daten- oder Verzeichnissknoten war. Ist ein Datenknoten übergelaufen, werden alle Objekte, die die Partitionierungslinie schneiden in beiden resultierenden Datenknoten gespeichert. Ist ein Verzeichnissknoten V übergelaufen, wird die Partitionierung rekursiv für alle Kindknoten von V fortgesetzt, unabhängig davon, ob diese ebenfalls voll sind oder nicht. Das kann dazu führen, dass entlang solcher Partitionierungslinien viele, nur sehr gering gefüllte Knoten gibt, was sich wiederum negativ auf das Laufzeitverhalten auswirken kann. 15

16 8 Quellen Thomas Brinkhoff: Geodatenbanksysteme in Theorie und Praxis. Herbert Wichmann Verlag, Heidelberg 2005 Geo-Anfrageverabeitung. marburg.de/teaching/vl/sonst/ 05WS_geodb/Folien/spatialIndexingAll.pdf (Zugriff: 3. Juni 2008) 16