R-Baum R + -Baum X-Baum M-Baum



Ähnliche Dokumente
7 Effiziente Algorithmen und Datenstrukturen. 7 Effiziente Algorithmen und Datenstrukturen (2) Einführung. Einführung

7 Effiziente Algorithmen und Datenstrukturen

Tutorium Algorithmen & Datenstrukturen

Clustering Seminar für Statistik

Anmerkungen zur Übergangsprüfung

Kapitel 4: Dynamische Datenstrukturen. Algorithmen und Datenstrukturen WS 2012/13. Prof. Dr. Sándor Fekete

1 topologisches Sortieren

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Konzepte der Informatik

Zeichen bei Zahlen entschlüsseln

Professionelle Seminare im Bereich MS-Office

Print2CAD 2017, 8th Generation. Netzwerkversionen

1. Motivation / Grundlagen 2. Sortierverfahren 3. Elementare Datenstrukturen / Anwendungen 4. Bäume / Graphen 5. Hashing 6. Algorithmische Geometrie

WS 2009/10. Diskrete Strukturen

Kapiteltests zum Leitprogramm Binäre Suchbäume

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

15 Optimales Kodieren

Datenstrukturen & Algorithmen

13. Binäre Suchbäume

Algorithmen und Datenstrukturen

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

Kapitel 6: Graphalgorithmen Gliederung

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Hilfe Bearbeitung von Rahmenleistungsverzeichnissen

Clustering (hierarchische Algorithmen)

Lernziele: Ausgleichstechniken für binäre Bäume verstehen und einsetzen können.

Algorithmen und Datenstrukturen 2

Es kann maximal ein Prozess die Umladestelle benutzen.

R. Brinkmann Seite Schriftliche Übung Mathematik Stochastik II (Nachschreiber) Jan. 2007

Enigmail Konfiguration

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

Algorithmen und Datenstrukturen Bereichsbäume

Binäre Bäume Darstellung und Traversierung

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Hilfedatei der Oden$-Börse Stand Juni 2014

Primzahlen und RSA-Verschlüsselung

Abschlussprüfung Realschule Bayern II / III: 2009 Haupttermin B 1.0 B 1.1

Statuten in leichter Sprache

Wie man Registrationen und Styles von Style/Registration Floppy Disketten auf die TYROS-Festplatte kopieren kann.

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

Ein Vorwort, das Sie lesen müssen!

Theoretische Grundlagen der Informatik

FRAGE 39. Gründe, aus denen die Rechte von Patentinhabern beschränkt werden können

Netzwerkversion PVG.view

Erstellen von x-y-diagrammen in OpenOffice.calc

erstmalig erwähnt 1048 Bedarfsabfrage 09/2015 GEMEINDE BIBURG Bedarfserhebung

Elexis-BlueEvidence-Connector

Inhalt. 1 FAQ zum Geoportal Kamenz

Bedienungsanleitung Rückabwicklungsrechner

Wichtiges Thema: Ihre private Rente und der viel zu wenig beachtete - Rentenfaktor

Privatinsolvenz anmelden oder vielleicht sogar vermeiden. Tipps und Hinweise für die Anmeldung der Privatinsolvenz

Anleitung über den Umgang mit Schildern

Quadratische Gleichungen

Bayeux. Dirk Ewerlin

R ist freie Software und kann von der Website.

Lineare Gleichungssysteme

368 4 Algorithmen und Datenstrukturen

AVL-Bäume Analyse. Theorem Ein AVL-Baum der Höhe h besitzt zwischen F h und 2 h 1 viele Knoten. Definition Wir definieren die nte Fibonaccizahl:

Österreichische Trachtenjugend

DAS HALLENBUCHUNGSPROGRAMM EBUSY

Grundlagen der höheren Mathematik Einige Hinweise zum Lösen von Gleichungen

AOK Pflege: Praxisratgeber Sturzprävention Übungen zur Stärkung des Gleichgewichts

Bereich METIS (Texte im Internet) Zählmarkenrecherche

Grundlagen der Theoretischen Informatik, SoSe 2008

2) Geben Sie in der Anmeldemaske Ihren Zugangsnamen und Ihr Passwort ein

KONSTRUKTION VON ROT-SCHWARZ-BÄUMEN

Markus Mauritz 4BBW 97/98 BET - Referat. ABC Analyse (Kostenschwerpunktanalyse)

PTV VISWALK TIPPS UND TRICKS PTV VISWALK TIPPS UND TRICKS: VERWENDUNG DICHTEBASIERTER TEILROUTEN

Diana Lange. GENERATIVE GESTALTUNG Arten des Zufalls

Haben Sie über elektronisches Schließfachmanagement nachgedacht? Ein Schließfach ist ohne ein solides Schloss nicht komplett.

Grundtypen Flip-Flops

Nachtrag zu binären Suchbäumen

Algorithmen und Datenstrukturen Balancierte Suchbäume

mobilepoi 0.91 Demo Version Anleitung Das Software Studio Christian Efinger Erstellt am 21. Oktober 2005

Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen?

Grundtypen Flip-Flops

Idee: Wenn wir beim Kopfknoten zwei Referenzen verfolgen können, sind die Teillisten kürzer. kopf Eine Datenstruktur mit Schlüsselwerten 1 bis 10

Zinsrechner. Bedienungsanleitung

Um das Versenden von Anhängen an s zu ermöglichen, wurde der Assistent für die Kommunikation leicht überarbeitet und wo nötig verbessert.

WINLINK 2000 SPAM-KONTROLLE UND NACHRICHTEN PRIORITÄTEN Aktualisiert 27. März 2012

[Customer Service by KCS.net] KEEPING CUSTOMERS SUCCESSFUL

XONTRO Newsletter. Kreditinstitute. Nr. 18

How to do? Projekte - Zeiterfassung

Algorithmen II Vorlesung am

Organisation des Qualitätsmanagements

MATHEMATIK 3 STUNDEN. DATUM: 8. Juni 2009

Anleitung zum neuen Überaumbuchungssystem der Hochschule für Musik und Tanz Köln

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Corporate Actions in epoca

3D-Konstruktion Brückenpfeiler für WinTrack (H0)

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori

Trainingsplan 16-wöchiger Trainingsplan für einen Triathlon (Volkstriathlon), Einsteiger

WinWerk. Prozess 6a Rabatt gemäss Vorjahresverbrauch. KMU Ratgeber AG. Inhaltsverzeichnis. Im Ifang Effretikon

Charakteristikum des Gutachtenstils: Es wird mit einer Frage begonnen, sodann werden die Voraussetzungen Schritt für Schritt aufgezeigt und erörtert.

Alles zu seiner Zeit Projektplanung heute

Die Näherung durch die Sekante durch die Punkte A und C ist schlechter, da der Punkt C weiter von A entfernt liegt.

1. Einführung. 1.1 Tourenplanung als Teilbereich der Logistik

Anhang E: Checkliste Projektauswahlkriterien der Lokalen Aktionsgruppe Landkreis Freyung-Grafenau e. V.

Transkript:

R-Baum und Varianten R-Baum R + -Baum X-Baum M-Baum staab@uni-koblenz.de 1

R-Baum R-Baum: Guttman 1984 Erweiterung B-Baum um mehrere Dimensionen Standardbaum zur Indexierung im niedrigdimensionalen Raum Einsatz etwa in GIS Feature-Objekte können beliebige Ausdehnung haben Cluster-Bildung: lokale Gruppierung durch MBRs (Überlappungen erlaubt) balanciert und Feature-Objekte in den Blättern staab@uni-koblenz.de 2

R-Baum (2) Struktur: Mehrwegbaum Anzahl Kindknoten pro Knoten durch vordefinierten Minimalbzw. Maximalwert eingeschränkt (Anpassung an Seitengröße) MBR eines Knoten umfasst minimal alle MBR der Kindknoten Blätter enthalten pro Feature-Objekt entspechende Pointer und MBR Suchaufwand wächst mit Grad der Überlappung Ziel: minimale Überlappung bei Baumkonstruktion staab@uni-koblenz.de 3

R-Baum graphisch staab@uni-koblenz.de 4

Einfügen eines neuen Feature-Objekts 1. Finden eines geeigneten Blatts 2. Suche beginnt an der Wurzel 3. Navigation zum Kindknoten, dessen erforderliches Erweiterungsvolumen minimal ist 4. wenn Auswahlkriterium nicht eindeutig, dann Kindknoten mit minimalen Volumen bevorzugen 5. Blatt gefunden und Objekt eingefügt Anpassung der MBRs der Vaterknoten staab@uni-koblenz.de 5

Überlaufproblem wenn Knoten zu viele Einträge besitzt Zerlegung MBR in zwei MBRs Variante 1: Ziel: Minimierung der Volumensumme der neuen MBR Minimierung der Überlappungswahrscheinlichkeit Variante 2: Zerlegung nach Idee aus R * -Baum-Ansatz: Zerlegung in genau einer Dimension Aufwand zum Finden bester Zerlegung: erschöpfende Suche Punktanzahl * Dimensionsanzahl staab@uni-koblenz.de 6

Suche im R-Baum HS- und RKV-Algorithmus einsetzbar bei Bereichsanfragen: Navigation in jeden Unterbaum, dessen MBR den Suchbaum schneidet NN-Suche ist effizient wenn Anzahl Dimensionen klein (etwa < 10) bei vielen Dimensionen viele MBR-Überlappungen Ausschließen von Teilbäumen von Suche wird extrem unwahrscheinlich Suchaufwand höher als bei sequentieller Suche viele Varianten des R-Baums versuchen Problem zu lösen, können es aber nur verringern ( curse of dimensionality ) staab@uni-koblenz.de 7

R + -Baum Sellig/Roussopolous/Faloutsos 1987 Grundidee: Verbieten von Überlappungen neuer Einfügealgorithmus Forderung ist allerdings nur schwer erfüllbar Einfügung kann Anpassung mehrerer Blätter erfordern Anpassung kann Zerlegung in kleinere MBR ohne vorherigem Überlauf bedeuten Knoten mit geringer Auslastung viele Knoten (Entartung) Feature-Objekte mit räumlicher Ausdehnung: u.u. kann kein umfassender MBR gefunden werden Mehrfacheinträge nötig staab@uni-koblenz.de 8

Probleme des R + -Baum graphisch staab@uni-koblenz.de 9

X-Baum Brechthold, Keim, Kriegel 1996 Idee basiert auf zwei Beobachtungen: 1.Effizienzprobleme im hochdimensionalen Raum aufgrund steigender Überlappungen sequentieller Durchlauf ist effizienter als Baumdurchlauf 2.Zerlegung sollte an einer bestimmten Dimension erfolgen (auf Kosten der Balance!) staab@uni-koblenz.de 10

Superknoten Einführung von Superknoten Superknoten umfasst beliebig viele Datenbankseiten (keine Einschränkung bzgl. Anzahl) Suche im Superknoten erfolgt sequentiell Superknoten werden dynamisch angelegt, wenn Grad an Überlappung zu hoch Fazit: X-Baum als dynamische Hybridstruktur zwischen eindimensionalem Array und R-Baum staab@uni-koblenz.de 11

X-Baum graphisch staab@uni-koblenz.de 12

Knotenüberlauf Split-Historie wird für jeden MBR verwaltet enthält alle bereits verwendeten Zerlegungsdimensionen bei Überlauf 1.Anwendung der herkömmlichen, topologischen Zerlegung 2.wenn vordefinierter Überlappungsgrad überschritten Auswahl der Zerlegungsdimension anhand Split-Historie 3.wenn Verletzung der Balance Erzeuge Superknoten staab@uni-koblenz.de 13

M-Baum Ciaccia, Patella, Zezula 1997 Annahme bei Bäumen bis jetzt: Feature-Objekte sind Elemente des euklidschen Vektorraums Problem: Annahme gilt nicht immer M-Baum setzt nur Metrik voraus: Menge von Feature-Objekten (müssen keine Vektoren sein!) Distanzfunktionen (muss nicht eukl. Distanz sein, z.b. Editdistanz zwischen Wörtern) M-Baum nutzt Dreiecksungleichung zum Ausschluss von Teilbäumen von der Suche staab@uni-koblenz.de 14

M-Baum (3) Charakteristik: Cluster-Bildung: lokale Gruppierung Cluster können sich überlappen Balance: M-Baum ist balanciert Objektspeicherung: Verweise auf Feature-Objekte in den Blättern Geometrie: festgelegt durch Feature-Objekt (Zentrum) und Distanz (Radius) (entspricht Kugel im euklidischen Raum) staab@uni-koblenz.de 15

Datenstuktur eines inneren Knotens innerer Knoten: durch vordefinierte Maximalanzahl an Seitengröße angepasst jeder Eintrag hat folgende Datenstruktur: Zeiger zum Kindknoten routing objekt : Feature-Objekt als Kugelzentrum des entspr. Kind-Clusters Radius : maximal erlaubte Distanz vom routing object zu Feature-Objekten des Kind-Clusters Distanz zum Vaterknoten: Distanz zwischen und routing object des Vaters staab@uni-koblenz.de 16

Datenstruktur eines Blattknotens Blattknoten: Verweis auf Feature-Objekt Distanz des Feature-Objekts zum routing object des Vaterknotens staab@uni-koblenz.de 17

Suche im M-Baum Bereichssuche und Nächste-Nachbarsuche entsprechen den eingeführten Algorithmen Ausschlussbedingung anhand zweier Distanzen, welche minimale Distanz eines Clusters mit routing object, routing object des Vaters und Radius zu Feature- Objekt berechnen staab@uni-koblenz.de 18

Suche im M-Baum (2) 1. angenäherte minmale Distanz (kann sehr schnell ermittelt werden): 2. minimale Distanz: 3. maximale Distanz: staab@uni-koblenz.de 19

Distanzberechnung graphisch es gilt aufgrund Dreiecksungleichung: staab@uni-koblenz.de 20

Suche im M-Baum (3) Verwendung der angenäherten minimalen Distanz als schneller Filter Ausschlussbedingung für Cluster: Ausnutzung der minimalen Distanz und der Dreiecksungleichung (siehe Zeilen 18 und 19 des Branch-and-Bound-Algorithmus) staab@uni-koblenz.de 21

Einfügen eines neuen Feature-Objekts Beginn bei der Wurzel Navigation zum geeigneten Blatt anhand folgender Regeln: Vermeidung der Vergrößerung der Radien wenn mehrere Kinder ohne erforderliche Vergrößerung: Auswahl des nächsten routing objects falls alle Kinder Vergrößerung benötigen: Auswahl Kind mit minimaler Vergrößerung nach Einfügung im Blatt: Anpassung der Radien anhand Pfad zur Wurzel staab@uni-koblenz.de 22

Überlaufbehandlung Zerlegung des Clusters in zwei neue Cluster zwei neue routing objects müssen gefunden werden grundsätzlich sind routing objects immer Feature-Objekte verschiedene Strategien zum Finden neuer routing objects Ziel: Minimierung Clustervolumen und Überlappungsvolumen nachdem neue routing objects gefunden, abwechselnde Zuordnung der jeweils nächsten Feature-Objekte staab@uni-koblenz.de 23

Überlaufbehandlung (2) Fünf Strategien zum Finden neuer routing objects: 1. erschöpfende Suche und Radiensumme: Suche Objektpaar mit minimaler Radiensumme 2. erschöpfende Suche und Radienmaxima: Suche Objektpaar mit minimalen Maximalradien 3. am weitesten entfernte Objekte 4. nichtdeterministische Strategie (Zufall) 5. sampling: Auswahl Objektpaar mit minimalen Maximalradien aus Stichprobe staab@uni-koblenz.de 24