Indexstrukturen in XML



Ähnliche Dokumente
Indexstrukturen in XML

2 Evaluierung von Retrievalsystemen

Mining High-Speed Data Streams

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Physische XML-Speicherstrukturen und Indizes

Eine molekulare Lösung des Hamiltonkreisproblems mit DNA

Grundzüge und Vorteile von XML-Datenbanken am Beispiel der Oracle XML DB

Jan Parthey, Christin Seifert. 22. Mai 2003

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Kapitel 4: Dynamische Datenstrukturen. Algorithmen und Datenstrukturen WS 2012/13. Prof. Dr. Sándor Fekete

Datenbanken Kapitel 2

Transaction Validation for XML Documents based on XPath

Internet online Update (Mozilla Firefox)

Query Transformation based on XSLT

Beheben von verlorenen Verknüpfungen

Eigene Dokumente, Fotos, Bilder etc. sichern

Laborübung - Verwalten von virtuellem Speicher in Windows 7

Lizenzierung von StarMoney 10 bzw. StarMoney Business 7 durchführen

XINDICE. The Apache XML Project Name: J acqueline Langhorst blackyuriko@hotmail.de

Kurzanleitung RACE APP

... MathML XHTML RDF

In diesem Bereich wird beschrieben, wie Sie eine Datensicherung der Software Jack Plus durchführen können.

Virtueller Seminarordner Anleitung für die Dozentinnen und Dozenten

Algorithmische Mathematik

CMS.R. Bedienungsanleitung. Modul Cron. Copyright CMS.R Revision 1

Kapitel 6: Graphalgorithmen Gliederung

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori

In diesem Bereich wird beschrieben, wie Sie eine Datensicherung der Software Jack Plus durchführen können.

Anleitung zur Erstellung von Serienbriefen (Word 2003) unter Berücksichtigung von Titeln (wie Dr., Dr. med. usw.)

Nachtrag zu binären Suchbäumen

TYPO3-Suchmaschinenoptimierung für Redakteure

1. Adressen für den Serienversand (Briefe Katalogdruck Werbung/Anfrage ) auswählen. Die Auswahl kann gespeichert werden.

Handbuch ECDL 2003 Professional Modul 3: Kommunikation Kalender freigeben und andere Kalender aufrufen

1. Motivation / Grundlagen 2. Sortierverfahren 3. Elementare Datenstrukturen / Anwendungen 4. Bäume / Graphen 5. Hashing 6. Algorithmische Geometrie

GS-Buchhalter/GS-Office 2015 Saldovorträge in folgenden Wirtschaftsjahren erfassen

Alfresco an der fhs. IUK - fhs - Martin Beier

Konzepte der Informatik

Algorithmen und Datenstrukturen 2

Zinssicherung im B2B Markt April 2010

Allgemeines zu Datenbanken

Woraus besteht ein Bild? (c) Winfried Heinkele

Es gibt zwei Wege die elektronischen Daten aus Navision zu exportieren.

Microsoft Access 2010 Navigationsformular (Musterlösung)

AutoCAD Dienstprogramm zur Lizenzübertragung

Übung - Datenmigration in Windows XP

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

Zur Neugestaltung am Bohnsdorfer Kreisel

Erstellung von Prozessbeschreibungen. PB 4.2-1: Erstellung von Prozessbeschreibungen

Kurzübericht der implementierten Funktionen der Fachinformatiker -== Info Datenbank ==-

Online-Dateienablage und Datenaustauschdienst Box.net Stand: September 2011

Kapitel 8: Physischer Datenbankentwurf

DB2 Codepage Umstellung

Aufgabe 1: [Logische Modellierung]

Browsereinstellungen für moneycheck24 in Explorer unter Windows

NODELOCKED LIZENZ generieren (ab ST4)

Win 7 optimieren. Unser Thema heute: Meine erstellten Daten in eine andere Partition verschieben.

Der Einsatz von Open-Source-Produkten im Unternehmen, dargestellt am Beispiel von OpenOffice

Bedienungsanleitung für Mitglieder von Oberstdorf Aktiv e.v. zur Verwaltung Ihres Benutzeraccounts auf

Datenbank LAP - Chefexperten Detailhandel

AutoSPARQL. Let Users Query Your Knowledge Base

Konzepte von Betriebssystemkomponenten Disk-Caches und Dateizugriff

Arbeiten in der Agro-Cloud mit Windows PC

So funktioniert die NetWorker 7.5 Eigenschaft zum Sichern umbenannter Verzeichnisse ( Backup renamed Directories )

Installationsanleitung für Update SC-Line

Handbuch. NAFI Online-Spezial. Kunden- / Datenverwaltung. 1. Auflage. (Stand: )

EndTermTest PROGALGO WS1516 A

7.3 Einrichtung 13. Monatslohn. Auszahlung Ende Jahr / Ende der Beschäftigung

Kapitel 8. Indexstrukturen für XML-Dokumente. Werteindexe Volltextindexe Pfadindexe

Übung - Datenmigration in Windows Vista

Studie Autorisierungsverfahren Online-Banking n = 433, Befragungszeitraum: Februar bis März 2014

Textdokument-Suche auf dem Rechner Implementierungsprojekt

R ist freie Software und kann von der Website.

Wärmebildkamera. Arbeitszeit: 15 Minuten

1) Farbsteuergerät in der Nikobus-Software unter Modul zufügen hinzufügen.

Tutorium Algorithmen & Datenstrukturen

Process4.biz Release Features Übersicht. Repository. Das Schützen von Diagrammen wurde optimiert (check-in, check-out)

Kosten-Leistungsrechnung Rechenweg Optimales Produktionsprogramm

Stundenerfassung Version 1.8 Anleitung Arbeiten mit Replikaten

t r Lineare Codierung von Binärbbäumen (Wörter über dem Alphabet {, }) Beispiel code( ) = code(, t l, t r ) = code(t l ) code(t r )

TESTEN SIE IHR KÖNNEN UND GEWINNEN SIE!

OPERATIONEN AUF EINER DATENBANK

LDAP Konfiguration nach einem Update auf Version 6.3 Version 1.2 Stand: 23. Januar 2012 Copyright MATESO GmbH

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

GSD-Radionik iradionics Android-App

1 topologisches Sortieren

Einführung in das Schulportal

Pasolfora Database Appliance PDA

Auswertung Fünfjahresüberprüfung

Ihr IT-Administrator oder unser Support wird Ihnen im Zweifelsfall gerne weiterhelfen.

Zusammenführen mehrerer Dokumente zu einem PDF In drei Abschnitten erstellen Sie ein Dokument aus mehreren Einzeldokumenten:

Korrelation (II) Korrelation und Kausalität

Kundenspezifische Preise im Shop WyRu Online-Shop

Umfrage zur Berufsorientierung

Wiederholung: Beginn

Silca Software ERKLÄRUNG. February 2013 Copyright Silca S.p.A. V.2.0

Bundesverband Flachglas Großhandel Isolierglasherstellung Veredlung e.v. U g -Werte-Tabellen nach DIN EN 673. Flachglasbranche.

Sage 50 Allgemeine Datensicherung

Stepperfocuser 2.0 mit Bootloader

Fremdwährungen in Buchungen erfassen

Word 2010 Schnellbausteine

Transkript:

Seminar XML und Datenbanken Indexstrukturen in XML Vanessa Schäfer 07.02.2003

Übersicht Einführung Indexstrukturen in XML Ein Vergleich SphinX vs. Lore Zusammenfassung und Ausblick Seminar XML und Datenbanken 2

Einführung Was ist ein Index? Datenstruktur, die identifiziert, welcher Eintrag welchen Wert enthält Ziel: Beschleunigung der Anfrageverarbeitung Problem: Speicherbedarf Kompromiss erforderlich Seminar XML und Datenbanken 3

Einführung Wo wird der Index eingesetzt? Seminar XML und Datenbanken 4

Einführung OEM-Graph eines XML-Fragments Seminar XML und Datenbanken 5

Einführung Bewertungskriterien für Indizes Anwendbarkeit Erweiterbarkeit Skalierbarkeit Auswertungszeit Speicherplatz Updates Seminar XML und Datenbanken 6

Indexstrukturen in XML Inhaltsbasierte Indexstrukturen Strukturbasierte Indexstrukturen Hybride Indexstrukturen SphinX Inhaltsbasierte und Strukturbasierte Indizes nur in Kombination Seminar XML und Datenbanken 7

Inhaltsbasierte Indexstrukturen Aus dem klassischen Information Retrieval Inverted Files Invertierte Liste Vokabular Seminar XML und Datenbanken 8

Inhaltsbasierte Indexstrukturen Text Index Bildet ein Schlüsselwort auf alle Knoten ab, die es enthalten Direkter oder indirekter Inhalt Reduzierung der Schlüsselwörter: Stemming Stoppwortlisten Auswahl der Schlüsselwörter Seminar XML und Datenbanken 9

Inhaltsbasierte Indexstrukturen Value Index Generalisierung des Text Index Verschiedene Datentypen Selektionskriterien: >, <, =, contains Seminar XML und Datenbanken 10

Inhaltsbasierte Indexstrukturen - Eigenschaften Index Text Index Value Index Input Output Keywords NodeIDs Predicates NodeIDs Indexstruktur Inverted File Inverted File DB-Struktur Graph Graph Inkrementelle Updates Ja Ja Speicherbedarf 5-15% Storage Overhead (Angabe für Inverted Files) 5-15% Storage Overhead (Angabe für Inverted Files) Einschränkungen Keine Struktur Keine Struktur Besonderheiten Kann Typecasting unterstützen Seminar XML und Datenbanken 11

Inhaltsbasierte Indexstrukturen - Beispiel Lore (Lightweight Object REpository) Stanford University Tindex: Suche alle Namen, die Ford enthalten Ergebnis: {(&17, 2), (&21, 2)} Vindex: Suche Preise mit Preis > 15 Ergebnis: {&11, &15} Seminar XML und Datenbanken 12

Strukturbasierte Indexstrukturen - DataGuide Graph, in dem jeder Pfad aus der Datenbank genau einmal vorkommt Für Indexstrukturen wird zusätzlich benötigt, dass kein Pfad auftritt, der nicht in der DB vorkommt (strong DataGuide). Seminar XML und Datenbanken 13

Strukturbasierte Indexstrukturen DataGuide a) Datenbank-Graph b)weak DataGuide c) strong DataGuide Seminar XML und Datenbanken 14

Strukturbasierte Indexstrukturen - Eigenschaften Index DataGuide T-Index Input Output Simple Paths NodeIDs 1-Index: Simple Paths NodeIDs 2-Index: Relative Paths NodeIDs T-Index: Privileged Paths NodeIDs Indexstruktur Graph Graph DB-Struktur Graph Graph Inkrementelle Ja Ja Updates Speicherbedarf Worst Case: exponentiell Im Experiment je nach DB-Struktur 2-317% Storage Overhead Einschränkungen Keine relativen Pfade, kein Inhalt Besonderheiten Path Templates Worst Case: 1-Index linear 2-Index quadratisch Seminar XML und Datenbanken 15

Strukturbasierte Indexstrukturen - Beispiel Lore Pindex: Suche alle Titel Ergebnis: {&5, &9, &14} Seminar XML und Datenbanken 16

Hybride Indexstrukturen IndexFabric PATRICIA Trie für die Schlüsselwörter die, indeed, index, midi, min, xml Auf der Basis von PATRICIA Tries Raw Paths und Refined Paths Bezeichner zur Kodierung der Pfade Seminar XML und Datenbanken 17

Hybride Indexstrukturen - IndexFabric Dokument 1: <invoice> <buyer><name>abc Corp</name> </buyer> <seller><name>acme Inc</name> </seller>... </invoice> Dokument 2: <invoice> <buyer><name>oracle Inc</name> </buyer> <seller><name>ibm Corp</name> </seller>... </invoice> Bezeichner: <invoice> = I <buyer> = B <name> = N <seller> = S... Pfade: Dokument 1: IBN ABC Corp ISN Acme Inc... - Dokument 2: IBN Oracle Inc ISN IBM Corp... Seminar XML und Datenbanken 18

Hybride Indexstrukturen - IndexFabric Seminar XML und Datenbanken 19

Hybride Indexstrukturen - Eigenschaften Index IndexFabric BUS Input Output Simple Paths NodeIDs Privileged Paths NodeIDs Simple Paths x Keywords DocIDs x NodeIDs x Weights Indexstruktur Baum Baum DB-Struktur Baum Baum Inkrementelle Updates Ja Nur teilweise (MBM: Ja) Speicherbedarf In Experimenten bis 150% Storage Overhead In Experimenten bis 240% Storage Overhead Besonderheiten Refined Paths Ranking der Treffer Seminar XML und Datenbanken 20

SphinX: Schema-conscious PatH INdexing of XML Verwendet DTD Besteht aus Dokument-Graph Schema-Graph B+-Bäume Seminar XML und Datenbanken 21

SphinX - Abbildung Seminar XML und Datenbanken 22

SphinX - Anfrageverarbeitung Ermittlung der Pfade durch den Schema-Graph (Index-Path-Extraction-Algorithmus) Durchsuchen der B+-Bäume (Node-Identification-Algorithmus) Traversierung des Dokument-Graph Seminar XML und Datenbanken 23

SphinX - Eigenschaften Index Input Output Indexstruktur DB-Struktur Inkrementelle Updates Speicherbedarf Besonderheiten SphinX Regular Path Expression NodeIDs Graph Graph Ja 160-300% Storage Overhead DTD wird benutzt Seminar XML und Datenbanken 24

Ein Vergleich SphinX vs. Lore einziger existenter direkter Vergleich Eigenschaft Lore SphinX DTD verwendet Nein Ja Einzelner Index Nein (Tindex, Lindex, Ja Vindex und Pindex) Spezialisierte Indexstrukturen Ja (DataGuide) Nein (B + -Baum) Getestet mit großen Dokumenten Nein Ja Seminar XML und Datenbanken 25

SphinX vs. Lore Anfrageverarbeitung Beispiel A1: Suche /bib[//year=2001]//conference A2: Suche /bib/article[year=2001]/conference Ergebnis: SphinX: Beide Anfragen sehr effektiv, keine unproduktiven Pfade Lore: Bei beiden Anfragen unproduktive Pfade Seminar XML und Datenbanken 26

SphinX vs. Lore - Experimenteller Aufbau Pentium III 800MHz, 512 MB Speicher, 18 GB SCSI Plattenspeicher, Redhat Linux 7.1 Daten und Index auf Platte gespeichert Document Size Records Depth Elems Attrs Total E. Total A. Shakespeare 7.4MB 35 High 22 0 179619 0 Conference 40MB 104K Low 25 2 1029494 159928 Journal 27MB 76K Low 15 2 804176 89567 Swiss-Prot 158MB 80K High - - 4243031 2898833 Ham-Radio 361MB 0.7 M Low 24 0 14117198 0 Xmark 1126MB 1 High 77 16 16703249 3829772 Seminar XML und Datenbanken 27

SphinX vs. Lore Ergebnisse 1/2 Index-Konstruktion Dokument SphinX Lore Shakespeare 15M 35M Conference 85M 226M Journal 63M 230M Swiss-Prot 465M 877M Ham-Radio 834M Incomplete Xmark 1900M Incomplete Index-Größe Dokument SphinX Lore Shakespeare 14s 41s Conference 94s 1433s Journal 73s 969s Swiss-Prot 614s 20460s Ham-Radio 1220s Incomplete Xmark 1930s Incomplete Erstellungszeit Seminar XML und Datenbanken 28

SphinX vs. Lore Ergebnisse 2/2 Zeitbedarf bei der Anfrageverarbeitung Dokument Query SphinX Lore Shakespeare QS1 0.7s 3.3 s Conference QS2 0.5 s Incomplete Conference QS3 6.8 s Incomplete Journal QS4 0.8 s 59.9 s Journal QS5 0.7 s 60.7 s Ham-Radio QS6 122.8 s Incomplete Xmark QS7 234.2 s Incomplete Dokument Query SphinX Lore Shakespeare QG1 0.8 s 5.4 s Conference QG2 1.1 s Incomplete Conference QG3 7.8 s Incomplete Journal QG4 0.8 s 61.2 s Journal QG5 0.7 s 62.6 s Ham-Radio QG6 140.8 s Incomplete Xmark QG7 237.2 s Incomplete a) absolute Pfadausdrücke b) allgemeine Pfadausdrücke Seminar XML und Datenbanken 29

Zusammenfassung und Ausblick Zusammenfassung XML stellt besondere Ansprüche an Indexstrukturen Verschiedene Ansätze Zum Teil deutliche Leistungsunterschiede Ausblick Zur Zeit sehr intensiv erforschtes Gebiet Vergleiche zwischen Indexstrukturen erforderlich Seminar XML und Datenbanken 30