Ähnlichkeitssuche auf XML-Daten

Ähnliche Dokumente

2 Evaluierung von Retrievalsystemen

... MathML XHTML RDF

Information Retrieval in XML- Dokumenten

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Verknüpfte Daten abfragen mit SPARQL. Thomas Tikwinski, W3C.DE/AT

Dokumentation Bonuspunkteverwaltung. Verfasser(in) / Autor: Check it Consulting

Dokumentation. Black- und Whitelists. Absenderadressen auf eine Blacklist oder eine Whitelist setzen. Zugriff per Webbrowser

1 topologisches Sortieren

Übersicht Die Übersicht zeigt die Zusammenfassung der wichtigsten Daten.

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

Webalizer HOWTO. Stand:

FRAGEBOGEN ANWENDUNG DES ECOPROWINE SELBSTBEWERTUNG-TOOLS

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

Inventur. Bemerkung. / Inventur

Stundenerfassung Version 1.8 Anleitung Arbeiten mit Replikaten

Ein Blick voraus. des Autors von C++: Bjarne Stroustrup Conrad Kobsch

Internet online Update (Mozilla Firefox)

Norm 240 Versionierung

Mai Hauptseminar: Nichtrelationale Datenbanken Historisch-Kulturwissenschaftliche Informationsverarbeitung Universität zu Köln

Anmerkungen zur Übergangsprüfung

Projektmanagement in Outlook integriert

Ressourcen-Beschreibung im Semantic Web

teamsync Kurzanleitung

Ist Fernsehen schädlich für die eigene Meinung oder fördert es unabhängig zu denken?

Abfragen: Grundbausteine

Mit dem Tool Stundenverwaltung von Hanno Kniebel erhalten Sie die Möglichkeit zur effizienten Verwaltung von Montagezeiten Ihrer Mitarbeiter.

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Dieses Tutorial gibt eine Übersicht der Form Klassen von Struts, welche Besonderheiten und Unterschiede diese aufweisen.

Erstellen einer Abwesenheitsnotiz

Ersetzt die Suchmaschine den Verbund-OPAC? Erfahrungen, Perspektiven und mögliche Kooperationsfelder aus Sicht der Verbünde

Hinweise zum elektronischen Meldeformular

DIRECTINFO 5.7 SICHERHEITSKONZEPTE FÜR BENUTZER, INFORMATIONEN UND FUNKTIONEN

Matrix42. Use Case - Sicherung und Rücksicherung persönlicher Einstellungen über Personal Backup. Version September

etutor Benutzerhandbuch XQuery Benutzerhandbuch Georg Nitsche

Advoware mit VPN Zugriff lokaler Server / PC auf externe Datenbank

Erstellen und Bearbeiten von Inhalten (Assets)

Datenbanksysteme 2 Frühjahr-/Sommersemester Mai 2014

Integration, Migration und Evolution

2.1 Sicherheits-Zonen ActiveX-Steuerelemente Skripting Verschiedenes Erweitert... 9

Datenexport aus JS - Software

XML-Verarbeitung. XPath XSL die extensible Stylesheet Language. Torsten Schaßan SCRIPTO Modul 4: EDV Wolfenbüttel

Projektmanagement in Outlook integriert

Lehrer: Einschreibemethoden

ecaros2 - Accountmanager

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Erweiterung der Aufgabe. Die Notenberechnung soll nicht nur für einen Schüler, sondern für bis zu 35 Schüler gehen:

Webseiten mit fragwürdigen Aufrufen von "spy & track" - Unternehmen

Synchronisations- Assistent

Enigmail Konfiguration

1 Mathematische Grundlagen

Handbuch ECDL 2003 Basic Modul 5: Datenbank Access starten und neue Datenbank anlegen

Metadateneditoren für ArcGIS

mobilepoi 0.91 Demo Version Anleitung Das Software Studio Christian Efinger Erstellt am 21. Oktober 2005

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

Die Entwicklung eines Glossars (oder eines kontrollierten Vokabulars) für ein Unternehmen geht üblicherweise in 3 Schritten vor sich:

Import und Export von Übergängern

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Integration verteilter Datenquellen in GIS-Datenbanken

Aufgaben zu XPath und XQuery

Konzepte der Informatik

Web-Crawling. Leistungen im Web-Crawling und in der automatischen Internet- Recherche im B2B

Erweiterung AE WWS Lite Win: AES Security Verschlüsselung

Arbeit zur Lebens-Geschichte mit Menschen mit Behinderung Ein Papier des Bundesverbands evangelische Behindertenhilfe e.v.

Organisation des Qualitätsmanagements

ADDISON Aktenlösung Automatischer Rewe-Import. Technische Beschreibung

Online-Sendungsverfolgung. Morgenpost Briefservice GmbH

Historical Viewer. zu ETC5000 Benutzerhandbuch 312/15

Dreamweaver 8 Einführung

Anleitung für die Formularbearbeitung

1 Belastung. 1.1 Standortbestimmung 1.2 Belastungsvorhersage 1.3 Favoriten

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Umzug der abfallwirtschaftlichen Nummern /Kündigung

Whitepaper. Produkt: combit Relationship Manager. Einbindung externer FiBu-/Warenwirtschaftsdaten. combit GmbH Untere Laube Konstanz

QM: Prüfen -1- KN

Tritt beim Aufruf ein Fehler aus, so wird eine MessageBox mit dem Fehlercode und der Kommandozeile angezeigt.

Kundenspezifische Preise im Shop WyRu Online-Shop

Warum Suche (trotzdem) bedeutend ist

Grundbegriffe der Informatik

mit Musterlösungen Prof. Dr. Gerd Stumme, Dipl.-Inform. Christoph Schmitz 11. Juni 2007

Web Data Management Systeme

Jederzeit Ordnung halten

Web-Services - die GIS-Zukunft?

Klausur Interoperabilität

Lokales Netzwerk Wie kann ich lokal installierte Drucker im Netzwerk für andere Nutzer freigeben? Frage:

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe

Datenstrukturen & Algorithmen

Anwendertreffen 20./21. Juni

MINDMAP. HANDREICHUNG (Stand: August 2013)

Verschlüsseln von Dateien mit Hilfe einer TCOS-Smartcard per Truecrypt. T-Systems International GmbH. Version 1.0 Stand

Was Bibliotheken von Suchmaschinen lernen können. Prof. Dr. Dirk Lewandowski

Hyperlink-Erstellung in InDesign für

Angaben zu einem Kontakt...1 So können Sie einen Kontakt erfassen...4 Was Sie mit einem Kontakt tun können...7

Consulting. Dokumentenmanagement. Stand: jwconsulting GmbH Caspar-David-Friedrichstr Walldorf

Aufgabe 1: [Logische Modellierung]

Gegeben ist das folgende XML-Dokument.

Suchdienste für Dokumente

Transkript:

Ähnlichkeitssuche auf XML-Daten Christine Lehmacher Gabriele Schlipköther Übersicht Information Retrieval Vektorraummodell Gewichtung Ähnlichkeitsfunktionen Ähnlichkeitssuche Definition, Anforderungen Probleme Konzept Anfragesprachen XXL XIRQL Literaturangaben 1

Information Retrieval Wiedergewinnung von Daten Datenmengen wachsen rapide Inhaltliche Suche nach semantisch relevanten Dokumenten vage, unsichere Anfragen Gib mir etwas über einen Mann dessen Name klingt wie Gudi und der um 1900 gelebt hat? Datenbanken Anfragemenge genau spezifiziert feste Kalküle Ergebnismenge durch Struktur der Datenbank festgelegt Suchmaschinen Boolsches Retrieval Einfache Suche nach Auftreten von Wörtern in Dokumenten Anfragen verknüpft durch AND, OR und NOT in den meisten IR Systemen und Suchmaschinen eingesetzt Nachteile keine semantische Suche keine Möglichkeit der vagen Suche Ergebnisse sind ungeordnete Mengen kein Ranked Retrieval XML Eigenschaften werden nicht ausgewertet 2

Vektorraummodell Ausgehend von einer endlichen Menge von Termen Dokument und Anfrage werden als Vektoren dargestellt Definition: Sei T = { t 1,..., t n } eine endliche Menge von Termen und D = { d 1,..., d m } eine Menge von Dokumenten. Für jedes Dokument d i D sei zu jedem Term t k T ein Gewicht w i,k R gegeben. Die Gewichte des Dokumentes d i lassen sich zu einem Vektor w i = ( w i,1,..., w i,n ) R n zusammenfassen. Dieser Vektor beschreibt das Dokument im Vektorraummodell... Gewichtungsmethoden Manuelle Gewichtung hoher Arbeitsaufwand abhängig vom Wissenstand und Interessen automatische Methoden der Gewichtung ohne Wörter der Stoppwortliste kontextunabhängige Gewichtung Häufigkeit des Auftreten eines Termes in den gesamten Dokumenten inverse Dokumentenhäufigkeit (idf) 1 idf(j) Kontextabhängige Gewichtung = d(j) Häufigkeit des Auftretens eines Terms innerhalb eines Dokumentes Dokumentenhäufigkeit (TF) Struktur auswerten (Titel höher gewichten, Position im Text) Verknüpfung von kontextunahängigen und kontextabhängigen Wert (tf*idf) Verknüpfung von automatischer und manueller Gewichtung 3

Eine Ähnlichkeitsfunktion s : R Ähnlichkeitsfunktionen n definiere für je zwei Vektoren x, y R einen reellen Ähnlichkeitswert s( x,y). Skalarprodukt linearer Wert Werte hängen von der Anzahl und Größe der einzelnen Werte im Vektor ab abhängig von der euklidische Länge der Dokumentenvektoren Cosinusmaß unabhängig von der euklidischen Länge der Vektoren cos(w, q) = i n n w k = i,k q 1 k n 2 n wi, k k = 1 n R R q 2 k = 1 k Beschränkung der Suchanfrage Websuchmaschinen beschränken sich auf die... Auswertung von Wort- und Termhäufigkeiten Analyse der Linkstruktur zwischen den Dokumenten Websuchmaschinen nutzen keine Eigenschaften von XML Strukturen Komplizierte Suchanfragen 4

Probleme bei der Ähnlichkeitssuche Dokumentenstruktur muss im voraus bekannt sein Problem bei Wortvarianten Verlust der semantischen Information Vagheit der Anfragen textorientierte Informationsbestände Anfrageergebnisse sind ungeordnete Mengen Stark schematisierte, geschlossene XML- Dokumentenkollektionen Anforderungen an die Ähnlichkeitssuche I Relevanz-orientierte Suche Phonetische Ähnlichkeit Kombination von Termgewichtung und strukturellen Bedingungen Automatischen Folgerungen von ähnlichen Termen Verschiedene Datentypen für vage Vorhersagen 5

Anforderungen an die Ähnlichkeitssuche II Mehrgleisiger Informationszugang Programmunterstützte Stichworte fein gegliedertes Verweisverzeichnis Text-retrieval-Suche Domänenspezifisch vergebene XML-Elementnamen Konzept der Ähnlichkeitssuche Ausgangspunkt ist der natürlichsprachige Text Indexierung/Aufbereitung der Daten Das System gibt eine Menge von Dokumenten aus, die relevant sind 6

Anfrageergebnis Recall Präzision Antwortzeit Nutzeraufwand Ergebnispräsentation Abdeckung Anfragesprachen XPATH XML-QL Quilt XIRQL XXL 7

XXL Ranked Retrieval Relevanz-Scores 1. Ermittlung lokal auf Elementbasis für elementare Ähnlichkeitsbedingungen 2. Zusammensetzung zu einem globalen Relevanzmass für ganze Elementpfade bzw. Teilgraphen des XML- Datengraphen 3. Ergebnis:Trefferrangliste Besonderheiten der Anfragesprache XXL Entwicklung einer einfachen Sprache Ontologiegerüst Erweiterung um den Ähnlichkeitsoperator ~ Where -Klausel Operatoren (+,?,*) Wildcards für Elemente (%) und Pfade (#) Knotenvariable As 8

<Land>Deutschland Beispiel <See>Bodensee <Transportmittel>Schiff</Transportmittel> </See> </Land> <Land>Schweiz <Freizeit>Kinopolis <Fahrzeug>Schiff</Fahrzeug> <Transportmittel>alle </Transportmittel> </Freizeit> </Land> Select P Beispiel einer XXL- Anfragesuche I From http://travel.edu/somewhere.xml Where land./see Kino As P And P.# LIKE %Schiffe% And P.#.Personenbeförderung LIKE %Schaufelraddampfer% = Ergebnis: leere Menge, da in keinem Dokument explizit das Wort Schaufelraddampfer auftaucht 9

Select P Anfrage II From http://travel.edu/somewhere.xml Where land.~see AS P And P.#.(-Schiffe)?~ Schiffe And P.#.~Personenbeförderung~ Schaufelraddampfer = Menge von Ähnlichkeitsmaßen, aufgrund des ~ -Operators Ergebnis: 0.32 <See> Bodensee </See> //0.64=0.8*0.8 Indexstrukturen Effiziente Auswertung Erfordert Strukturinformationen Inhaltliche Informationen Indexstrukturen: 1.Elementpfadindex 2.Elementinhaltindex 3.Ontologieindex 10

Elementpfadindex 1. Alle Elementnamen werden einmal gespeichert 2. Zu jedem Elementnamen werden die Elementinstanzen gespeichert 3. Indexinterne Zeiger auf Vorgänger und Nachfolger werden zu jeder Elementinstanz gespeichert Anlegen eines B*-Baumes über die Elementnamen Zugriff auf Vorgänger/Nachfolger Separate Dictionaries für die Elementnamen und die URLs Attribute werden wie Elemente behandelt Elementinhaltsindex Terme für Element- und Attributinhalte werden zusammen mit den entsprechenden tf*idf-werten abgelegt entspricht weitgehend der Indexstruktur, wie sie in den meisten Websuchmaschinen verwendet wird 11

Ontologiebasierte Ähnlichkeit Ontologiegerüst Baum T=(V,E) Knotenmenge V Kantenmenge E Ausschnitt aus einer Ontologie der XML- Suchmaschine Wurzel Transportmittel [1] [1] [2] Landfahrzeuge Wasserfahrzeuge [1] [2] [3] [4] Kanu Tretboot Schiff Fähre 12

Crawlingprozess Tiefe und Dauer des Crawlings richtet sich nach folgenden Kriterien: 1. Füllgrad des Ontologieindex 2. Qualität der Dokumente im Index 3. Klassifikationsergebnisse Ontologie-Crawling Web URL Queue www.link.com ------------ ---------- ------ Crawler DTDs/Schemata Index Ontologie 13

Zusammenfassung Eingeschränkte Websuche erfordert Kombination von traditionellen Information Retrieval mit Ranked Retrieval Suchergebnis nach absteigender Relevanz sortiert Indexstrukturen zur effizienten Auswertung Anfragesprache XXL XIRQL XML Information Retrieval Language Teil des Projektes CARMEN Hypermedia Retreival Engine for XML (HyREX) Zwischensprache zur Implementierung von Anwendungen Inhalts- und Struktur-orientiertes Retrieval Gewichtung bei der Indexierung und Anfragestellung Ranked Retrieval Formulierung von Anfragebedingungen mit Datentypen und ihren vagen Prädikaten Semantischer Relativismus Relevanz orientierte Suche 14

Vergleich zu XXL gleiche Funktionen Gewichtung, Ranked Retrieval Suche ohne Berücksichtigung, ob XML-Element oder Attribut Nicht vorhanden in XIRQL Oberfläche für Endbenutzer Unterschiede zusätzlicher Gatherer bei XIRQL, anstatt Crawlingprozess Datentypen und vage Prädikate vs. Ontologieindex Relevanz-orientierte Suche automatische Erkennung des relevanten Teiles eines Dokumentes Fazit nutzt die XML spezifischen Möglichkeiten besser aus XIRQL Syntax (1) Gewichtung $c$ (contains) $wsum$ Suche nach mehreren Wörtern Datentypen und Vage Prädikate zusätzliche Operatoren in XIRQL $c$ $sounds-like$ $approx$ 15

Semantischer Relativismus author Elementsuche @author Attributsuche ~author übergreifende Suche #pname Datentypsuche XIRQL Syntax (2) Relevanz-orientierte Suche automatische Erkennung des relevanten Teiles eines Dokumentes //#inode [(. $c$ IR ) $and$ (.$ HT )] XML Beispiel Datei <document class= H.3.3 > <author>john Smith</author> <title> XML Retrieval</title> <chapter> <Heading> Introduction</heading> Thist text explains all about XML an IR. </chapter> <chapter> <Heading> Extensible Style Language</heading> <section> <heading> Syntax</heading> </section> <section> <heading> Examples</heading> </section> </chapter> </document> 16

Beispiel - Relevanz orientierte Suche Zusammenfassung Information Retrieval Vektorraummodell, um IR zu realisieren Anforderungen an Dokument- und inhaltsorientiertes Information Retrieval Suche unabhängig von der XML Definition (Attribute - Elemente) Gewichtung, bzw. gewichtete Anfrageergebnisse (Ranked Retrieval) Angabe von vagen Prädikaten erweiterte Datentypen struktureller Relativismus nur die relevanten Teile eines Dokumentes selektieren (relevanz-orientierte Suche) aktuelle Anfragesprachen nicht ausreichend neue Anfragesprachen XXL XIRQL 17

Links und Literatur Sergej Sizov, Anja Theobald, Gerhard Weikum, Ähnlichkeitssuche auf XML-Daten, Datenbankspektrum 1/2001 R.Ferber, Vorlesungsskript, Data Mining und Information Retrieval P.Becker, Vorlesungsskript, Information Retrieval Datenstrukturen und algorithmische Grundlagen XIRQL, A Query Language for Information Retrieval in XML Documents, Norbert Fuhr, Kai Großjohann, Uni-Dortmund, SIGIR 01 September 2001 www:http://www-dbs.cs.uni-sb.de http://www.dcs.gla.ac.uk/keith/preface.html 18