Information Retrieval in XML- Dokumenten



Ähnliche Dokumente
Ähnlichkeitssuche auf XML-Daten

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr

RDF und RDF Schema. Einführung in die Problematik Von HTML über XML zu RDF

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Semantic Web Technologies 1

Kapitel 8. Indexstrukturen für XML-Dokumente. Werteindexe Volltextindexe Pfadindexe

Web Services stellen eine Integrationsarchitektur dar, die die Kommunikation zwischen verschiedenen Anwendungen

Ein XML Dokument zeichnet sich im Wesentlichen durch seine baumartige Struktur aus:

XML Schema vs. Relax NG

Containerformat Spezifikation

Containerformat Spezifikation

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Verknüpfte Daten abfragen mit SPARQL. Thomas Tikwinski, W3C.DE/AT

2 Evaluierung von Retrievalsystemen

Seminarphase PG 402 Thema: Semantic Web Autor: Phillip Look

... MathML XHTML RDF

Webseiten und Web-Apps grafisch gestalten mit HTML5 Canvas ohne Flash und sonstige Tools

Motivation. Inhalt. URI-Schemata (1) URI-Schemata (2)

Web Data Management Systeme

Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph!

XML Verarbeitung mit einer in Haskell eingebetteten DSL. Manuel Ohlendorf (xi2079)

2 Die Terminaldienste Prüfungsanforderungen von Microsoft: Lernziele:

SDD System Design Document

Modulhandbuch für das BA Kombinationsfach Angewandte Informatik Multimedia

Acht Gute Gründe für Integration und einen Content Backbone

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Institut für Dokumentologie und Editorik. XML-Datenbanken und XQuery

Kontextbasiertes Information Retrieval

Gesucht und Gefunden: Die Funktionsweise einer Suchmaschine

Tipps und Tricks zu Netop Vision und Vision Pro

Dr. Klaus Körmeier BlueBridge Technologies AG

Predictive Modeling Markup Language. Thomas Morandell

visionapp Base Installation Packages (vbip) Update

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Herzlich Willkommen zum. 2. Arbeitsgruppen-Meeting. Katalog und Bestell-Format. für Kontaktlinsen. 2. Arbeitsgruppen-Meeting Standardformat für f

XML-Namensräume. Marc Monecke

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Dokumentation Authentische Strukturdaten

Ein Blick voraus. des Autors von C++: Bjarne Stroustrup Conrad Kobsch

Grundlagen der Künstlichen Intelligenz

Dokumenten-Clustering. Norbert Fuhr

Therefore the respective option of the password-protected menu ("UPDATE TUBE DATA BASE") has to be selected:

Data Mining: Einige Grundlagen aus der Stochastik

IBM SPSS Statistics Version 23. Einführung in Installation und Lizenzierung

Semantic Web Technologies I

Grundbegriffe der Informatik

Aktualisierung der Lizenzierungsrichtlinien für Adobe Produkte

Lebensziel Eigenheim. Die Rolle des Internets. Repräsentative Umfrage Allianz Deutschland 2012

Was können Schüler anhand von Primzahltests über Mathematik lernen?

XML-Austauschformat für Sicherheitsdatenblätter

Europäische Politik der Mehrsprachigkeit. FUEN Regionalkonferenz in Eupen Februar 2010

Metadaten I: XMP & Co

CENIT RETENTION SOLUTION 1.1 Verwaltung von temporären Sperren und Löschworkflows. Copyright CENIT AG

Jens Kupferschmidt Universitätsrechenzentrum

Informatik 12 Datenbanken SQL-Einführung

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

Erfassung von Umgebungskontext und Kontextmanagement

Makigami, Prozessmapping und Wertstromdesign. erstellt von Stefan Roth

Weiterentwicklung digitaler Bibliothekssysteme zu OpenArchives-Systemen

IV. Datenbankmanagement

Enterprise Applikation Integration und Service-orientierte Architekturen. 09 Simple Object Access Protocol (SOAP)

Mai Hauptseminar: Nichtrelationale Datenbanken Historisch-Kulturwissenschaftliche Informationsverarbeitung Universität zu Köln

Das Bayes-Theorem. Christian Neukirchen Gleichwertige Leistungsfeststellung, Juni 2005

Dokumenten- und Content Management

Software-Engineering

Auswertung des Einflusses einer Hypoglykämie

2. XML 2.1 XML 1.0 und XML Schema. Jörg Schwenk Lehrstuhl für Netz- und Datensicherheit

Online Dispute Resolution (ODR)

Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14

Information über die WebServices der Parlamentsdienste

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

Benutzerhandbuch für die Verwendung des viavac HL7 Forcast Webservices (VAC-CDSS)

SWT II Projekt. Chat - Anwendung. Pflichtenheft 2000 SWT

BUILDNOTES TOPAL FINANZBUCHHALTUNG

Thematische Abfrage mit Computerlinguistik

Pflichtenheft. CDIX-Roles. Erweiterung des CDIX Berechtigungssystems. Autor : CD Software GmbH. Copyright CD Software GmbH Version:

Entwurf zum Web-Service Rechnung

etutor Benutzerhandbuch XQuery Benutzerhandbuch Georg Nitsche

Installationsanleitung WibuKey Treiber

Systemanalyse. - Folien zur Vorlesung für AI3 im Sommersemester Teil 4 -

IBM License Information document

Rapide An Event-Based Architecture Definition Language

SDK zur CRM-Word-Schnittstelle

Kalkülteil. Structured Query Language, SQL. 1. Semantik: erzeuge alle Kombinationen von Tupeln

Metadaten bei der Digitalisierung von analogen archivalischen Quellen. Kathrin Mileta, Dr. Martina Wiech

IT- und Medientechnik

Einführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5)

Systembeschreibung. Masterplan Kommunikationsinterface. ASEKO GmbH. Version 1.0 Status: Final

Thema. Intelligente Agenten im Web

Ressourcen-Beschreibung im Semantic Web

Wie Google Webseiten bewertet. François Bry

Transkript:

Inhalt Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de I. Einführung II. III. IV. IR-Konzepte für XML XIRQL HyREX-Retrievalengine V. Zusammenfassung und Ausblick I. Einführung Daten- vs. Dokument-orientierte Sicht auf XML Information Retrieval IR = Unsicherheit und Vagheit Daten-orientierte Sicht auf XML <?xml version="1.0"?> <rdf:rdf xmlns:rdf = "http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:vcard = "http://www.w3.org/2001/vcard-rdf/3.0#"> <rdf:description rdf:about = "http://ls6-www.cs.uni-dortmund/~fuhr" > <vcard:fn> Norbert Fuhr </vcard:fn> <vcard:n rdf:parsetype="resource"> <vcard:family> Fuhr </vcard:family> <vcard:given> Norbert </vcard:given> </vcard:n> <vcard:title> University Professor </vcard:title> <vcard:tel rdf:parsetype="resource"> <rdf:value> +49 231 755 2045 </rdf:value> </vcard:tel> <vcard:email rdf:parsetype="resource"> <rdf:value> fuhr@cs.uni-dortmund.de </rdf:value> </vcard:email> </rdf:description> </rdf:rdf> Dokument-orientierte Sicht auf XML <book > <></> <></> <> <></> This text explains all about XML and IR. </> <> <> </> <> <></> </> <> <></> Now we describe the XQL syntax. </> </> </book> Daten- vs. Dokument-orientierte Sicht Daten-orientierte Sicht XML als Austauschformat für strukturierte Daten Dokumenten-orientierte Sicht XML als Format zur Repräsentation der logischen Struktur von Dokumenten 1

FOR/LET PathExpression WHERE AdditionalSelectionCriteria RETURN ResultConstruction This... Pfadbedingung: Eltern-/Kindknoten / This... This... Pfadbedingung: Vorfahr-Nachfahr // Filter bzgl. Struktur: //[] Information Retrieval Beispiel: Internet-Suchmaschinen This... Filter bzgl. Inhalt: /[@ =""] 2

IR = Unsicherheit und Vagheit Unsichere Repräsentation des Inhalts von Dokumenten Vage Beschreibungen des eigentlichen Informationswunsches Gewichtung von Dokumenten bzgl. Anfragebedingungen Rangordnung von Dokumenten als Antwort IR-Konzepte in Nur boolesches Retrieval keine Gewichtung keine Rangordnungen Bislang nur Funktionen zur Suche nach einzelnen Wörtern II. IR-Konzepte für XML Gewichtung und Ranking Relevanz-orientierte Suche Datentypen mit vagen Prädikaten Struktureller Relativismus Gewichtung und Ranking Problem: Gewichtung unterschiedlicher Vorkommensformen von Termen /[.// "XML".////* "XML"] This... 3

Indexknoten als Einheiten zur Termgewichtung Indexknoten als Einheiten zur Termgewichtung /[.// "XML".////* "XML"] 0.6 XML 0.4 XML 0.4+0.6-0.4*0.6 = 0.86 0.6 XML 0.4 XML This... Lang. XQL 1 2 3 syntax of XQL This... 0.6 XML 4 5 Anwendung bekannter Indexierungsfunktionen (z.b. tf*idf) 0.4 XML Relevanz-orientierte Suche für Anfragen unabhängig von der Dokumentstruktur (z.b.: Suche Dokument(teil)e über XML-Anfragesprachen ) Einschränkung der möglichen Antworten (nicht alle Elemente sind geeignet) Retrievalstrategie: liefere spezifischsten Teilbaum, der die Anfrage beantwortet aber: Verrechnung mit gewichteter Indexierung? Lösung: Indexknoten als Wurzeln von möglichen Antworten Augmentierung als Konzept zur Verrechnung des Tradeoff zwischen Indexierungsgewichten und Spezifität von Antworten Indexknoten für Relevanz-orientierte Suche This... Lang. XQL 1 2 3 4 5 syntax of XQL Augmentierung Augmentierung 1 0.64 0.3 XQL 0.30 example 0.126 0.42 syntax 0.6 0.6 2 0.5 example 0.8 XQL 0.7 syntax 1 0.64 0.3 XQL 0.30 example 0.42 syntax 0.64 0.6 0.6 2 0.5 example 0.8 XQL 0.7 syntax 0.8 Beispielanfrage: syntax & example Beispielanfrage: XQL 4

Datentypen mit vagen Prädikaten XML-Markup ermöglicht detaillierte Auszeichnung von Textelementen Ausnutzung des Markups für präzisere Suchen gleichzeitig Berücksichtigung von Unsicherheit und Vagheit beim Retrieval Datentypen mit vagen Prädikaten ``Suche Informationen über das Werk eines Künstlers namens Ulbrich, der um 1900 im Rhein-Main-Gebiet tätig war'' Ernst Olbrich, Darmstadt, 1899 (Erweiterbare) Datentypen für Dokumenten-zentrierte Sicht (Personennamen, Datumsangaben, geogr. Bezeichnungen, Klassifikationen / Bilder, Audio, Video,...) Erweiterbare Typhierarchie Erweiterbare Typhierarchie mit vagen Prädikaten für jeden Datentyp 1. text: substring-match 2. westliche Sprache: Wortsuche, Trunkierung, Wortabstandssuche 3. deutscher Text: Grund- und Stammformsuche, Komponenten von Komposita Datentypen der XML-Elemente werden in XML- Schema definiert Struktureller Relativismus Unterscheidung Element/Attribut fallenlassen: ~="Smith" Suche in allen Elementen eines bestimmten Datentyps: #date=2001 III. XIRQL XML IR Query Language Erweiterung der Path Expressions von : probabilistisches Retrieval mit gewichteter Dokumentindexierung Relevanz-orientierte Suche Datentypen mit vagen Prädikaten Struktureller Relativismus XIRQL-Path-Expressions Vage Prädikate text $c-word$ compute $soundslike$ meier Gewichtete Fragebedingungen 0.7. $c-word$ retrieval + 0.3. $c-word$ XML Relevanz-orientierte Anfragen inode()[ $c-phrase$ XML retrieval ] Struktureller Relativismus: //#person $soundslike$ meier XIRQL vs. XIRQL prozessiert Teilmenge von - Anfragen: FOR $X=PathExpression RETURN $X Keine Restrukturierung von Antworten Keine Werte-basierten Joins zwischen verschiedenen Dokumenten Erweiterte Path Expressions für IR 5

IV. HyREX HyREX-Architektur Hypermedia Retrieval Engine for XML Open-Source-Software für Information Retrieval in XML-Dokumenten Gefördert vom BMBF im Rahmen des GlobalInfo-Projektes CARMEN HyGate: Web- Gateway XIRQL: Anfragesprache auf der logischen Ebene HyPath: Zugriffspfade (physische Ebene) WWW Brow Search Navigate Results H HyGate XIRQL HyPath Log Phy HyREX-Datentypen Query by Example: Werte-orientiert Base PersonName Text Date Numeric Classification English German Italian Spanish PACS ACMCCS MSC French Portuguese Dutch Danish Norwegian Swedish Query by Example: Struktur-orientiert Ergebnis-Visualisierung: Textbars 6

Ergebnis-Visualisierung: Treemaps V. Zusammenfassung und Ausblick Dokument-orientierte XML-Anwendungen erfordern Information-Retrieval-Funktionen IR muss Unsicherheit und Vagheit berücksichtigen W3C-Vorschlag nicht ausreichend für IR Zusammenfassung IR-Konzepte für XML: Gewichtung und Ranking Datentypen und vage Prädikate Relevanz-orientierte Suche Struktureller Relativismus XIRQL als IR-Erweiterung einer -Teilmenge HyREX: Open-Source-Retrievalengine für XML: ls6-www.cs.uni-dortmund.de/hyrex (BMBF-Projekt CARMEN) Ausblick Entwicklung von Verfahren für effizientes Best- Match-Retrieval für XIRQL Kombination von XIRQL und : probabilistische Variante von (DFG-Projekt CLASSIX, zusammen mit Gerhard Weikum, Univ. Saarbrücken, ab 1.2.02) 7