Inhalt Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de I. Einführung II. III. IV. IR-Konzepte für XML XIRQL HyREX-Retrievalengine V. Zusammenfassung und Ausblick I. Einführung Daten- vs. Dokument-orientierte Sicht auf XML Information Retrieval IR = Unsicherheit und Vagheit Daten-orientierte Sicht auf XML <?xml version="1.0"?> <rdf:rdf xmlns:rdf = "http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:vcard = "http://www.w3.org/2001/vcard-rdf/3.0#"> <rdf:description rdf:about = "http://ls6-www.cs.uni-dortmund/~fuhr" > <vcard:fn> Norbert Fuhr </vcard:fn> <vcard:n rdf:parsetype="resource"> <vcard:family> Fuhr </vcard:family> <vcard:given> Norbert </vcard:given> </vcard:n> <vcard:title> University Professor </vcard:title> <vcard:tel rdf:parsetype="resource"> <rdf:value> +49 231 755 2045 </rdf:value> </vcard:tel> <vcard:email rdf:parsetype="resource"> <rdf:value> fuhr@cs.uni-dortmund.de </rdf:value> </vcard:email> </rdf:description> </rdf:rdf> Dokument-orientierte Sicht auf XML <book > <></> <></> <> <></> This text explains all about XML and IR. </> <> <> </> <> <></> </> <> <></> Now we describe the XQL syntax. </> </> </book> Daten- vs. Dokument-orientierte Sicht Daten-orientierte Sicht XML als Austauschformat für strukturierte Daten Dokumenten-orientierte Sicht XML als Format zur Repräsentation der logischen Struktur von Dokumenten 1
FOR/LET PathExpression WHERE AdditionalSelectionCriteria RETURN ResultConstruction This... Pfadbedingung: Eltern-/Kindknoten / This... This... Pfadbedingung: Vorfahr-Nachfahr // Filter bzgl. Struktur: //[] Information Retrieval Beispiel: Internet-Suchmaschinen This... Filter bzgl. Inhalt: /[@ =""] 2
IR = Unsicherheit und Vagheit Unsichere Repräsentation des Inhalts von Dokumenten Vage Beschreibungen des eigentlichen Informationswunsches Gewichtung von Dokumenten bzgl. Anfragebedingungen Rangordnung von Dokumenten als Antwort IR-Konzepte in Nur boolesches Retrieval keine Gewichtung keine Rangordnungen Bislang nur Funktionen zur Suche nach einzelnen Wörtern II. IR-Konzepte für XML Gewichtung und Ranking Relevanz-orientierte Suche Datentypen mit vagen Prädikaten Struktureller Relativismus Gewichtung und Ranking Problem: Gewichtung unterschiedlicher Vorkommensformen von Termen /[.// "XML".////* "XML"] This... 3
Indexknoten als Einheiten zur Termgewichtung Indexknoten als Einheiten zur Termgewichtung /[.// "XML".////* "XML"] 0.6 XML 0.4 XML 0.4+0.6-0.4*0.6 = 0.86 0.6 XML 0.4 XML This... Lang. XQL 1 2 3 syntax of XQL This... 0.6 XML 4 5 Anwendung bekannter Indexierungsfunktionen (z.b. tf*idf) 0.4 XML Relevanz-orientierte Suche für Anfragen unabhängig von der Dokumentstruktur (z.b.: Suche Dokument(teil)e über XML-Anfragesprachen ) Einschränkung der möglichen Antworten (nicht alle Elemente sind geeignet) Retrievalstrategie: liefere spezifischsten Teilbaum, der die Anfrage beantwortet aber: Verrechnung mit gewichteter Indexierung? Lösung: Indexknoten als Wurzeln von möglichen Antworten Augmentierung als Konzept zur Verrechnung des Tradeoff zwischen Indexierungsgewichten und Spezifität von Antworten Indexknoten für Relevanz-orientierte Suche This... Lang. XQL 1 2 3 4 5 syntax of XQL Augmentierung Augmentierung 1 0.64 0.3 XQL 0.30 example 0.126 0.42 syntax 0.6 0.6 2 0.5 example 0.8 XQL 0.7 syntax 1 0.64 0.3 XQL 0.30 example 0.42 syntax 0.64 0.6 0.6 2 0.5 example 0.8 XQL 0.7 syntax 0.8 Beispielanfrage: syntax & example Beispielanfrage: XQL 4
Datentypen mit vagen Prädikaten XML-Markup ermöglicht detaillierte Auszeichnung von Textelementen Ausnutzung des Markups für präzisere Suchen gleichzeitig Berücksichtigung von Unsicherheit und Vagheit beim Retrieval Datentypen mit vagen Prädikaten ``Suche Informationen über das Werk eines Künstlers namens Ulbrich, der um 1900 im Rhein-Main-Gebiet tätig war'' Ernst Olbrich, Darmstadt, 1899 (Erweiterbare) Datentypen für Dokumenten-zentrierte Sicht (Personennamen, Datumsangaben, geogr. Bezeichnungen, Klassifikationen / Bilder, Audio, Video,...) Erweiterbare Typhierarchie Erweiterbare Typhierarchie mit vagen Prädikaten für jeden Datentyp 1. text: substring-match 2. westliche Sprache: Wortsuche, Trunkierung, Wortabstandssuche 3. deutscher Text: Grund- und Stammformsuche, Komponenten von Komposita Datentypen der XML-Elemente werden in XML- Schema definiert Struktureller Relativismus Unterscheidung Element/Attribut fallenlassen: ~="Smith" Suche in allen Elementen eines bestimmten Datentyps: #date=2001 III. XIRQL XML IR Query Language Erweiterung der Path Expressions von : probabilistisches Retrieval mit gewichteter Dokumentindexierung Relevanz-orientierte Suche Datentypen mit vagen Prädikaten Struktureller Relativismus XIRQL-Path-Expressions Vage Prädikate text $c-word$ compute $soundslike$ meier Gewichtete Fragebedingungen 0.7. $c-word$ retrieval + 0.3. $c-word$ XML Relevanz-orientierte Anfragen inode()[ $c-phrase$ XML retrieval ] Struktureller Relativismus: //#person $soundslike$ meier XIRQL vs. XIRQL prozessiert Teilmenge von - Anfragen: FOR $X=PathExpression RETURN $X Keine Restrukturierung von Antworten Keine Werte-basierten Joins zwischen verschiedenen Dokumenten Erweiterte Path Expressions für IR 5
IV. HyREX HyREX-Architektur Hypermedia Retrieval Engine for XML Open-Source-Software für Information Retrieval in XML-Dokumenten Gefördert vom BMBF im Rahmen des GlobalInfo-Projektes CARMEN HyGate: Web- Gateway XIRQL: Anfragesprache auf der logischen Ebene HyPath: Zugriffspfade (physische Ebene) WWW Brow Search Navigate Results H HyGate XIRQL HyPath Log Phy HyREX-Datentypen Query by Example: Werte-orientiert Base PersonName Text Date Numeric Classification English German Italian Spanish PACS ACMCCS MSC French Portuguese Dutch Danish Norwegian Swedish Query by Example: Struktur-orientiert Ergebnis-Visualisierung: Textbars 6
Ergebnis-Visualisierung: Treemaps V. Zusammenfassung und Ausblick Dokument-orientierte XML-Anwendungen erfordern Information-Retrieval-Funktionen IR muss Unsicherheit und Vagheit berücksichtigen W3C-Vorschlag nicht ausreichend für IR Zusammenfassung IR-Konzepte für XML: Gewichtung und Ranking Datentypen und vage Prädikate Relevanz-orientierte Suche Struktureller Relativismus XIRQL als IR-Erweiterung einer -Teilmenge HyREX: Open-Source-Retrievalengine für XML: ls6-www.cs.uni-dortmund.de/hyrex (BMBF-Projekt CARMEN) Ausblick Entwicklung von Verfahren für effizientes Best- Match-Retrieval für XIRQL Kombination von XIRQL und : probabilistische Variante von (DFG-Projekt CLASSIX, zusammen mit Gerhard Weikum, Univ. Saarbrücken, ab 1.2.02) 7