INEX. INitiative for the Evaluation of XML Retrieval. Sebastian Rassmann, Christian Michele

Größe: px
Ab Seite anzeigen:

Download "INEX. INitiative for the Evaluation of XML Retrieval. Sebastian Rassmann, Christian Michele"

Transkript

1 INEX INitiative for the Evaluation of XML Retrieval

2 Was ist INEX? 2002 gestartete Evaluierungsinitiative Evaluierung von Retrievalmethoden für XML Dokumente Berücksichtigt die hierarchische Dokumentstruktur in XML Dateien Ziel: nicht gesamtes Dokument, sondern kleinster relevanter Ausschnitt

3 Grundidee von INEX Weitverbreiteter Gebrauch von XML in: Digitalen Bibliotheken Produkt Verzeichnissen Internet Geeignete Methode zum Suchen und Bearbeiten der Dokumente gesucht Benötigt: Evaluierung von angewendeten Information Retrieval Methoden

4 Grundidee von INEX Evaluierung von IR Methoden durch gleiche Bewertungsprozeduren Möglichkeit zum Vergleich der Ergebnisse über Foren Verwendung von sehr großen Testkollektionen: über XML Dokumente über 500 Megabytes an Daten Basis für heutige und zukünftige Experimente

5 Inhalt von INEX Grundsatz: Effektiver Zugriff auf XML Dokumente Verwendung von Struktur der XML Daten Anfragen liefern Dokumententeile, nicht das gesamte Dokument Wichtig: Nicht nur Relevanz, auch geeignete Stufe der element granularity Evaluierung der Effizienz benötigt neue Testbed Kriterien

6 INEX: Testbeds Testbeds bestehen aus 3 Teilen 1. Dokumenten Set 2. Information Sets bestehend aus Topic, oder Anfragen 3. Relevanz Beurteilung für jedes Topic relevante Datensätze

7 1. Dokumenten Set XML Daten Kleine, verbundene strukturierte Elemente Hierarchische Struktur Jedes Element im jeweiligen Dokument ist für sich genommen auffindbar

8 2. Information Sets Verwendung von XML Query Languages Restriktion der Suche durch spezifische Element innerhalb der Kollektion 2 Arten von Queries: 1. content-and-structure 2. content-only

9 INEX: Content and structure Query Enthält zusätzliche Bedingung bzgl. der Dokumentenstruktur Es können bestimmte Teile verlangt werden: Autor Titel Benötigt neue Evaluierungsmaßnahmen Aktuell in der Entwicklung befindlich

10 INEX: content only Query Natürlichsprachige Anfrage (Begriffe etc.) Minimalstes Ergebnis, welches die Anfrage beantwortet Vermeidung von umfassenden Dokumententeilen

11 3. Relevanz Beurteilung Beachtung der Struktur von XML Daten Verschiedene Aussagen hinsichtlich der Einzelheiten Teilnehmer können Meinungen und Ideen kundtun bevor generelle Richtlinien herausgegeben werden

12 Aufbau eines INEX Testbeds 1. Topic Erstellungstipps: Autor sollte Experte auf dem Gebiet der Informationen im Testbed sein Realen Fragen der betreffenden Benutzer widerspiegeln Verschieden sein Repräsentativ für ihr Thema Sollten sich in engen und weiten Anfragen unterscheiden

13 Aufbau eines INEX Testbeds 2. Topic Format 1. Besteht aus 4 Teilen 1. Titel 2. Beschreibung 3. Darstellung 4. Key Words

14 Beispiel eines Topics im Testbed <topic> <title> <cw>combating alien smuggling</cw> </title> <description> What steps are beein taken by government or even private entities world-wide to combat the smuggleing of aliens. </description> <narrative> To be relevant, a document must describe an effort being made (including border patrols) in any country of the world to prevent the illegal penetration of alien across borders. </narrative> <keywords> smuggling illegal trafficking alien customs border country world Prevent combat stop government </keywords> </topic>

15 Aufbau eines INEX Testbeds 3. Struktur eines Topics <?xml version= 1.0 enconding= ISO ?> <!ELEMENT topic (title, description, narrative, keywords)> <!ELEMENT title (te?, (cw, ce?)+> <!ELEMENT te (#PCDATA)> <!ELEMENT cw (#PCDATA)> <!ELEMENT ce (#PCDATA)> <!ELEMENT description(#pcdata)> <!ELEMENT narrative (#PCDATA)> <!ELEMENT keywords (#PCDATA)>

16 Beispiel <topic> <title> <te>chapter, article_title</te> <cw>nuclear energy</cw><ce>article_title</ce> <cw>technical report</cw><ce>article_type</ce> <cw>safety nuclear power plant</cw> </title> <description> [ ] </description> <narrative> [ ] </narrative> <keywords> nuclear energy power plant station safety regulations upkeep servicing checks incident accident leak radiation health hazard </keywords> </topic>

17 INEX Retrieval Ergebnis Format INEX Eingabe: Datensatz der Suchresultate mit Bezug auf INEX Topics Auswertung erfolgt durch bestimmtes Format

18 INEX Retrieval Ergebnis Format <!ELEMENT inex-submission (description?, topic+)> <!ATTLIST inex-submission participant-id CDATA #REQUIRED run-id CDATA #REQUIRED > <!ELEMENT description (#PCDATA)> <!ELEMENT topic (result*)> <!ATTLIST topic topic-id CDATA #REQUIRED > <!ELEMENT result (file, path, rank?, rsv?)> <!ELEMENT file (#PCDATA)> <!ELEMENT path (#PCDATA)> <!ELEMENT rank (#PCDATA)> <!ELEMENT rsv (#PCDATA)>

19 INEX Retrieval Ergebnis Format Allgemein: in XML Format DTD [Document Type Definition] Vorlage Anfragen sollten die besten 100 Retrival Ergebnisse enthalten Anfragen müssen ID s der übermittelnden Quellen beinhalten Müssen Überschriften / Themen beinhalten identifiziert werden sie über Topic ID s

20 INEX Retrieval Ergebnis Format Ergebnisse lassen sich anhand der Topic ID dann zuordnen Ranking der Ergebnisse ist möglich Ergebnisse: bestehen zumeist aus mehreren Elementen Werden durch Pfad / File Angaben identifiziert

21 INEX Retrieval Ergebnis Format Ranking der Ergebnisse wird durch Terme von Ranking Werten verdeutlicht Meistens mit der Zahl 1 beginnend Mehrere Elemente mit dem selben Ranking möglich Retrieval Status Values werden auch zum Ranking genommen Falls Rank und RSV verwendet Rank benutzt Wenn kein geranktes Ergebnis geliefert wird: RSV weglassen Oder Rank weglassen

22 INEX Retrieval Ergebnis Format Für mehrere Elemente eines Ergebnisses werden Dateien erzeugt File / Pfad Angaben werden in XPath Syntax notiert File / Pfad Angaben sind relativ zum INEX XML Verzeichnis / für Unterverzeichnisse Endung.xml wird weggelassen

23 INEX Retrieval Ergebnis Beispiel Verzeichnis an/1995/a1004 an/1995/volume Pfadangaben in XPath Syntax In einer Grammatik: Path ElementNode AttributeNode Index Beispiel: /article[1]/bdy[1]/sec[1]/p[3] ::= '/' ElementNode Path '/' ElementNode '/' AttributeNode '/' ElementNode ::= ElementName Index ::= AttributeName ::= '[' integer ']

24 Vielen Dank für die Aufmerksamkeit

25 Literaturnachweise 1. pic%20development.pdf [INEX Guidelines for Topic Development] [Universität Hildenburg IR Vorlesung SS05]