Sprachübergreifendes Information Retrieval (CLIR)

Transkript

1 WikiTranslate Ruprecht-Karls-Universität Heidelberg WS 2009/2010 HS: Information Retrieval Leitung: Dr. Karin Haenelt 18. Januar 2010

2 Auf den folgenden Folien wird der Ansatz von D. Nguyen, A.Overwijk, C.Hauff, R.B. Trieschnigg, D. Hiemstra, F.M.G. de Jong mit dem Titel WikiTranlate: Query Translation for Cross-lingual Information Retrieval using only Wikipedia vorgestellt, der 2008 bei CLEF veröffentlicht wurde. (Artikel zu finden unter: D. Nguyen, A.Overwijk, C.Hauff, R.B. Trieschnigg, D. Hiemstra, F.M.G. de Jong: WikiTranslate: Query Translation for Cross-lingual Information Retrieval using only Wikipedia, CLEF 2008.)

3 Gliederung 1 Gliederung 2 Warum Wikipedia? 3 Motivation Vor- und Nachteile 4 Aufgabenstellung und Ansatz Aufgabenstellung und Ansatz 5 Vorgehensweise Vorverarbeitung Ablauf (an einem Beispiel) 6 Evaluierung Ergebnisse Fazit und Weiterentwicklung 7 Literatur

4 1 Gliederung 2 Warum Wikipedia? 3 Motivation Vor- und Nachteile 4 Aufgabenstellung und Ansatz Aufgabenstellung und Ansatz 5 Vorgehensweise Vorverarbeitung Ablauf (an einem Beispiel) 6 Evaluierung Ergebnisse Fazit und Weiterentwicklung 7 Literatur

5 online, multilinguale Enzyklopädie, zu der jeder seinen Beitrag leisten kann Werk seiner Benutzer, Widerspiegelung deren Interessen, auch kleinere Themengebiete gut abgedeckt Charakteristiken von Wikipedia machen es zu einer semantisch-lexikalischen Ressource Versuche bereits durchgeführt: Wikipedia zur automatischen WSD (word sense disambiguation) und für Übersetzung (mit sprachübergreifenden Links)

7 Vor- und Nachteile Motivation Query-Übersetzung (populärster Ansatz bei CLIR-Systemen)

8 Vor- und Nachteile Vorteile von Wikipedia für die Query-Übersetzung Bessere Abdeckung von named entities und domain specific terms Informationen sind auf dem neuesten Stand (kontinuierliche Beiträge von Nutzern) Wikipedia-Artikel bieten mehr Kontext als z.b. Online-Wörterbücher (WSD) Weitergeleitete Seiten: Links, die auf alternative Konzepte (Titel von Artikeln) verweisen (coalition cabinet coalition government) (Synonyme, Abkürzungen, Schreibvarianten (Query-Expansion))

9 Vor- und Nachteile Nachteile von Wikipedia für die Query-Übersetzung bei gängigen Wörtern ist die Abdeckung geringer, als bei Wörterbüchern einige Terme haben eine Menge Bedeutungen (erschwert die WSD)

11 Aufgabenstellung und Ansatz Ziel Such- und Zielsprache Anfrage soll die Transformation einer Anfrage q s (source language) in eine Anfrage q t (target language) sein Suchsprache: Niederländisch; Zielsprache: Niederländisch, Englisch, Spanisch, Französisch erfolgt in Form einer TREC-Query, wie z.b.: <title> Atlantis-Mir Koppeling <title> <desc> Vind documenten over de eerste space shuttle aankoppeling tussen de Amerikaanse shuttle Atlantis en het Mir ruimte station. <desc> soll zur korrespondierenden Übersetzung führen: <title> Atlantis-Mir Docking <title> <desc> Find documents reporting the first space shuttle docking between the US shuttle Atlantis and the Mir space station. <desc>

12 Aufgabenstellung und Ansatz Vorgehensweise Hauptaufgabe Teilaufgaben Abbildung der Anfrage q s auf Titel von Wikipedia-Artikel Übersetzung der Titel durch Verfolgung der Links auf anderssprachige Titel besteht dabei darin, die Anfrage auf Wikipedia-Artikel abzubilden gliedern sich in out of vocabulary words (OOV) named entity recognition und Übersetzung word sense disambiguation (WSD)

14 Vorverarbeitung Verwendete Suchmaschine: Lucene Indexierung von Wikipedia (Beschränkung auf Artikel-Namensraum): Aus jedem Artikel: Extraktion von Titel, Text, Links auf andere Sprachen Gesonderte Repräsentation des ersten Abschnitts (Möglichkeit, Suche zu beschränken und Texte vergleichbarer Länge zu erhalten) Redirect-Seiten: Titel der Zielseite (weitergeleitete Seiten, z.b. bei der Eingabe von Informationswiedergewinnung wird man auf die Zielseite Information Retrieval weitergeleitet) Aus Bildern bestehende Wikipediaartikel, Hilfsseiten, Vorlagen, Portalseiten, Seiten über den Gebrauch von Wikipedia werden ausgenommen

15 Vorverarbeitung Zum Zwecke des Vergleichs, werden alle Sprachen denselben Vorverarbeitungsschritten unterzogen Stemming für alle Sprachen dieselbe Methode, obwohl für unterschiedliche Sprachen unterschiedliche Verfahren jeweils besser geeignet sind: Stemming (Niederländisch, Spanisch), 4-Gramme (Englisch, Französisch) Komposita Zerlegung für Anfrage, Durchführung bei Analyse der Anfrage Dekomposition steigert die Performance Abgleich, ob Wort im Lexikon enthalten ist, erfolgt über eine Suche über die Titel der Wikipediaartikel (Komposita mit eigenem Artikel erhalten höhere Priorität als Komposita, die nur als Teile vorkommen) Kompositbestandteile mit eigenem Artikel erhalten den Vorzug über Kompositbestandteile, die nur in Artikeltexten zu finden sind

16 Vorverarbeitung Entfernung von nichtrelevanten Wörtern Query: atlantis mir koppeling eerste space shuttle aankoppeling tussen amerikaanse shuttle atlantis mir ruimte station Stemming (title:atlantis text:atlantis) (title:mir text:mir) (title:koppel text:koppel) (title:eerst text:eerst) (title:spac text:spac) (title:shuttl text:shuttl) (title:aankoppel text:aankoppel) (title:tuss text:tuss) (title:amerikan text:amerikan) (title:shuttl text:shuttl) (title:atlantis text:atlantis) (title:mir text.mir) (title:ruimt text:ruimt) (title:station text:station)

17 Ablauf (an einem Beispiel) 1. Schritt: Die Anfrage wird auf Wikipedia-Titel abgebildet Extraktion der Titel der Artikel, die zu einer Anfrage die höchsten Relevanzwerte (nach Vektormodell) erhalten haben 1a: Suche mit gesamter Query <title> Atlantis-Mir Koppeling <title> <desc> Vind documenten over de eerste space shuttle aankoppeling tussen de Amerikaanse shuttle Atlantis en het Mir ruimte station. <desc> Experimentelle Bestimmung der Anzahl der auszuwählenden höchstplatzierten Dokumente Problem: einige Anfrage-Ausdrücke kommen in den höchstplatzierten Dokumenten nicht vor und verschwinden dann aus der weiteren Liste für die endgültige Anfrage

18 Ablauf (an einem Beispiel) 1b: Suche nach einzelnen Termen der Query: Vermeidung des Problems von 1a Methoden zur Zuordnung von Titeln und Anfrage-Ausdrücken 1 LINKS Titel der höchstplatzierten Dokumente aus 1a und Links in den zugehörigen Dokumenten werden verwendet 2 CONTENTS Suche mit der gesamten Anfrage, höhere Gewichtung des eigentlichen Anfrage-Ausdrucks, Suche über Titel und ersten Absatz des Wikipedia-Artikel Folgende Konzepte (Titel von Artikeln) wurden durch Schritt 1a und 1b erkannt: America, Atlantis (disambiguation), Coupling, Mir, Mir (disambiguation), Russian Federal Space Agency, Shuttle, Space Shuttle Atlantis, Space Shuttle program, Station.

19 Ablauf (an einem Beispiel) 2. Schritt: 2a (optional): Anfrage-Expansion durch Verwendung von Redirect-Seiten Es werden auch die Titel verwendet, die per redirect auf jeweilige Seiten verweisen Beispiel: space shuttle atlantis atlantis (space shuttle), ov-104, shuttle atlantis, atlantis (space shuttle), atlantis (shuttle), ss atlantis, space shuttle atlantis, atlantis space shuttle 2b (optional): Gewichtung der Query höhere Gewichtung der Terme, die in 1a gefunden wurden Beispiel: space shuttle atlantis und mir (ruimtestation)

20 Ablauf (an einem Beispiel) 2c: Erzeugen der Endquery Verwendung der Links auf anderssprachige Artikel station ˆ1.0 stationˆ1.0 russian federal space agency ˆ1.0 russianˆ1.0 federalˆ1.0 spaceˆ1.0 agencyˆ1.0 mir ˆ1.0 mirˆ1.0 coupling ˆ1.0 couplingˆ1.0 america 0ˆ1.0 americaˆ1.0 shuttle ˆ1.0 shuttleˆ1.0 space shuttle program ˆ1.0 spaceˆ1.0 shuttleˆ1.0 programˆ1.0 space shuttle atlantis 0ˆ3.0 spaceˆ3.0 shuttleˆ3.0 atlantisˆ3.0 atlantis ˆ1.0 atlantisˆ1.0 ruimte ˆ1.0 ruimteˆ1.0 aankoppeling ˆ1.0 aankoppelingˆ1.0 mir ˆ3.0 mirˆ3.0

22 Ergebnisse Summary of runs (aus den Experimentdaten von CLEF 2004, 2005, 2006) Task ID Average (% Monolingual system) T NO WSD 72,71 % T LINKS 71,88 % T CONTENT 74,89 % T CONTENT W 72,70 % T + D NO WSD 68,98 % T + D LINKS 71,44 % T + D CONTENT 73,18 % T + D CONTENT W 74,98 %

23 Ergebnisse Language Results run 2008 MAP English(monolingial) French (66,86%) Spanish (64,02%) Dutch (59,82%)

24 Ergebnisse Tiefergehende Analyse eines Runs mit 50 Topics

25 Ergebnisse Nähere Betrachtung der Query-Vergleiche vom monolingualen zum cross-lingualen Ergebnis: Verbesserung der Performance: Topic 477 <top> <num> /477-AH </num> <title> Web Advertising</title> <desc> Find books about the distribution and impact of marketing campaigns on the World Wide Web / Internet. </desc> Beim Übersetzungsvorgang ist das Wort investment hinzu gekommen; Die Wörter internet und advertising haben bei der Übersetzung eine höhere Gewichtung bekommen.

26 Ergebnisse Verschlechterung der Performance: Topic 457 einige Übersetzungen der Queries sind falsch <top> <num> /457-AH </num> <title> La chasse au grand gibier en Afrique</title> <desc> Descriptions non fictives d expéditions de chasse au grand gibier en Afrique. </desc> wird übersetzt zu: <top> <num> /457-AH </num> <title> Big Game Hunting in Africa</title> <desc> Real-life descriptons of big game hunting expeditions in Africa. </desc>

27 Fazit und Weiterentwicklung Ansatz vielversprechend und verbesserungswürdig (im Hinblick auf Performance) Übersetzung von Eigennamen und Phrasen sehr gut Einsatz im Interactive CLIR möglich (Wikipedia-Konzepte (Titel von Artikeln) für Menschen gut verständlich) Weiterentwicklung bessere Nutzung der Wikipedia-Struktur (Kategorie-Seiten, Begriffserklärungsseiten (Disambiguierung), Interne Links) Filter für weniger relevante Konzepte Experimete für bessere Vorverarbeitung Optimierung der Query-Gewichtung andere Methoden zur Query-Expansion mit Wikipedia ausprobieren für gängige Wörter und Adjektive (mit Wikipedia schlecht zu übersetzen!) Resourcen wie EuroWordNet oder bilinguale Wörterbücher nutzten

28 Literatur Carstensen, Kai-Uwe (Hg.) (2004): Computerlinguistik und Sprachtechnologie. Eine Einführung. München: Elsevier, Spektrum Akad. Verl.. Stock, Wolfgang G. (2007): Information Retrieval. Informationen suchen und finden. München / Wien: Oldenbourg. Cross language evaluation forum: D. Nguyen, A.Overwijk, C.Hauff, R.B. Trieschnigg, D. Hiemstra, F.M.G. de Jong: WikiTranslate: Query Translation for Cross-lingual Information Retrieval using only Wikipedia, CLEF [letzter Zugriff: ]

29 Vielen Dank für die Aufmerksamkeit!