Vorlesung Information Retrieval Wintersemester 04/05 20. Januar 2005 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 0 Themenübersicht Multilinguales Information Retrieval 1
Multilinguales Information Retrieval 2 Multilingualität im Information Retrieval Auszüge aus dem Foliensatz von Frau Christa Wormser- Hacker Folien 1-16, 37-51, 82-107 siehe [Wormser-Hacker 03] 3
Probleme beim Übersetzen Mehrdeutigkeiten Zusammengesetzte Begriffe Out of Vocabulary 4 Mehrdeutigkeiten Wort hat mehr als eine Bedeutung Verschiedene Wörter in Zielsprache Bank? Sitzgelegenheit Kreditinstitut bench bank 5
1. Idee für Mehrdeutigkeiten Verknüpfe die verschiedenen Bedeutungen mit Syn- Operator Bank ( bench SYN bank ) => viele unrelevante Seiten 6 2. Idee für Mehrdeutigkeiten Bedeutung aus Kontext Berechnung von Wahrscheinlichkeiten für Übersetzungsmöglichkeit Bank? Geld, Aktie, Kredit, Konto,... Sitzen, Pause, Ruhe,... bank bench 7
Zusammengesetzte Begriffe Mehrere Wörter bilden Begriff Bedeutung anders als wörtliche Übersetzung Walk of Fame müssen erkannt werden Spaziergang des Ruhmes??? 8 Out of Vocabulary unübersetzbare Begriffe unvollständiges Wörterbuch besonders: Fachbegriffe Personennamen Modeworte Geographische Begriffe entstehen laufend neu 9
Ansatz für OOV Sucht Übersetzung für OOV Begriffe aus dem Internet Beispiel: Englisch Chinesisch Englisch Häufig englische Begriffe auf chinesischen Websiten Englischer Begriff nahe bei chinesischen Äquivalent 10 Schema Chinesisch-Englisch 1. Identifizierung chinesischer OOV Begriffe 2. Websuche und Textextraktion 3. Statistische Auswertung 4. Wahl der Übersetzung 11
Chinesische Schrift Jedes Zeichen hat Bedeutung eines Wortes Es gibt Wörter die aus mehreren Zeichen bestehen Wörter werden nicht durch Leerzeichen getrennt 12 Segmentierung Unterschiedliche Bedeutung je nach Segmentierung wo muss segmentiert werden? Chinesisch für: Takeschi Kitano Englisch (falsche Segmentierung) : north limit military??? Brauche Technik wie bei Mehrdeutigkeiten 13
Segmentierung benutzen Hidden Markov Model Unbekannte Begriffe werden in einzelne Zeichen zerlegt Korrelation der Begriffe sehr klein 14 Identifizierung von OOV Termen Anfrage HMM Segmentierung nein P>Pmin ja OOV Begriff Gültige Segmentierung 15
Textextraktion aus dem Web Komplette Anfrage Google Chinesische Webseiten Top 100 Ergebnisse Extrahiere Titel und Zusammenfassung Lokale Datei 16 Ergebnis der Extraktion Q = c 1 c 2 c 3 c 4 c 5...c 2 c 3 e 1...c 1 c 2 c 3 c 4 c 5 e 2......c 2 c 3 e 1...c 1 c 2 c 3 c 4 c 5 e 3......c 2 c 3 e 1...c 2 c 3 e 4......c 1 c 2 c 3 c 4 c 5 e 3...c 2 c 3 e 1.....c 1 c 2 e 2..c 3 c 4 e 1 17
Statistische Auswertung...c 2 c 3 e 1...c 1 c 2 c 3 c 4 c 5 e 2......c 2 c 3 e 1...c 1 c 2 c 3 c 4 c 5 e 3......c 2 c 3 e 1...c 2 c 3 e 4......c 1 c 2 c 3 c 4 c 5 e 3...c 2 c 3 e 1.....c 1 c 2 e 2..c 3 c 4 e 1 e i f(e i ) C ij C ij f(e i, C ij ) e 1 5 c 2 c 3 2 4 c 3 c 4 2 1 e 2 2 c 1 c 2 c 3 c 4 c 5 5 1 c 1 c 2 2 1 e 3 2 c 1 c 2 c 3 c 4 c 5 5 2 e 4 1 c 2 c 3 2 1 18 Wahl der Übersetzung (1) e i f(e i ) C ij C ij f(e i, C ij ) e 1 5 c 2 c 3 2 4 c 3 c 4 2 1 e 2 2 c 1 c 2 c 3 c 4 c 5 5 1 c 1 c 2 2 1 e 3 2 c 1 c 2 c 3 c 4 c 5 5 2 e 4 1 c 2 c 3 2 1 1) Längster chinesischer Teilstring Cmax = c 1 c 2 c 3 c 4 c 5 2) et und Ct mit max ( f(ei, Cmax) ) = e3 3) Füge (et, Ct) dem Wörterbuch hinzu 19
Wahl der Übersetzung (2) e i f(e i ) C ij C ij f(e i, C ij ) e 1 5 c 2 c 3 2 4 c 3 c 4 2 1 e 2 2 c 1 c 2 c 3 c 4 c 5 5 1 c 1 c 2 2 1 e 3 2 c 1 c 2 c 3 c 4 c 5 5 2 1) e 4 Häufigste 1 cenglische 2 c 3 2 Terme 1 e targets = e 1 2) C s so dass f(e s, C s ) = max ( f(e targets, C ij )) = c 2 c 3 3) Füge (es, CS) dem Wörterbuch hinzu falls e s e t und C s C t 20 Bemerkungen zur Übersetzung Zwei neue Einträge in diesem Fall In der Praxis oft nur ein Ergebnis 21
Schema Englisch-Chinesisch Websuche und Textextraktion Statistische Auswertung Wahl der Übersetzung 22 Websuche und Textextraktion Englischer OOV Begriff Google Chinesische Webseiten Top 100 Ergebnisse Extraktion von Überschrift und Zusammenfassung Lokale Datei 23
Statistische Auswertung Suche englischen Begriff Betrachte 20 Zeichen davor und dahinter Weiß nicht welcher Teil davon dem Englischen entspricht generiere alle 2 mal 20! Möglichkeiten trage sie in Tabelle ein 24 Statistische Auswertung S n S n f(s n ) r S1 4 13 0.598529 S2 4 11 0.510294 S3 8 9 0.447059 S4 6 9 0.434559 S5 6 9 0.434559 S6 4 9 0.422059 S7 4 9 0.422059 S8 4 7 0.333824 S9 4 7 0.333824 S10 16 5 0.320588 r Sn = α + (1 α ) L α = 0.25 aus Experimenten f f n OOV L Maximale Länge eines Strings (20) 25
Wahl der Übersetzung (1) Es werden nur die 10 mit bestem Ranking weiter betrachtet Wähle 2 längsten Strings (S10 und S3) Zweites Kriterium ist Häufigkeit S n S n f(s n ) r S1 4 13 0.598529 S2 4 11 0.510294 S3 8 9 0.447059 S4 6 9 0.434559 S5 6 9 0.434559 S6 4 9 0.422059 S7 4 9 0.422059 S8 4 7 0.333824 S9 4 7 0.333824 S10 16 5 0.320588 26 Wahl der Übersetzung (2) Wähle die 2 häufigsten Strings (S1 und S2) Zweites Kriterium ist Länge S n S n f(s n ) r S1 4 13 0.598529 S2 4 11 0.510294 S3 8 9 0.447059 S4 6 9 0.434559 S5 6 9 0.434559 S6 4 9 0.422059 S7 4 9 0.422059 S8 4 7 0.333824 S9 4 7 0.333824 S10 16 5 0.320588 27
Wahl der Übersetzung Entferne Teilstrings Entferne bereits im Wörterbuch vorhandene Entferne Strings die nicht in Zieldokumenten vorhanden sind benutze vorhandene Technik um Mehrdeutigkeiten zu behandeln S n S n f(s n ) S 10 16 5 S 3 8 9 S 1 4 13 S 2 4 11 Evaluation des Ansatzes im zugehörigen Artikel dokumentiert 28 Literatur 29
Literatur [Zhang 04] Zhang, Y. und Vines, P.: Using the Web for Automated Tranmslation Extraction in Cross-Language Information Retrieval, SIGIR'04, Sheffield, Uk, 2004. [Wormser-Hacker 03] Wormser-Hacker, C.: Multilingualität im Information Retrieval, Vortrag bei der 3. Herbstschule IR, Schloss Dagstuhl, 2003. 30