Vorlesung Information Retrieval Wintersemester 04/05



Ähnliche Dokumente
Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

HMC WEB INDEX. Erste große Deutschland Studie. Wie fit sind die Clubs im online marketing?

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Maschinelle Übersetzung

Gussnummern-Lesesystem

Tutorial: Homogenitätstest

Wie Google Webseiten bewertet. François Bry

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

Was Bibliotheken von Suchmaschinen lernen können. Prof. Dr. Dirk Lewandowski

Suchergebnisdarstellung in Google, Bing, Cuil, etc. Christina Ficsor

FAQ Verwendung. 1. Wie kann ich eine Verbindung zu meinem virtuellen SeeZam-Tresor herstellen?

Internet Explorer Version 6

Übungen zu Einführung in die Informatik: Programmierung und Software-Entwicklung: Lösungsvorschlag

Datenexport aus JS - Software

W-Rechnung und Statistik für Ingenieure Übung 11

Webgestaltung - Jimdo 2.7

Grundbegriffe der Informatik

Wie funktioniert automatisierte Übersetzung? Prof. Josef van Genabith (Deutsches Forschungszentrum für Künstliche Intelligenz)

Gezielt über Folien hinweg springen

Datenbanken Kapitel 2

Anleitung für IQES-Verantwortliche Schulkonto verwalten

Webhost Unix Statistik

SWOT Analyse zur Unterstützung des Projektmonitorings

Webalizer HOWTO. Stand:

Übersicht Die Übersicht zeigt die Zusammenfassung der wichtigsten Daten.

1 Part-of-Speech Tagging

Softwareentwicklungspraktikum Sommersemester Grobentwurf

Windows Explorer Das unbekannte Tool. Compi-Treff vom 19. September 2014 Thomas Sigg

Gesucht und Gefunden: Die Funktionsweise einer Suchmaschine

Fragebogen. zur Erschließung und Sicherung von Online-Dokumenten. Auswahl von elektronischen Publikationen

R ist freie Software und kann von der Website.

R. Brinkmann Seite Schriftliche Übung Mathematik Stochastik II (Nachschreiber) Jan. 2007

LTSpice Tutorial 2: Eigene Modelle und Symbole

Bedienungsanleitung für Mitglieder von Oberstdorf Aktiv e.v. zur Verwaltung Ihres Benutzeraccounts auf

4.1 Wie bediene ich das Webportal?

KÜNSTLER: ROLF BÖKEMEIER // TITEL: BLUMEN SCHWARZWEIß BILDBEWERTUNG. Bewertet von Georg Banek

Prüfung: Vorlesung Finanzierungstheorie und Wertpapiermanagement

Online-Publishing mit HTML und CSS für Einsteigerinnen

1. EINLEITUNG 2. GLOBALE GRUPPEN Globale Gruppen anlegen

MdtTax Programm. Programm Dokumentation. Datenbank Schnittstelle. Das Hauptmenü. Die Bedienung des Programms geht über das Hauptmenü.

Kryptographie in der Moderne

Meine Entscheidung zur Wiederaufnahme der Arbeit

Anleitung für Vorlesungsaufzeichnungen mit Lecturnity. (im ZHG und diversen anderen Räumen der Universität Göttingen)

Das Seminarangebot richtet sich an drei Gruppen von Frauen:

Familienrecht Vorlesung 6. Familienrecht

Auswertung Fünfjahresüberprüfung

IT-Unternehmensarchitektur Übung 01: IT-Strategie

Teaser-Bilder erstellen mit GIMP. Bildbearbeitung mit GIMP 1

Dieses erste Kreisdiagramm, bezieht sich auf das gesamte Testergebnis der kompletten 182 getesteten Personen. Ergebnis

FAMILIENSTAND ALLEINERZIEHENDE MÜTTER

YouTube: Video-Untertitel übersetzen

2015/03/12 18:37 1/6 Routingprofile

Ein Vorwort, das Sie lesen müssen!

Die Post hat eine Umfrage gemacht

Drucken von Webseiten Eine Anleitung, Version 1.0

Begriff 1 Begriff 2 Datenbank 1

Anleitung zur Erstellung von Serienbriefen (Word 2003) unter Berücksichtigung von Titeln (wie Dr., Dr. med. usw.)

Zeit lässt sich nicht wie Geld für schlechte Zeiten zur Seite legen. Die Zeit vergeht egal, ob genutzt oder ungenutzt.

Einführungskurs MOODLE Themen:

Errata-Liste zum Kurs: Einführung in XML (2. Auflage)

Bundesverband Flachglas Großhandel Isolierglasherstellung Veredlung e.v. U g -Werte-Tabellen nach DIN EN 673. Flachglasbranche.

Übungsaufgaben Tilgungsrechnung

Individuelles Qualifikationsprofil für

Multicheck Schülerumfrage 2013

Anleitung über den Umgang mit Schildern

Lösung. Prüfungsteil 1: Aufgabe 1

Anleitung für die Verwendung des Helferportals

GPS Garmin MapSource - Track erstellen und nutzen

ecaros2 - Accountmanager

Inhalt. Seminar: Codes und Kryptographie

Glaube an die Existenz von Regeln für Vergleiche und Kenntnis der Regeln

Praktikum Maschinelle Übersetzung Language Model

2) Geben Sie in der Anmeldemaske Ihren Zugangsnamen und Ihr Passwort ein

Hilfe zur Urlaubsplanung und Zeiterfassung

2 Evaluierung von Retrievalsystemen

Die Wirtschaftskrise aus Sicht der Kinder

TYPO3-Suchmaschinenoptimierung für Redakteure

Info-Veranstaltung zur Erstellung von Zertifikaten

Wie lässt sich die Multiplikation von Bruchzahlen im Operatorenmodell und wie im Größenmodell einführen?

Und der Schluß vom Beschluß: Beschlossen und verkündet hört sich an wie aus einer Gerichtsserie. Was soll das alles?

A-CERT ADVANCED pdf-signaturprüfung einrichten 2008

Wearables und Gesundheits-Apps

Universität Augsburg, Institut für Informatik Wintersemester 2011/2012 Prof. Dr. W. Kießling 03. Feb Semesterklausur

1. Wie viel Zinsen bekommt man, wenn man 7000,00 1 Jahr lang mit 6 % anlegt?

Markus Mauritz 4BBW 97/98 BET - Referat. ABC Analyse (Kostenschwerpunktanalyse)

TV-Inhalte Lehrerinformation

Erstellen der Barcode-Etiketten:

Integration, Migration und Evolution

Erstellen einer Collage. Zuerst ein leeres Dokument erzeugen, auf dem alle anderen Bilder zusammengefügt werden sollen (über [Datei] > [Neu])

Vorgestellt vom mexikanischen Rat für Fremdenverkehr

Bedingungen. Bedingungen. Bedingungen

PK-Website: Besuche & Seitenaufrufe 2010 und 2011

Datenbanken Microsoft Access 2010

Auswertung zu "Projektmanagement B, SS08"

Eine Mischung aus beiden Vorgangsweisen (Download der Dateien von der Homepage des wohnfonds_wien und Bereitstellung eines Links) ist nicht möglich.

Webseiten mit fragwürdigen Aufrufen von "spy & track" - Unternehmen

WICHTIGER HINWEIS: Bitte fertigen Sie keine Kopien dieses Fragebogens an!

Verarbeitung von ZV-Dateien im Internetbanking. Inhalt. 1. Datei einlesen Datei anzeigen, ändern, löschen Auftrag ausführen...

Wie ist das Wissen von Jugendlichen über Verhütungsmethoden?

HIER GEHT ES UM IHR GUTES GELD ZINSRECHNUNG IM UNTERNEHMEN

Transkript:

Vorlesung Information Retrieval Wintersemester 04/05 20. Januar 2005 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 0 Themenübersicht Multilinguales Information Retrieval 1

Multilinguales Information Retrieval 2 Multilingualität im Information Retrieval Auszüge aus dem Foliensatz von Frau Christa Wormser- Hacker Folien 1-16, 37-51, 82-107 siehe [Wormser-Hacker 03] 3

Probleme beim Übersetzen Mehrdeutigkeiten Zusammengesetzte Begriffe Out of Vocabulary 4 Mehrdeutigkeiten Wort hat mehr als eine Bedeutung Verschiedene Wörter in Zielsprache Bank? Sitzgelegenheit Kreditinstitut bench bank 5

1. Idee für Mehrdeutigkeiten Verknüpfe die verschiedenen Bedeutungen mit Syn- Operator Bank ( bench SYN bank ) => viele unrelevante Seiten 6 2. Idee für Mehrdeutigkeiten Bedeutung aus Kontext Berechnung von Wahrscheinlichkeiten für Übersetzungsmöglichkeit Bank? Geld, Aktie, Kredit, Konto,... Sitzen, Pause, Ruhe,... bank bench 7

Zusammengesetzte Begriffe Mehrere Wörter bilden Begriff Bedeutung anders als wörtliche Übersetzung Walk of Fame müssen erkannt werden Spaziergang des Ruhmes??? 8 Out of Vocabulary unübersetzbare Begriffe unvollständiges Wörterbuch besonders: Fachbegriffe Personennamen Modeworte Geographische Begriffe entstehen laufend neu 9

Ansatz für OOV Sucht Übersetzung für OOV Begriffe aus dem Internet Beispiel: Englisch Chinesisch Englisch Häufig englische Begriffe auf chinesischen Websiten Englischer Begriff nahe bei chinesischen Äquivalent 10 Schema Chinesisch-Englisch 1. Identifizierung chinesischer OOV Begriffe 2. Websuche und Textextraktion 3. Statistische Auswertung 4. Wahl der Übersetzung 11

Chinesische Schrift Jedes Zeichen hat Bedeutung eines Wortes Es gibt Wörter die aus mehreren Zeichen bestehen Wörter werden nicht durch Leerzeichen getrennt 12 Segmentierung Unterschiedliche Bedeutung je nach Segmentierung wo muss segmentiert werden? Chinesisch für: Takeschi Kitano Englisch (falsche Segmentierung) : north limit military??? Brauche Technik wie bei Mehrdeutigkeiten 13

Segmentierung benutzen Hidden Markov Model Unbekannte Begriffe werden in einzelne Zeichen zerlegt Korrelation der Begriffe sehr klein 14 Identifizierung von OOV Termen Anfrage HMM Segmentierung nein P>Pmin ja OOV Begriff Gültige Segmentierung 15

Textextraktion aus dem Web Komplette Anfrage Google Chinesische Webseiten Top 100 Ergebnisse Extrahiere Titel und Zusammenfassung Lokale Datei 16 Ergebnis der Extraktion Q = c 1 c 2 c 3 c 4 c 5...c 2 c 3 e 1...c 1 c 2 c 3 c 4 c 5 e 2......c 2 c 3 e 1...c 1 c 2 c 3 c 4 c 5 e 3......c 2 c 3 e 1...c 2 c 3 e 4......c 1 c 2 c 3 c 4 c 5 e 3...c 2 c 3 e 1.....c 1 c 2 e 2..c 3 c 4 e 1 17

Statistische Auswertung...c 2 c 3 e 1...c 1 c 2 c 3 c 4 c 5 e 2......c 2 c 3 e 1...c 1 c 2 c 3 c 4 c 5 e 3......c 2 c 3 e 1...c 2 c 3 e 4......c 1 c 2 c 3 c 4 c 5 e 3...c 2 c 3 e 1.....c 1 c 2 e 2..c 3 c 4 e 1 e i f(e i ) C ij C ij f(e i, C ij ) e 1 5 c 2 c 3 2 4 c 3 c 4 2 1 e 2 2 c 1 c 2 c 3 c 4 c 5 5 1 c 1 c 2 2 1 e 3 2 c 1 c 2 c 3 c 4 c 5 5 2 e 4 1 c 2 c 3 2 1 18 Wahl der Übersetzung (1) e i f(e i ) C ij C ij f(e i, C ij ) e 1 5 c 2 c 3 2 4 c 3 c 4 2 1 e 2 2 c 1 c 2 c 3 c 4 c 5 5 1 c 1 c 2 2 1 e 3 2 c 1 c 2 c 3 c 4 c 5 5 2 e 4 1 c 2 c 3 2 1 1) Längster chinesischer Teilstring Cmax = c 1 c 2 c 3 c 4 c 5 2) et und Ct mit max ( f(ei, Cmax) ) = e3 3) Füge (et, Ct) dem Wörterbuch hinzu 19

Wahl der Übersetzung (2) e i f(e i ) C ij C ij f(e i, C ij ) e 1 5 c 2 c 3 2 4 c 3 c 4 2 1 e 2 2 c 1 c 2 c 3 c 4 c 5 5 1 c 1 c 2 2 1 e 3 2 c 1 c 2 c 3 c 4 c 5 5 2 1) e 4 Häufigste 1 cenglische 2 c 3 2 Terme 1 e targets = e 1 2) C s so dass f(e s, C s ) = max ( f(e targets, C ij )) = c 2 c 3 3) Füge (es, CS) dem Wörterbuch hinzu falls e s e t und C s C t 20 Bemerkungen zur Übersetzung Zwei neue Einträge in diesem Fall In der Praxis oft nur ein Ergebnis 21

Schema Englisch-Chinesisch Websuche und Textextraktion Statistische Auswertung Wahl der Übersetzung 22 Websuche und Textextraktion Englischer OOV Begriff Google Chinesische Webseiten Top 100 Ergebnisse Extraktion von Überschrift und Zusammenfassung Lokale Datei 23

Statistische Auswertung Suche englischen Begriff Betrachte 20 Zeichen davor und dahinter Weiß nicht welcher Teil davon dem Englischen entspricht generiere alle 2 mal 20! Möglichkeiten trage sie in Tabelle ein 24 Statistische Auswertung S n S n f(s n ) r S1 4 13 0.598529 S2 4 11 0.510294 S3 8 9 0.447059 S4 6 9 0.434559 S5 6 9 0.434559 S6 4 9 0.422059 S7 4 9 0.422059 S8 4 7 0.333824 S9 4 7 0.333824 S10 16 5 0.320588 r Sn = α + (1 α ) L α = 0.25 aus Experimenten f f n OOV L Maximale Länge eines Strings (20) 25

Wahl der Übersetzung (1) Es werden nur die 10 mit bestem Ranking weiter betrachtet Wähle 2 längsten Strings (S10 und S3) Zweites Kriterium ist Häufigkeit S n S n f(s n ) r S1 4 13 0.598529 S2 4 11 0.510294 S3 8 9 0.447059 S4 6 9 0.434559 S5 6 9 0.434559 S6 4 9 0.422059 S7 4 9 0.422059 S8 4 7 0.333824 S9 4 7 0.333824 S10 16 5 0.320588 26 Wahl der Übersetzung (2) Wähle die 2 häufigsten Strings (S1 und S2) Zweites Kriterium ist Länge S n S n f(s n ) r S1 4 13 0.598529 S2 4 11 0.510294 S3 8 9 0.447059 S4 6 9 0.434559 S5 6 9 0.434559 S6 4 9 0.422059 S7 4 9 0.422059 S8 4 7 0.333824 S9 4 7 0.333824 S10 16 5 0.320588 27

Wahl der Übersetzung Entferne Teilstrings Entferne bereits im Wörterbuch vorhandene Entferne Strings die nicht in Zieldokumenten vorhanden sind benutze vorhandene Technik um Mehrdeutigkeiten zu behandeln S n S n f(s n ) S 10 16 5 S 3 8 9 S 1 4 13 S 2 4 11 Evaluation des Ansatzes im zugehörigen Artikel dokumentiert 28 Literatur 29

Literatur [Zhang 04] Zhang, Y. und Vines, P.: Using the Web for Automated Tranmslation Extraction in Cross-Language Information Retrieval, SIGIR'04, Sheffield, Uk, 2004. [Wormser-Hacker 03] Wormser-Hacker, C.: Multilingualität im Information Retrieval, Vortrag bei der 3. Herbstschule IR, Schloss Dagstuhl, 2003. 30