Hauptstudiumsprojekt SoSe 07 Maschinelle Übersetzung Walther v. Hahn, Cristina Vertan {vhahn,vertan}@informatik.uni-hamburg.de Wozu dient ein Projekt? Projekte im Umfang von 6 SWS dienen der Bearbeitung größerer theoretischer, konstruktiver oder experimenteller Aufgaben und können in zwei aufeinander folgenden Semestern stattfinden. Ein Projekt kann in Zusammenarbeit mit einem Forschungsprojekt des Fachbereichs oder mit einer Einrichtung außerhalb des Fachbereichs veranstaltet werden. Projekte werden in Gruppen durchgeführt und ermöglichen das Erlernen von Gruppenarbeit. Die gesamte Projektgruppe arbeitet auf ein gemeinsames Ergebnis hin. Studienführer Informatik 1
Womit beschäftigt sich unsere Projekt? Maschinelle Übersetzung ist ein sehr aktuelles Thema, weniger wegen autonomer Übersetzung langer Texte, sondern im Zusammenhang mit Information Retrieval (IR), z.b. Webrecherchen und informeller Kommunikation. Das Hauptstudiumsprojekt wird Texte aus der Webseite der Dept. Informatik benutzen Ergebnisse sollen am Ende ermöglichen a) einen Vergleich zwischen on-line Systemen, Wort-zu Wort Übersetzungen und beispielbasierten Verfahren b) einen Qualitätsschwellwert für MÜ-Verfahren im Crosslingual Retrieval einschätzen zu können. Warum ist IR so wichtig? IR ist Bestandteil vieler Aktionen in unserem alltäglichen Leben: Musiksammlungen Organisation von Photos Web-Suche von Literaturquellen für einen Projekt oder Vortrag Informationsorganisation und -suche auf dem eigenen Rechner oder lokalen Netzwerk 2
Die Rolle von MÜ im Web Retrieval? Man hat zu wenig Kontrolle über die Datenorganisation Dokumente liegen in zahlreichen Formaten vor, Die Suche variiert von sehr spezifischen bis zu sehr vagen Anfragen, Viele Benutzer können Dokumente in mehr als einer Sprache lesen, d.h. das Suchverfahren muss die Anfrage auch in andere Sprachen (partiell) übersetzen können. Crosslingual Retrieval Crosslingual Retrieval -Verfahren Übersetzung Benutzerprofil MT Anfrage (EN) IR Anfrage (ES) IR Anfrage (DE) MT IR 3
Vorgehen 04.04 Einführung in MÜ und Experimente mit on-line Systemen 11.04 Implementierung: Pipeline on-line-systeme und Suchmaschine; Experimente mit Wort-zu-Wort Übersetzungen 18.04 Implementierung: Pipeline von on-line Lexika und terminologischen Lexika 24.04 Einführung in EBMT; Implementierung 02.05-09.05 - Implementierung 16.05 - Zwischenevaluation; Kriterien für MÜ-Evaluation 23.05-13.06 Implementierung 06.06 Software-Evaluation Kriterien 20.06 Zwischenvaluation; Implementierung 27.06-04.07 Implementierung; Vorbereitung End-Präsentation 11.07 - End Präsentation Was wollen wir erreichen? Kennenlernen von Grundverfahren der Maschinellen Übersetzung Evaluation von Ergebnissen: Übersetzungsqualität (linguistisch) Übersetzungsqualität im Bezug auf das Retrieval Wurden die relevanten Dokumente gefunden? Wie präzise muss die Übersetzung der Anfrage sein? Gruppen-Arbeit Testen und Evaluation des Systems 4
Scheinkriterien Teilnahmeschein Anwesenheit (maximal 2 Abwesenheiten) Implementierung, Testen und Evaluation eines Teils des Systems, Vortrag bei der Endpräsentation Leistungsschein Kriterien für Teilnahmeschein + Abfassung eines Projektberichts (bis Ende des Semesters). Ressourcen Webseite des Projekts http://nats-www.informatik.uni-hamburg.de/view/machinetranslation/ da befindet sich auch ein Test-Korpus Resourcen-Webseite: http://www.informatik.uni-hamburg.de/info/studium Search engine: http://www.informatik.uni-hamburg.de/harvest/suche.shtml On-line-Übersetzung-Systeme: http://babelfish.altavista.digital.com/babelfish/tr (oder siehe Liste auf der Projekt-Webseite On-line Lexikon http://dict.leo.org/ 5
Scenario Ein ausländischer Student sucht Informationen über Bachelor- und Master-Studium auf der Webseite des Dept. Informatik Die Seiten sind nur auf Deutsch Der Student kann mit Hilfe eines Wörterbuchs einige Seiten lesen aber die Suchanfragen kann er nur auf Englisch stellen. Mögliche verfügbare Lösungen Man benutzt ein On-line-Übersetzungsystem Man benutzt ein (On-line)-Lexikon und übesetzt die Anfrage Wort-zu-Wort Ergebnisse: Die Übersetzungsqualität ist schlecht weil: On-line-Systeme nicht disambiguieren können Wort-zu-Wort-Übersetzung keinerlei Morphologie einsetzt, außerdem kann die Disambiguierung auch falsch sein. 6
Was untersuchen wir im Projekt? Fehleranalyse bei: On-line-Übersetzungssystemen Wort-zu-Wort-Übersetzung Wie kann man solche Verfahren verbessern (beispiel-basierte Übersetzung) Wie gut muss die Übersetzungsqualität für Retrieval- Zwecke sein? System Architektur Suchanfrage (EN) On-line MÜ Lexikon Wort-zu-Wort MÜ EBMT Dokumente Suchanfrage (DE) Suchmaschine Web-Seiten 7
Ein paar Beispiele von On-Line Übersetzungen (Babelfish) -1- Suchanfrage: When can I enroll for the summer term? Übersetzung: Wenn ich für Sommerbezeichnung einschreiben kann Ein paar Beispiele von On-Line Übersetzungen (Babelfish) -2- Suchanfrage: How long lasts Bachelor in Computer Science? Übersetzung: Wie langer Letzte Junggeselle in der Informatik 8
Ein paar Beispiele von On-Line Übersetzungen (Babelfish)-3- Suchanfrage: Which lectures are obligatory in the first semester Übersetzung: Welche Vorträge sind im ersten Semester obligatorisch? Die teilweise falsche Übersetzung führt hier zu falschen Ergebnissen: Es werden die Kolloquiums- Vorträge gefunden! Aufgaben 04.04 /11.04 Wählen Sie 3 Suchmaschinen aus der Liste Übersetzen Sie das Testkorpus mit den on-line- Übersetzungssystemen Analysieren Sie die Ergebnisse und wählen sie das beste Übersetzungssystem Implementieren Sie die Schnittstelle zwischen dem on-line-übersetzungssystem und der Suchmaschine des Dept. Informatik. 9