Einführung in die Maschinelle Übersetzung - Grundlagen, Probleme und Lösungswege - Walther v.hahn Universität Hamburg Fachbereich Informatik Arbeitsbereich Natürlichsprachliche Systeme WWW: http://nats-www.informatik.unihamburg.de/view/user/walthervhahn E-Mail: vhahn@informatik, uni-hamburg.de Gliederung Allgemeines Technische Problemfelder Natürliche Sprachen sind komplex und nicht deterministisch Sprachen unterschieden sich enorm Übersetzungstiefe Methoden der Maschinellen Übersetzung Vortrag Dr. Vertan: Die Technolgie der Maschinellen Übersetzung Verfahren: Korpusbasiertes Paradigma Beispielorierte Maschinelle Übersetzung Statistische Maschinelle Übersetzung Algorithmen. Der Stand der Kunst Hybride Techniken 2 1
Häufige Abkürzungen in der Literatur MT Machine Translation Maschinelle Übersetzung MÜ MT Machine Aided Computergestützte - Translation Übersetzung - MAHT Machine Aided Human Translation HAMT Human aided Machine Translation SL Source Language Quellsprache QS TL Target Language Zielsprache ZS 3 Maschinelle Übersetzung als Forschungsgebiet MÜ ist kein isoliertes Forschungsgebiet, sondern eine Anwendung von Methoden aus mehreren Bereichen: Linguistik Computer- Linguistik MÜ Übersetzungstheorie Informatik 4 2
Warum brauchen wir Maschinelle Übersetzung? Weltweit ist hat der Übersetzungsmarkt einen Wert von 1989 20 1990 500 2003 2000 Million $. Das durchschnittliche jährliche Wachstum ist immer noch ca 20% Schon 1986 waren es weltweit mehr als 500 Mio. übersetzte Seiten, davon mehr als 100 Mio. in Europa. Davon 1% > Belletristik 30% offizielle (Staatliche) Seiten 50% Industrie und Wirtschaft (meist technische Dokumentation) Die Zeiteinsparung durch die Benutzung des MT-Systems Systran war nach Kundenauskunft ca. 75% Dienstverbesserung durch MAT-Systeme (nach deutsche Airbus): 20% 5 Europäische Union Systran hat schon 1994 140 000 Seiten an EU-Dokumenten übersetzt. 80 % der EU-Dokumente zwischen Spanisch und Französisch sind automatisch übersetzt. Man kann nicht so viele ÜbersetzerInnen/DolmetscherInnen ausbilden wie gebraucht werden Die Situation ist nach der EU-Erweiterung ist noch angespannter geworden: Zur Zeit gibt es allein 23 EU Amtsprachen = 506 Sprachpaare. 6 3
Amtssprachen der EU български (Bălgarski) - BG - Bulgarisch Čeština - CS - Tschechisch Dansk - DA - Dänisch Deutsch - DE Eesti - ET - Estnisch Elinika - EL - Griechisch English - EN - Englisch Español - ES - Spanisch Français - FR - Französisch Gaeilge - GA - Irisch Italiano - IT - Italienisch Latviesu valoda - LV - Lettisch Lietuviu kalba - LT - Litauisch Magyar - HU - Ungarisch Malti - MT - Maltesisch Nederlands - NL - Niederländisch Polski - PL - Polnisch Português - PT - Portugiesisch Română - RO - Rumänisch Slovenčina - SK - Slowakisch Slovenščina - SL - Slowenisch Suomi - FI - Finnisch Svenska - SV - Schwedisch 7 Funktionale Typologie für MÜ-Systeme Translation Carbonell Translation for Assimilation Translation for Dissemination Scanning for Relevance Data- Extraction Informal Interaction Publications quality Indexing Result analysis and trend recognition High Volume per Domain One of a Kind Document 8 4
Zwei Problemfelder A. Grundsätzlich komplexe Eigenschaften natürlicher Sprachen gegenüber formalen Sprachen müssen auf allen Ebenen (Wort, Syntax, Text, Kommunikation) behandelt werden. B. Unterschiede zwischen den Sprachen müssen aufeinander abgebildet werden. 1. Lexikalische Wahl 2. Syntaktische Struktur 3. Begriffliches System 4. Stilistische Regeln 5. Kultureller Hintergrund 9 A1. Typisch für natürliche Sprachen: Ambiguität Ambiguitäten auf allen Ebenen:. Sprachsignal-Ambiguität Rat vs. Rad peak vs. peek lexikalische Ambiguität Fahren sie zu der nächsten Bank! Syntaktische Ambiguität I saw the Dacia-Service driving to the airport Pragmatische Ambiguität Können Sie mir bitte die Anweisungen per SMS schicken? (Als Antwort nicht: Ja, kann ich! ) Referentielle Ambiguität Nehmen Sie das Warndreieck aus dem Auto und stellen Sie es sichtbar auf die Strasse Ambiguität ist der Hauptunterschied zwischen formalen und natürlichen Sprachen 10 5
A2. Weitere Merkmale natürlicher Sprachen Fernbeziehung von Konstituenten Eine bei allen Bedingungen einwandfrei arbeitende Abgasreinigungsanlage Nichtkontinuerliche Komponenten (Der Kraftstoff, den Sie getankt haben, weicht wahrscheinlich von der Norm ab.) Ellipsen ( Hier ebenso ) Stellen Sie sich diese Phänomene einmal bei Paraphrasen ( geht in Ordnung! ok! ) Programmiersprachen vor... Kohärenz Es ist auch durchgebrannt Verstehen durch Weltwissen Bei Fahrten in England oder ähnlichen Ländern blendet das asymmetrische Abblendlicht den Gegenverkehr. d.h. anderen Ländern mit Linksverkehr 11 B1. Unterschiede zwischen Sprachen: Lexikalische Wahl - 1 - Ein Wort in der Quellsprache muss durch mehrere einzelne Wörter oder Mehrwortausdrücke in der Zielsprache übersetzt werden (dt. Senkkopfschraube engl. counter sunk bolt), Eins-zu-mehr Übersetzungen (Ein Wort in der Quellsprache hat kontextabhängig mehrere Übersetzungen) QS: Wall (engl.) wird mit ZS Mauer (dt.) oder Wand (dt.) übersetzt, abhängig davon, ob das Objekt innen oder aussen ist. In diesem Fall müssen semantische Merkmale verglichen werden müssen. Für die Übersetzung von know muss der grammatische Kontext bekannt sein: I know him (engl.) Ich kenne ihn (dt.) I know a solution (engl.) Ich weiß eine Lösung (dt.) 50% der Übersetzungsfehler in der MÜ sind lexikalische Fehler 12 6
B1. Unterschiede zwischen Sprachen: Lexikalische Wahl - 2 - Mehr-zu-eins Übersetzung: QS Herrenhaus (dt.) muß mit house (engl.) übersetzt werden, erzeugt in der ZS aber die Ambiguität mit dt. Haus: Haus Palast Schloss Burg Herrenhaus house palace castle mansion Die Gründe lexikalischer Unterschiede zwischen Sprachen sind: Unterschiedliche Begriffe oder Begriffsteilung Unterschiedliche Grammatikregeln Unterschiedliche stilistische Regeln 13 B1. Unterschiede zwischen Sprachen: Lexikalische Wahl - 3 - Lexikalische Lücken - Einzelwörter/Konzepte in eine Sprache, die in der Zielsprache nur umschrieben werden können, Z.B. abschleppen (dt.) = to take in tow (engl.) Solche Probleme können nicht allein durch lexikalischen Transfer gelöst werden, da es z.b. im Englischen Lexikon keinen Eintrag to take in tow geben kann. Lexical gaps betreffen nicht nur spezifische kulturelle Konzepte (e.g. HartzIV, Meldebescheinigung), letztere sind normalerweise auch einfacher, da sie normalerweise unübersetzt bleiben. 14 7
B2. Syntaktische Unterschiede zwischen Sprachen Die syntaktische Strukturen in beiden Sprachen sind unterschiedlich S S VP VP PP NP NP VP NP Adv V Det N Dadurch [wird entlastet] die Bremsanlage Pron V N Prep Art Adj N This relieves strain on the brake system 15 B3. Begriffliche Unterschiede Die Begrifflichkeit z.b. bei Verwandtschaftsbezeichnungen ist unterschiedlich zwischen Kulturen: dän. farbror (Bruder des Vaters) dt. Onkel dän. morbror (Bruder der Mutter) Dt. Walfisch engl. whale Engl. ladybird dt. Schmetterling 16 8
B4. Stilistische Unterschiede Deutsches Duzen und Siezen: Sie : Alle Vertreter einer Institution Alle unbekannte Personen Du : Erwachsene zu Kindern (bis zu ~15 Jahren) Junge Leute unter sich (bis zu ~ 35), wie z.b. Schüler, Studenten Informelle Gruppen (Sport, Ferien, Hobby) Unsicher: Gruppen am Arbeitsplatz, Verwandtschaft jenseits Cousins Im Dänischen und Englischen duzt man generell 17 B5. Kulturelle Unterschiede Höflichkeitsformeln sind extrem unterschiedlich z.b. zwischen Amerikanisch und Japanisch: Am. Engl.: Hi, John, I am from the Efficiency group and I want to inform you, that... Jap.: Verehrter Herr Watanabe, Ich bin sicher, dass ich Ihre wertvolle Zeit wegen einer Kleinigkeit in Anspruch nehme und sie viele wichtige Arbeiten zu tun haben. Könnten Sie mir bitte sagen, wann Sie einige Minuten Zeit haben, um mit mir zu sprechen.... Männer und Frauen benutzen im Japanischen in Anhängigkeit vom Geschlecht und Rang des/r Angesprochenen unterschiedliche Sprache, bis in die Morphologie hinein 18 9
Maschinelles Dolmetschen Neues Forschungs- und Technologiegebiet mit Anwendungen im: Konsekutivdolmetschen Simultandolmetschen Dialogdolmetschen Ein hochinteressantes Gebiet, weil es Verbindungen zwischen Signal-Ebenel Phonetik und Text-Ebene Linguistik erfordert. Sehr relevant für die kognitive Linguistik wegen der Dolmetschenstrategie Verstehen Zeit- und Ortsverhältnisse Erkennung von Sprechern und Sprachmerkmalen 19 Welche der genannten Fragestellungen treten im Projekt auf? Übersetzung 1-zu mehr : Lexikalischer Fall (Übersetzung von Arbeitsbereichleiter, Prüfungsausschuss usw.) Übersetzung 1-zu-mehr : Kontextfall (Übersetzen von know ) Lexikalische Lücken (Übersetzung von Meldebescheinigung, BaföG, Nebenfach ) Syntaktische Unterschiede: Fragestruktur im Deutschen und Englischen ist unterschiedlich: Where can I obtain Information about...? Wo kann ich Informationen über... bekommen? Begriffliche Unterschiede - bei der Übersetzung von Nebenfach, Seminar, Projekt, usw. Stilistische Unterschiede sind hier einfach zu lösen: you wird mit Sie übersetzt 20 10
Das MÜ-Dreieck Statistische Übersetzung Quell- Text Quell- Syntax Direkte Übersetzung Transferübersetzung Tiefe Übersetzung Quell- Ziel- Semantik Semantik Ziel- Syntax Ziel- Text Interlingua 21 3 sprachiges-transfer-system französische deutsche englische französisch -deutscher Transfer deutsch-französischer Transfer französisch-englischer Transfer englisch-französischer Transfer deutsch-englischer Transfer französische deutsche englische englisch-deutscher Transfer 22 11
3 Sprachiges Interlingua-System französische deutsche Interlingua französische deutsche englische englische 23 Interlingua- vs. Transfer-Systeme Kein Modul ist von einer anderen oder abhängig Zielsprachen haben kein Einfluß auf dem prozeß. Für jede neue Sprache müssen nur 2 neue Module implementiert werden. Rück-Übersetzung ist möglich (nützlich für Systemevaluation) Sehr komplizierte Repräsentation, selbst für Sprachen derselbe Famile) Sprachabhängig Sprachpaarabhängig Für jede Sprache muss ein große Zahl von neuen Modulen implementiert werden. (für n Sprachen: n (n-1) Modulen) Klare Darstellung der Transformationen Lokale Definitionen. 24 12
Standard-Architektur für regelbasierte MÜ-Systeme Eingabe (SL) Ausgabe (TL) Vorverarbeitung Nachbearbeitung Lexikon (SL) Lexikon (ZS) Grammatik (QS) Transfer Grammatik (ZS) Diskurs (QS) Diskurs (ZS) Begriffs- und Fachgebietswissen 25 Architektur eines Direkten Systems Eingabe (SL) Ausgabe (TL) Vorverarbeitung Nachbearbeitung Lexikon (SL) Morphologische Transfer Morphologische Lexikon (TL) 26 13
Architektur von Transfersystemen Eingabe (SL) Ausgabe(TL) Vorverarbeitung Nachbearbeitung Lexikon (QS) Morphologische Morphologische Lexikon (ZS) Grammatik (QS) Syntaktische Syntaktische Grammatik (ZS) Transfer Semantische Semantische 27 Architektur eines Interlinguasystems Eingabe (SL) Ausgabe(TL) Vorverarbeitung Nachbearbeitung Lexikon (QS) Morphologische Morphologische Lexikon (ZS) Grammatik (QS) Diskurs (QS) Syntaktische Semantische Abstrakte Wissens Repräsentation Syntaktische Semantische Grammatik (ZS) Diskurs (ZS) Konzept- und Fachgebietswissen 28 14
Architektur eines Korpusbasierten MT- Systems Übersetzer Paralleles Korpus Training Wissensquelle Text Suche und Rekombination Vorverarbeitung Nachbearbeitung Übersetzung 29 Verbmobil-Architektur 30 15
MÜ-spezifische Vorverarbeitung In den Quelltexten werden bekannte schwierige Bearbeitungsprobleme gesucht und wenn möglich ersetzt. Beispiele für solche Operationen: Identifizierung von Eigennamen ( von Hahn ) Markierung von grammatischen Kategorien von Homographen ( run ) Markierung von eingebettete Äusserungen ( Er sagte: Ich gehe! ) Markierung von koordinierten Stukturen ( und, oder... ) Erstetzung von unbekannten Wörtern ( Landesvergabeverordnung ) Extreme Form: Neuformulierung in einer kontrollierten Sprache (manchmal in technischer Dokumentation) 31 Nachbearbeitung Korrektur der Ausgabe nach einem vorher vereinbarten Standard (z.b. Firmensprache). Minimal bei Übersetzung für Assimilation, Sehr stark für Dissemination Häufige Operationen: Ersetzung von Wörtern durch geeignete Synonyme, Ersetzung von einzelnen Wörtern durch Idiome, Syntaxkorrektur. 32 16
Evaluation von MT-Systemen Im Gegensatz zu anderen Softwarewerkzeugen gibt es bei Übersetzungen keine eindeutige Zielstruktur, keine Musterlösung, mit der die Lösung verglichen werden kann: Für eine Eingabe gibt es mehrere korrekte Übersetzungen Die Evaluation eines MT-Systems ist von den Aufgaben des Systems und den Anforderungen möglicher Nutzer abhängig. 33 Evaluationsstrategien Testsuite vs. Testkorpus Sorgfältig konstruierte Beispielgruppen, die möglichst flächendeckend jeweils spezielle sprachliche, linguistische oder stilistische Phänomene testen Problem: Dahinter steht die Anname, dass man von konstruierten Beispielen auf alle realen Nutzungen schließen kann. Testsuite-Bewertungen sind u.a. wegen der Sprachunterschiede untereinander schwer vergleichbar Ein angemessenes reales Korpus aus der zukünftigen Nutzungsdomäne, Problem: Es werden typische und häufige Fälle getestet, nicht systematisch bestimmte sprachliche, linguistische oder stilistische Schwierigkeiten. Vorhersagen über die Performanz des Systems in anderen Sachgebieten oder Nutzergruppen sind schwierig. 34 17
GE T Eva luat ion 35 Unterschiedliche MÜ-Methoden Regelbasierte MÜ Wissensbasierte MÜ Statistische MÜ Beispielbasierte MÜ + + + Hybride Systeme Methoden für computergestützte Übersetzung: Maschinell unterstütze Humanübersetzung einschließlich Vorbearbeitung und Nachbearbeitung Translation Memories (Translation Workbenches) 36 18