Linguistik für Kognitionswissenschaften Computerlinguistik: Maschinelle Übersetzung
Computerlinguistik Fehlübersetzung von engl. computational linguistics - computationelle Linguistik beinhaltet im weiteren Sinne alle algorithmischen Aspekte von natürlicher Sprache im engeren Sinne: computationelle Modelle der menschlichen Sprachverarbeitung technische Verarbeitung natürlicher Sprache
Computerlinguistik: Geschichte in späten 1950er Jahren Förderung der maschinellen Übersetzung in den USA (v.a. Russisch->Englisch, politischer Hintergrund) Resultate waren extrem schlecht, Förderung wurde eingestellt ab späte 1960er Jahre zweite Generation von CL-Systemen: Dialogsysteme, z.b. Eliza (1966, Joseph Weizenbaum) und SHRDLU (1970, Terry Winograd)
Was steckt hinter Eliza?
Computerlinguistik: Geschichte symbolische Methoden: seit ca. 1980 starkes Interesse an computationell realistischen Grammatikformalismen (GPSG, LFG, HPSG) Unifikation als Modell der grammatischen Komposition hohe Programmiersprachen, die gut mit formaler Linguistik kombinierbar sind (Prolog, Lisp, PATR) neues Interesse an Anwendung regulärer Grammatiken (ausreichend für Morphologie und Phonologie)
Computerlinguistik: Geschichte statistische Methoden: seit Mitte der 1970er Jahre Hidden Markov Models für Spracherkennung und Wortart-Tagging seit Mitte der 1980er Jahre statistisches Parsen seit 1990er Jahre Dominanz der statistischen Methoden dank WWW Verfügbarkeit von extrem großen Datenmengen starker Einfluss von Methoden des maschinellen Lernens
Maschinelle Übersetzung historisch gesehen älteste computerlinguistische Anwendung verlange vollständige Analyse des Input-Satzes und Generierung des Output-Satzes daher nach wie vor die größte Herausforderung für Computerlinguistik
Warum MÜ schwer ist Ambiguitäten lexikalische Lücken syntaktische Divergenz zwischen Quellsprache und Zielsprache
Ambiguität Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften. (Bsp. von Hans Uszkoreit)
Ambiguität Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften. (Bsp. von Hans Uszkoreit) Der Satz weist lexikalische (L), syntaktische (S) und anaphorische (A) Ambiguitäten auf, die uns nicht auffallen. Wieviele Lesarten hat der Satz? 258.048
Ambiguität Das berechnet sich so: L Früher kann sowohl eigenständiges Adverb als auch Komparativ von früh sein (2); L die Verbform stellten is ambig zwischen Präteritum und Konjunktiv (2); S die Nominalphrase die Frauen kann sowohl Subjekt als auch Objekt des Satzes sein (2); S am Wochenende kann die Insel, die Frauen oder das Verb modifizieren (3); S mit Blumenmotiven kann sich auf die Kopftücher beziehen, ein Instrument der Herstellung sein oder ein Adjunkt im Sinne von gemeinsam mit Blumenmotiven (3); L her hat auch eine direktionale Bedeutung (2);
Ambiguität Und weiter: S der Relativsatz könnte jede der vier Nominalphrasen im Plural modifizieren (4); S sowohl die als auch ihre Männer kann Subjekt des Relativsatzes sein (2); A das Possessivpronomen ihre e kann auf jede der Nominalphrasen referieren (4); L S Montagen hat eine zweite Lesart als Nominalisierung von montieren (2); der Hauptinsel kann im Genitiv zu der vorangegangenen NP gehören oder im Dativ die Käuferin bezeichnen (2); S die drei Präpositionalphrasen des Relativsatzes können sich in insgesamt sieben Kombinationen mit den jeweils vorhergehenden NPs oder mit dem Verb verbinden (7); L verkauften zeigt wieder die Ambiguität zwischen Präteritum und Konjunktiv auf (2). Durch Multiplikation ergibt sich die Gesamtambiguität: 2 x 2 x 2 x 3 x 3 x 2 x 4 x 2 x 4 x 2 x 2 x 7 x 2 = 258.048
Probleme bei Wort-zu-Wort- Übersetzung Englisch-Deutsch
Lexikalische Ambiguität
Lexikalische Ambiguität
Strukturelle Divergenz
Strukturelle Divergenz
Unterschiede in Wortstellung
Übersetzung und Kontext Wenn einem die Wörter eines Buches einzeln gezeigt werden, eines nach dem anderen, ist es offensichtlich nicht möglich, die Bedeutung jedes Wortes - ohne Informationen über den Kontext - festzustellen. Wenn man außerdem jeweils die N vorangehenden und nachfolgenden Wörter sieht, kann man die Bedeutung meistens bestimmen, wenn N groß genug ist.
Übersetzung und Kontext Die praktische Frage für MÜ ist: Was ist der Mindestwert für N, die in hinreichend vielen Fällen zur Disambiguierung ausreicht?
Strategien für MÜ Wort-für-Wort-Übersetzung Syntaktischer Transfer Semantischer Transfer Interlingua-Ansatz
Wort-für-Wort-Übersetzung einfachster Ansatz benötigt im einfachsten Fall nur ein elektronisches bilinguales Wörterbuch abängig von Quell- und Zielsprache evt. minimale morphologische Analyse und Generierung kein Einsatz von syntaktischem oder semantischem Wissen
Syntaktischer Transfer verlangt syntaktische Analyse der Quellsprache benötigt syntaktischen Parser
Syntaktischer Transfer Bsp. engl. like -> frz. plaire
Syntaktischer Transfer Bsp. engl. like to -> dt. gern
Semantischer Transfer erfordert syntaktische und semantische Analyse der Quellsprache erfordert sprach-spezifische semantische Repräsentationssprache sprach-spezifische Regen, die Bedeutungen der Quellsprache mit Bedeutungen der Zielsprache in Beziehung setzen erfordert Sprach-Generierungs-Komponente, die zielsprachliche Bedeutungen in Output-Sätze überführt
Semantischer Transfer Synthese üblicherweise in zwei Schritten: semantische Synthese (führt zu syntaktischen Bäumen) morphologische Synthese (produziert flektierte Wörter)
Interlingua-Ansatz Quellsprache wird auf sprach-unabhängige (quasi universale) semantische Repräsentationssprache abgebildet erfordert syntaktische und semantische Analyse der Quellsprache erfordert Sprachgenerierung, die Interlingua- Repräsentation in Zielsprache überführt Synthese ebenfalls in zwei schritten (semantisch-syntaktisch, morphologisch)
Interlingua-Repräsentation für Bewegungsverben
Interlingua-Repräsentation für Bewegungsverben
Allgemeines Schema Interllingua Analyse Transfer Generierung Quelltext Direkte Übersetzung Zieltext