Linguistik für Kognitionswissenschaften



Ähnliche Dokumente
Ziele und Herausforderungen

Wie funktioniert automatisierte Übersetzung? Prof. Josef van Genabith (Deutsches Forschungszentrum für Künstliche Intelligenz)

Grundbegriffe der Informatik

Professionelle Seminare im Bereich MS-Office

Formale Sprachen und Grammatiken

Was meinen die Leute eigentlich mit: Grexit?

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Was ich als Bürgermeister für Lübbecke tun möchte

Die Bundes-Zentrale für politische Bildung stellt sich vor

4. AUSSAGENLOGIK: SYNTAX. Der Unterschied zwischen Objektsprache und Metasprache lässt sich folgendermaßen charakterisieren:

SOZIALVORSCHRIFTEN IM STRAßENVERKEHR Verordnung (EG) Nr. 561/2006, Richtlinie 2006/22/EG, Verordnung (EU) Nr. 165/2014

Die Invaliden-Versicherung ändert sich

Häufig wiederkehrende Fragen zur mündlichen Ergänzungsprüfung im Einzelnen:

Arbeit zur Lebens-Geschichte mit Menschen mit Behinderung Ein Papier des Bundesverbands evangelische Behindertenhilfe e.v.

Alle gehören dazu. Vorwort

Erfahrungen mit Hartz IV- Empfängern

Ohne Fehler geht es nicht Doch wie viele Fehler sind erlaubt?

Statuten in leichter Sprache

Wichtig ist die Originalsatzung. Nur was in der Originalsatzung steht, gilt. Denn nur die Originalsatzung wurde vom Gericht geprüft.

1. Weniger Steuern zahlen

Das Teamrollenmodell nach Meredith Belbin

Das Werk einschließlich aller seiner Texte ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechts

Zahlen und das Hüten von Geheimnissen (G. Wiese, 23. April 2009)

Kapitalerhöhung - Verbuchung

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Leichte-Sprache-Bilder

Gönner der Junioren. Patenschaft für Tennistalente. im Freiamt

Projekt- Management. Landesverband der Mütterzentren NRW. oder warum Horst bei uns Helga heißt

Wir machen neue Politik für Baden-Württemberg

t r Lineare Codierung von Binärbbäumen (Wörter über dem Alphabet {, }) Beispiel code( ) = code(, t l, t r ) = code(t l ) code(t r )

Local Control Network

Das Lazarus-Verfahren - 1 oder auch EOR-Verfahren ( Enhanced Oil Recovery)

Qualität und Verlässlichkeit Das verstehen die Deutschen unter Geschäftsmoral!

Simplex-Umformung für Dummies

e LEARNING Kurz-Anleitung zum Erstellen eines Wikis 1. Wiki erstellen

Digital signierte Rechnungen mit ProSaldo.net

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus:

1 Mathematische Grundlagen

1. Formale Sprachen 1.2 Grammatiken formaler Sprachen

Jeder in Deutschland soll ab Mitte 2016 ein Konto eröffnen können.

Serienbrieferstellung in Word mit Kunden-Datenimport aus Excel

Programmiersprachen und Übersetzer

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Mean Time Between Failures (MTBF)

Anleitung über den Umgang mit Schildern

Lehrer: Einschreibemethoden

Aufkleber, Visitenkarten und Karteikarten

Die Wirtschaftskrise aus Sicht der Kinder

Theorien und Modelle I WS 2006/07 Prinzipien- und Parametermodell 1

ABSENDUNGEN der BICS-REISEANMELDUNG CHECKEN

Lösung für Lehrerinnen und Lehrer Grammatik-Lapbook Teil 1: Wortarten

Nicht über uns ohne uns

Glaube an die Existenz von Regeln für Vergleiche und Kenntnis der Regeln

Übung zur Einführung in die Computerlinguistik. Wiebke Petersen WiSe 04/05

Zwischenablage (Bilder, Texte,...)

vitamin de DaF Arbeitsblatt - zum Thema Jugend Partnerschaft auf dem Lande

Für die Einrichtung des elektronischen Postfachs melden Sie sich wie gewohnt in unserem Online-Banking auf an.

Kapiteltests zum Leitprogramm Binäre Suchbäume

WinVetpro im Betriebsmodus Laptop

Wärmebildkamera. Arbeitszeit: 15 Minuten

Die Post hat eine Umfrage gemacht

Auslotung der Gefühle & Wünsche von Eltern und SchülerInnen zum Schuljahr 2011/2012

Einrichten des Elektronischen Postfachs

1 Part-of-Speech Tagging

BERECHNUNG DER FRIST ZUR STELLUNGNAHME DES BETRIEBSRATES BEI KÜNDIGUNG

TRADER S BLOG. Morgenanalyse vom 01. August 2012

Einführung in die Computerlinguistik

Widerrufsbelehrung der Free-Linked GmbH. Stand: Juni 2014

CARD STAR /medic2 und CARD STAR /memo3 Installation des USB-Treibers (Administrator-Tätigkeit) Stand

Copyright 2015 CADRela?ons.de. 5 GUTE GRÜNDE ein Integriertes CAD/CAM- System zu nutzen

e-books aus der EBL-Datenbank

Dokumentation zum Spielserver der Software Challenge

Bevölkerung mit Migrationshintergrund an der Gesamtbevölkerung 2012

Landes-Arbeits-Gemeinschaft Gemeinsam Leben Gemeinsam Lernen Rheinland-Pfalz e.v.

Warum Sie dieses Buch lesen sollten

Software Ergonomie und Usability. 2. Psychologische Grundlagen - Teil 3: Handlungen

Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming

Modellbildungssysteme: Pädagogische und didaktische Ziele

Das Leitbild vom Verein WIR

Gründe für fehlende Vorsorgemaßnahmen gegen Krankheit

Zinsrechnung 2 leicht 1

Impulse Inklusion Selbst-bestimmtes Wohnen und Nachbarschaft

Menschen und Natur verbinden

Mathematik. UND/ODER Verknüpfung. Ungleichungen. Betrag. Intervall. Umgebung

Transport und Logistik

Fachdidaktik der Informatik Jörg Depner, Kathrin Gaißer

SCHULUNG MIT SYSTEM: E-LEARNING VON RAUM21

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

Netzwerkeinstellungen unter Mac OS X

Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers

Ideen für die Zukunft haben.

Das Persönliche Budget in verständlicher Sprache


Klausur WS 2006/07 Programmiersprache Java Objektorientierte Programmierung II 15. März 2007

Online-Bestellung Tageskarten für Mitglieder des FC St. Pauli, die nicht im Besitz einer Dauer- oder Saisonkarte sind.

SEMINARREIHE MEDIZINETHIK

Anne Frank, ihr Leben

Transkript:

Linguistik für Kognitionswissenschaften Computerlinguistik: Maschinelle Übersetzung

Computerlinguistik Fehlübersetzung von engl. computational linguistics - computationelle Linguistik beinhaltet im weiteren Sinne alle algorithmischen Aspekte von natürlicher Sprache im engeren Sinne: computationelle Modelle der menschlichen Sprachverarbeitung technische Verarbeitung natürlicher Sprache

Computerlinguistik: Geschichte in späten 1950er Jahren Förderung der maschinellen Übersetzung in den USA (v.a. Russisch->Englisch, politischer Hintergrund) Resultate waren extrem schlecht, Förderung wurde eingestellt ab späte 1960er Jahre zweite Generation von CL-Systemen: Dialogsysteme, z.b. Eliza (1966, Joseph Weizenbaum) und SHRDLU (1970, Terry Winograd)

Was steckt hinter Eliza?

Computerlinguistik: Geschichte symbolische Methoden: seit ca. 1980 starkes Interesse an computationell realistischen Grammatikformalismen (GPSG, LFG, HPSG) Unifikation als Modell der grammatischen Komposition hohe Programmiersprachen, die gut mit formaler Linguistik kombinierbar sind (Prolog, Lisp, PATR) neues Interesse an Anwendung regulärer Grammatiken (ausreichend für Morphologie und Phonologie)

Computerlinguistik: Geschichte statistische Methoden: seit Mitte der 1970er Jahre Hidden Markov Models für Spracherkennung und Wortart-Tagging seit Mitte der 1980er Jahre statistisches Parsen seit 1990er Jahre Dominanz der statistischen Methoden dank WWW Verfügbarkeit von extrem großen Datenmengen starker Einfluss von Methoden des maschinellen Lernens

Maschinelle Übersetzung historisch gesehen älteste computerlinguistische Anwendung verlange vollständige Analyse des Input-Satzes und Generierung des Output-Satzes daher nach wie vor die größte Herausforderung für Computerlinguistik

Warum MÜ schwer ist Ambiguitäten lexikalische Lücken syntaktische Divergenz zwischen Quellsprache und Zielsprache

Ambiguität Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften. (Bsp. von Hans Uszkoreit)

Ambiguität Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften. (Bsp. von Hans Uszkoreit) Der Satz weist lexikalische (L), syntaktische (S) und anaphorische (A) Ambiguitäten auf, die uns nicht auffallen. Wieviele Lesarten hat der Satz? 258.048

Ambiguität Das berechnet sich so: L Früher kann sowohl eigenständiges Adverb als auch Komparativ von früh sein (2); L die Verbform stellten is ambig zwischen Präteritum und Konjunktiv (2); S die Nominalphrase die Frauen kann sowohl Subjekt als auch Objekt des Satzes sein (2); S am Wochenende kann die Insel, die Frauen oder das Verb modifizieren (3); S mit Blumenmotiven kann sich auf die Kopftücher beziehen, ein Instrument der Herstellung sein oder ein Adjunkt im Sinne von gemeinsam mit Blumenmotiven (3); L her hat auch eine direktionale Bedeutung (2);

Ambiguität Und weiter: S der Relativsatz könnte jede der vier Nominalphrasen im Plural modifizieren (4); S sowohl die als auch ihre Männer kann Subjekt des Relativsatzes sein (2); A das Possessivpronomen ihre e kann auf jede der Nominalphrasen referieren (4); L S Montagen hat eine zweite Lesart als Nominalisierung von montieren (2); der Hauptinsel kann im Genitiv zu der vorangegangenen NP gehören oder im Dativ die Käuferin bezeichnen (2); S die drei Präpositionalphrasen des Relativsatzes können sich in insgesamt sieben Kombinationen mit den jeweils vorhergehenden NPs oder mit dem Verb verbinden (7); L verkauften zeigt wieder die Ambiguität zwischen Präteritum und Konjunktiv auf (2). Durch Multiplikation ergibt sich die Gesamtambiguität: 2 x 2 x 2 x 3 x 3 x 2 x 4 x 2 x 4 x 2 x 2 x 7 x 2 = 258.048

Probleme bei Wort-zu-Wort- Übersetzung Englisch-Deutsch

Lexikalische Ambiguität

Lexikalische Ambiguität

Strukturelle Divergenz

Strukturelle Divergenz

Unterschiede in Wortstellung

Übersetzung und Kontext Wenn einem die Wörter eines Buches einzeln gezeigt werden, eines nach dem anderen, ist es offensichtlich nicht möglich, die Bedeutung jedes Wortes - ohne Informationen über den Kontext - festzustellen. Wenn man außerdem jeweils die N vorangehenden und nachfolgenden Wörter sieht, kann man die Bedeutung meistens bestimmen, wenn N groß genug ist.

Übersetzung und Kontext Die praktische Frage für MÜ ist: Was ist der Mindestwert für N, die in hinreichend vielen Fällen zur Disambiguierung ausreicht?

Strategien für MÜ Wort-für-Wort-Übersetzung Syntaktischer Transfer Semantischer Transfer Interlingua-Ansatz

Wort-für-Wort-Übersetzung einfachster Ansatz benötigt im einfachsten Fall nur ein elektronisches bilinguales Wörterbuch abängig von Quell- und Zielsprache evt. minimale morphologische Analyse und Generierung kein Einsatz von syntaktischem oder semantischem Wissen

Syntaktischer Transfer verlangt syntaktische Analyse der Quellsprache benötigt syntaktischen Parser

Syntaktischer Transfer Bsp. engl. like -> frz. plaire

Syntaktischer Transfer Bsp. engl. like to -> dt. gern

Semantischer Transfer erfordert syntaktische und semantische Analyse der Quellsprache erfordert sprach-spezifische semantische Repräsentationssprache sprach-spezifische Regen, die Bedeutungen der Quellsprache mit Bedeutungen der Zielsprache in Beziehung setzen erfordert Sprach-Generierungs-Komponente, die zielsprachliche Bedeutungen in Output-Sätze überführt

Semantischer Transfer Synthese üblicherweise in zwei Schritten: semantische Synthese (führt zu syntaktischen Bäumen) morphologische Synthese (produziert flektierte Wörter)

Interlingua-Ansatz Quellsprache wird auf sprach-unabhängige (quasi universale) semantische Repräsentationssprache abgebildet erfordert syntaktische und semantische Analyse der Quellsprache erfordert Sprachgenerierung, die Interlingua- Repräsentation in Zielsprache überführt Synthese ebenfalls in zwei schritten (semantisch-syntaktisch, morphologisch)

Interlingua-Repräsentation für Bewegungsverben

Interlingua-Repräsentation für Bewegungsverben

Allgemeines Schema Interllingua Analyse Transfer Generierung Quelltext Direkte Übersetzung Zieltext