Einführung in die Maschinelle Übersetzung



Ähnliche Dokumente
Ziele und Herausforderungen

Maschinelle Übersetzung

Grundstudiumspraktikum WiSe 04/05. Maschinelle Übersetzung

EUROPÄISCHES AMT FÜR PERSONALAUSWAHL (EPSO)

ANSCHRIFT: Athena Court, Office 32, 3 rd floor, 2 Americanas Street,Potamos Yermasoyias, 4048 Limassol- Cypru P.O.Box CY-3507 Limasol - Cyprus

Leichte-Sprache-Bilder

Internationaler Sprachdienstleister

Wie funktioniert automatisierte Übersetzung? Prof. Josef van Genabith (Deutsches Forschungszentrum für Künstliche Intelligenz)

1 / 12. Ich und die modernen Fremdsprachen. Fragebogen für die Schülerinnen und Schüler der 5. Klasse Februar-März 2007

1. Weniger Steuern zahlen

Catherina Lange, Heimbeiräte und Werkstatträte-Tagung, November

Alle gehören dazu. Vorwort

Kulturelle Evolution 12

1: 9. Hamburger Gründerpreis - Kategorie Existenzgründer :00 Uhr

Aktivierung der SeKA-Anmeldung

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Formale Sprachen und Grammatiken

Deutsch als Fremdsprache

Schritte 4. Lesetexte 13. Kosten für ein Girokonto vergleichen. 1. Was passt? Ordnen Sie zu.

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

40-Tage-Wunder- Kurs. Umarme, was Du nicht ändern kannst.

Was meinen die Leute eigentlich mit: Grexit?

Was bedeutet Inklusion für Geschwisterkinder? Ein Meinungsbild. Irene von Drigalski Geschäftsführerin Novartis Stiftung FamilienBande.

Fremdsprachen. 1. Untersuchungsziel

Pädagogische Hinweise B2 / 12

9 Auto. Rund um das Auto. Welche Wörter zum Thema Auto kennst du? Welches Wort passt? Lies die Definitionen und ordne zu.

B: bei mir war es ja die X, die hat schon lange probiert mich dahin zu kriegen, aber es hat eine Weile gedauert.

Nicht über uns ohne uns

ONLINE-AKADEMIE. "Diplomierter NLP Anwender für Schule und Unterricht" Ziele

Das Persönliche Budget in verständlicher Sprache

Die Bundes-Zentrale für politische Bildung stellt sich vor

Informatik 12 Datenbanken SQL-Einführung

Online WÖRTERBÜCHER. Für diese Liste bedanken wir uns an Mailing-Liste "JOE" (Junge Osteuropa Experten).

Europäischer Fonds für Regionale Entwicklung: EFRE im Bundes-Land Brandenburg vom Jahr 2014 bis für das Jahr 2020 in Leichter Sprache


1 Mathematische Grundlagen

Übersetzung von TeamLab in andere Sprachen

Glaube an die Existenz von Regeln für Vergleiche und Kenntnis der Regeln

Festplatte defragmentieren Internetspuren und temporäre Dateien löschen

Informationen zur Erstellung des Projektantrags in den IT-Berufen und zum AbschlussPrüfungOnlineSystem (CIC-APrOS)

Die Post hat eine Umfrage gemacht

Leitbild. für Jedermensch in leicht verständlicher Sprache

Dow Jones am im 1-min Chat

Sparen in Deutschland - mit Blick über die Ländergrenzen

trivum Multiroom System Konfigurations- Anleitung Erstellen eines RS232 Protokolls am Bespiel eines Marantz SR7005

Novell Client. Anleitung. zur Verfügung gestellt durch: ZID Dezentrale Systeme. Februar ZID Dezentrale Systeme

4. AUSSAGENLOGIK: SYNTAX. Der Unterschied zwischen Objektsprache und Metasprache lässt sich folgendermaßen charakterisieren:

WAS finde ich WO im Beipackzettel

Dieses erste Kreisdiagramm, bezieht sich auf das gesamte Testergebnis der kompletten 182 getesteten Personen. Ergebnis

Urlaubsregel in David

Weltenbummler oder Couch-Potato? Lektion 10 in Themen neu 3, nach Übung 5

DAVID: und David vom Deutschlandlabor. Wir beantworten Fragen zu Deutschland und den Deutschen.

Anleitung über den Umgang mit Schildern

Grundbegriffe der Informatik

Statuten in leichter Sprache

Elternzeit Was ist das?

Linguistik für Kognitionswissenschaften

Professionelle Seminare im Bereich MS-Office

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Der Nachhilfe Campus. Warum Nachhilfe?

Kurzanleitung. MEYTON Aufbau einer Internetverbindung. 1 Von 11

Studieren- Erklärungen und Tipps

Requirements Engineering für IT Systeme

Sparen in Deutschland - mit Blick über die Ländergrenzen

Proxy. Krishna Tateneni Übersetzer: Stefan Winter

Gutes Leben was ist das?

Zulassung nach MID (Measurement Instruments Directive)

1. Richtig oder falsch? R F

Multicheck Schülerumfrage 2013

How to do? Projekte - Zeiterfassung

Und der Schluß vom Beschluß: Beschlossen und verkündet hört sich an wie aus einer Gerichtsserie. Was soll das alles?

Wichtige Forderungen für ein Bundes-Teilhabe-Gesetz

Programmiersprachen und Übersetzer

Objektorientierte Programmierung für Anfänger am Beispiel PHP

Robot Karol für Delphi

FlowFact Alle Versionen

Wann ist eine Software in Medizinprodukte- Aufbereitungsabteilungen ein Medizinprodukt?

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Versetzungsgefahr als ultimative Chance. ein vortrag für versetzungsgefährdete

Enigmail Konfiguration

Deine Meinung ist wichtig. Informationen für Kinder und Jugendliche zur Anhörung

Die Online-Meetings bei den Anonymen Alkoholikern. zum Thema. Online - Meetings. Eine neue Form der Selbsthilfe?

Die Invaliden-Versicherung ändert sich

Fragebogen zur Evaluation der Vorlesung und Übungen Computer Grafik, CS231, SS05

Welche Bereiche gibt es auf der Internetseite vom Bundes-Aufsichtsamt für Flugsicherung?

Evangelisieren warum eigentlich?

Internet Kurs. Suchmaschinen

L10N-Manager 3. Netzwerktreffen der Hochschulübersetzer/i nnen Mannheim 10. Mai 2016

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Welches Übersetzungsbüro passt zu mir?

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Informationen zum Ambulant Betreuten Wohnen in leichter Sprache

Örtliche Angebots- und Teilhabeplanung im Landkreis Weilheim-Schongau

Unsere Ideen für Bremen!

Ohne Fehler geht es nicht Doch wie viele Fehler sind erlaubt?

Auswertung JAM! Fragebogen: Deine Meinung ist uns wichtig!

Erfahrungen mit Hartz IV- Empfängern

Theorien und Modelle I WS 2006/07 Prinzipien- und Parametermodell 1

Transkript:

Einführung in die Maschinelle Übersetzung - Grundlagen, Probleme und Lösungswege - Walther v.hahn Universität Hamburg Fachbereich Informatik Arbeitsbereich Natürlichsprachliche Systeme WWW: http://nats-www.informatik.unihamburg.de/view/user/walthervhahn E-Mail: vhahn@informatik, uni-hamburg.de Gliederung Allgemeines Technische Problemfelder Natürliche Sprachen sind komplex und nicht deterministisch Sprachen unterschieden sich enorm Übersetzungstiefe Methoden der Maschinellen Übersetzung Vortrag Dr. Vertan: Die Technolgie der Maschinellen Übersetzung Verfahren: Korpusbasiertes Paradigma Beispielorierte Maschinelle Übersetzung Statistische Maschinelle Übersetzung Algorithmen. Der Stand der Kunst Hybride Techniken 2 1

Häufige Abkürzungen in der Literatur MT Machine Translation Maschinelle Übersetzung MÜ MT Machine Aided Computergestützte - Translation Übersetzung - MAHT Machine Aided Human Translation HAMT Human aided Machine Translation SL Source Language Quellsprache QS TL Target Language Zielsprache ZS 3 Maschinelle Übersetzung als Forschungsgebiet MÜ ist kein isoliertes Forschungsgebiet, sondern eine Anwendung von Methoden aus mehreren Bereichen: Linguistik Computer- Linguistik MÜ Übersetzungstheorie Informatik 4 2

Warum brauchen wir Maschinelle Übersetzung? Weltweit ist hat der Übersetzungsmarkt einen Wert von 1989 20 1990 500 2003 2000 Million $. Das durchschnittliche jährliche Wachstum ist immer noch ca 20% Schon 1986 waren es weltweit mehr als 500 Mio. übersetzte Seiten, davon mehr als 100 Mio. in Europa. Davon 1% > Belletristik 30% offizielle (Staatliche) Seiten 50% Industrie und Wirtschaft (meist technische Dokumentation) Die Zeiteinsparung durch die Benutzung des MT-Systems Systran war nach Kundenauskunft ca. 75% Dienstverbesserung durch MAT-Systeme (nach deutsche Airbus): 20% 5 Europäische Union Systran hat schon 1994 140 000 Seiten an EU-Dokumenten übersetzt. 80 % der EU-Dokumente zwischen Spanisch und Französisch sind automatisch übersetzt. Man kann nicht so viele ÜbersetzerInnen/DolmetscherInnen ausbilden wie gebraucht werden Die Situation ist nach der EU-Erweiterung ist noch angespannter geworden: Zur Zeit gibt es allein 23 EU Amtsprachen = 506 Sprachpaare. 6 3

Amtssprachen der EU български (Bălgarski) - BG - Bulgarisch Čeština - CS - Tschechisch Dansk - DA - Dänisch Deutsch - DE Eesti - ET - Estnisch Elinika - EL - Griechisch English - EN - Englisch Español - ES - Spanisch Français - FR - Französisch Gaeilge - GA - Irisch Italiano - IT - Italienisch Latviesu valoda - LV - Lettisch Lietuviu kalba - LT - Litauisch Magyar - HU - Ungarisch Malti - MT - Maltesisch Nederlands - NL - Niederländisch Polski - PL - Polnisch Português - PT - Portugiesisch Română - RO - Rumänisch Slovenčina - SK - Slowakisch Slovenščina - SL - Slowenisch Suomi - FI - Finnisch Svenska - SV - Schwedisch 7 Funktionale Typologie für MÜ-Systeme Translation Carbonell Translation for Assimilation Translation for Dissemination Scanning for Relevance Data- Extraction Informal Interaction Publications quality Indexing Result analysis and trend recognition High Volume per Domain One of a Kind Document 8 4

Zwei Problemfelder A. Grundsätzlich komplexe Eigenschaften natürlicher Sprachen gegenüber formalen Sprachen müssen auf allen Ebenen (Wort, Syntax, Text, Kommunikation) behandelt werden. B. Unterschiede zwischen den Sprachen müssen aufeinander abgebildet werden. 1. Lexikalische Wahl 2. Syntaktische Struktur 3. Begriffliches System 4. Stilistische Regeln 5. Kultureller Hintergrund 9 A1. Typisch für natürliche Sprachen: Ambiguität Ambiguitäten auf allen Ebenen:. Sprachsignal-Ambiguität Rat vs. Rad peak vs. peek lexikalische Ambiguität Fahren sie zu der nächsten Bank! Syntaktische Ambiguität I saw the Dacia-Service driving to the airport Pragmatische Ambiguität Können Sie mir bitte die Anweisungen per SMS schicken? (Als Antwort nicht: Ja, kann ich! ) Referentielle Ambiguität Nehmen Sie das Warndreieck aus dem Auto und stellen Sie es sichtbar auf die Strasse Ambiguität ist der Hauptunterschied zwischen formalen und natürlichen Sprachen 10 5

A2. Weitere Merkmale natürlicher Sprachen Fernbeziehung von Konstituenten Eine bei allen Bedingungen einwandfrei arbeitende Abgasreinigungsanlage Nichtkontinuerliche Komponenten (Der Kraftstoff, den Sie getankt haben, weicht wahrscheinlich von der Norm ab.) Ellipsen ( Hier ebenso ) Stellen Sie sich diese Phänomene einmal bei Paraphrasen ( geht in Ordnung! ok! ) Programmiersprachen vor... Kohärenz Es ist auch durchgebrannt Verstehen durch Weltwissen Bei Fahrten in England oder ähnlichen Ländern blendet das asymmetrische Abblendlicht den Gegenverkehr. d.h. anderen Ländern mit Linksverkehr 11 B1. Unterschiede zwischen Sprachen: Lexikalische Wahl - 1 - Ein Wort in der Quellsprache muss durch mehrere einzelne Wörter oder Mehrwortausdrücke in der Zielsprache übersetzt werden (dt. Senkkopfschraube engl. counter sunk bolt), Eins-zu-mehr Übersetzungen (Ein Wort in der Quellsprache hat kontextabhängig mehrere Übersetzungen) QS: Wall (engl.) wird mit ZS Mauer (dt.) oder Wand (dt.) übersetzt, abhängig davon, ob das Objekt innen oder aussen ist. In diesem Fall müssen semantische Merkmale verglichen werden müssen. Für die Übersetzung von know muss der grammatische Kontext bekannt sein: I know him (engl.) Ich kenne ihn (dt.) I know a solution (engl.) Ich weiß eine Lösung (dt.) 50% der Übersetzungsfehler in der MÜ sind lexikalische Fehler 12 6

B1. Unterschiede zwischen Sprachen: Lexikalische Wahl - 2 - Mehr-zu-eins Übersetzung: QS Herrenhaus (dt.) muß mit house (engl.) übersetzt werden, erzeugt in der ZS aber die Ambiguität mit dt. Haus: Haus Palast Schloss Burg Herrenhaus house palace castle mansion Die Gründe lexikalischer Unterschiede zwischen Sprachen sind: Unterschiedliche Begriffe oder Begriffsteilung Unterschiedliche Grammatikregeln Unterschiedliche stilistische Regeln 13 B1. Unterschiede zwischen Sprachen: Lexikalische Wahl - 3 - Lexikalische Lücken - Einzelwörter/Konzepte in eine Sprache, die in der Zielsprache nur umschrieben werden können, Z.B. abschleppen (dt.) = to take in tow (engl.) Solche Probleme können nicht allein durch lexikalischen Transfer gelöst werden, da es z.b. im Englischen Lexikon keinen Eintrag to take in tow geben kann. Lexical gaps betreffen nicht nur spezifische kulturelle Konzepte (e.g. HartzIV, Meldebescheinigung), letztere sind normalerweise auch einfacher, da sie normalerweise unübersetzt bleiben. 14 7

B2. Syntaktische Unterschiede zwischen Sprachen Die syntaktische Strukturen in beiden Sprachen sind unterschiedlich S S VP VP PP NP NP VP NP Adv V Det N Dadurch [wird entlastet] die Bremsanlage Pron V N Prep Art Adj N This relieves strain on the brake system 15 B3. Begriffliche Unterschiede Die Begrifflichkeit z.b. bei Verwandtschaftsbezeichnungen ist unterschiedlich zwischen Kulturen: dän. farbror (Bruder des Vaters) dt. Onkel dän. morbror (Bruder der Mutter) Dt. Walfisch engl. whale Engl. ladybird dt. Schmetterling 16 8

B4. Stilistische Unterschiede Deutsches Duzen und Siezen: Sie : Alle Vertreter einer Institution Alle unbekannte Personen Du : Erwachsene zu Kindern (bis zu ~15 Jahren) Junge Leute unter sich (bis zu ~ 35), wie z.b. Schüler, Studenten Informelle Gruppen (Sport, Ferien, Hobby) Unsicher: Gruppen am Arbeitsplatz, Verwandtschaft jenseits Cousins Im Dänischen und Englischen duzt man generell 17 B5. Kulturelle Unterschiede Höflichkeitsformeln sind extrem unterschiedlich z.b. zwischen Amerikanisch und Japanisch: Am. Engl.: Hi, John, I am from the Efficiency group and I want to inform you, that... Jap.: Verehrter Herr Watanabe, Ich bin sicher, dass ich Ihre wertvolle Zeit wegen einer Kleinigkeit in Anspruch nehme und sie viele wichtige Arbeiten zu tun haben. Könnten Sie mir bitte sagen, wann Sie einige Minuten Zeit haben, um mit mir zu sprechen.... Männer und Frauen benutzen im Japanischen in Anhängigkeit vom Geschlecht und Rang des/r Angesprochenen unterschiedliche Sprache, bis in die Morphologie hinein 18 9

Maschinelles Dolmetschen Neues Forschungs- und Technologiegebiet mit Anwendungen im: Konsekutivdolmetschen Simultandolmetschen Dialogdolmetschen Ein hochinteressantes Gebiet, weil es Verbindungen zwischen Signal-Ebenel Phonetik und Text-Ebene Linguistik erfordert. Sehr relevant für die kognitive Linguistik wegen der Dolmetschenstrategie Verstehen Zeit- und Ortsverhältnisse Erkennung von Sprechern und Sprachmerkmalen 19 Welche der genannten Fragestellungen treten im Projekt auf? Übersetzung 1-zu mehr : Lexikalischer Fall (Übersetzung von Arbeitsbereichleiter, Prüfungsausschuss usw.) Übersetzung 1-zu-mehr : Kontextfall (Übersetzen von know ) Lexikalische Lücken (Übersetzung von Meldebescheinigung, BaföG, Nebenfach ) Syntaktische Unterschiede: Fragestruktur im Deutschen und Englischen ist unterschiedlich: Where can I obtain Information about...? Wo kann ich Informationen über... bekommen? Begriffliche Unterschiede - bei der Übersetzung von Nebenfach, Seminar, Projekt, usw. Stilistische Unterschiede sind hier einfach zu lösen: you wird mit Sie übersetzt 20 10

Das MÜ-Dreieck Statistische Übersetzung Quell- Text Quell- Syntax Direkte Übersetzung Transferübersetzung Tiefe Übersetzung Quell- Ziel- Semantik Semantik Ziel- Syntax Ziel- Text Interlingua 21 3 sprachiges-transfer-system französische deutsche englische französisch -deutscher Transfer deutsch-französischer Transfer französisch-englischer Transfer englisch-französischer Transfer deutsch-englischer Transfer französische deutsche englische englisch-deutscher Transfer 22 11

3 Sprachiges Interlingua-System französische deutsche Interlingua französische deutsche englische englische 23 Interlingua- vs. Transfer-Systeme Kein Modul ist von einer anderen oder abhängig Zielsprachen haben kein Einfluß auf dem prozeß. Für jede neue Sprache müssen nur 2 neue Module implementiert werden. Rück-Übersetzung ist möglich (nützlich für Systemevaluation) Sehr komplizierte Repräsentation, selbst für Sprachen derselbe Famile) Sprachabhängig Sprachpaarabhängig Für jede Sprache muss ein große Zahl von neuen Modulen implementiert werden. (für n Sprachen: n (n-1) Modulen) Klare Darstellung der Transformationen Lokale Definitionen. 24 12

Standard-Architektur für regelbasierte MÜ-Systeme Eingabe (SL) Ausgabe (TL) Vorverarbeitung Nachbearbeitung Lexikon (SL) Lexikon (ZS) Grammatik (QS) Transfer Grammatik (ZS) Diskurs (QS) Diskurs (ZS) Begriffs- und Fachgebietswissen 25 Architektur eines Direkten Systems Eingabe (SL) Ausgabe (TL) Vorverarbeitung Nachbearbeitung Lexikon (SL) Morphologische Transfer Morphologische Lexikon (TL) 26 13

Architektur von Transfersystemen Eingabe (SL) Ausgabe(TL) Vorverarbeitung Nachbearbeitung Lexikon (QS) Morphologische Morphologische Lexikon (ZS) Grammatik (QS) Syntaktische Syntaktische Grammatik (ZS) Transfer Semantische Semantische 27 Architektur eines Interlinguasystems Eingabe (SL) Ausgabe(TL) Vorverarbeitung Nachbearbeitung Lexikon (QS) Morphologische Morphologische Lexikon (ZS) Grammatik (QS) Diskurs (QS) Syntaktische Semantische Abstrakte Wissens Repräsentation Syntaktische Semantische Grammatik (ZS) Diskurs (ZS) Konzept- und Fachgebietswissen 28 14

Architektur eines Korpusbasierten MT- Systems Übersetzer Paralleles Korpus Training Wissensquelle Text Suche und Rekombination Vorverarbeitung Nachbearbeitung Übersetzung 29 Verbmobil-Architektur 30 15

MÜ-spezifische Vorverarbeitung In den Quelltexten werden bekannte schwierige Bearbeitungsprobleme gesucht und wenn möglich ersetzt. Beispiele für solche Operationen: Identifizierung von Eigennamen ( von Hahn ) Markierung von grammatischen Kategorien von Homographen ( run ) Markierung von eingebettete Äusserungen ( Er sagte: Ich gehe! ) Markierung von koordinierten Stukturen ( und, oder... ) Erstetzung von unbekannten Wörtern ( Landesvergabeverordnung ) Extreme Form: Neuformulierung in einer kontrollierten Sprache (manchmal in technischer Dokumentation) 31 Nachbearbeitung Korrektur der Ausgabe nach einem vorher vereinbarten Standard (z.b. Firmensprache). Minimal bei Übersetzung für Assimilation, Sehr stark für Dissemination Häufige Operationen: Ersetzung von Wörtern durch geeignete Synonyme, Ersetzung von einzelnen Wörtern durch Idiome, Syntaxkorrektur. 32 16

Evaluation von MT-Systemen Im Gegensatz zu anderen Softwarewerkzeugen gibt es bei Übersetzungen keine eindeutige Zielstruktur, keine Musterlösung, mit der die Lösung verglichen werden kann: Für eine Eingabe gibt es mehrere korrekte Übersetzungen Die Evaluation eines MT-Systems ist von den Aufgaben des Systems und den Anforderungen möglicher Nutzer abhängig. 33 Evaluationsstrategien Testsuite vs. Testkorpus Sorgfältig konstruierte Beispielgruppen, die möglichst flächendeckend jeweils spezielle sprachliche, linguistische oder stilistische Phänomene testen Problem: Dahinter steht die Anname, dass man von konstruierten Beispielen auf alle realen Nutzungen schließen kann. Testsuite-Bewertungen sind u.a. wegen der Sprachunterschiede untereinander schwer vergleichbar Ein angemessenes reales Korpus aus der zukünftigen Nutzungsdomäne, Problem: Es werden typische und häufige Fälle getestet, nicht systematisch bestimmte sprachliche, linguistische oder stilistische Schwierigkeiten. Vorhersagen über die Performanz des Systems in anderen Sachgebieten oder Nutzergruppen sind schwierig. 34 17

GE T Eva luat ion 35 Unterschiedliche MÜ-Methoden Regelbasierte MÜ Wissensbasierte MÜ Statistische MÜ Beispielbasierte MÜ + + + Hybride Systeme Methoden für computergestützte Übersetzung: Maschinell unterstütze Humanübersetzung einschließlich Vorbearbeitung und Nachbearbeitung Translation Memories (Translation Workbenches) 36 18