Diskriminatives syntaktisches Reranking für SMT

Ähnliche Dokumente
Sharon Goldwater & David McClosky. Sarah Hartmann Advanced Topics in Statistical Machine Translation

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging

Learning Phrase Representations using RNN Encoder Decoder for Statistical Machine Translation. Yupeng Guo

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten

Satz Umstrukturierung für statistisch. Anna Schiffarth Dozentin: Miriam Kaeshammer Fortgeschrittene Methoden der statistisch maschinellen Übersetzung

Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart

Echtzeitfähige Algorithmen für markerloses Tracking und Umfelderkennung , Dr.-Ing. Steffen Herbort, A.R.T. GmbH

Vortrag SWP Gruppe 3

Named Entity Recognition auf Basis von Wortlisten

Extraktion von Preordering-Regeln für Maschinelle Übersetzung

Latent Vector Weighting. Word Meaning in Context

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens

1 Part-of-Speech Tagging

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016

Softwareprojektpraktikum Maschinelle Übersetzung

So bewerten Sie einen Test

Probabilistische kontextfreie Grammatiken

Qualitätskriterien für MT-Systeme Machen Mensch und Maschinen dieselben Fehler? Konika Minolta Symposium am 24. Februar 2011 in Langenhagen

Abusive Language Detection in Online User Content

Einführung in die Computerlinguistik

Softwareprojektpraktikum Maschinelle Übersetzung

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

1/19. Kern-Methoden zur Extraktion von Informationen. Sebastian Marius Kirsch Back Close

Maschinelle Sprachverarbeitung

Klassifikation von Textabschnitten

Einführung in die Computerlinguistik

Automatisches Lernen von Regeln zur quellseitigen Umordnung

Maschinelle Übersetzung

Einführung in die Computerlinguistik

Einführung in das Maschinelle Lernen I

Künstliche Neuronale Netze

Linear nichtseparable Probleme

Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Peter Haider Uwe Dick Paul Prasse

DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Peter Haider Paul Prasse

Institut für Informatik Lehrstuhl Maschinelles Lernen

TreeTagger. Deborah Watty

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.

Sprachtechnologien und maschinelle Übersetzung heute und morgen eine Einführung Martin Kappus (ZHAW)

Evaluation und Training von HMMs

NLP Eigenschaften von Text

Moderne Methoden der KI: Maschinelles Lernen

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Das Modell: Nichtlineare Merkmalsextraktion (Preprozessing) + Lineare Klassifikation

Nichtlineare Klassifikatoren

Maschinelles Lernen: Symbolische Ansätze

6.2 Feed-Forward Netze

Klassifikation linear separierbarer Probleme

Syntax-basierte maschinelle Übersetzung mit Baumübersetzern

PROBABILISTIC PARSING FOR GERMAN USING SISTER-HEAD DEPENDENCIES

Mathematische Grundlagen III

HOW TO AVOID BURNING DUCKS

Entscheidungsbäume aus großen Datenbanken: SLIQ

Perzeptronen. Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Vorlesung Maschinelles Lernen

Extended Question Answering on Freebase

Einführung in die Computerlinguistik

Space Usage Rules. Neele Halbur, Helge Spieker InformatiCup März 2015

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn

Mathe III. Garance PARIS. Mathematische Grundlagen III. Evaluation. 16. Juli /25

Einführung in die Computerlinguistik

SKOPOS Webinar 22. Mai 2018

Erkennung fremdsprachiger Ausdrücke im Text

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn

Mustererkennung und Klassifikation

VO Sprachtechnologien. Informations- und Wissensmanagement. Bartholomäus Wloka. Zentrum für Translationswissenschaft

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Übersetzung. Tobias Scheffer Michael Großhans Paul Prasse Uwe Dick

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20

Projektgruppe. Text Labeling mit Sequenzmodellen

Personenerkennung. Harald Hauptseminarpräsentation. Harald Kirschenmann. Department Informatik. Department Informatik.

Was denken denkende Maschinen? WI-Award, Crowne Plaza Zürich, Thilo Stadelmann

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Paul Prasse Michael Großhans

Semiüberwachte Paarweise Klassifikation

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. NLP-Pipeline. Tobias Scheffer Christoph Sawade

Automatisches Verstehen gesprochener Sprache

Maschinelles Übersetzen natürlicher Sprachen 2. Praktikum. SS 2012 Torsten Stüber

Hidden Markov Models in Anwendungen

KLAUSUR ZUM BACHELORMODUL PROBEKLAUSUR VORLESUNG COMPUTERLINGUISTISCHE ANWENDUNGEN PROBEKLAUSUR, DR. BENJAMIN ROTH KLAUSUR AM

, Data Mining, 2 VO Sommersemester 2008

Kapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation

Künstliche neuronale Netze

Hidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014

Hidden Markov Models in Anwendungen

Formale Sprachen und Automaten: Tutorium Nr. 8

Parsing von unifikationsbasierten Grammatikformalismen

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik

Neuronale Netze Aufgaben 3

Maschinelles Lernen I Einführung. Uwe Reichel IPS, LMU München 22. April 2008

Teil III: Wissensrepräsentation und Inferenz. Kap.5: Neuronale Netze

Aufgabe 1 Probabilistische Inferenz

Was bisher geschah Künstliche Neuronen: Mathematisches Modell und Funktionen: Eingabe-, Aktivierungs- Ausgabefunktion Boolesche oder reelle Ein-und

Projekt-INF Folie 1

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester Lösungsblatt 3 Maschinelles Lernen und Klassifikation

Robust Named Entity Recognition (NER) in Idiosyncratic Domains. Eine automatische Identifikation und Klassifikation von Eigennamen

Speech Recognition Grammar Compilation in Grammatikal Framework. von Michael Heber

Maschinelles Lernen: Symbolische Ansätze

Machine Translation. Hermann Ney! RWTH%Aachen%University% Aachen,%Germany%

Transkript:

Diskriminatives syntaktisches Reranking für SMT Fortgeschrittene Themen der statistischen maschinellen Übersetzung Janina Nikolic

2 Agenda Problem: Ranking des SMT Systems Lösung: Reranking-Modell Nutzung Perzeptron-Algorithmus Besonderheit: syntaktische Merkmale Evaluation

3 Problemstellung Komponenten der SMT Systeme: Übersetzungsmodell, Sprachmodell, Reordering Modell Ziel: Verbesserung des Sprachmodells Ausgangspunkt: SMT System liefert als Output eine Liste der besten n Übersetzungen Problem: Ranking nicht immer das Beste

4 Der Himmel wird morgen blau sein The sky blue tomorrow The sky will be blue tomorrow Sky will be blue tomorrow

5 Lösung: Reranking SMT System Reranking Algorithmus Beste Übersetzung

6 Reranking durch Klassifikation Datensätze Klassifizierte Stichprobe Merkmale Klasse Lernen (Training) Modell Nicht klassifizierte Datensätze Anwenden auf??

7 Was wird klassifiziert? Daten werden Klasse zugeordnet Daten: übersetzte Sätze aus der Liste (bzw. deren Merkmale) Entspricht Referenzübersetzung (oracle best) Klasse 1, sonst Klasse 0 Merkmale durch Merkmalsvektor repräsentiert Anpassbare Gewichtungen für jedes Merkmal (Gewichtungsvektor): Wie entscheidend ist ein Merkmal für eine gute Übersetzung?

8 Beispiel Gegeben: Trainingsmenge Gesucht: Gewichtsvektor, der die Trainingsmenge korrekt klassifiziert

9 Diskriminatives Sprachmodell (DLM) Input: Liste der n-besten Übersetzungen Ausgabe des SMT Systems Extraktion syntaktischer Merkmale jedes Satzes, Kodierung in Merkmalsvektor durch Parsbäume oder POS- Tagger Perzeptron-Algorithmus Vergleich der Merkmale mit Referenzsatz Ausgabe: Gewichtungsvektor Reranking der Liste Auswahl der besten Übersetzung

10 Merkmalsvektoren Beschreiben die syntaktischen Eigenschaften der Sätze: enthält ein Verb, Verb Agreement etc. Trainingsdaten, mit denen Modell gelernt wird Testdaten, die klassifiziert werden Jeder Merkmalsvektor gehört ausschließlich zu einer Klasse

11 Wie werden die syntaktischen Merkmale extrahiert?

12 Merkmalsextraktion Vollständige Parsbäume POS Sequenzen

13 Parsbäume Drei Arten von syntaktischen Informationen werden extrahiert Informationen über Sequenzen Head-Informationen (Head = Kern einer Phrase) Kontextfreie Grammatikregeln (Informationen über NT-Folgen)

14 Beispiel Parsbaum S NP VP DT NNP MD VP The sky will VB ADVP be JJ RB blue tomorrow

15 Unterscheidung von Sequenzen POS The/DT sky/nnp will/md be/vb blue/jj tomorrow/rb SEQ-B: Teilstrukturen (chunks) The/NP b sky/np c will/vp b be/vp b blue/advp b tomorrow/advp c SEQ-C: Kombination der ersten beiden Strukturen The/DT-NP b

16 POS Tagger Zwei Tagging-Ansätze Conditional Random Fields Einfacher Unigramm-Tagger Nutzt keinen Kontext <UNK> als Tag für unbekannte Wörter

17 Beispiele für Merkmale Abfolgen von POS-Tags Häufigkeit von POS-Typen für eine bestimmte Satzlänge: length(x)/num(pos,x) Fehlen gewisser POS-Typen (z.b. Verb) Verb Agreement ( George was shouting and screaming )

18 Merkmalsextraktion erfolgreich Was nun?

19 Perzeptron-Algorithmus Künstliches neurales Netz mit anpassbaren Gewichtungen und Schwellwert Bildet biologisches Nervensystem nach (ein Neuron) Eingabe: Merkmalsvektor eines übersetzten Satzes Aufgabe: Lernen des optimalen Gewichtungsvektors aus den Trainingsbeispielen

20 Perzeptron-Algorithmus Zu Beginn Gewichtungsvektor 0 Bestimmung der besten Übersetzung (oracle best) hinsichtlich BLEU ausgewählter Satz aus der Liste: Skalarprodukt aus Merkmalsvektor und Gewichtungsvektor Wenn ausgewählter Satz mit oracle best Satz übereinstimmt, fertig (Wert größer als Schwellenwert) Sonst: Gewichtungsvektor wird angepasst

21 Perzeptron-Algorithmus y i : oracle best z i : ausgewählter Satz der Liste z i = ɸ(z) * ω Merkmalsvektor Gewichtsvektor wenn z i y i Anpassung Gewichtsvektor

22 Anpassung Gewichtsvektor ω = ω + ɸ(y i ) - ɸ(z i ) Neue Gewichtung Alte Gewichtung Änderung: gewünschte Ausgabe tatsächliche Ausgabe

23 Reranking Jeder Satz der n-best Liste erhält einen neuen Score, der sich folgendermaßen ergibt: Gewichteter Score des SMT-Systems für den Satz + Gewichtsvektor * Merkmalsvektor Satz mit dem höchsten Score wird als beste Übersetzung ausgewählt

24 Evaluation Wie effektiv sind die verschiedenen syntaktischen Merkmale? Evaluierung von Arabisch-zu-Englisch Übersetzungen Testsets von NIST s MT-Eval von 2002 bis 2006, bezeichnet als MT02 bis MT06 Baseline SMT System: Moses

25 Evaluation - Genauigkeit der POS Tagger CM2 (für Development und Test Sets) POS Accuracy 94.4% CRF (Conditional Random Fields) 97.0% S-POS (simple tagger) 86.8%

26 Evaluation - Baseline Ergebnisse (BLEU) MT04 MT05 MT06 Moses 48.97 53.92 38.40 + DLM n-gram 49.57 54.42 39.08 Oracle 61.06 66.34 50.11

27 Evaluation nach Merkmalen der Parsbäume MT04 MT05 MT06 Moses 48.97 53.92 38.40 + DLM n-gram 49.57 54.42 39.08 + n-gram + POS 49.47 54.48 39.07 + n-gram + SEQ-B 49.09 54.11 39.47 + n-gram + SEQ-C 49.46 54.19 39.07 + n-gram + CFG 49.53 54.44 39.58 + n-gram + H 49.44 54.09 33.45

28 Evaluation - Anteil an Sätzen, die einen Parse haben # Sätze p.p.s% MT0203 1282287 87.3% MT04 1075563 81.9% MT05 744049 82.6% MT06 1526170 80.7%

29 Evaluation Merkmale von POS Taggern und POS- Annotationen des Parsbaums MT04 MT05 MT06 DLM n-gram 49.57 54.42 39.08 DLM n-gram + POS 49.47 54.48 39.07 Verbesserung -0.10 0.06-0.01 DLM n-gram + CRF 49.74 54.51 39.45 Verbesserung 0.17 0.09 0.37 DLM n-gram + S-POS 49.59 54.60 39.48 Verbesserung 0.02 0.18 0.40

30 Evaluation POS Tag Häufigkeit, Fehlen von POS Typen, Verb Agreement MT04 MT05 MT06 + DLM n-gram 49.57 54.42 39.08 + S-POS+vn+dn 49.65 54.60 39.67 + S-POS+allnum 49.65 54.60 39.67 + S-POS+noall 49.70 54.46 39.69 + S-POS+verbagr 49.44 54.56 39.55

31 Evaluation n-gramm Precision Task System n-gram Precision (%) MT04 n-gram + Syntax 1 2 3 4 81.86 81.76 58.36 58.48 41.72 41.92 30.28 30.43 Verbesserung (%) -0.1% 0.2% 0.5% 0.5% MT05 n-gram + Syntax 81.31 83.28 62.74 62.96 47.20 47.43 35.54 35.74 Verbesserung (%) -0.04% 0.3% 0.5% 0.6% MT06 n-gram + Syntax 74.43 74.31 47.84 47.92 31.75 31.87 21.50 21.58 Verbesserung (%) -0.2% 0.2% 0.4% 0.4%

32 Fazit Nutzen syntaktischer Merkmale Nutzen einfacher POS Tagger Signifikante Verbesserungen Zukünftig: mögliche Nutzung von partiellen Parsern weniger Informationen als bei Fullparsern, aber mehr als bei POS Taggern

Vielen Dank! 33

34 Quellen Discriminative Syntactic Reranking for Statistical Machine Translation, S. Carter & C. Monz, AMTA 2010 http://www.cs.uni- paderborn.de/fileadmin/informatik/ag- Kleine-Buening/files/ws11/ml11/folienneuronale-netze.pdf http://www.cs.jhu.edu/~zfli/pubs/discrimin ative_lm_for_smt_zhifei_amta_08.pdf