Softwareprojektpraktikum Maschinelle Übersetzung

Größe: px

Ab Seite anzeigen:

Download "Softwareprojektpraktikum Maschinelle Übersetzung"

Norbert Amsel
vor 5 Jahren
Abrufe

1 Softwareprojektpraktikum Maschinelle Übersetzung Jan Rosendahl, Jan-Thorsten Peter, Andreas Guta Vorbesprechung 6. Aufgabe 14. Juli 2017 Human Language Technology and Pattern Recognition Lehrstuhl für Informatik 6 Computer Science Department RWTH Aachen University, Germany J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 1 Vorbesprechung 14. Juli 2017

2 Outline 1 Sprachmodell 3 2 Übung SRI LM Toolkit 17 J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 2 Vorbesprechung 14. Juli 2017

3 1 Sprachmodell Problem: insbesondere an Phrasengrenzen können Fehler auftreten Beispiel: Zu übersetzender Satz: Dear Mr. Friday Phrasentabelle: 2 2 # Dear # Sehr geehrte 3 3 # Dear # Sehr geehrter 2 2 # Mr. Friday # Herr Freitag Ergebnis: Sehr geehrte Herr Freitag (Kosten: 4) Sehr geehrter Herr Freitag (Kosten: 5) J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 3 Vorbesprechung 14. Juli 2017

4 Warum benutzen wir ein Sprachmodell? Bewertung durch ein Bigramm-Sprachmodell: Sehr geehrte Herr Freitag Sehr geehrter Herr Freitag Übersetzungsmodell Sprachmodell Übersetzungsmodell Sprachmodell Das obere Beispiel wird größere Kosten verursachen (z.b. 5) Das untere Beispiel wird bessere Kosten verursachen (z.b. 2) Neues Ergebnis: Sehr geehrter Herr Freitag (Kosten: 5+2) Sehr geehrte Herr Freitag (Kosten: 4+5) J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 4 Vorbesprechung 14. Juli 2017

5 Theoretischer Aufbau Allgemeine Formel: P r(e I 1 ) = I i=1 P r(e i e i 1 1 ) Im Vergleich: Übersetzungsmodell ist p(e I 1 f J 1 ) In der Praxis Beschränkung auf n 1 letzte Wörter, die sogenannte History h h = (e i n+1,..., e i 1 ) = e i 1 i n+1, typischerweise für n {3,..., 7} Berechnung der Wahrscheinlichkeiten mit Hilfe von Maximum Likelihood Schätzung: p(w h) = N(h, w) w N(h, w ) = N(h, w) N(h, ) mit: w p(w h) = 1 h J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 5 Vorbesprechung 14. Juli 2017

6 Einfluss des Sprachmodells in der Spracherkennung Beispiel aus dem Wall Street Journal 5k Task: LM recognized errors 0-gram h ih t s eh n uh t ur z n ih g oh sh ee ey t ih ng s ey 11 l s ur t un aa s eh t s aw n t uh b r oh k ur ih j y ooh n ih t s HIT SENATORS NEGOTIATING SALE 9 CERTAIN ASSETS ONTO BROKERAGE UNIT S 1-gram ih t s s eh n ih t ih z n ih g oh sh ee ey t ih ng s ey 6 l s ur t un aa s eh t s aw v dh uh b r oh k ur ih j y ooh n ih t ITS SENATE IS NEGOTIATING SALE CERTAIN 5 ASSETS OF THE BROKERAGE UNIT 2-gram ih t s eh d ih t ih z n ih g oh sh ee ey t ih ng dh uh s ey l 0 aw v s ur t un aa s eh t s aw v dh uh b r oh k ur ih j y ooh n ih t IT SAID IT IS NEGOTIATING THE SALE OF CERTAIN 0 ASSETS OF THE BROKERAGE UNIT J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 6 Vorbesprechung 14. Juli 2017

7 Spatz-Modell Wie wahrscheinlich ist ein Spatz der Farbe x? J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 7 Vorbesprechung 14. Juli 2017

8 Spatz-Modell 40% 40% 20% Konventioneller Ansatz: Relative Häufigkeit J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 8 Vorbesprechung 14. Juli 2017

9 Spatz-Modell 40% 40% 20% 30% 20% 20% 10% 10% 10% Gleicher Ansatz, andere Trainingsdaten J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 9 Vorbesprechung 14. Juli 2017

10 Spatz-Modell 40% 40% 20%? 30% 20% 20% 10% 10% 10% Was passiert mit ungesehenen Ereignissen? Wie wahrscheinlich sind sie? J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 10 Vorbesprechung 14. Juli 2017

11 Spatz-Modell 40% 40% 20%? 30% 20% 20% 10% 10% 10% Welches Modell reagiert wohl stabiler? J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 11 Vorbesprechung 14. Juli 2017

12 Spärliche Trainingsdaten für n-gram Sprachmodelle Typisches Beispiel: Anzahl der laufenden Wörter im Training: Vokabulargröße: Art des Sprachmodells: Bigramm Anzahl der möglichen Ereignisse: Vokabular 2 = /400 = 2.5% können gesehen werden Trigramm Anzahl der möglichen Ereignisse: Vokabular 3 = /( ) = % können gesehen werden Problem: Trainingskorpus enthält Trigramm Angela Merkel könnte, aber nicht Angela Merkel kann auch das zweite Trigramm sollte eine Wahrscheinlichkeit > 0 zugewiesen bekommen J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 12 Vorbesprechung 14. Juli 2017

13 Linear Discounting Discounting: Verschiebe einen Teil der Wahrscheinlichkeitsmasse zu ungesehenen Ereignissen Linear: Proportional für jeden Count N(h, w) p(w h) = N(h, w) (1 µ h ) N(h, ) µ h β(w h) β(w h) w :N(h,w )=0 für N(h, w) > 0 für N(h, w) = 0 µ h : komplette Wahrscheinlichkeitsmasse für ungesehene Ereignisse: β(w h): Renormalisierung für zweite (Backoff-)Wahrscheinlichkeit µ h und β(w h) müssen ebenfalls aus den Trainingsdaten gelernt werden J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 13 Vorbesprechung 14. Juli 2017

14 Leaving-One-Out für spärliche Trainingsdaten Generelle Idee: Ungesehene Ereignisse simulieren, indem man Trainingsdaten in zwei Teile aufteilt Leaving-One-Out: Jede einzelne Beobachtung gilt als Testbeobachtung die übrigen Beobachtungen dienen zum Training Sprachmodell: jeweils ein Ereignis (h i, e i ), i = 1,..., I wird zurückbehalten... J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 14 Vorbesprechung 14. Juli 2017

15 2 Übung 6 Trainieren eines Bigramm-Sprachmodells für Englisch mit Hilfe des SRI LM Toolkits Reranking der n-best-listen mit Sprachmodell J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 15 Vorbesprechung 14. Juli 2017

16 3 SRI LM Toolkit SRI Language Modeling Toolkit frei verfügbar für nicht gewerbliche Zwecke unter Trainieren mit Kneser-Ney Smoothing ngram-count -order 2 -lm e.lm.gz -text e -kndiscount1 -kndiscount2 J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 16 Vorbesprechung 14. Juli 2017

17 Ausgabeformat ARPA LM Format: \data\ ngram 1=n1 ngram 2=n2... ngram N=nN \1-grams: log10(p(w)) w [back-off Gewicht]... \2-grams: log10(p(w2 w1)) w1 w2 [back-off Gewicht]... \N-grams: log10(p(wn w1,...,wn-1))... w1... wn \end\ J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 17 Vorbesprechung 14. Juli 2017

18 Ansteuern des SRI Language Models Einbinden der SRI Language Model Bibliothek Einbinden von <Ngram.h> und <Vocab.h> im Programmcode. Kompilieren: Pfad der SRI Header Dateien (include/) angeben -IPATH_TO_HEADER Kompilieren: Library includen mit den Optionen -loolm -ldstruct -lflm -lmisc -LPATH_TO_LIBRARY Anlegen der Klassen für Vocabulars (Vocab) kann statt der alten Lexikon Klasse genutzt werden Language Model (Ngram) J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 18 Vorbesprechung 14. Juli 2017

19 Die Vocab Klasse Lexikon für das Language Model die wichtigsten Befehle: Vocab() Konstruktor string getword(unsigned index) gibt den String für index unsigned addword(char* Word) fügt ein (falls unbekannt) und gibt den index zurück int numwords() Anzahl der Wörter ssindex() Satzanfangszeichen seindex() Satzendzeichen unkindex() Index für das unbekannte Wort J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 19 Vorbesprechung 14. Juli 2017

20 Der Buffer vom Typ *VocabIndex muß initialisiert werden, z.b. vocabbuffer(new VocabIndex[50]) evtl. muß auch die Größe neu angepasst werden (mit realloc) Satzformat: Satzanfangs- und Satzendmarker (s. vorherige Folie) umgekehrte Wortreihenfolge mit Vocab_None abschließen Beispiel: " Ich habe Hunger" wird zu </s> Hunger habe Ich <s> Vocab_None Berechnung: vom Satzendmarker (position 0) bis einschließlich dem ersten Wort also fürs obige Beispiel 4 Anfragen mit jeweiligem Kontext: </s>, Hunger, habe, Ich J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 20 Vorbesprechung 14. Juli 2017

21 Die Ngram Klasse Funktionalität für das Language Model die wichtigsten Befehle: Ngram(Vocab *vocabulary, int lmorder) Konstruktor read(file, boolean expandvocabulary) liest ein Language Model ein double wordprob(buf[pos], &buf[pos+1]) bewertet ein Wort an Position pos mit seinem Kontext Rückgabe: log-score (negativ) J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 21 Vorbesprechung 14. Juli 2017

22 Fragen? J. Rosendahl,J.-T. Peter, A. Guta Maschinelle Übersetzung 22 Vorbesprechung 14. Juli 2017

Ähnliche Dokumente

Softwareprojektpraktikum Maschinelle Übersetzung

Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de 5. Mai 2017 Human Language Technology and Pattern Recognition Lehrstuhl