Handout zum Vortrag: Google s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation

Transkript

1 Handout zum Vortrag: Google s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation Oliver Schmitz November 26, 2018 Contents 1 Einleitung 2 2 Statistical Machine Translation 2 3 Der BLEU Score 3 4 Modellarchitektur Rekurrente Neuronale Netze LSTM Modul Bi-directional Encoder Attention Modul Worttrennung 9 6 Trainingskriterien Minimum Likelihood Refined Likelihood Decoder 12 8 Experimente und Ergebnisse Datensätze Trainingsprozedur Ergebnisse Ausblick 14 1

2 1 Einleitung Das Paper Google s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation wurde im Oktober 2016 veröffentlicht. Schon einen Monat später wurde verkündet, dass Google Translate vollständig mit dem im Paper vorgestellten Modell arbeitet. In diesem Vortrag sollen folgende Ziele erreicht werden: Grundlegendes Verständnis wie Machine Translation und insbesondere Google Translate (in den letzten Jahren) funktioniert hat. Grundlegende Begriffe klären, die häufig im Kontext von neuronalen Netzen benutzt werden (insbesondere bei Machine Translation Problemen). Experimentelle Ergebnisse des Papers vorstellen. 2 Statistical Machine Translation Frage: Was ist Statistical Machine Translation (SMT) und wie funktionieren SMT-Modelle? Figure 1: Beispiel eines Wortverzeichnisses des Wortes Therefore und dessen französische Übersetzungen mit den zugehörigen Wahrscheinlichkeiten. Die Übersetzung eines Textes mit SMT kann vereinfacht in drei Schritten beschrieben werden: 2

3 1. Aufteilen des Quelltextes in einzelne Redewendungen ( locutions ). Dies können einzelne Wörter oder Wortpaare sein, z.b. voiture, ne [...] pas. 2. Nutzen eines Wortverzeichnisses und Kontext innerhalb des Textes um Übersetzung in der Zielsprache auszuwählen. 3. Neuordnung der übersetzten Wörter/ Phrasen in einen kompletten Satz. Probleme SMT: Figure 2: Beispielhaftes Vorgehen eines SMT Modells Unerwartete Resultate. Gute Lesbarkeit aber zweifelhafte Sinnhaftigkeit. Unterschiedliche Satzordnung zwischen westlichen und asiatischen Sprachen führt zu Problemen. Vorzüge häufig nur bei der Übersetzung von westlichen Sprachen. Warum blieben bisher Neural Machine Translation (NMT) Modelle ohne viel Erfolg? 1. Großer Aufwand an Rechenleistung und Zeit beim Anlernen des neuronalen Netzes. 2. Keine zuverlässige Übersetzung von seltenen Wörtern. 3. Die Übersetzung ist nicht vollständig, d.h. Wörter aus dem Quelltext werden vergessen. Googles Modell erhebt den Anspruch diese Probleme bewältigt zu haben. 3 Der BLEU Score BLEU ist eine Methode um maschinell übersetzte Texte zu evaluieren. Diese soll schnell, günstig und Sprachunabhängig sein und mit menschlich durchgeführten Evaluationen korrelieren. Zentrale Idee: Je näher eine maschinelle Übersetzung einer professionellen menschlichen Übersetzung ist, desto besser. Indizien einer guten Übersetzung für den BLEU Score sind 1. Übereinstimmung von N-Grammen, 2. Satzlänge, 3. Reihenfolge der Wörter. Einer Übersetzung wird ein Wert zwischen 0 und 1 zugesprochen, wobei 1 die perfekte Übersetzung ist. 3

4 4 Modellarchitektur Die von Google vorgeschlagene Modellarchitektur hat den folgenden Aufbau. Encoder und Decoder sind jeweils rekurrente neuronale Netze Encoder hat 9 Schichten (Layer), Decoder hat 8 Schichten. Encoder verwandelt jedes Wort in einen Vektor, welcher weiterverarbeitet wird. Zwischen Output des Encoders und Input des Decoders ist ein Attention Modul geschaltet Hinter dem Decoder ist ein Softmax Layer geschaltet welches den übersetzen Text ausgibt. 4.1 Rekurrente Neuronale Netze Das rekurrente neuronale Netz (RNN): Figure 3: Verschiedene Arten von Rückkopplungen: Die blaue Kante ist eine direkte, die grüne eine indirekte und die rote eine seitliche Rückkopplung. 4

5 Eine andere Darstellung eines RNNs kommt der Modellarchitektur von Googles Modell näher. Um die Schleifen eines RNN besser zu verstehen, kann man das Netz als Kette eigener Kopien interpretieren, welches seine Informationen an den Nachfolger weiter gibt. Diese Struktur lässt sich im Encoder und Decoder des Netzes wiederfinden. Wozu brauchen wir RNNs? Wir erhoffen uns, dass das NN zeitlich codierte Informationen in unseren Daten erlernen kann. Zum Beispiel stellen wir uns ein NN vor, welches das letzte Wort einer Textkette vorhersagen soll: Die Wolken sind im... Himmel. Aufgrund des Wortes Wolken soll unser Netz erkennen, dass Himmel ein guter Kandidat für eine Fortsetzung des Satzes ist. Was ist aber wenn die Informationen, die miteinander verknüpft werden sollen, weiter auseinander liegen? Ich bin in Frankreich geboren. Meine Mutter ist Ärztin. Mein Vater ist Gärtner. [...] Ich spreche fließend... französisch. RNNs schaffen es nicht von alleine die Informationen zu verknüpfen, wenn die Lücke größer wird. Einen Lösungsansatz bieten Long-Short-Term-Memory (LSTM) Netzwerke. Der Grund warum RNNs alte Informationen vergessen sind verschwindene bzw. explodierende Gradienten. Übliche Aktivierungsfunktionen wie der Tangens Hyperbolicus haben Gradienten zwischen 0 und 1. Vielfache Verkettung von tanh führt beim Differenzieren zu verschwindend geringen Werten. Einfaches RNN Modul: 5

6 4.2 LSTM Modul h t = tanh(w [h t 1, x t ] + b) Betrachten wir die Unterschiede eines einfachen RNN Moduls und eines LSTM Moduls. Figure 4: LSTM Modul Wichtigster Teil ist obere Verbindung die fast unverändert durch das Modul verläuft. Informationen können so mit nur leichten Modifikationen weiter geleitet werden. 6

7 Figure 5: Fokus auf dem forget gate des LSTM Moduls Die Funktion σ ist hier eine Sigmoid-Funktion, welche die Werte zwischen 0 und 1 bringt und so das Durchlassen von Informationen verhindern kann. 4.3 Bi-directional Encoder Je nach Sprachkombinationen können Informationen zu einer Übersetzung auch hinter dem Wort im Satz stehen. Um dem Netz zu ermöglichen auch solche Besonderheiten zu lernen, besteht das unterste Layer aus zwei Richtungen. Nachdem das Bi-directional Layer durchlaufen ist, werden die Outputs in einen Vektor vereint und in das nächste Layer weitergegeben. 7

8 4.4 Attention Modul Figure 6: Encoder / Decoder Struktur ohne Attention Modul Haben wir zwischen unserem Encoder und Decoder kein Attention Modul können Probleme auftreten. Der Decoder muss dann aus einem einzigen Vektor, also genau dem Output des Encoders, alle Wörter ablesen können. Hierbei kann es passieren, dass Wörter bei der Übersetzung verloren gehen, oder die Übersetzungen einfach nicht die gewünschte Qualität haben. Das Attention Modul erlaubt es dem Decoder nicht nur auf die letzte Zelle des Encoders zuzugreifen, sondern auch die Zwischenergebnisse, die das Netz zwischenzeitig produziert. Jedes LSTM Modul im Decoder hat unterschiedlich gewichteten Zugriff auf diese Zwischenergebnisse. Die Gewichte des Attention Moduls werden beim anlernen des Netzes mit trainiert. 8

9 Figure 7: Encoder / Decoder Struktur mit Attention Modul 5 Worttrennung Viele NMT-Modelle arbeiten mit festen Wörterbüchern, obwohl Übersetzungsprobleme häufig mit out-of-vocabulary (OOV) Wörtern zu tun haben (z.b. Namen, Daten, Zahlen usw.). Zwei mögliche Lösungsansätze für OOV Wörter sind: 1. Kopieren der OOV Wörter in die Übersetzung. 2. Nutzen von Sub-Wörtern (sub-word units), also Buchstaben, eine Mischung aus Buchstaben und Wörtern, oder intelligentere Sub-Wörter. Google nutzt ein eigens entwickeltes Word Piece Model (WPM), um das Problem der OOV zu lösen. Figure 8: Beispiel einer Zerlegung eines Satzes mit Googles WPM Sub-Wörter Wörterbuch wird mit einer gewünschten Anzahl an Einträgen angelernt. Übliche Größe des neuen Wörterbuchs sind 8 Tsd. bis 32 Tsd. Einträge. 9

10 Das WPM muss eigenständig aus einem gegebenen Quelltext angelernt werden. Das grobe Vorgehen kann folgendermaßen beschrieben werden: 1. Initialisiere das Wörterbuch mit allen grundlegenden Symbolen und Buchstaben (Westl. Sprachen ca. 500 Stk) 2. Bau eines Sprachmodells auf den Trainingsdaten mit dem Wörterbuch aus Schritt Generieren von neuen Worteinheiten. Dazu zwei vorhandene Worteinheiten miteinander kombinieren. Aus allen möglichen Kombinationen eine neue Worteinheit auswählen, die die Likelihood auf unseren Trainingsdaten verbessert. 4. Zurück zu Schritt 2 bis gewisse Anzahl an Symbolen im Wörterbuch erreicht sind oder die Likelihood sich nicht weiter verbessert. 6 Trainingskriterien 6.1 Minimum Likelihood Beispiel Maximum-Likelihood-Schätzer (MLE): Wir werfen eine Münze n mal. Die Münze zeigt x mal Kopf (Erfolg). Wie wählen wir p, damit die Wahrscheinlichkeit für unser Ereignis am Größten ist? Angenommen p sei der richtige Parameter. Dann ist die Wahrscheinlichkeit für unser Ereignis die Binomialverteilung, also B n,p (x) = ( ) n p x (1 p) n x. x Dies wollen wir in Abhängigkeit von p maximieren. Definiere also f(p) := p x (1 p) n x. Es folgt nach Ableiten f (x) = (x np)p x 1 (1 p) n x 1 f (x) = 0 x np = 0 p = x/n ˆp MLE (x) = x n Haben wir z.b. von n = 100 Würfen x = 70 mal Kopf geworfen erhalten wir ˆp MLE (70) = = 0.7. Wie können wir das Konzept auf das NN übertragen? Wir haben unsere Daten D = (X (i), Y (i) ) i=1,...,n gegeben. Für festes i ist die berechnete Wahrscheinlichkeit durch P θ (Y (i) X (i) ) gegeben. Dabei sind θ genau die Parameter des aktuellen Netzes. Natürlich wollen wir die Wahrscheinlichkeit aller Daten maximieren, wir erhalten somit max Õ(θ) = θ min θ N P θ (Y (i) X (i) ) i=1 O MLE (θ) = N log P θ (Y (i) X (i) ) In unseren einfachem Münzwurf-Beispiel haben wir nun differenziert. Da wir ebenfalls den Gradienten benötigen, (z.b. für das Gradientenverfahren) nutzen wir hier den sogenannten Backpropagation Algorithmus. i=1 10

11 Backpropagation ist ein Algorithmus, der die Kettenregel in einer sehr effizienten Weise berechnet. Betrachte z.b. eine Funktionenverkettung f(g(x)) = z mit y = g(x). Dann ist nach Kettenregel die partielle Ableitung gegeben durch f(y) x i = f y j j y j x i. Angenommen wir betrachten eine Funktion f : R R und möchten die Ableitung bzgl. x berechnen. Wir erhalten: Wir sehen: w x = w z y z y x = f (z)f (y)f (x) = f (f(f(x)))f (f(x))f (x) 1. Der Algorithmus kann Einsparungen machen, indem er Werte nur einmal berechnet und diese speichert. 2. Das Problem der verschwindenden Gradienten bei RNNs. 6.2 Refined Likelihood Bei der reinen MLE Minimierung ergibt sich jedoch ein Problem: Bei falschen Übersetzungen wird nicht unterschieden welche Übersetzung schlechter ist. Der BLEU Score macht jedoch ein solche Unterscheidung. Lösung: Nach Training mit dem MLE verbessern wir das Netz mit folgender Funktion: min θ O RL (θ) = N P θ (Y X (i) )r(y, Y (i) ) i=1 Y Y Die Reward-Funktion r(y, Y (i) ) ist eine Modifikation des BLEU Scores. BLEU-Score für ganze Textblöcke entwickelt. Bei isolierten Sätzen weniger Aussagekräftig. Nutzen des GLEU-Scores. GLEU-Score: Vergleich der übereinstimmenden N-Gramme für n = 1,...,4. r(y, Y (i) ) gibt einen Wert zwischen 0 (keine Übereinstimmung) und 1 (vollständige Übereinstimmung) aus. Um das Training zu stabilisieren, wird eine Mischung aus dem MLE-Funktion und RL- Funktion gewählt. O Mixed = α O MLE + O RL Typische Werte sind α =

12 7 Decoder Angenommen wir haben unser fertig gelerntes NN. Eine Übersetzung wird von unserem Netz als Liste von Vektoren ausgegeben. Jeder Vektor enthält die Wahrscheinlichkeit für eine Übersetzung an der Stelle im Satz. Um daraus die beste Kombination aus Satzteilen zu erstellen nutzt der Decoder ein modifiziertes Beam Search-Verfahren. Von jedem Vektor wird nicht das Wort mit der höchsten Wahrscheinlichkeit genommen und in den nächsten Vektor getragen, sondern die B wahrscheinlichsten (B = beam size). Beim nächsten Wort werden alle möglichen Wortkombination der B ersten Wörter mit dem Zweiten berechnet. Anschließend werden wieder alle Kombinationen, bis auf die B wahrscheinlichsten, verworfen. Des Weiteren wird die Wahrscheinlichkeit der Ausgabe über die Satzlänge normiert und Sätze favorisiert, die den gesamten Quelltext abdecken. Figure 9: Ein Greedy Decoder als Alternative zum Beam Search Verfahren 8 Experimente und Ergebnisse 8.1 Datensätze WMT EN-FR mit 36 Mio. Satzpaaren, WMT EN-DE mit 5 Mio. Satzpaaren. WMT = Workshop on Machine Translation. Stellt auch die Testdatensätze (newstest14). Interne Google Daten (Größenordnung je Sprachpaarung ca. 2-3 Dezimalstellen größer). In jedem LSTM Modul im Encoder/Decoder haben wir 1024 Nodes. 12

13 8.2 Trainingsprozedur Das Training: Bei MLE Training: 60 Tsd. Schritte Adam Verfahren, dann Stochastisches Gradientenabstiegsverfahren (SGD). Dauer: ca. 6 Tage bis Konvergenz (96 NVIDIA K80 GPUs) Anschließend Verbesserung mit RL Training mit SGD. Dauer ca. 3 Tage. Stochastisches Gradientenverfahren (SGD): Im Unterschied zum klassischen Gradientenverfahren wird nicht der gesamte Gradient der MLE Funktion berechnet, sondern nur in zufällige Richtung(-en). GD: θ = θ α O MLE (θ) = θ α N i=1 log P θ(y (i) X (i) ) SGD: θ = θ α O (i) MLE (θ) = θ α log P θ(y (i) X (i) ) Beim Anlernen des Netzes wurde z.b. in jedem Schritt der Gradient in 128 Richtungen berechnet. Adam Optimierungsverfahren: Die Schrittweite bei SGD ist für alle Parameter gleich. Bei Adam werden die Schrittweiten für unterschiedliche Parameter verschieden gewichtet. 8.3 Ergebnisse Ergebnisse nach MLE Training: Die Zahlen des BLEU Scores sind die Mittelwerte von 8 separat trainierten NN. Für das Wörter -Modell wurden die häufigsten 212 Tsd. Wörter aus dem Quelltext als Quellvokabular genutzt, die häufigsten 80 Tsd. Wörter aus der Übersetzung als Zielvokabular. OOV Wörter werden beim Encoder gekennzeichnet und beim Decoder kopiert. Buchstaben -Modell: Jedes Wort wird einfach in einzelne Symbole getrennt. Vokabular ist dann nur wenige hundert Symbole. Gemischtes Wort/Buchstaben -Modell: Ähnlich wie das Wörter -Modell. Nur OOV-Wörter werden als einzelne Buchstaben codiert. WPM: Die Zahl beschreibt die Größe des Wörterbuchs. 13

14 Übersetzung von Englisch/ Deutsch wird als schwieriger angesehen Unterschiedliche Datenbanken (36 Mio. vs. 5 Mio.) Ergebnisse nach RL Training: Auf dem Datensatz von Englisch/Französisch bringt das RL-Training noch eine Verbesserung von einem Punkt. Bei Englisch/Deutsch sehen wir hingegen eine minimale Verschlechterung. (Beim Training des Netzes wurde hingegen eine kleinere Verbesserung beobachtet) Experimente und Ergebnisse: Ergebnisse nach Vereinigung Figure 10: 8 angelernte Modelle werden kombiniert um den state-of-the-art Wert von zu erreichen (im Jahr 2016). Figure 11: Datensatz: 500 Satzpaare. Human Score ist auf einer Skala von 0 bis 6. 9 Ausblick Zero Shot Translation : Übersetzung zwischen Sprachen, welches das System in der Kombination noch nicht kennt. 14

15 Transformer-Modell statt RNN. Verbesserung der BLEU Scores bei weniger Trainingsaufwand (3,5 statt 9 Tage). References [1] [WU16] Yonghui Wu, Mike Schuster, Zhifen Chen, Quoc V. Le, Mohammad Norouzi Google s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation arxiv: [cs.cl], Oktober [2] [PAP02] Kishore Papineni, Salim Roukos, Todd Ward, Wei-Jing Zhu BLEU: a Method for Automatic Evaluation of Machine Translation. In Proceedings of the 40th Annual Meeting of the Association for Computional Linguistics, Philadelphia, July 2002, pp [3] [BRO88] P. Brown, J. Cocke, S. Della Pietra, V. Della Pietra, F. Jelinek, R. Mercer, P. Roossin A statistical approach to language translation. In Proceesings of the 12th Conference on Computational Linguistics - Volume 1, (Stroudsburg, PA, USA, 1988), COLING 88, Associations for Computational Linguistics, pp [4] [SCH12] M. Schuster Japanese and Korean Voice Search IEEE International Conference on Acoustics, Speech and Signal Processing (2012). [5] [ORT16] Marcel Ortgiese Mathematische Statistik. Vorlesungsmanuskript WiSe 2015/2016, WWU Münster, 4. Februar 2016 [6] [OLA15] Christopher Olah Understanding LSTM Networks August 2015 [7] [GOO16] Ian Goodfellow, Yoshua Bengio, Aaron Courville Deep Learning. MIT Press, 2016 [8] [OKP14] M. D. Okpor Machine Translation Approaches: Issues and Challenges. In International Journal of Computer Science Issues, Vol. 11, Issue 5, No 2, September 2014 [9] [GEN17] Guillaume Genthial Seq2Seq with Attention and Beam Search November