Softwareprojektpraktikum Maschinelle Übersetzung Grundlagen Neuronaler Netze und mxnet

Transkript

1 Softwareprojektpraktikum Maschinelle Übersetzung Grundlagen Neuronaler Netze und mxnet Julian Schamper, Jan Rosendahl 2. Mai 2018 Human Language Technology and Pattern Recognition Computer Science Department, RWTH Aachen University J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 1 / Mai 2018

2 1. Maschinelles Lernen 2. Neuronale Netzwerke 3. Motivation: Symbolisches Rechnen und mxnet 4. Einführung: Symbolisches Rechnen in mxnet J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 2 / Mai 2018

3 Section 1 Maschinelles Lernen J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 3 / Mai 2018

4 Maschinelles Lernen Maschinelles Lernen A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E Mitchell (1997) Idee Das Programm lernt aus Beispielen/Trainingsdaten Regeln Anhand des Gelernten können Aussagen über ungesehene Ereignisse getroffen werden Verhalten des Programms wird bewertet mit einer Metrik J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 4 / Mai 2018

5 Maschinelles Lernen Beispiele Regressionsgerade Clustering Klassifizierung: Translation... Alle Systeme Maschinellen Lernens sind bis heute spezialisierte Systeme. J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 5 / Mai 2018

6 Maschinelles Lernen Datensätze Trainigsdaten: auf diesen Daten wird das System trainiert Validierungsdaten/Entwicklungsdaten: auf diesen Daten werden Designentscheidungen bezüglich des Systems getroffen. Beispielsweise: Mit welchen Gewichten werden mehrere Modelle kombiniert? Wann ist das Training beendet? Testdaten: auf diesen Daten wird das System nur ausgewertet. Wichtig: Diese Datensätze müssen strikt getrennt werden. J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 6 / Mai 2018

7 Überanpassung & Unteranpassung Problem Die Komplexität des Modells muss geeignet sein die Daten angemessen beschreiben zu können- Überanpassung (Overfitting): Das Modell passt sich zu stark an die Daten an Unteranpassung (Underfitting): Das Modell passt sich nicht stark genug an die Daten an Unteranpassung Ok Überanpassung J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 7 / Mai 2018

8 Überanpassung & Unteranpassung Unteranpassung Trainingsfehler und Testsetsfehler (Generalisierungsfehler) werden nicht kleiner Lösung: Aussagekräftigeres Modell Überanpassung fallenden Trainingsfehler zeitgleich mit einem steigenden Generalisierungsfehler Lösung:? Ziel ist ein geringer Fehler auf einem ungesehenen Testset. J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 8 / Mai 2018

9 Section 2 Neuronale Netzwerke J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 9 / Mai 2018

10 Neuronale Netzwerke Neuronale Netzwerke Erste Experimente seit den 60er Jahren Wichtiges stand-alone Systeme in der maschinellen Übersetzung z.b. [Sutskever & Vinyals + 14], Durchbruch zum state-of-the-art [Bahdanau & Cho + 14] Eigenschaften sehr strukturierte, hochdimensionale Funktionen große Anzahl freier Parameter einfache Rechenoperationen parallelisierbar systematische Parameteraktualisierung möglich J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 10 / Mai 2018

11 Neuronale Netzwerke Varianten von ANNs Feedforward Netzwerke, Multilayer Perceptrons (MLP) Rekurrente Neuronale Netzwerke (RNN) Convolutional Neural Network (CNN, ConvNet) J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 11 / Mai 2018

12 Neuronale Netzwerke Grundstruktur Eingabelayer der Größe N: (x 1,... x N ) verdeckte (hidden) layer beliebige Anzahl Jedes versteckte Layer hat ebenfalls feste Größe Ausgabelayer der Größe M: y 1,... y M Die Anzahl der Layer (minus eins) wird oft als Tiefe/depth des Netzwerks bezeichnet. J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 12 / Mai 2018

13 Eingabelayer & Ausgabelayer Neuronale Netzwerke erhält Eingabe (x 1,... x N ) = (y (0) 1,... y(0) N ) keine Rechenoperation Versteckte Layer (Vollverbunden) Variablen Layer l Größe/Anzahl künstlicher Neuronen: N (l) Eingabe: y (l 1), Ausgabe: y (l) Gewichte: ω (l) i,j, Bias b(l) i Berechnung des versteckten Zustands (hidden states) Ausgabelayer y (l) j := σ (l) N (l) i=1 ω (l) i,j y(l 1) i + b (l) stellt Ausgabe bereit (y 1,... y M ) = (y (L) 1,... y (L) M ) Rechenoperation wie im versteckten Layer J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 13 / Mai 2018 j

14 Neuronale Netzwerke Künstliches Neuron/Knote/Node Layer l besteht aus Nodes/Neuronen y (l) j Mögliche Aktivierungsfunktionen σ: tanh, sigmoid ReLu(x) = max(0, x) Layer Neben den vollverbundenen Layern (fully connected) gibt es zahlreiche Alternativen Softmax Pooling Regularisierungslayer Attention Layer Rekurrente Layer... J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 14 / Mai 2018

15 Beispiel Anmerkungen Layer Rechenoperationen können als Matrixrechnungen dargestellt werden y (l) = σ (l) ( A (l) y (l 1) + b (l)) Mit der Konvention y (l 1) 0 = 1 kann der Bias Vektor b auch als Teil der Gewichtsmatrix A verstanden werden ( ( )) 1 y (l) = σ (l) Â (l) y (l 1) Funktionen wie σ werden elementweise ausgewertet. In der Regel ist aus dem Kontext klar welche Darstellung verwendet wird. J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 15 / Mai 2018

16 Beispiel Ausgabelayer M = 3 (A (3), b (3) ) Vorwärtsdurchlauf/(forward pass): ( y = σ A (3) σ [A (2) σ(a (1) x + b (1) ) + b (2)] + b (3)) d.h. Ausgabe y wird aus Eingabe x berechnet Verst. Layer 2 Verst. Layer 1 (A (2), b (2) ) (A (1), b (1) ) Eingabelayer N = 5 J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 16 / Mai 2018

17 Neuronale Netzwerke Ausgabelayer Im Falle von Klassifikationsproblemen wird als letztes Layer oft ein softmax-layer verwendet: softmax(v 1,..., v M ) := exp(v 1 ) M m=1 exp(v m). exp(v M ) M m=1 exp(v m) wandelt beliebige Werte in Wahrscheinlichkeitsverteilung wird meist vor der Cross-Entropy-Verlustfunktion verwendet J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 17 / Mai 2018

18 Training Bisher: Wie wendet man das neuronale Netzwerk auf Daten an? Training: Wie werden die Gewichte (d.h. die Variablen A (l), b (l) )) des Netzwerks am besten gewählt? Geänderter Blickpunkt Bisher: Betrachten das Netzwerk als Funktion: y ω : R N R M : x y ω (x) Training: Betrachten das Netzwerk als Funktion: y ω : W R : ω score(y ω ) Mit W := W N der Menge aller Parameterbelegungen des Netzwerks N. J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 18 / Mai 2018

19 Verlustfunktion (loss function) Verlustfunktion ein Neuronales Netzwerk ist eine Funktion W R M Die Optimierung benötigt W R Verwende Fehlerfunktion L : R M R Beispiele Squared loss L[Y, y ω (X)] = 1 X Cross-Entropy/Kreuzentropie L[Y, y ω (X)] = 1 X (x,y) (X,Y ) M (x,y) (X,Y ) m=1 vergleicht zwei Wahrscheinlichkeitsverteilungen y y ω (x) 2 2 y m log[(y ω (x)) m ] J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 19 / Mai 2018

20 Gradient Based Training Problem Finde eine optimale Parameterbelegung ω W für Gewichte und Bias-Vektoren: ω = arg min L[Y, y ω (X)]. ω W Gradientenverfahren/Gradient descent Approximiert ein lokales Minimum einer Funktion L mit Parametern ω iterativ. Algorithm 1: Gradientenverfahren ω := random_values() while not converged do for i, j, l do ω (l) i,j := ω(l) i,j + λ L[Y,y ω(x)] ω (l) i,j end end Mit Lernrate (learning rate) λ. J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 20 / Mai 2018

21 Backpropagation - Idee Ableitung der Fehlerfunktion Ausgangssituation: L[Y, y(x)] = 1 X M (x,y) (X,Y ) m=1 Annahme: Letztes Layer ist vollverbunden. y m log [ ( σ (L) A (L) y (L 1)) ] m Ableitung mittels Kettenregel: L[Y, y(x)] ω (L) i,j = 1 X (x,y) (X,Y ) M m=1 y m log[σ (L) ] σ (L) σ(l) (z) z ( A (L) y (L 1)) m ω (L) i,j L[Y, y(x)] ω (L 1) i,j = L[Y, y(x)] A (L) y (L 1) A(L) y (L 1) ω (L 1) i,j J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 21 / Mai 2018

22 Training Probleme Verlustfunktionen summieren über alle Trainingsdaten L[Y, y ω (X)] = 1 M y m log[(y ω (x)) m ] X (x,y) (X,Y ) m=1 für ein Parameterupdate müssen alle Trainingsdaten durch das Modell verarbeitet werden. Stochastic Gradient Descent (SGD) Zerlege Trainingsdaten in Batches b: (X b, Y b ) (X, Y ). L[Y, y(x)] L[Y b, y(x b )] Nach jeder Gewichtsaktualisierung wird ein neuer Batch ausgewählt. J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 22 / Mai 2018

23 Lernraten SGD Varianten In der Praxis wird die Lernrate λ im Verlaufe des Trainings gesenkt. Zahlreiche Methoden um die Lernrate zu kontrollieren/reduzieren Lernrate alle k Iterationen halbieren Lernrate halbieren, wenn keine Verbesserung für k Iterationen beobachtet wurde... Vielzahl von Optimizern die weitergehende Heuristiken anwenden Adadelta [Zeiler 12] Adam [Kingma & Ba 14]... J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 23 / Mai 2018

24 Fragen? J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 24 / Mai 2018

25 Section 3 Motivation: Symbolisches Rechnen und mxnet J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 25 / Mai 2018

26 Motivation: Neuronale Netze in der Praxis I Anforderung an Implementierung Das neuronale Netzwerk soll auf unterschiedliche Arten verwendet werden können Ausführung der modellierten Funktion: y ω : x y ω (x) Training: Verändern der Gewichte / Parameter des Netzwerks ω (automatische) Berechnung von Gradienten Flexibilität bei Modifikationen und Erweiterungen des Netzwerkes z.b. Einfügen eines weiteren Layers, Änderung der Aktivierungsfunktionen σ Änderung an einer Stelle im Code sollte sich direkt auf Ausführung und Training auswirken Wiederverwendung / Bereitstellung typischer Bausteine fully connected layer, softmax layer, cross entropy loss,... Effiziente Verarbeitung großer Datenmengen J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 26 / Mai 2018

27 Motivation: Neuronale Netze in der Praxis II Typische Lösungsansätze Zuerst: Symbolische Modellierung eines Berechnungsgraphen (ein Mal) Anschließend: Unterschiedliche Arten der Anwedung des gleichen Berechnungsgraphen auf unterschiedliche konkrete Daten (mehrmals) Bereitstellung typischer Bausteine und Funktionalitäten durch eine Bibliothek GPU Unterstützung zur Beschleunigung der Berechnungen und maschinen-nahe Implementierung der rechenintensiven Bausteine (oft in C++ und Nvidia CUDA) Entsprechende Bibliotheken mxnet, TensorFlow, (Py)Torch, Caffe, Theano,... in diesem Softwareprojektpraktikum: mxnet J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 27 / Mai 2018

28 Section 4 Einführung: Symbolisches Rechnen in mxnet J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 28 / Mai 2018

29 Einordnung: Symbolische vs. Imperative Programmierung Imperative Programmierung (vereinfachte Darstellung) Ausführung der Befehle in der gegebenen Reihenfolge (direkt mit konkreten Daten) In mxnet: Objekte und Funktionen aus mxnet.ndarray Symbolische Programmierung (vereinfachte Darstellung) Definition von Platzhaltern (Variablen) Verbund der Variablen mit Rechenoperationen zu einem beliebig komplexen Berechnungsgraphen (keine konkrete Berechnung) Auswertung der Ausgabe-Variablen unter Angabe konkreter Daten (vorher eventuell Vereinfachung und Optimierung des Graphen) In mxnet: Objekte und Funktionen aus mxnet.symbol J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 29 / Mai 2018

30 Beispiel 1: f = a + b var_a = mx.sym.variable("a") var_b = mx.sym.variable("b") var_f = var_a + var_b _plus0 # mx.viz.plot_network(var_f).render() A = mx.nd.array([3,5,1]) B = mx.nd.array([6,5,2]) print(var_f.eval(a=a, b=b)) a b [ [ ] <NDArray selbst die Shapes der Daten sind nicht bei Modellierung bekannt J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 30 / Mai 2018

31 Beispiel 2: f = (a b + c) d 2 Variante I var_a = mx.sym.variable("a") var_b = mx.sym.variable("b") var_c = mx.sym.variable("c") var_d = mx.sym.variable("d") var_f = (var_a * var_b + var_c) * (var_d * var_d) Variante II: Wiederverwendung von Python Variablen var_f = mx.sym.variable("a") var_f = var_f * mx.sym.variable("b") var_f = var_f + mx.sym.variable("c") var_ds = mx.sym.variable("d") var_ds = var_ds * var_ds var_f = var_f * var_ds J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 31 / Mai 2018

32 Beispiel 2: f = (a b + c) d 2 Beide Varianten resultieren in den gleichen Berechnungsgraphen _mul2 _plus0 _mul1 _mul0 c d a b Variante II verdeutlicht aber, dass der Aufbau des Graphen auch Schritt für Schritt geschehen kann Dies kann auch innerhalb von Python Kontrollstrukturen geschehen J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 32 / Mai 2018

33 simple_bind und forward I in Beispiel 1 wurde Symbol.eval benutzt dies führt intern die Funktionen Symbol.bind und Executor.forward hintereinander aus meist ist werden diese Schritte getrennt und in leicht abgewandelter Form durchgeführt, z.b. häufig Symbol.simple_bind Executor.forward (Executor.backward) J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 33 / Mai 2018

34 simple_bind und forward II Fortführung Beispiel 2: f = (a b + c) d 2 ex_f = var_f.simple_bind(ctx=mx.cpu(), a=(1,)) A = mx.nd.array([3]); B = mx.nd.array([2]) C = mx.nd.array([4]); D = mx.nd.array([3]) print(ex_f.forward(a=a, b=b, c=c, d=d)) [ [ 90.] <NDArray ctx: Kontext z.b. mx.cpu() oder mx.gpu() simple_bind benötigt Shapes der späteren Argumente hier reicht die Angabe für ein Argument, alle anderen Shapes lassen sich ableiten (intern durch Symbol.infer_shape) forward wird mehrmals für unterschiedliche Daten aufgerufen, simple_bind nur ein Mal J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 34 / Mai 2018

35 Berechnung der Gradienten forward und backward I Fortführung Beispiel 2: f = (a b + c) d 2 ex_f = var_f.simple_bind(ctx=mx.cpu(), a=(1,)) A = mx.nd.array([3]); B = mx.nd.array([2]) C = mx.nd.array([4]); D = mx.nd.array([3]) ex_f.forward(a=a, b=b, c=c, d=d) ex_f.backward(out_grads=mx.nd.array([1])) print(ex_f.grad_dict) b : [ 27.] <NDArray d : [ 60.] <NDArray a : [ 18.] <NDArray c : [ 9.] <NDArray ex_f.grad_dict enthält die Gradienten f a, f b, f c, f d J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 35 / Mai 2018

36 Berechnung der Gradienten forward und backward II Anmerkungen ex_f.forward(a=a, b=b, c=c, d=d) ex_f.backward(out_grads=mx.nd.array([1])) Die Gradienten werden über die Kettenregel mittels eines Vorwärts und eines Rückwärts Schrittes berechnet out_grads hier auf f f = 1 wenn für eine andere externe Funktion g der Gradient g f würde man durch setzen von out_grads auf g f die Gradienten g a, g b, g c, g d erhalten bekannt ist, J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 36 / Mai 2018

37 mxnet: Resourcen für symbolisches Rechnen Hilfreiche Tutorials / Dokumentationen Symbolic Configuration and Execution in Pictures in_pictures/symbol_in_pictures.html Deep Learning Programming Style: Symbolic vs. Imperative Programs program_model.html Symbol API symbol.html Symbol - Neural network graphs and auto-differentiation symbol.html J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 37 / Mai 2018

38 Fragen? J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 38 / Mai 2018

39 Literature I D. Bahdanau, K. Cho, Y. Bengio: Neural Machine Translation by Jointly Learning to Align and Translate. CoRR, Vol. abs/ , D.P. Kingma, J. Ba: Adam: A method for stochastic optimization. arxiv preprint arxiv: , Vol., I. Sutskever, O. Vinyals, Q.V. Le: Sequence to Sequence Learning with Neural Networks. In Z. Ghahramani, M. Welling, C. Cortes, N.D. Lawrence, K.Q. Weinberger, editors, Advances in Neural Information Processing Systems 27, pp Curran Associates, Inc., Wikipedia, the free encyclopedia: File:Overfitting.svg, [Online; accessed April 27, 2018]. J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 39 / Mai 2018

40 Literature II M.D. Zeiler: ADADELTA: an adaptive learning rate method. arxiv preprint arxiv: , Vol., J. Schamper, J. Rosendahl: Praktikum Maschinelle Übersetzung 40 / Mai 2018