Grundlagen zu neuronalen Netzen. Kristina Tesch

Ähnliche Dokumente
Neural Networks: Architectures and Applications for NLP

Neuronale Netze in der Phonetik: Feed-Forward Netze. Pfitzinger, Reichel IPSK, LMU München {hpt 14.

Neuronale Netze. Christian Böhm.

Konzepte der AI Neuronale Netze

Der Sprung in die Zukunft! Einführung in neuronale Netzwerke

Reinforcement Learning

Weitere Untersuchungen hinsichtlich der Anwendung von KNN für Solvency 2. Tom Schelthoff

Lineare Regression. Christian Herta. Oktober, Problemstellung Kostenfunktion Gradientenabstiegsverfahren

Praktische Optimierung

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.

Wissensentdeckung in Datenbanken

Leipziger Institut für Informatik. Wintersemester Seminararbeit. im Studiengang Informatik der Universität Leipzig

Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik. 8. Aufgabenblatt

Logistische Regression

Hannah Wester Juan Jose Gonzalez

Neuronale Netze. Anna Wallner. 15. Mai 2007

Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs)

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn

Mustererkennung: Neuronale Netze. D. Schlesinger ()Mustererkennung: Neuronale Netze 1 / 12

Neuronale Netze u. Anwendungen, 17. Jan. 2012

Kapitel 10. Maschinelles Lernen Lineare Regression. Welche Gerade? Problemstellung. Th. Jahn. Sommersemester 2017

So lösen Sie das multivariate lineare Regressionsproblem von Christian Herta

(hoffentlich kurze) Einführung: Neuronale Netze. Dipl.-Inform. Martin Lösch. (0721) Dipl.-Inform.

Vorlesung Wissensentdeckung

Grundlagen Neuronaler Netze

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr

Training von RBF-Netzen. Rudolf Kruse Neuronale Netze 134

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn

6.2 Feed-Forward Netze

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

DEEP LEARNING MACHINE LEARNING WITH DEEP NEURAL NETWORKS 8. NOVEMBER 2016, SEBASTIAN LEMBCKE

Parameterschätzung. Kapitel 14. Modell Es sei {P θ θ Θ}, Θ R m eine Familie von Verteilungen auf χ (sog. Stichprobenraum),

Künstliche Neuronale Netze

Statistics, Data Analysis, and Simulation SS 2017

Künstliche Neuronale Netze

Neuronale Netze Aufgaben 3

Wissensentdeckung in Datenbanken

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.

Frequentisten und Bayesianer. Volker Tresp

Universität des Saarlandes

Skipgram (Word2Vec): Praktische Implementierung

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung

Varianzkomponentenschätzung

Bayes sches Lernen: Übersicht

Seminar K nowledge Engineering und L ernen in Spielen

Grundlagen neuronaler Netzwerke

Validation Model Selection Kreuz-Validierung Handlungsanweisungen. Validation. Oktober, von 20 Validation

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20

Softwareprojektpraktikum Maschinelle Übersetzung Feedforward Modell und Praktische Anmerkungen (zum Training und mxnet)

Thema 3: Radiale Basisfunktionen und RBF- Netze

Statistics, Data Analysis, and Simulation SS 2015

Bayes sches Lernen: Übersicht

Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II. Prof. Dr.

Technische Universität. Fakultät für Informatik

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik

Einführung in die Computerlinguistik

Statistics, Data Analysis, and Simulation SS 2017

Neuronale Netze. Einführung i.d. Wissensverarbeitung 2 VO UE SS Institut für Signalverarbeitung und Sprachkommunikation

6.4 Neuronale Netze zur Verarbeitung von Zeitreihen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Thomas Vanck

Theoretische Informatik 1

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn

Lineare Regression 2: Gute Vorhersagen

Was bisher geschah Künstliche Neuronen: Mathematisches Modell und Funktionen: Eingabe-, Aktivierungs- Ausgabefunktion Boolesche oder reelle Ein-und

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016

Lineare Regression. Volker Tresp

Neuronale. Netze. Henrik Voigt. Neuronale. Netze in der Biologie Aufbau Funktion. Neuronale. Aufbau Netzarten und Topologien

Modell Komplexität und Generalisierung

Radiale-Basisfunktionen-Netze. Rudolf Kruse Neuronale Netze 120

Der Backpropagation-Algorithmus als Beispiel für Lernalgorithmen künstlicher neuronaler Netze Reinhard Eck 1

Numerische Methoden und Algorithmen in der Physik

Machine Learning. Kurzeinführung Erfahrungen in GIS

Rekurrente / rückgekoppelte neuronale Netzwerke

Projektgruppe. Text Labeling mit Sequenzmodellen

Kapitel 9. Schätzverfahren und Konfidenzintervalle. 9.1 Grundlagen zu Schätzverfahren

Überblick. Grundkonzepte des Bayes schen Lernens. Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische Regression

Clusteranalyse: Gauß sche Mischmodelle

Perzeptronen. Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Stochastik Praktikum Parametrische Schätztheorie

Machine Learning for Visual Computing Zusammenfassung

Übersicht. Definition Daten Problemklassen Fehlerfunktionen

Die Prognose regionaler Beschäftigung mit Neuronalen Netzen und Genetischen Algorithmen

i =1 i =2 i =3 x i y i 4 0 1

Wahrscheinlichkeitstheorie 2

Frequentistische Statistik und Bayessche Statistik. Volker Tresp

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Schriftlicher Test Teilklausur 2

Einführung in die Neuroinformatik Lösungen zum 5. Aufgabenblatt

Neuronale Netze. Volker Tresp

Marina Sedinkina Folien von Benjamin Roth Planen (CIS LMU andmünchen) Evaluieren von Machine Learning Experimenten 1 / 38

Stochastic Processes SS 2010 Prof. Anton Wakolbinger. Klausur am 16. Juli 2010

Neuronale Netze (Konnektionismus) Einführung in die KI. Beispiel-Aufgabe: Schrifterkennung. Biologisches Vorbild. Neuronale Netze.

Statistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Studiengang Simulation Technology

Neural Networks: Architectures and Applications for NLP

6. Schätzverfahren für Parameter

Transkript:

Grundlagen zu neuronalen Netzen Kristina Tesch 03.05.2018

Gliederung 1. Funktionsprinzip von neuronalen Netzen 2. Das XOR-Beispiel 3. Training des neuronalen Netzes 4. Weitere Aspekte Kristina Tesch Grundlagen zu neuronalen Netzen 2/27

Zielsetzung x f y Kristina Tesch Grundlagen zu neuronalen Netzen 3/27

Zielsetzung x f y Neuronales Netz: definiert Abbildung y = f (x, θ) Kristina Tesch Grundlagen zu neuronalen Netzen 3/27

Zielsetzung x f y x f y Neuronales Netz: definiert Abbildung y = f (x, θ) θ Kristina Tesch Grundlagen zu neuronalen Netzen 3/27

Zielsetzung x f y x f y Neuronales Netz: definiert Abbildung y = f (x, θ) lernt Parameter θ θ Kristina Tesch Grundlagen zu neuronalen Netzen 3/27

Zielsetzung x f y x f y θ Neuronales Netz: definiert Abbildung y = f (x, θ) lernt Parameter θ zielt auf Bestapproximation der Funktion f (x) durch f (x, θ) Kristina Tesch Grundlagen zu neuronalen Netzen 3/27

Feedforward-Netzwerke approximierende Funktion f wird aus Funktionen zusammengesetzt Beispiel: f (x) = f 2 (f 1 (x)) Kristina Tesch Grundlagen zu neuronalen Netzen 4/27

Feedforward-Netzwerke approximierende Funktion f wird aus Funktionen zusammengesetzt Beispiel: f (x) = f 2 (f 1 (x)) x f 1 f 2 y Kristina Tesch Grundlagen zu neuronalen Netzen 4/27

Feedforward-Netzwerke approximierende Funktion f wird aus Funktionen zusammengesetzt Beispiel: f (x) = f 2 (f 1 (x)) x f 1 f 2 y x 1 f 1 1 f 2 y x 2 f 1 2 Kristina Tesch Grundlagen zu neuronalen Netzen 4/27

Das XOR-Problem x 2 x 1 x 2 x 1 x 2 0 0 0 1 0 1 0 1 1 1 1 0 x 1 Kristina Tesch Grundlagen zu neuronalen Netzen 5/27

Lösung mit neuronalem Netz x Matrixmultiplikation Biasaddition elementw. Sigmoid y elementw. Sigmoid Vektormultiplikation Biasaddition Kristina Tesch Grundlagen zu neuronalen Netzen 6/27

Features im neuronalen Netz Ausgangsrepräsentation des XOR-Problems: x 2 Repräsentation durch das Hidden-Layer: a 1 2 x 1 a 1 1 Kristina Tesch Grundlagen zu neuronalen Netzen 7/27

Training des neuronalen Netzes Ziel: Anpassen der Parameter von f um f möglichst gut zu approximieren Wesentliche Elemente: Trainingsbeispiele Kostenfunktion bewertet die Güte der Approximation entsprechend der Aufgabe zu wählen Optimierungsverfahren Verbesserung der Parameter Kristina Tesch Grundlagen zu neuronalen Netzen 8/27

Beispiele für Kostenfunktionen Mittlerer quadratischer Fehler (Mean Square Error (MSE)) Klassifikationsfehler Kreuzentropie (Cross-entropy) Kristina Tesch Grundlagen zu neuronalen Netzen 9/27

Kreuzentropie H(P, Q) = E x P [log Q(x)] X : Zufallsvariable P, Q: Wahrscheinlichkeitsverteilungen x P: x unterliegt Wahrscheinlichkeitsverteilung P E: Erwartungswert Kristina Tesch Grundlagen zu neuronalen Netzen 10/27

Kreuzentropie H(P, Q) = E x P [log Q(x)] X : Zufallsvariable P, Q: Wahrscheinlichkeitsverteilungen x P: x unterliegt Wahrscheinlichkeitsverteilung P E: Erwartungswert Minimierungsproblem entspricht Maximum-Likelihood Schätzung Kristina Tesch Grundlagen zu neuronalen Netzen 10/27

Kreuzentropie als Kostenfunktion H(P, Q) = E y PY X [log Q(y x, θ)] X : Trainingsdaten Y : Label der Trainingsdaten P(y x): Verteilung der beobachteten Daten Q(y x): Verteilung des Modells Kristina Tesch Grundlagen zu neuronalen Netzen 11/27

MSE als Kostenfunktion J(θ) = E y PY X y f (x; θ) 2 2 minimiert Abstand zwischen Label und Vorhersage Maximum-Likelihood Schätzer unter Annahme P Y X = N (ˆµ, σ 2 ) feste Varianz Schätzung des Mittelwerts ˆµ = f (x, θ)...using the MSE loss makes sense if the assumption that your outputs are a real-valued function of your inputs, with a certain amount of irreducible Gaussian noise, with constant mean and variance. [1] Kristina Tesch Grundlagen zu neuronalen Netzen 12/27

Klassifikationsfehler als Kostenfunktion Anzahl der Klassifikationsfehler nicht stetig Beispiel [2]: Berechnet Label Richtig? 0.3 0.3 0.4 0 0 1 ja 0.3 0.4 0.3 0 1 0 ja 0.1 0.2 0.7 1 0 0 nein Berechnet Label Richtig? 0.3 0.3 0.4 0 0 1 ja 0.3 0.4 0.3 0 1 0 ja 0.3 0.4 0.3 1 0 0 nein Kristina Tesch Grundlagen zu neuronalen Netzen 13/27

Optimierungsverfahren Minimieren der Kosten durch Anpassung der Parameter basiert üblichweise auf dem Gradienten z.b. Stochastic Gradient Descent (SGD) Kristina Tesch Grundlagen zu neuronalen Netzen 14/27

Ableitung 4 3 f (θ) f (θ 0 ) 2 f (θ 1 ) 1 0 0.5 1 1.5 2 2.5 3 θ Kristina Tesch Grundlagen zu neuronalen Netzen 15/27

Gradient 1,000 p 500 0 0 2 4 x 6 8 10 0 5 y 10 Kristina Tesch Grundlagen zu neuronalen Netzen 16/27

Backpropagation [3] Berechnen des Gradienten der Kostenfunktion Methode: Zurückpropagieren des Fehlers durch das Netz Betrachte zunächst nur ein Trainingsbeispiel (x, y) Kristina Tesch Grundlagen zu neuronalen Netzen 17/27

Backpropagation - Fehler δ l j Layer l 1 Layer l Layer l + 1 Neuron j in Layer l Kristina Tesch Grundlagen zu neuronalen Netzen 18/27

Backpropagation - Fehler δ l j Layer l 1 Layer l Layer l + 1 Fehler δ l j := C z l j Neuron j in Layer l Kristina Tesch Grundlagen zu neuronalen Netzen 18/27

Backpropagation - Fehler δ l j Layer l 1 Layer l Layer l + 1 Fehler δ l j := C z l j δj l klein Einfluss auf die Kosten ist gering zj l hat nahezu optimalen Wert Neuron j in Layer l Kristina Tesch Grundlagen zu neuronalen Netzen 18/27

Backpropagation - Fehler δ l j Layer l 1 Layer l Layer l + 1 Fehler δ l j := C z l j Neuron j in Layer l δj l klein Einfluss auf die Kosten ist gering zj l hat nahezu optimalen Wert δj l groß Einfluss auf die Kosten ist groß zj l sollte einen anderen Wert haben Kristina Tesch Grundlagen zu neuronalen Netzen 18/27

Backpropagation - δ L j für die letzte Schicht Ziel: Berechne δ L j = C z L j für alle Ausgabeneuronen Kristina Tesch Grundlagen zu neuronalen Netzen 19/27

Backpropagation - δ L j für die letzte Schicht Ziel: Berechne δ L j = C z L j für alle Ausgabeneuronen Annahme: nur ein Ausgabeneuron Kristina Tesch Grundlagen zu neuronalen Netzen 19/27

Backpropagation - δ L j für die letzte Schicht Ziel: Berechne δ L j = C z L j für alle Ausgabeneuronen Annahme: nur ein Ausgabeneuron C(a L ) = C(σ(z L )) Kristina Tesch Grundlagen zu neuronalen Netzen 19/27

Backpropagation - δ L j für die letzte Schicht Ziel: Berechne δ L j = C z L j für alle Ausgabeneuronen Annahme: nur ein Ausgabeneuron C(a L ) = C(σ(z L )) δ L j = C z L j = C a L σ (z L ) Kristina Tesch Grundlagen zu neuronalen Netzen 19/27

Backpropagation - δ L j für die letzte Schicht Ziel: Berechne δ L j = C z L j für alle Ausgabeneuronen Annahme: nur ein Ausgabeneuron C(a L ) = C(σ(z L )) δj L = C zj L = C a L σ (z L ) Erweiterung: k Ausgabeneuronen Kristina Tesch Grundlagen zu neuronalen Netzen 19/27

Backpropagation - δ L j für die letzte Schicht Ziel: Berechne δ L j = C z L j für alle Ausgabeneuronen Annahme: nur ein Ausgabeneuron C(a L ) = C(σ(z L )) δ L j = C z L j = C a L σ (z L ) Erweiterung: k Ausgabeneuronen C(a L 1,..., al k ) = C(σ(zL 1 ),..., σ(zl k )) Kristina Tesch Grundlagen zu neuronalen Netzen 19/27

Backpropagation - δ L j für die letzte Schicht Ziel: Berechne δ L j = C z L j für alle Ausgabeneuronen Annahme: nur ein Ausgabeneuron C(a L ) = C(σ(z L )) δj L = C zj L = C a L σ (z L ) Erweiterung: k Ausgabeneuronen C(a1 L,..., al k ) = C(σ(zL 1 ),..., σ(zl k )) δj L = C zj L = C k al k zj L = C aj L σ (z L ) a L k Kristina Tesch Grundlagen zu neuronalen Netzen 19/27

Backpropagation - δ l j mit Hilfe von δ l+1 k für alle k Ziel: Berechne δ l j = C z l j Kristina Tesch Grundlagen zu neuronalen Netzen 20/27

Backpropagation - δ l j mit Hilfe von δ l+1 k für alle k Ziel: Berechne δ l j = C z l j Umschreiben mit der Kettenregel δ l j = C z l j = k C z l+1 k zl+1 k zj l Kristina Tesch Grundlagen zu neuronalen Netzen 20/27

Backpropagation - δ l j mit Hilfe von δ l+1 k für alle k Ziel: Berechne δ l j = C z l j Umschreiben mit der Kettenregel δ l j = C z l j = k Einsetzen in z l+1 k C z l+1 k zl+1 k zj l z l+1 k = j w l+1 kj aj l + b l+1 k = j w l+1 kj σ(z l j ) + bl+1 k Kristina Tesch Grundlagen zu neuronalen Netzen 20/27

Backpropagation - δ l j mit Hilfe von δ l+1 k für alle k Ziel: Berechne δ l j = C z l j Umschreiben mit der Kettenregel δ l j = C z l j = k Einsetzen in z l+1 k C z l+1 k zl+1 k zj l z l+1 k = j w l+1 kj aj l + b l+1 k = j w l+1 kj Ableitung zl+1 k zj l σ(z l j ) + bl+1 k zl+1 k zj l = zl+1 k aj l al j z l j = w l+1 kj σ (z l j ) Kristina Tesch Grundlagen zu neuronalen Netzen 20/27

Backpropagation - δ l j mit Hilfe von δ l+1 k für alle k Ziel: Berechne δ l j = C z l j Umschreiben mit der Kettenregel δ l j = C z l j = k Einsetzen in z l+1 k C z l+1 k zl+1 k zj l z l+1 k = j w l+1 kj aj l + b l+1 k = j w l+1 kj Ableitung zl+1 k zj l = k δl+1 k w l+1 kj σ (z l j ) σ(z l j ) + bl+1 k zl+1 k zj l = zl+1 k aj l al j z l j = w l+1 kj σ (z l j ) Kristina Tesch Grundlagen zu neuronalen Netzen 20/27

Backpropagation - partielle Ableitungen C b l j und C w l kj Ziel: Berechne partielle Ableitungen des Gradienten Kristina Tesch Grundlagen zu neuronalen Netzen 21/27

Backpropagation - partielle Ableitungen C b l j und C w l kj Ziel: Berechne partielle Ableitungen des Gradienten gewichteter Input z l j eines Neurons z l k = j w l kj al 1 j + b l k Kristina Tesch Grundlagen zu neuronalen Netzen 21/27

Backpropagation - partielle Ableitungen C b l j und C w l kj Ziel: Berechne partielle Ableitungen des Gradienten gewichteter Input z l j eines Neurons z l k = j w l kj al 1 j + b l k partielle Ableitung der Kostenfunktion nach dem Bias b l j C b l j = C z l j zl j b l j = δ l j zl j b l j = δ l j Kristina Tesch Grundlagen zu neuronalen Netzen 21/27

Backpropagation - partielle Ableitungen C b l j und C w l kj Ziel: Berechne partielle Ableitungen des Gradienten gewichteter Input z l j z l k = j w l kj al 1 j eines Neurons + b l k partielle Ableitung der Kostenfunktion nach dem Bias b l j C bj l = C zj l zl j bj l = δj l zl j bj l = δj l partielle Ableitung der Kostenfunktion nach dem Gewicht w k j l C w l kj = C z l j z l j w l kj = δ l j z l j w l kj = δ l j a l 1 k Kristina Tesch Grundlagen zu neuronalen Netzen 21/27

Backpropagation Eingabe: eine Menge von m Trainingsbeispielen für jedes Trainingsbeispiel x Feedforward: berechne z x,l j und a x,l k für alle k und j Fehler in der letzten Schicht: berechne δ x,l j für alle j Backpropagation des Fehlers: berechne δ x,l j für alle l für alle j Gradient der gesamten Menge (gemittelt) Gewichte: Bias: C b l j C w l kj = 1 m = 1 m x δx,l j x δx,l j a x,l 1 k Kristina Tesch Grundlagen zu neuronalen Netzen 22/27

Implikationen des Backpropagation-Algorithmus Kostenfunktion ist ein Mittel über die Kosten eines einzelnen Trainingsbeispiels Kostenfunktion ist Funktion der Ausgaben des Netzes Differenzierbarkeit der Aktivierungsfunktion Saturierung der Aktivierungsfunktion führt zu kleinen Gradienten Kristina Tesch Grundlagen zu neuronalen Netzen 23/27

Weiterführendes Initialisierung Optimierungsverfahren (z.b. Stochastic Gradient Descent, Adam etc.) Netzarchitektur (z.b. Aktivierungsfunktion, Verbindungen, Rekurrenz etc.) Hyperparameter Regularisierung Kristina Tesch Grundlagen zu neuronalen Netzen 24/27

Literatur I R. Varma, Picking Loss Functions - A comparison between MSE, Cross Entropy, and Hinge Loss. http://rohanvarma.me/loss-functions/, Januar 2018. J. D. McCaffrey, Why You Should Use Cross-Entropy Error Instead Of Classification Error Or Mean Squared Error For Neural Network Classifier Training. https://jamesmccaffrey.wordpress.com/2013/11/05/whyyou-should-use-cross-entropy-error-instead-ofclassification-error-or-mean-squared-error-for-neuralnetwork-classifier-training/, November 2013. M. Nielsen, Neural networks and deep learning. http://neuralnetworksanddeeplearning.com/index.html, 2015. Kristina Tesch Grundlagen zu neuronalen Netzen 25/27

Literatur II Y. B. Ian Goodfellow and A. Courville, Deep learning. Book in preparation for MIT Press, 2016. Kristina Tesch Grundlagen zu neuronalen Netzen 26/27

Maximum Likelihood Schätzung Ziel: Schätze den gesuchten Parameter so, dass die Beobachtung besonders wahrscheinlich wird Beispiel: Urne mit 20 Kugeln (r schwarze und 20 r weiße Kugeln) ziehe 4 Kugeln ohne Zurücklegen wiederhole das Experiment mehrmals X = [1, 1, 1, 2, 1, 0] Welchen Wert hat r? Kristina Tesch Grundlagen zu neuronalen Netzen 27/27

Maximum Likelihood Schätzung Ziel: Schätze den gesuchten Parameter so, dass die Beobachtung besonders wahrscheinlich wird Beispiel: Urne mit 20 Kugeln (r schwarze und 20 r weiße Kugeln) ziehe 4 Kugeln ohne Zurücklegen wiederhole das Experiment mehrmals X = [1, 1, 1, 2, 1, 0] Welchen Wert hat r? r 2 3 4 5 6 7 8 9 L(X, r) 0.0003 0.0013 0.0026 0.003 0.0024 0.0016 0.0007 0.0003 Kristina Tesch Grundlagen zu neuronalen Netzen 27/27