Neuronale Netze. Maschinelles Lernen. Michael Baumann. Universität Paderborn. Forschungsgruppe Wissensbasierte Systeme Prof. Dr.

Transkript

1 Neuronale Netze Maschinelles Lernen Michael Baumann Universität Paderborn Forschungsgruppe Wissensbasierte Systeme Prof. Dr. Kleine Büning WS 2011/2012

2 Was ist ein neuronales Netz? eigentlich: künstliches neuronales Netz (Artificial Neural Network) bildet biologisches Nervensystem nach Neuronale Netze = dichte Verknüpfung einfacher Einheiten überwachtes Lernverfahren Definition (Neuronales Netz [Haykin, 1999]) A neural network is a massively parallel distributed processor made up of simple processing units, which has a natural propensity for storing experiential knowledge and making it available for use. It resembles the brain in two respects: 1 Knowledge is acquired by the network from its environment through a learning process. 2 Interneuron connection strengths, known as synaptic weights, are used to store the acquired knowledge. Neuronale Netze Michael Baumann 1/62

3 Vorteile neuronaler Netze Fähigkeit zur Generalisierung: Nach dem Training können ähnliche unbekannte Beispiele erkannt werden. Selbstorganisation: Neuronale Netze erzeugen eigene Darstellung der gelernten Informationen. Fehler-Toleranz: Fähigkeit, mit verrauschten Daten umzugehen. Generischer Ansatz, neuronales Netz lernt aus Beispielen. Die Nichtlinearität ermöglicht Verarbeitung von beliebigen Funktionen. Ausgabe kann so modelliert werden, dass Rückschlüsse auf Sicherheit der Zuordnung gezogen werden können. Neuronale Netze Michael Baumann 2/62

4 Klassifikation von Lernverfahren Beim überwachten Lernen (supervised learning) gibt es zu jedem Beispiel die korrekte Lösung als Vergleich. Das unüberwachte Lernen (unsupervised learning) hat keine Informationen über die korrekte Lösung zur Verfügung; hier müssen Ähnlichkeiten herausgefunden werden. Bestärkendes Lernen (reinforcement learning) nutzt eine Rückmeldung, ob ein Ergebnis richtig oder falsch war ohne die korrekte Lösung zu kennen. Neuronale Netze Michael Baumann 3/62

5 Lernprobleme Klassifizierung (classification) Ziel: Durch Merkmale kodierte Eingabe in eine der gegebenen diskreten Klassen einordnen Ausgabe: Vektor mit Klassenzugehörigkeit Beispiele: Kreditvergabe, Gesichtserkennung, Schrifterkennung,... Regression (function approximation) Ziel: Funktionswert an der durch Merkmale angegebenen Stelle approximieren Ausgabe: Zahlenwert Beispiele: mathematische Funktionen, Trends in Börsenkursen,... Neuronale Netze Michael Baumann 4/62

6 Notationen und Begriffe Merkmale sind Eigenschaften, die zur Beschreibung von Objekten verwendet werden Beispiele für Merkmale Personen: Größe, Alter, Geschlecht,... Autos: Typ, Farbe, Länge, Breite,... Pilze: Farbe, Größe,... X R d ist ein Merkmalsraum über endlich vielen Merkmalen C ist eine Menge von Klassen c : X C ist der ideale Klassifikator für X ein Beispiel (x, c(x)) besteht aus einem Merkmalsvektor x X und der korrekten Klassenzugehörigkeit c(x) die Trainingsmenge T := {(x 1, c(x 1 )),..., (x n, c(x n ))} X C ist eine Menge von Beispielen Neuronale Netze Michael Baumann 5/62

7 Geschichte 1943 McCulloch und Pitts stellen formales Modell eines Neurons mit all-or-none Charakter vor Hebb formuliert Lernregel: synaptische Verbindung zwischen zwei Neuronen wird bei häufiger Aktivierung verstärkt Rosenblatt modelliert Perzeptron Formulierung des Least mean square Algorithmus und Beschreibung von Adaline durch Widrow und Hoff Minsky und Papert zeigen Grenzen des Perzeptrons und postulieren ähnliche Beschränkungen für mehrschichtige Perzeptronen Rumelhart, Hinton und Williams präsentieren den Backpropagation Algorithmus. Neuronale Netze Michael Baumann 6/62

8 Biologisches Vorbild: Nervenzellen Dendrit Synapse Axon Zellkörper Neuronale Netze Michael Baumann 7/62

9 Biologisches Vorbild: Nervenzellen Dendrit Synapse Axon Zellkörper Dendriten: Eingänge für elektrische Impulse Synapsen: Kontaktstellen für Übertragung der Erregung können unterschiedlich starke Impulse auslösen Zellkörper: summiert eingehende Impulse Wird eine bestimmte Reizschwelle überschritten, so entsteht im Zellkörper ein Signal, das durch das Axon weitergeleitet wird. Axon: gibt Signal weiter gerichtete Signalverarbeitung Neuronale Netze Michael Baumann 7/62

10 Modell eines Neurons x 1 w 1 w 2 x 2. w d g( ) y x d x i sind die Komponenten des Eingabevektors x R d (Dentriten) w i R sind die Gewichte der Verbindungen, wobei w i den Anteil von x i an der Ausgabe quantifiziert (Synapsen) d berechnet gewichtete Summe w i x i der Eingänge (Zellkörper) i=1 g( ) ist die Aktivierungsfunktion, beschränkt Ausgabewert (Zellkörper, Axonhügel) y ist die Ausgabe (Axon) Neuronale Netze Michael Baumann 8/62

11 Perzeptron erhält einen Vektor mit reell-wertigen Zahlen als Eingabe berechnet eine binäre Ausgabe (z.b. C = {0, 1} oder C = { 1, +1}) soll genau dann feuern, wenn der berechnete Wert größer als die Reizschwelle ist minimales neuronales Netz, das nur aus einem Neuron besteht Codierung x R 2, z.b. 1 = true und 0 = false C = {1, 0} binäre Aktivierungsfunktion, abhängig von Schwellwert θ Neuronale Netze Michael Baumann 9/62

12 Berechnung im Perzeptron Schwellwert θ R bestimmt, ob das Perzeptron feuert wenn d i=1 w i x i θ dann soll y = 1 gelten, sonst soll y = 0 sein 1 0 θ also: wenn d i=1 w i x i θ 0 dann soll y = 1 gelten, sonst soll y = 0 sein Erweitern Perzeptron um einen Eingang mit w 0 = θ und x 0 = 1 Nutzen der Heaviside-Funktion für die Ausgabe: ( d ) { 1, wenn di=0 w i x i 0 y(x) = heaviside w i x i = i=0 0, sonst Neuronale Netze Michael Baumann 10/62

13 Angepasstes Neuronenmodell x 0 x 1 w 1 w 2 w 0 x 2. w d g( ) y x d x 0 wird auch als Bias bezeichnet Bias modelliert die Reizschwelle, ab der ein Neuron feuert diese Modellierung unterwirft den Bias ebenfalls dem Lernprozess Neuronale Netze Michael Baumann 11/62

14 Beispiel: Berechnung im Perzeptron x 0 = 1 x g( ) y x x 1 x 2 c(x) Neuronale Netze Michael Baumann 12/62

15 Entscheidungsfläche x 1 C = {, } Gesucht: Entscheidungsregel für T Neuronale Netze Michael Baumann 13/62

16 Entscheidungsfläche x 1 C = {, } Gesucht: Entscheidungsregel für T Beispielsweise: { x1 1.5 y(x 1 ) = sonst Neuronale Netze Michael Baumann 13/62

17 Entscheidungsfläche im R 2 4 x x 1 Neuronale Netze Michael Baumann 14/62

18 Entscheidungsfläche im R 2 4 x x 1 x 2 = x Neuronale Netze Michael Baumann 14/62

19 Entscheidungsfläche im R 2 Geradengleichungen x x 1 Verschiedene Schreibweisen, u.a.: y = m x + b w T x = θ x 2 = x ( ) T 1 1 ( ) x1 x 2 = 3.5 Neuronale Netze Michael Baumann 15/62

20 Entscheidungsfläche im R 2 Geradengleichungen 4 3 x 2 y(x) = x 1 + x y(x) = = 0 y(x) = = 0.5 y(x) = = x 1 Neuronale Netze Michael Baumann 15/62

21 Entscheidungsfläche im R 2 Geradengleichungen x y(x) > 0 y(x) = 0 y(x) < 0 x 1 Verwenden folgende Schreibweise für Geraden: hier: w T x = θ w 1 x 1 + w 2 x 2 θ = 0 }{{} y(x) ( ) T 1 1 ( ) x1 x = 0 x 1 + x = 0 Neuronale Netze Michael Baumann 15/62

22 Entscheidungsflächen im R d Entscheidungsfläche (im R 2 Gerade) definert durch w T x θ = 0 d w i x i θ = 0 i=1 wollen Entscheidungsfläche lernen d w i x i = 0 i=0 mit w 0 = θ und x 0 = 1 Neuronale Netze Michael Baumann 16/62

23 Perzeptron als Hyperebene Perzeptron definiert eine Hyperebene als Entscheidungsfläche Hyperebene steht senkrecht (normal) zu w w 0 = θ beschreibt orthogonalen Abstand zum Ursprung x 2 (w 1,..., w d ) T θ x 1 Neuronale Netze Michael Baumann 17/62

24 Beispiele für Entscheidungsflächen Beispiel: AND Beispiel: OR x 1 x 2 AND x x 1 x 1 x 2 OR x x 1 Neuronale Netze Michael Baumann 18/62

25 Trainieren von neuronalen Netzen Wie kann man neuronale Netze (oder hier ein Perzeptron) trainieren? verschiedene Möglichkeiten Neuronen hinzufügen / entfernen Verbindungen hinzufügen / entfernen Verbindungsgewichte anpassen Normalerweise: Anpassen der Gewichte w. Hypothesenraum: Menge aller Gewichtsvektoren w = (w 0, w 1,..., w d ) T Neuronale Netze Michael Baumann 19/62

26 Perzeptron-Lernalgorithmus PerceptronTraining 1 initialize all w i randomly 2 t = 0 3 repeat 4 t = t choose random (x, c(x)) T 6 error = c(x) y(x) 7 for i = 0 to d do T Trainingsmenge η > 0 Lernrate t Zeitschritt y(x) = heaviside(w T x) Ausgabe des Perzeptrons c(x) korrekte Klasse 8 w i = η error x i 9 w i = w i + w i 10 until (Konvergenz t > t max ) Neuronale Netze Michael Baumann 20/62

27 Beispielablauf des Algorithmus gegeben: Trainingsmenge T x 1 x 2 c(x) x gesucht: Gewichtsvektor für Perzeptron, das die Trainingsmenge korrekt klassifiziert x 1 Neuronale Netze Michael Baumann 21/62

28 Beispielablauf des Algorithmus Initialisierung x x 1 Lernrate η = 0.1 x 0 = 1 (fest) C = {0, 1}, 1 für, 0 für nach Initialisierung: t = 0 w 0 = 0.4 w 1 = 1.2 w 2 = 1 Trennfläche: x 1 x 2 = 0 Neuronale Netze Michael Baumann 22/62

29 Beispielablauf des Algorithmus t = 1 x x 1 zufälliges Beispiel x = (1.1, 0.3) T heaviside(w 0 x 0 + w 1 x 1 + w 2 x 2 ) heaviside( ) heaviside(1.42) = 1 = y(x) error = c(x) y(x) = 1 1 = 0 w i = η error x i : w 0 = 0 w 1 = 0 w 2 = 0 Neuronale Netze Michael Baumann 22/62

30 Beispielablauf des Algorithmus t = 2 x x 1 zufälliges Beispiel x = (3.1, 2.7) T heaviside(w 0 x 0 + w 1 x 1 + w 2 x 2 ) heaviside( ) heaviside(1.42) = 1 = y(x) error = c(x) y(x) = 0 1 = 1 w i = η error x i : w 0 = = 0.1 w 1 = = 0.31 w 2 = = 0.27 Neuronale Netze Michael Baumann 22/62

31 Beispielablauf des Algorithmus t = 2 x w i = η error x i : w 0 = = 0.1 w 1 = = 0.31 w 2 = = 0.27 neue Gewichte: w i = w i + w i w 0 = = 0.3 w 1 = = 0.89 w 2 = = x 1 Neuronale Netze Michael Baumann 22/62

32 Beispielablauf des Algorithmus t = 3 x x 1 zufälliges Beispiel x = (1.5, 3) T heaviside(w 0 x 0 + w 1 x 1 + w 2 x 2 ) heaviside( ) heaviside( 2.175) = 0 = y(x) error = c(x) y(x) = 0 0 = 0 w i = η error x i : w 0 = 0 w 1 = 0 w 2 = 0 Neuronale Netze Michael Baumann 22/62

33 Beispielablauf des Algorithmus t = 4 x x 1 zufälliges Beispiel x = (0.2, 0.9) T heaviside(w 0 x 0 + w 1 x 1 + w 2 x 2 ) heaviside( ) heaviside( 0.665) = 0 = y(x) error = c(x) y(x) = 1 0 = 1 w i = η error x i : w 0 = = 0.1 w 1 = = 0.02 w 2 = = 0.09 Neuronale Netze Michael Baumann 22/62

37 Beispielablauf des Algorithmus t = 6 x x 1 zufälliges Beispiel x = (3.1, 2.7) T heaviside(w 0 x 0 + w 1 x 1 + w 2 x 2 ) heaviside( ) heaviside(0.24) = 1 = y(x) error = c(x) y(x) = 0 1 = 1 w i = η error x i : w 0 = = 0.1 w 1 = = 0.31 w 2 = = 0.27 Neuronale Netze Michael Baumann 22/62

47 Beispielablauf des Algorithmus t = 11 x x 1 Beispiel x = (3.1, 2.7) T heaviside(w 0 x 0 + w 1 x 1 + w 2 x 2 ) heaviside( ) heaviside(0.27) = 1 = y(x) error = c(x) y(x) = 0 1 = 1 w i = η error x i : w 0 = = 0.1 w 1 = = 0.31 w 2 = = 0.27 Neuronale Netze Michael Baumann 22/62

49 Beispielablauf des Algorithmus t = 12 x x 1 zufälliges Beispiel x = (3.1, 2.7) T heaviside(w 0 x 0 + w 1 x 1 + w 2 x 2 ) heaviside( ) heaviside( 0, 062) = 0 = y(x) error = c(x) y(x) = 0 0 = 0 w i = η error x i : w 0 = 0 w 1 = 0 w 2 = 0 Neuronale Netze Michael Baumann 22/62

50 Beispielablauf des Algorithmus t = 12 x x 1 alle Beispiele der Trainingsmenge werden korrekt klassifiziert Übung: Rechnerische Überprüfung für die übrigen Elemente der Trainingsmenge. trennende Hyperebene: 0.7 x x x 2 = 0 mit x 0 = 1 Neuronale Netze Michael Baumann 22/62

51 Betrachtung des Lernalgorithmus Hebb sches Lernen Gewichtsanpassung hängt von η, x i und error ab error = c(x) heaviside(w T x) Neuron feuert fälschlicherweise: alle w i verringern Neuron feuert nicht, obwohl es feuern soll: alle w i vergrößern Verwendet Abweichung der korrekten Klasse von der durch Perzeptron berechneten Klasse Keine Berücksichtigung des Abstands von x zur Entscheidungsfläche! Lernrate η bestimmt Größe des Lernschritts, z.b. η = 0.1. η kann auch zeitabhängig sein: η 0 für t anfangs stärkere Anpassung am Ende nur noch Feinjustierung Neuronale Netze Michael Baumann 23/62

52 Lineare Separierbarkeit Definition (lineare Separierbarkeit) Zwei Mengen M 1 und M 2 von Vektoren eines d-dimensionalen Raums heißen linear separierbar, falls d + 1 reelle Zahlen θ, w 1,..., w d existieren, so dass d i=1 w i x i θ für jeden Vektor in M 1 und d i=1 w i x i < θ für jeden Vektor in M 2 gilt. Beispiel Seien Vektoren aus M 1 und Vektoren aus M 2. linear separierbar nicht linear separierbar Neuronale Netze Michael Baumann 24/62

53 Perzeptron-Konvergenztheorem Theorem (Perzeptron-Konvergenztheorem (Rosenblatt 1962)) Seien M 1, M 2 zwei nicht-leere, endliche Mengen von Vektoren x = ( 1, x 1,..., x d ) T, wobei M 1 und M 2 linear separierbar sind. Sei T die Menge der Beispiele der Form (x, 0) für x M 1 oder (x, 1) für x M 2 und sei η genügend klein. Dann gilt: Werden die Vektoren aus T dem Perzeptron-Lernalgorithmus präsentiert, so konvergiert der Gewichtsvektor w des Perzeptrons innerhalb endlich vieler Iterationen so, dass alle Beispiele aus T korrekt klassifiziert werden. w entspricht einer trennenden Hyperebene Sind die Daten der Trainingsmenge nicht linear separierbar, kann die Konvergenz nicht garantiert werden! Neuronale Netze Michael Baumann 25/62

54 Lernfehler Betrachten Perzeptron ohne Schwellwertfunktion: d y(x) = w i x i i=0 Err(w) Trainingsfehler von w in Abhängigkeit von T : Err(w) = 1 2 (x,c(x)) T (c(x) y(x)) w 2 0 Abb.: Fehlerfläche [Folien Neuronale Netze ] w 1 Neuronale Netze Michael Baumann 26/62

55 Gradientenabstieg Konvergenz von PerceptronTraining bei nicht linear separierbaren Beispielen nicht garantiert. Bestimmen Gradient des Lernfehlers: ( ) Err Err(w) = w 0,..., Err w d ist die Richtung des steilsten Anstiegs Err(w) ist die Richtung des steilsten Abstiegs Verschieben w in Richtung des steilsten Abstiegs: w = w + w mit w = η Err(w) Neuronale Netze Michael Baumann 27/62

56 Gradientenabstieg Herleitung der Gewichtsanpassung Err w i = w i 1 2 (x,c(x)) T (c(x) y(x)) 2 Neuronale Netze Michael Baumann 28/62

57 Gradientenabstieg Herleitung der Gewichtsanpassung Err w i = w i 1 2 = 1 2 (x,c(x)) T (x,c(x)) T (c(x) y(x)) 2 w i (c(x) y(x)) 2 Neuronale Netze Michael Baumann 28/62

58 Gradientenabstieg Herleitung der Gewichtsanpassung Err w i = w i 1 2 = 1 2 = 1 2 (x,c(x)) T (x,c(x)) T (x,c(x)) T (c(x) y(x)) 2 w i (c(x) y(x)) 2 2 (c(x) y(x)) w i (c(x) y(x)) Neuronale Netze Michael Baumann 28/62

59 Gradientenabstieg Herleitung der Gewichtsanpassung Err w i = w i 1 2 = 1 2 = 1 2 = (x,c(x)) T (x,c(x)) T (x,c(x)) T (x,c(x)) T (c(x) y(x)) 2 w i (c(x) y(x)) 2 2 (c(x) y(x)) (c(x) y(x)) w i (c(x) y(x)) w i (c(x) w T x) Neuronale Netze Michael Baumann 28/62

60 Gradientenabstieg Herleitung der Gewichtsanpassung Err w i = w i 1 2 = 1 2 = 1 2 = Err w i = (x,c(x)) T (x,c(x)) T (x,c(x)) T (x,c(x)) T (x,c(x)) T (c(x) y(x)) 2 w i (c(x) y(x)) 2 2 (c(x) y(x)) (c(x) y(x)) (c(x) y(x)) ( x i ) w i (c(x) y(x)) w i (c(x) w T x) Neuronale Netze Michael Baumann 28/62

61 Gradientenabstieg Komponentenweise Gewichtsanpassung w i = w i + w i mit w i = η w i = η w i = η Err w i (x,c(x)) T (x,c(x)) T (c(x) y(x)) ( x i ) (c(x) y(x)) x i Neuronale Netze Michael Baumann 29/62

62 Delta-Regel andere Bezeichnungen: Widrow-Hoff-Regel Adaline-Regel w i = η (c(x) y(x)) x i Neuronale Netze Michael Baumann 30/62

63 Gradientenabstieg mengenbasierter Algorithmus GradientDescent 1 choose random w 2 t = 0 3 repeat 4 t = t set all w i to zero 6 foreach (x, c(x)) T do 7 present x and compute y(x) 8 for i = 0 to d do 9 w i = w i + η (c(x) y(x)) x i 10 for i = 0 to d do 11 w i = w i + w i 12 until (Konvergenz t > t max ) Neuronale Netze Michael Baumann 31/62

64 Gradientenabstieg Eigenschaften Gradientenabstieg minimiert Fehler minimiert nicht zwangsläufig Anzahl der fehlklassifizierten Beispiele Fehlerfläche hat nur ein globales Minimum Konvergenz mit genügend kleinem η Neuronale Netze Michael Baumann 32/62

65 Gradientenabstieg Anpassungsmöglichkeit mengenbasiertes Verfahren summmiert alle Fehler der Trainingsmenge und passt w einmal am Ende der Lerniteration an Längere Berechnungszeit pro Gewichtsanpassung! inkrementeller Gradientenabstieg passt w i nach jedem Beispiel um w i an inkrementeller Gradientenabstieg wird auch stochastischer Gradientenabstieg genannt beim Vorhandensein mehrerer lokaler Minima kann inkrementeller Gradientenabstieg ein Hängenbleiben eher verhindern als das mengenbasierte Verfahren Neuronale Netze Michael Baumann 33/62

66 Gradientenabstieg inkrementeller Algorithmus IncrementalGradientDescent 1 choose random w 2 t = 0 3 repeat 4 t = t foreach (x, c(x)) T do 6 present x and compute y(x) 7 for i = 0 to d do 8 w i = η (c(x) y(x)) x i 9 w i = w i + w i 10 until (Konvergenz t > t max ) Neuronale Netze Michael Baumann 34/62

67 Gradientenabstieg Vergleich zu Perceptron Training PerceptronTraining passt Gewicht nur in Abhängigkeit vom Fehler in der Ausgabe an (Einfluss der Aktivierungsfunktion!) GradientDescent berücksichtigt Abweichung der Linearkombination der Eingabe zur gewünschten Ausgabe PerceptronTraining konvergiert nach endlich vielen Schritten gegen eine perfekte Hyperebene, wenn die Trainingsbeispiele linear separierbar sind Gradientenabstiegs-Methode konvergiert asymptotisch gegen eine Hyperebene, die den Lernfehler minimiert Gradientenabstieg hat keine Garantie der Konvergenz in endlich vielen Schritten, aber Trainingsbeispiele müssen nicht linear separierbar sein! Neuronale Netze Michael Baumann 35/62

68 Nicht linear separierbare Trainingsbeispiele XOR-Problem x 1 x 2 XOR x die XOR-Funktion definiert ein kleinstes Beispiel für nicht linear separierbare Mengen benötigen mindestens zwei Hyperebenen, um die Beispiele zu trennen x 1 Neuronale Netze Michael Baumann 36/62

69 Multi-Layer Netzwerke Motivation Erweiterung von Perzeptron statt nur Ausgabe 0 oder 1 auch Werte dazwischen Aktivierungsfunktion anpassen Architektur anpassen Finden der Architektur? Lernen? feste Struktur nehmen und Gewichte anpassen 1 Schicht k Schichten Neuronale Netze Michael Baumann 37/62

70 Multi-Layer Netzwerke Einführung einzelne Perzeptronen können nur lineare Entscheidungsflächen lernen mehrere Perzeptronen kombinieren benötigen Neuronen die nicht-lineare Funktion ihrer Eingabe berechnen, da ein Netz aus linearen Neuronen nur lineare Funktionen erkennen kann die Aktivierungsfunktion der Neuronen in der Ausgabeschicht wird entsprechend der zu lernenden Funktion gewählt Neuronale Netze Michael Baumann 38/62

71 XOR revisited x 1 = Σ, θ Σ, θ y x 2 = Σ, θ x 1 xor x 2 (x 1 x 2 ) ( x 1 x 2 ) die Hidden-Neuronen erkennen jeweils ein AND das Output-Neuron erkennt das OR Neuronale Netze Michael Baumann 39/62

72 Aktivierungsfunktionen Aktivierungsfunktion berechnet die Erregung des Neurons in Abhängigkeit vom Schwellwert und der Eingabe einfachste Form: Heaviside-Funktion, aber Ableitung 0 und am Schwellwert nicht differenzierbar aber: Aktivierungsfunktion für Backpropagation muss differenzierbar sein! Sigmoid Funktion kontinuierlich und nichtlinear: 1 0 σ(z) = 1 1+e mit dσ(z) z dz = σ(z) (1 σ(z)). Alternative: tanh-funktion o.a. Neuronale Netze Michael Baumann 40/62

73 Begriffe und Notationen x 0 N I N H N O = x 1 x d =. =.. N I, N H, N O x u v w u v, w u v δ u y u Mengen von Input-, Hidden- und Output-Neuronen Eingangswert für Neuron v, bereitgestellt von Neuron u Gewicht und Gewichtsanpassung für Kante zwischen Neuron u und Neuron v Lernfehler für Neuron u Ausgabe von Neuron u Neuronale Netze Michael Baumann 41/62

74 Beispiel: Berechnung im Multilayer-Netzwerk x A C x B D x 1 x 2 c C (x) c D (x) Neuronale Netze Michael Baumann 42/62

75 Lernfehler Lernfehler summiert jetzt Fehler aller Ausgänge: Err(w) = 1 (c v (x) y v (x)) 2 2 v N O (x,c(x)) T Err(w) Abb.: Fehlerfläche [Folien Neuronale Netze ] Neuronale Fehlerfläche Netze hat jetzt i.a. viele lokale Minima! Michael Baumann 43/62

76 Beispiel: Berechnung des Lernfehlers x A C x B D x 1 x 2 c C (x) c D (x) y C = 0.46 y D = 0.57 Neuronale Netze Michael Baumann 44/62

77 Backpropagation Überblick benutzt Delta-Regel und minimiert den Lernfehler Fehlerfläche kann mehrere lokale Minima haben, Backpropagation konvergiert nur gegen ein lokales Optimum Neuronen der Eingabeschicht führen keine Berechnungen aus, sie verteilen lediglich die Eingabedaten Algorithmus läuft über Trainingsmenge und berechnet für jedes Beispiel den Lernfehler betrachten Netz mit einer versteckten Schicht Neuronale Netze Michael Baumann 45/62

78 Backpropagation Gewichtsanpassung Fehler der Output-Neuronen o: w h o1 o 1 δ o = y o (1 y o ) (c o (x) y o ) o 2 Fehler der Hidden-Neuronen h: δ h = y h (1 y h ) w h o δ o o N O h w h o2 w h ok. o k Es gibt nur die korrekte Klassenzuordnung für die Ausgabe des Netzes aber keine Vergleichswerte für die Ausgaben der Hidden-Neuronen! Fehlerterm für Hidden-Neuron h berechnet sich als Summe aller Fehlerterme von Output-Neuronen o, auf die h Einfluss hat Gewicht w h o als Maß für die Stärke des Einfluss Neuronale Netze Michael Baumann 46/62

79 Backpropagation Algorithmus (für zweischichtiges Netzwerk) Backpropagation 1 choose random w 2 t = 0 3 repeat 4 t = t foreach (x, c(x)) T do 6 propagate x forward and compute output of each neuron 7 foreach o N O do 8 calculate error δ o = y o (1 y o ) (c o (x) y o ) 9 foreach h N H do 10 calculate error δ h = y h (1 y h ) w h o δ o o N O 11 foreach w u v do w u v = w u v + η δ v x u v 12 until (Konvergenz t > t max ) Neuronale Netze Michael Baumann 47/62

80 Beispiel: Backpropagation x A C x B D x 1 x 2 c C (x) c D (x) y C = 0.46 y D = 0.57 Neuronale Netze Michael Baumann 48/62

81 Backpropagation Informationsfluss schwarze Pfeile kennzeichnen den Informationsfluss der Eingabe rote Pfeile kennzeichnen die Information über den Fehler. Informationen jedes Beispiels werden vorwärts durch das Netz propagiert Lernfehler wird zurückpropagiert Neuronale Netze Michael Baumann 49/62

82 Backpropagation Anmerkungen Herleitung der Backpropagation-Regel: gleicher Ansatz wie bei Gradientenabstieg y u (1 y u ) ist Ableitung der Sigmoid Funktion Verallgemeinerung für beliebige Anzahl Schichten: δ u für ein Neuron u in Schicht m wird aus den δ-werten der nächst tieferen Schicht m + 1 berechnet δ u = y u (1 y u ) v Schicht m+1 w u v δ v Neuronale Netze Michael Baumann 50/62

83 Verbesserungsheuristiken Einführen eines Momentums Gewichtsupdate in Iteration t hängt von Gewichtsupdate in t 1 ab: w u v (t) = η δ v x u v + α w u v (t 1) Analogie: Ball rollt über Fehlerfläche und versucht, seine Richtung beizubehalten. Effekt: kleine lokale Minima können überwunden werden Trainiere mehrere Netzwerke mit den gleichen Beispielen um ggf. verschiedene (lokale) Minima zu finden Nutzung des Netzes, das auf Validierungsmenge das beste Ergebnis erzielt Verwendung von allen Netzen und Bestimmung des Outputs als (gewichteten) Durchschnitt der Outputs aller Netze Neuronale Netze Michael Baumann 51/62

84 Bewertung der Güte eines Netzes Trainingsfehler eines Netzes trifft nur eine Aussage darüber, wie gut die Beispiele aus der Trainingsmenge erkannt werden es ist sinnvoll, die Beispiele in zwei Mengen aufzuteilen: Trainingsmege und Validierungsmenge das Netz wird auf der Trainingsmenge trainiert Beispiele der Validierungsmenge sind für das Netz unbekannt und können zur Bewertung der Fähigkeit zur Generalisierung verwendet werden Neuronale Netze Michael Baumann 52/62

85 Overfitting Err(w) auf Validierungsmenge auf Trainingsmenge Iterationen Von Overfitting spricht man, wenn ein Lernalgorithmus auf bekannten Beispielen immer besser wird, während er auf unbekannten Beispielen schlechter wird. Netz passt sich dann Ausprägungen an, die nicht repräsentativ für alle möglichen Beispiele sind Neuronale Netze Michael Baumann 53/62

86 Overfitting Möglichkeiten zur Vermeidung nach jeder i-ten Iteration auf Validierungsmenge testen, w mit minimalem Fehler auf Validierungsmenge verwenden, Abbruch, wenn Fehler auf Validierungsmenge deutlich größer bei kleiner Beispielmenge: k-fache Kreuzvalidierung zur Bestimmung der besten Anzahl Iterationen i, dann Training auf allen Beispielen für i Iterationen k-fache Kreuzvalidierung (k-fold cross-validation) Aufteilen der n Trainingsdaten in k Teilmengen der Größe n k k Durchläufe je eine der k Teilmengen ist Validierungsmenge die restlichen k 1 Teilmegen werden vereinigt als Trainingsmenge verwendet Neuronale Netze Michael Baumann 54/62

87 Abbruchkriterien Wahl der Abbruchbedingung ist wichtig zu wenige Iterationen des Lernalgorithmus reduzieren Trainingsfehler nicht ausreichend zu viele Iterationen führen zu auswendig lernen der Trainingsmenge Möglichkeiten für Abbruchkriterien nach bestimmter Anzahl Iterationen Fehler auf Trainingsmenge erfüllt festgelegte Kriterien (z.b. kleiner als Schranke) führt meist zu Overfitting verringert Fähigkeit zur Generalisierung Fehler auf Validierungsmenge erfüllt Kriterien Neuronale Netze Michael Baumann 55/62

88 Netzstrukturen Single-Layer Netzwerk: Eingabe wird direkt an die Ausgabeschicht übergeben. Multi-Layer Netzwerk: Es gibt versteckte Ebenen (hidden layer) zwischen der Eingabe- und der Ausgabeschicht. Rekurrentes Netzwerk: Hat mindestens eine Feedback-Verbindung, bei der ein Neuron die Ausgabe eines Neurons vor sich als Eingabe bekommt. Neuronale Netze Michael Baumann 56/62

89 Festlegung der Größe des Netzes Normalerweise zwei oder drei Schichten Dimension des Merkmalsraum bestimmt Anzahl Input-Neuronen Wahl der Ausgabe bestimmt Anzahl Output-Neuronen Bei Klassifizierung meist ein Output-Neuron pro Klasse! Festlegung der Anzahl Hidden-Neuronen erfolgt meist durch trial and error beginnend mit großen Netzwerk solange Neuronen und Verbindungen entfernen, bis Leistung absinkt beginnend mit kleinem Netzwerk solange Neuronen und Verbindungen hinzufügen, bis Leistung ausreichend Neuronale Netze Michael Baumann 57/62

90 Verschiedene Darstellungen der Ausgabe Meist ein Output-Neuron pro Klasse 1-of-n Encoding Das Output-Neuron, das am stärksten feuert, legt die Klasse fest Differenz zwischen höchsten und zweit-höchstem Output als Konfidenzmaß c(x) für ein Beispiel der Klasse i hat an i-ter Stelle eine 1 im Vektor, an allen anderen eine 0 häufig 0.1 statt 0 und 0.9 statt 1 da Sigmoid Funktion nicht 0 bzw. 1 wird Neuronale Netze Michael Baumann 58/62

91 Geeignete Probleme für neuronale Netze Beispiele werden durch (reell-wertige) Merkmalvektoren beschrieben Ausgabe kann durch diskrete oder kontinuierliche Werte oder durch einen Vektor dargestellt werden Trainingsmenge kann fehlerhafte Beispiele enthalten lange Trainingszeiten sind akzeptabel aber die gelernte Funktion muss schnell auswertbar sein Struktur der gelernten Funktion muss nicht von Menschen verstanden werden (vgl. Entscheidungsbäume) Neuronale Netze Michael Baumann 59/62

92 Leistungsfähigkeit einzelne Perzeptronen können die boolschen Funktionen AND, OR, NAND, NOR repräsentieren jede boolsche Funktion kann durch ein Netzwerk mit maximal zwei Schichten repräsentiert werden, wobei die Anzahl der Hidden-Nodes exponentiell in der Größe der Eingabe sein kann stetige Funktionen können mit beliebig kleinem Fehler durch ein Zwei-Schichten-Netzwerk erkannt werden, wobei die Anzahl der Hidden-Nodes von der Funktion abhängt beliebige Funktionen können mit beliebiger Genauigkeit durch ein Drei-Schichten-Netzwerk approximiert werden; die Anzahl der Hidden-Nodes hängt von der Funktion ab Neuronale Netze Michael Baumann 60/62

93 Links und Tools Applet: ch/13/vlu/daten/neuronalenetze/perzeptron.vlu.html Simulator: JavaNNS/welcome_e.html API: API: FAQ: Neuronale Netze Michael Baumann 61/62

94 Literatur Theodor Lettmann & Benno Stein. Unterlagen zum Thema Neuronale Netze. teaching/lecture-notes.html. Simon Haykin. Neural Networks: A Comprehensive Foundation. (2nd edition) Prentice Hall, Tom Mitchell. Machine Learning. McGraw Hill, David Kriesel. Ein kleiner Überblick über Neuronale Netze. erhältlich unter http: // www. dkriesel. com. Neuronale Netze Michael Baumann 62/62