Kapitel 8. Neuronale Netze

Transkript

1 Kapitel 8 Neuronale Netze

2 Ansätze zum Entwurf eines Klassifikators Es gibt zwei prinzipiell unterschiedliche Ansätze zum Entwurf eines Klassifikators:. Statistische parametrische Modellierung der Klassenverteilungen, dann MAP-Entscheidung. Lösung eines Abbildungsproblems durch Funktionsapproximation (nichtlineare Regression) der a- posteriori-wahrscheinlichkeiten { fx y } min E ( ) X Y Merkmalsraum Entscheidungsraum

3 Zu.) Die bisher beschriebene Vorgehensweise beim Entwurf eines Klassifikators beruht darauf, dass man die klassenspezifischen Verteilungsdichten p(x ω i )P(ω i ) parametrisch durch statistische Modelle annähert (durch Schätzung der Parameter, z.bsp. Einer Gauß-Verteilung) und durch eine Maximumselektion zu einer Entscheidung kommt. Lernen bedeutet hierbei: Verbesserung des Parameter-Fitting. Zu.) Es gibt nun eine zweite Möglichkeit der Herangehensweise, welche auf die Auswertung der a-posteriori-wahrscheinlichkeitsdichte P(ω i x) aufbaut und durch ein Problem der Funktionsapproximation beschrieben werden kann.

4 Die zwei Ansätze zum Klassifikatorentwurf p( x ω ) P( ω ) P( ω x) P( ω x) p( x ω ) P( ω ) Modellierung der Klassenverteilungsdichten Direkte Modellierung der A-posteriori-Verteilungsdichten P( ω x) p( x ω ) P( ω ) P( ω x) i i i i

5 Zur Gleichwertigkeit der beiden Ansätze Allgemeiner Fall: matlab-map.bat

6 Diese Funktionsapproximation kann z.bsp. durch eine nichtlineare Regression mit Polynomen oder auch mit Hilfe eines künstlichen Neuronalen Netzwerkes (NN) durchgeführt werden. Im Rahmen dieser Veranstaltung sollen die Grundlagen für beide Vorgehensweisen behandelt werden. Grundsätzlich ist die Suche nach einer besten Näherungsfunktion ein Variationsproblem, welches durch die Wahl von Basisfunktionen auf ein parametrisches Optimierungsproblem zurückgeführt werden kann. Lernen bedeutet dann auch hier: Parameterfitting. Die Gleichwertigkeit der beiden genannten Vorgehensweisen ergibt sich aus dem Bayes-Theorem: p( ω x) = i p( x ω ) P( ω ) i p( x) i unabhängig von ω Die Gleichwertigkeit ergibt sich daraus, dass der Nenner unabhängig von ω ist.

7 Im folgenden soll nun die Überführung in ein Funktionsapproximationsproblem begründet werden. Bei bekannter a-posteriori-w. P(ω x) würde für jedes kontinuierliche x bestmöglich ein ω zugeordnet werde (funktionale Zuordnung f:x ω). Gegeben sind jedoch nur Stichproben und man sucht nach einer Funktion f, welche bestmöglich die Einzelexperimente fittet und damit eine Abbildung realisert: f : Merkmalsraum Bedeutungsraum x ω Diese Aufgabenstellung kann mit Hilfe der Variationsrechnung gelöst werden. Wählt man als Gütekriterium das minimale Fehlerquadrat, so geht es um die Minimierung von: J = min E{ fx ( ) y } f( x) ω f (x i, ω k ) x

8 Dabei entstehen die Zielvektoren {y i } im Entscheidungsraum Y durch einfache Abbildung der skalaren Bedeutungswerte {ω i } Ω : = { ω, ω,, ω } K Y: = { y, y,, y } mit: y i 0 0 = i-ter Einheitsvektor 0 0 K

9 Zwei-Klassen-Problem mit Gaußverteilungsdichte p( x) = p( x ω ) P( ω ) K k k P( ω x) p( x) = p( x, ω ) = p( x ω ) P( ω ) k k k k P( ω x) p( x) p( x ω ) P( ω ) P( ω x) p( x) p( x ω ) P( ω ) 0 µ x x µ x x Merkmalsraum Entscheidungsfunktion

10 Regression mit Hilfe künstlicher Neuronaler Netze Verwendung eines mehrschichtigen Perceptrons zur Funktionsapproximation (multilayer perceptron) Motivation: Anlehnung an menschliche Vorgehensweise (?) Parallele Auswertung mit NN-Rechner (Hardware) Menschliches Gehirn: 0 Neuronen mit bis zu 0 4 Verbindungen pro Neuron

11 Modell eines Neurons (McCulloch & Pitts, 943) Synapsen x 0 x w 0 w Interne Zustandsvariable x w s f (s) y y = f( wx, b) b Axon x N w N Die neuronale Aktivität wird durch ein Skalaprodukt zwischen dem Gewichtsvektor w und den Eingangskanälen x i mit einer sich anschließenden nichtlinearen Aktivierungsfunktion f(s) beschrieben. Dabei können die Erregungen x i verstärkend oder hemmend wirken, was zu positiven oder negativen Gewichtswerten w i korrespondiert.

12 Das Multilagen-Perceptron mit 3 Schichten (Rosenblatt 958)

13 Symbolische Darstellung eines Perceptrons mit 3 Schichten erste Schicht zweite Schicht dritte Schicht x N W S N s S f y S W S S s S f y S W 3 S 3 S s 3 S 3 f y 3 S 3 b b b 3 N S S S S S 3 S 3 y =f (W xb ) y =f (W y b ) y 3 =f 3 (W 3 y b 3 ) y = f ( W f ( W f ( W x b ) b ) b )

14 Das Perceptron mit einem Neuron und zwei Eingängen (Rosenblatt, 958) In den Anfangsjahren der NN-Forschung benutzte man vorzugsweise Schwellwertlogiken. D.h. der Eingangsvektor war zweiwertig und als Aktivierungsfunktion wurde die Sprungfunktion (f(s)=σ(s)= für s 0 und σ(s)=0 für s<0). Da jede Boole sche Funktion als disjunktive oder konjunktive Normalform geschrieben werden kann, ist es möglich, mit einem zweischichtigen Perceptron jede logische Funktion zu realisieren. x w 0 s σ y x y= x x w 0 b Schwellwert y=0 y = σ( wx, b) = σ( g( x)) w x Funktionsweise bei rellwertigen Eingängen

15 Zur Funktionsweise des Perceptrons Das Neuron unterteilt den Eingansraum von x mit einer Hyperebene (hier: Gerade) in zwei Hälften. Die Hyperebene ist der geometrische Ort, auf dem alle Vektoren liegen, deren Projektion auf w konstant ist: g( x) = w, x b= 0 Orthogonale Projektion: wx, = w x cosϕ >? < b w x g(x)>0 Für zwei Punkte auf der Trennfläche gilt: x 0 = wx, b= wx, b w,( x x ) = 0 w ( x x ) g(x)<0 w x d x d = b w

16 Nichtlinearer Klassifikatorentwurf - das XOR-Problem Es ist offensichtlich, dass sich die Booleschen Funktionen AND und OR durch einen linearen Klassifikator und damit mit einem einschichtigen Perceptron lösen lassen: x (0,) AND (,) x x AND Klasse OR Klasse ω 0 ω 0 0 ω ω OR d 0 0 ω ω ω ω x w 0 x w 0 (0,0) (,0) b Schwellwert σ x y w = oder auch vereinfacht: AND OR AND: g( x) = x x = 0 3 OR: g( x) = x x = 0 b = 3 4 b = 4

17 Lösung des XOR-Problems mit einem Zwei- Lagen-Perceptron Das Exklusiv-Oder-Problem lässt sich hingegen im Gegensatz zu AND und OR nicht durch einen linearen Klassifikator lösen. Eine Lösung ergibt sich jedoch durch Kombination zweier Trennlinien. Dies führt auf ein zweilagiges Perceptron! OR NAND x x - - σ y -/ σ y -3/ σ z XOR 3/ erste Schicht zweite Schicht x x y y XOR Klasse ω 0 ω 0 ω 0 0 ω z = ( x x ) ( x x ) = y y XOR Nach der Abbildung der ersten Schicht ergibt sich ein linear trennbares Problem!! y y y = σ ( x x ) OR y = σ ( x x ) NAND 3 3 z = σ ( y y ) AND y

18 Funktionsweise der ersten Schicht: Abbildung des reellwertigen Eingangsraums auf die Eckpunkte eines Hyperwürfels In der ersten Schicht eines Perceptrons reagiert ein Neuron mit 0 oder, in Abhängigkeit davon, in welcher Hälfte der von der Hyperfläche erzeugten beiden Halbräume sich der Eingangsvektor befindet. Jedes weitere Neuron erzeugt eine zusätzliche Trennebene. Die erste Schicht eines Perceptrons bildet somit den reellwertigen Eingangsraum auf die Eckpunkte eines Hyperwürfels ab. Die sich schneidenden Trennebenen bilden linear begrenzte (konvexe) Gebiete, sogenannte Polyeder. Jedes Gebiet korrespondiert zu einem Eckpunkt des Hyperwürfels. Nachfolgend ist eine Grafik zu sehen für 3 Neuronen und einen zweidimensionalen Eingangsraum x: x x (y,y,y 3 ) = g 3 (x) 00 g (x) g (x)

19 Funktionsweise der zweiten Schicht: Abtrennung eines Eckpunktes des Hyperwürfels In der zweiten Schicht kann durch Abtrennung eines Eckpunktes des Hyperwürfels mit einer neuen Trennfläche ein eindeutiges Merkmal für ein konvexes Gebiet erzeugt werden: 0 konvexes Gebiet Eckpunkte eines Hyperwürfels

20 Optimale Trennebene zur Abtrennung eines Eckpunktes von einem Hyperwürfel Wird als nichtlineare Funktion im Neuron die Signum-Funktion verwendet, so liegt der daraus resultierende Hyperwürfel zentriert im Ursprung. Die optimale Trennebene liegt in der Mitte zwischen einem Eckpunkt und einer Ebene die von den nächsten Nachbarn aufgespannt wird. Ohne Einschränkung der Allgemeinheit, können wir den Eckpunkt entlang der ersten Raumdiagonale u betrachten. Dafür gilt: N= d x T (-,) (,) u [ ] = mit: dim( x) = e = u u = u u N N (-,-) (,-) x Eigentlich genügt es, die Trennebene in einem Abstand d=n / -ε mit einem hinreichend kleinen Abstand ε zu platzieren. Problem: über ε in Abhängigkeit von N kann keine genaue Aussage gemacht werden.

21 Die Trennebene liegt genau zwischen u und der orthogonalen Projektion eines der Nachbarecken u auf u: T N u T = u u = [ ], u eu = u N N N N und damit der Fußpunkt der Trennebene bei: u u u u N N N = ( ) u = ( ) u = u = e N N N N d u z. Bsp. N = 3 u 3 Trennebene N = 4 3 4u N = 00 0,99u u e u d Ein zu u benachbarter Eckpunkt des Würfels produziert im Skalarprodukt <u,u> genau den Wert (N-)! Die Gleichung der Trennebene ergibt sich zu: N xe, u = d = N N xu, = N N xu, =( N )

22 Das 3-Lagen-Perceptron mit Schwellwertfunktion Mit einem 3-L-S-MLPC lassen sich beliebige linear begrenzte Cluster in Merkmalsräumen klassifizieren!!. Schicht: sich schneidende Hyperebenen bilden konvexe Polyeder. Diese werden auf die Eckpunkte eines Hyperwürfels abgebildet. 0. Schicht: Durch abtrennen von Eckpunkten des Hyperwürfels werden konvexe Polyeder durch Schnittmengenbildung von Halbräumen selektiert (AND). 3. Schicht: beliebige linear begrenzte Gebiete entstehen durch Vereinigung von konvexen Gebieten (OR)

23 Perceptron mit 3 Lagen zur Realisierung eines Klassifikators für beliebig linear begrenzte Gebiete (Polyeder) erste Schicht: linear begrenzte Gebiete werden auf Hyperwürfel abgebildet zweite Schicht: Schnittmengen von Halbräumen (Polyeder) werden Booleschen Vektoren zugeordnet (AND) dritte Schicht Vereinigung von konvexen Gebieten (OR) x N W S N s S f y S W S S s S f y S W 3 S 3 S s 3 S 3 f y 3 S 3 b b b 3 N S S S S S 3 S 3 y =f (W xb ) y =f (W y b ) y 3 =f 3 (W 3 y b 3 ) y 3 =f 3 (W 3 f (W f (W xb )b )b 3 )

24 Beispiel: Selektion eines nichtkonvexen Gebietes mit einem dreilagigen Perceptron mit f(s)=sign(s) y 3 =f 3 (W 3 f (W f (W xb )b )b 3 ) Aufgabe: x g g g x - g 4 g 5 g 6 Entwurf der ersten Schicht: Definition der Hyperebenen W w, = w, = 0 g w, w, 0 g = = w = w = 0 g 4 = b = w4, = 0 w4, = g4 4 w5, = 0 w5, = g 5 w6, = 0 w6, = g6 3, 3, 3 w x = w = = 0 z.bsp.: g :, b 0 mit: b

25 Entwurf der zweiten Schicht: Aufgabe: x g g g 3 - G G G x - g 4 g 5 g 6 Entwurf der zweiten Schicht: Abtrennen von Eckpunkten des Hyperwürfels Kennzeichnung der Gebiete: G G G 3 g g g g g g W g g g 3 g 4 g 5 g 6 G 5 = 5 G b = G 3 5 Die Zeilenvektoren von W zeigen genau auf die abzutrennenden Eckpunkte; der Schwellwert hat den Wert N-

26 Entwurf der dritten Schicht: In der dritten Schicht ist die Vereinigungsmenge der Gebiete zu realisieren. Dies geschieht einfach mit einer OR-Verknüpfung. Das bedeutet, dass der Eckpunkt [ ] abgetrennt werden muss. Dies wiederum geschieht mit Hilfe von: W [ ] = b = 3 3

27 Vereinfachter Entwurf der zweiten und dritten Aufgabe: Schicht: Entwurf der zweiten Schicht: Abtrennen von Eckpunkten des Hyperwürfels x g g g 3 - G G G x - g 4 g 5 g 6 Kennzeichnung der Gebiete: die Tabelle enthält don t care -Elemente ( ). Die dazugehörigen Neuronen können unberücksichtigt bleiben (Verbindung auftrennen) g g g g g g F = G G F = G G W g g g 3 g 4 g 5 g F 3 = b = F Die Dimension des reduzierten Würfels beträgt nur N=4 (ohne don t care Elemente!) Die Zeilenvektoren von W zeigen genau auf die abzutrennenden Eckpunkte; der Schwellwert hat den Wert N- des reduzierten Würfels!

28 Vereinfachter Entwurf der dritten Schicht: In der dritten Schicht ist die Vereinigungsmenge der Gebiete zu realisieren. Dies geschieht einfach mit einer OR-Verknüpfung. Das bedeutet, dass der Eckpunkt [ ] abgetrennt werden muss. Dies wiederum geschieht mit Hilfe von: W [ ] = b = 3 3

29 Beispiel für ein nicht linear separierbares Zwei- Klassenproblem (M.T. Hagan, H.B. Demuth, M. Beale Neural Network Design, PWS Publishing Company, Boston, 995) x 3 Klassifikationsproblem Klasse ω Klasse ω x 3 Konvexe Regionen der zweiten Schicht x x x 3 Trennlinien der ersten Schicht x 3 Endgültige Entscheidungsgebiete der dritten Schicht x x

30 W b Beispiel für ein nicht linear separierbares T T Zwei-Klassenproblem Erste Schicht: es werden Geraden zur Abtrennung der Gebiete als Funktion von zwei Eingangsvariablen benötigt! = [ ] = Zweite Schicht: es werden vier konvexe Gebiete selektiert! W = b = Dritte Schicht: W [ ] = b = 3 3 3

31 Beispiel für ein nicht linear separierbares Zwei-Klassenproblem erste Schicht: linear begrenzte Gebiete werden auf Hyperwürfel abgebildet zweite Schicht: Schnittmengen von Halbräumen (Polyeder) werden Boole schen Vektoren zugeordnet (AND) dritte Schicht Vereinigung von konvexen Gebieten (OR) x W s y W 4 s 4 y 4 W 3 4 s 3 y 3 b b b y =sign(w xb ) y =sign(w y b ) y 3 =sign(w 3 y b 3 ) y 3 =sign(w 3 sign(w sign(w xb )b )b 3 )

32 Auf dem Weg zum automatischen Entwurf eines Neuronalen Netzes Die bisher skizzierte Vorgehensweise ist sehr anschaulich und im zweidimensionalen Fall noch intuitiv handhabbar, aber für höherdimensionale Fälle ist sie nicht brauchbar. Alles was wir in der Praxis zur Verfügung haben, sind die Lernstichproben. Benötigt wird ein automatischer Algorithmus, welcher davon ausgehend in einem Lernprozess die optimalen Gewichte des NN automatisch ermittelt. Will man für diese nichtlineare Optimierungsaufgabe iterative Algorithmen einsetzen, so benötigt man differenzierbare Nichtlinearitäten in den Neuronen (die Schwellwertfunktionen sind dafür nur begrenzt geeignet!).

33 Linear separierbare Klassen der Perceptron-Algorithmus Ziel ist, ein Algorithmus zur automatischen Anpassung der unbekannten Gewichtsmatrizen W i eines Perceptrons an ein Klassifikationsproblem, gegeben eine endliche Stichprobe {(x i,ω k )}. Für den Fall linear separierbarer Klassen gab Rosenblatt einen iterativen Algorithmus zur Lösung dieses Problems an. Es wird angenommen, dass eine lineare Trennfläche, definiert durch die Gleichung w* T x=0 für das Zweiklassenproblem existiert, derart dass: T w* x> 0 x ω ω T w* x< 0 x ω Dies schließt auch den Fall ein, dass die Trennfläche nicht wie hier durch den Ursprung läuft, nämlich w* T xb*=0, da dieser durch Erweiterung von x auf die obige Formulierung zurückgeführt werden kann: T T T T x =, b, x w = w T T w x = w x b Linear separierbares Problem w x ω

34 Gelöst wird das Problem durch die Wahl eines geeigneten Gütekriteriums und die Angabe eines Optimierungsalgorithmus. Das zu minimierende Perceptron- Gütemaß sei gegeben durch (Maß für Fehlklassifikation): T J ( w) = ( δ w x) = x Y x mit: δ x = für x ω und: δ = für x ω x wobei Y die Menge der Trainingsvektoren enthält, welche durch die gegebene Hyperfläche falsch klassifiziert werden. Offensichtlich ist obige Summe immer positiv und sie wird Null, wenn Y die leere Menge ist, d.h. alle Elemente richtig zugeordnet werden. Für den Fall eines falsch zugeordneten Vektors x ω erhalten wir mit w T x> 0 und δ x > 0 ein positives Produkt der beiden Terme. Das gleiche gilt für Vektoren der Klasse ω. Das Gütekriterium nimmt seinen Minimalwert Null an, falls alle Stichproben richtig klassifiziert werden. Summe der Beträge der Projektionen der falsch klassifizierten Vektoren auf den Normalenvektor der Trenngeraden w ω x i ω

35 Das Gütemaß ist stetig und stückweise linear. Falls wir den Gewichtsvektor wenig verändern, ändert sich J(w) linear bis zu dem Punkt, wo sich die Zahl der falsch zugeordneten Vektoren ändert. An dieser Stelle ist der Gradient von J nicht definiert und der Gradient von J ist unstetig. Die iterative Minimierung der Kostenfunktion geschieht durch einen Algorithmus, welcher dem Gradientenabstieg ähnlich ist: w J ( w) = w ρ w i i i w= w i Dabei ist w i der Gewichtsvektor für die i-te Iteration und ρ i eine Sequenz von positiven Zahlen. Vorsicht ist geboten an den Unstetigkeitsstellen! Aus dem Gütekriterium ergibt sich: J ( w) w, x = δ xx wegen: = x w x Y w und damit: w = w ρ δ x i i i x x Y Perceptron-Algorithmus

36 Die Iteration ist fortzusetzen bis der Algorithmus konvergiert. Das folgende Bild vermittelt einen Eindruck der Funktionsweise. Es wird angenommen, dass beim Iterationsschritt i nur ein x falsch klassifiziert wird (w T x> 0) und es sei ρ i =0,5. Der Perceptron-Algorithmus korrigiert den Gewichtsvektor in die Richtung von x. Damit dreht sich die Trennlinie und x wird korrekt zugeordnet (w T x> 0). i x i x w i x ρ i x w i

37 In dem folgenden Beispiel wird angenommen, dass wir beim vorletzten Iterationsschritt angekommen sind und lediglich noch zwei Merkmalsvektoren falsch zugeordnet werden: T w [ ] T T [ ] [ ] Trennlinie: x x 0,5 = 0 Gewichtsvektor: = 0,5 Falsch klassifizierte Vektoren: 0,4 0,05-0, 0,75 Mit dem Perceptron-Algorithmus ergibt sich der nächste Gewichtsvektor mit ρ i =0,7 zu: T 0,4 0,,4 wi = wi 0,7( ) 0,05 0,7( ) 0,75 0,5 = 0,5 Die neue Trennlinie:,4 x 0,5x 0,5 = 0 trennt alle Vektoren korrekt. Der Algorithmus terminiert.

38 Eigenschaften des Perceptron-Algorithmus Man kann beweisen, dass der Algorithmus in einer endlichen Anzahl von Iterationen zu einer Lösung konvergiert (bei geeignet gewählten Werten von ρ i, was bei Gradientenalgorithmen immer ein Problem ist), falls die Voraussetzung erfüllt ist, dass die Klassen linear trennbar sind. Die gefundene Lösung ist allerdings nicht eindeutig. Für nicht linear-separierbare Probleme erhält man keine Lösung. Die Korrektur in der Iteration hat immer von Null verschiedene Beiträge und kann somit nicht terminieren. Später werden wir Multilagen-NN kennenlernen, welche beliebige Klassifikationsprobleme (auch nichtlineare) lösen können. Der Backpropagation-Algorithmus kann verwendet werden, um solche Netzwerke zu trainieren.