Adaptive Modellierung und Simulation

Transkript

1 Adaptive Modellierung und Simulation Kapitel 2: Black-Box- Modellierung Rüdiger Brause Vorhersagemodelle R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Input-Output-Tabellen Beispiel R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung

2 Black-Box- Modellierung Lineare Modellierung Nichtlin. Modellierung: MLP Nichtlin. Modellierung: RBF Eigenschaften von NN R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Lineare Approximation m Messungen f(x) Modellierung als Gerade y = f(x) = y 0 + ax x Beispiel: Ökonomie Konsum y = f(einkommen x) = Konsumsockel + a Einkommen R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Lineare Approximation - rauschfrei Parameterbestimmung 2 Messwerte y 1 (x), y 2 (x) reichen aus für a, y 0 RECHNUNG x,y,y 0 sind n-dim Vektoren, a eine n n-matrix m = n 2 +n Parameter m Datenpunkte bei n Variablen nötig R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung

3 Lineare Approximation - verrauscht Modellierung als verrauschte Gerade y t = y 0 + ax t + u t Parameterbestimmung aus Varianz und Kovarianz Rechnung Parameterbestimmung Rechnung mittels Gauß-Methode! R(a) y t f(a)) 2 t min a R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Lineare Approximation - verrauscht Mehrere Variable Multiple Regression y(t) = f(x 1,x 2,,x k ) = a 0 + a 1 x 1 + a 2 x a k x k + u Zusammenfassung zu y t = (1, x 1 (t),, x k (t) ) (a 0, a 1,, a k ) T + u t = xa T + u t. y = (y 1,,y T ) T = Xa T + u T Zeilen für T Messungen, rang(x) = k+1 Parameterbestimmung Rechnung R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Lineare Approximation - verrauscht Minimaler mittlerer Abstand zur Gerade (Hyperebene) im Datenraum x = (y,x i ) d = x T a b = g(x) d x u a a b Hyperebene mit g(x*) = 0 = x* T u/ u b = x* T a b Hessesche Normalform TLMSE = R(a,b) = d 2 Rechnung: Minimum des TLMSE (Kap.2.2) R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung - 9-3

4 Konsum y TLMSE - Parameterschätzung Vorhanden: Messungen x = (y,x ~ ) Gesucht: Eigenvektor von C xx mit min. l 1.Lösung: Fixpunktalgorithmus für EV a(t+1) = Ca(t), a = 1 EV mit max. EW Neuer Eingaberaum x = x aa T x, C x x bilden, nächsten EV lernen. 2. Lösung: Anti-Hebb-Lernalgorithmus a(t) = a(t-1) x(a T x), a = 1 Anti-Hebb Lernregel R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Lineare Approximation - Grenzen Grenzen des linearen Modells linearer Zusammenhang der Daten? Linearisieren! Parameter sind konstant (oder zeitabhängig?) Einflüsse von x 1, x 2,... sind nur eingebildet? R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Lineare Approximation - Grenzen Nichtlineare Modellierung: Beispiel Ökonomie Grossverdiener: Wer alles hat, kauft nichts mehr. Sigmoidaler Zusammenhang ist wahrscheinlicher: Einkommen x R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung

5 Linearisierung Linearisieren von nichtlin. Messungen y = y 0 + ax 1/2 + u z = x 1/2 y(z) = y 0 + az + u y = ax a 1 x b 2 e u ( Cobb-Douglas-Produktion ) z = ln(y) z(x) = ln a + aln x 1 + bln x 2 + u = a 0 + a 1 x 1 + a 2 x 2 +u nicht-lin. Kontext, z.b. männlich bei y = y 0 + ax 1 + u x 2 = 1 bei männlich, sonst null y = y 0 + ax 1 + bx u R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Lineare Approximation Parameter konstant? Schätzung â liegt vor. i Parameter a i 0? Oder nur Störung? p(â i ) T T 2 Kriterium erwartungswerttreu (unbiased) â i (t) t a i a i T 1 â i p(â i) T Kriterium konsistent e>0 t limprob a ˆ (t) a e 1 i i T 2 T 1 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung a i â i Lineare Approximation - Störterm Störterm u t = u 0 0 Was tun? Mittelwert in Konstante verschieben: y t = (a 0 + u 0 ) + a 1 x 1 (t) + a 2 x 2 (t) + + a k x k (t) + (u t u 0 ) = á 0 + a 1 x 1 (t) + a 2 x 2 (t) + + a k x k (t) + ú 0 Forderung: Keine Korrelation des Störterms mit den Variablen x! cov (u t,u t x t ) = 0 t,t = 1,,T tt R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung

6 Lineare Approximation - Multikollinearität Test der Abhängigkeit der Variablen unter einander Bilde Korrelationskoeffizienten cov(x, x ) i j r ij = = var(x i ) var(x j) cov(x i i, x j) Bilde Bestimmtheitsmaß R 2 ŷ t y û ŷ t t y = < + = 1 y 2 t y y y 2 y 2 t y Teste: Gilt r 2 ij > R 2? JA: Multikollinearität liegt vor! t j R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Lineare Approximation Test der Einflüsse: Ist Variable x r nötig? Ist der Parameter a r = 0? Nullhypothese H 0 : a r = 0 Linksseitiger Test a p(â r ) a Rechtsseitiger Test: Ist Prob( >p a ) < a? â r JA: H 0 ok. - p a 0 p a Verteilung der beobachteten Parameterwerte Hypothesentest auch für a r = s brauchbar! R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung â r Black-Box- Modellierung Lineare Modellierung Nichtlin. Modellierung: MLP Nichtlin. Modellierung: RBF Eigenschaften von NN R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung

7 NichtLineare Approximation Polynomansatz ( Taylorentwicklung) f(x) = f(x 0 )+(x x 0 )f (1) (x 0 )+(x x 0 ) 2 f (2) (x 0 )/2 + (x x 0 ) 3 f (3) (x 0 )/6+... = A + B(x x 0 ) + C(x x 0 ) 2 + D(x x 0 ) f(x) Direkte Bestimmung der Parameter aus den Messwerten x R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung NichtLineare Approximation Polynomansatz mit Messfehlern f(x) = A + B(x x 0 ) + C(x x 0 ) 2 + D(x x 0 ) f(x) Indirekte Bestimmung der Parameter aus den Messwerten: Regression n-ter Ordnung, z.b. mit kleinstem quadr. Fehler x R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Nichtlineare Approximation Reale Welt Eingabe System Ausgabe Parameter Einsatzarten Adaptive Schätzung von Prozeßparametern Nicht-lin. Reaktionen, Produktionsoptimierung,... Adaptive Kontrolle und Regelung Landekontrollsysteme, Roboterkontrolle,.. Adaptive Klassifikation Qualitätskontrolle, med. Diagnose, Bonitätsprüfung,.. R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung

8 Nichtlineare Approximation Reale Welt Eingabe System Ausgabe Parameter Einsatzgebiete Echtzeitreaktionen z.b. Stahlwalzstraßen, Flugzeugsteuerung,.. Analytisch unbekannte Abhängigkeiten z.b. Polymerchemie, DNA-Schätzungen,.. Analytisch nicht zugängige Abhängigkeiten z.b. psychische Faktoren, ergebnisverändernde Messungen,.. Analytisch nur unter großem Aufwand bearbeitbare, hochdimensionale Gesetzmäßigkeiten z.b. Wechselkursabhängigkeiten,.. Statistische Analysen durch untrainierte Benutzer (?!) R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Was sind Neuronale Netze? Dendriten Zell körper Synapsen x = (x 1,...,x n ) Eingabe (Dendriten) x x 1 2 x w 3 w 2 1 w 3 Aktivierung Gewichte (Synapsen) z w = (w 1,...,w n ) Axon y Ausgabe (Axon) Quetschfunkion Radiale Basisfunktion Ausgabefunktionen n y = S(z) z = w i x i = w T x i1 Aktivierung R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Was sind Neuronale Netze? DEF Schicht x = (x 1 x 2 x n) neural layer Lineare Schicht w mi x y = (y 1 y 2 y m) y = ( w 1i x i,, ) i T = W x Matrixmultiplikation i i R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung

9 26 Buchstaben + 3 Sonderzeichen Backpropagation-Grundidee Netzarchitektur und Lernen Eingabe 1.Schicht 2.Schicht Ausgabe x (1) y (1) = x (2) y (2) hidden Ausgabe units d (1) units d (2) L - y (2) Schichtweise Verbesserung durch Rückführung des Fehlers R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Anwendung - NetTalk Sejnowsky-Rosenberg 1986 Automatisches System Text -> Sprache Vorläufer: DECtalk, 20 Mann-Jahre, 95% Genauigkeit NetTalk: 15 CPU-Stunden, 98% Genauigkeit Eingabe: Texte R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Anwendung - NetTalk Architektur Eingabe: 29 Zeichen, binär (26 Buchstaben+ 3Sonderzeichen: Pkt., Wortgrenze), 7 Buchstaben als Kontext. Ausgabe: /i/ Front back tensed stop nasal hi-freq. low-freq Ausgabeeinheiten hidden units Hidden units: 80 Stück Ausgabe: 26 Merkmale, binär (23 Laut- und drei Artikulationsmerkmale: Continuation, Wortgrenze, Stop) dim(x) =7X29= 203 Eingabevariablen Präkontext Postkontext Eingabe a... e... n... w... - R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung

10 Korrekte Ausgabe [%] Anwendung - NetTalk Training protokollierte, von Kindern gesprochenen Sätze, zufallsmäßig eingegebene Worte eines Wörterbuchs aus Einträgen Eingabe x: Buchstabe eines Worts im Kontext Lehrervorgabe L(x): Phonologische Transkription Einfügen eines Sonderzeichens Continuation, wenn Buchstabe nicht gesprochen wird (!) R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Anwendung - NetTalk Ergebnisse: 3 Phasen des Sprachlernens Zuerst wurden die Konsonanten und Vokale als Klassen getrennt. Innerhalb der Klassen blieben die Phoneme aber noch gemischt, so dass sich die Laute wie "Babbeln" anhörten. Dann wurden die Wortgrenzen als Merkmale entwickelt, so dass "Pseudoworte" erkennbar wurden. Zuletzt, nach ca. 10 Durchgängen pro Wort, entstand eine verständliche Sprache, die sich mit fortlaufender Erfahrung weiter verbesserte R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung NetTalk: Training Training transkribiertes Wörterbuch Einträge Protokollierte Kindersätze Ergebnis Trennung der Konsonanten von Vokalen ( Babbeln ) Entwicklung der Wortgrenzen ( Pseudoworte ) Verständliche Sprache (10xTraining pro Wort) Exponentieller Lernerfolg Zahl der eingegebenen Worte [10 4 ] R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung

11 Backpropagation-Grundidee Zielfunktion minimieren Ziel = minimaler quadrat. Fehler R(w) = (L(x) -y (2) (x)) 2 x = min w Wie erreichen? R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Lernen mit Zielfunktionen Gradientenalgorithmus zur Optimierung einer Zielfunktion R(w) R Ableitung (Gradient) w w (t+1) = w (t) - g W* w(t+1) w(t) Lernrate R w Lernregel R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Stochastisches Lernen Lernen mit Zielfunktion R(w) = R x (w,x) x w(t) = w(t-1) - g(t) w R x (w(t-1)) wird ersetzt durch Lernen mit stochast. Zielfunktion R x (w,x) w(t) = w(t-1) - g(t) w R x (w(t-1),x(t)) stochastisches Lernen Wieso darf man das? 11

12 Stochastische Approximation Gesucht: Nullstelle einer stochast. Funktion f(x,w) = R x (x,w) F ( w ) a w - w * + b w * w f ( x, w ) Methode 1: Alle Ereignisse x abwarten und dann F(w) = f(x,w) x bilden w(t) = w(t-1) g(t) F(w(t-1)) Methode 2: Einfach f(x,w) verwenden Robbins, Monro 1951 w(t) = w(t-1) g(t) f(w(t-1),x(t)) stochastische Approximation Stochastische Approximation Voraussetzungen das klein Gedruckte... die Funktion F(w) := f(x,w) x ist zentriert, d.h. F(w*) = 0 F(w) ist ansteigend, d.h. F(w<w*) < 0, F(w>w*) > 0 F(w) ist beschränkt mit F(w) < a w-w * +b < a,b > 0 f(x,w) hat endliche Varianz, d.h. 2 (w) = (F(w) - f(x,w)) 2 x < g(t) verschwindet, g(t) 0 g(t) wird nicht zu schnell klein g(t) wird nicht zu groß t1 g(t) = g(t) t1 2 < Dann ex. lim (w(t) w*) 2 = 0 mittl. quadr. Konvergenz Robbins-Monro t P( lim w(t) = w*) = 1 Blum t Backpropagation-Lernregel letzte Schicht Lernziel: R(w*) = min (y(x,w) - L(x)) 2 x min.mittl. quadr. Fehler R w i (t+1) = w i (t) - g w i S( z) w i (t+1) = w i (t) - g (y(w i )-L(x)) w i Gradienten-Lernregel stoch. Approximation Rechnung: Ableitung der Zielfunktion R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung

13 Backpropagation-Lernregel letzte Schicht Lernziel: R(w*) = min E(y(w) - L(x)) 2 min.mittl. quadr. Fehler R w i (t+1) = w i (t) - g w i w i (t+1) = w i (t) - g (y(w i )-L(x)) S( z) w i mit S( z) = S'( z) z S'( z) wjx w w w i i i j j Gradienten-Lernregel stoch. Approximation S'( z) x i d i := - (y(w i )-L(x)) S (z) w ij (x) = g d i x j Delta-Regel R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Fehler-Backpropagation Beeinflussung voriger Schichten z (1) i R Delta-Regel für Schicht R x yi di 1 1 y i zi m k d k wki S' zi R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Online vs Offline-Lernen ONLINE-Learning: WHILE NOT Abbruchbedingung erfüllt: Delta := 0 FORALL Trainingsmuster x berechne Delta(W(x)) W(t) := W(t-1) + Delta // Lernen mit jedem Muster END FOR END WHILE R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung

14 Online vs Offline-Lernen OFFLINE-Learning: WHILE NOT Abbruchbedingung erfüllt: GesamtDelta := 0 FORALL Trainingsmuster x berechne Delta(W(x)) GesamtDelta := GesamtDelta + Delta(W(x)) END FOR W(t) := W(t-1) + GesamtDelta // Lernen am Schluss! END WHILE R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Arten des Lernens: Beispiel Buchstabenerkennung Überwachtes Lernen Eingabe H! Gewichte W Fehler? On-line learning (Training) E?..., H,... Testmenge A, B, C, D, E, F,..., Z. Lernziel (Zielfunktion) Neuronales System Lehrer Ergebnis E off-line learning Trainingsmenge A, B, C, D, E, F,..., Z. R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Frage: Offline- oder Online-Lernen? Backpropagation- Code REPEAT (* jeweils einen Trainingszyklus *) dw1:=0.0; dw2:=0.0; g:=0.1; REPEAT (* Für alle Trainingsmuster im PatternFile *) Read( PatternFile,x1,L); (*Einlesen der Eingabe, Ausgabe *) (* Ausgabe errechnen *) FOR i:=1 TO p DO x2[i]:= S(z(w1[i],x1)) END (* Für hidden units *) FOR i:=1 TO m DO (* Für alle Ausgabeneuronen*) y2[i]:= S(z(w2[i],x2)) d2[i]:= -(y2[i]-l[i])*(1-y2[i])*y2[i] (* (y-l)(1-s)s *) END FOR i:=1 TO m DO (* Gewichtsveränderungen in 2. Schicht *) FOR j:=1 TO p DO dw2[i,j] := dw2[i,j] + g*d2[i]*x2[j] END; END FOR i:=1 TO p DO (* Gewichtsveränderungen in 1. Schicht *) FOR j:=1 TO n DO (* Für alle Eingabemusterkomp.*) dw1[i,j] := dw1[i,j]+g*sumprod(i,m,d2,w2)*(1-x2[i])*x2[i]*x1[j] END; END UNTIL ( EOF( PatternFile)) w1:=w1+dw1; w2:=w2+dw2; (* Korrektur der Gewichte *) UNTIL Fehler_klein_genug R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung

15 Lernen - Probleme Die Konvergenz ist relativ langsam, besonders bei mehreren Schichten Das System kann in einem lokalen Optimum "stecken" bleiben Trotz guter Trainingsleistung zeigt der Test schlechte Ergebnisse R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Verbesserungen des BP-Algorithmus Problem Trotz guter Trainingsleistung zeigt der Test schlechte Ergebnisse f(x) training samples Überanpassung (overfitting)! test samples x R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Verbesserungen des BP-Algorithmus Lösung: Stopped Training error validation result Stop time training result T training step t R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung

16 Initialisierung der Neuronengewichte Beispiel Informationskompression n p n Lin. Approximation (1. Glied Taylorentwicklung) Beispiel: n-p-n Netz Kodierer y = B pxn A nxp x.. A. B Min. quadr. Fehler bei globalem Minimum A =? R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Transformation mit minimalem MSE Allgemeine Situation X { x 1 x n l i n. T r a n s f o r m a t i o n W x. y. 1 Y m+1. Y n y m } y min R(W) = min (x- xˆ ) 2 w least mean squared error (LMSE) Wann minimal? Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Transformation mit minimalem MSE Minimaler Rekonstruktionsfehler min R(W) = min (x- xˆ ) 2 least mean squared error (LMSE) w x = m yi w i i1 + n yi w i im1 m xˆ = yi w i i1 + n ci w i im1 y i = x T w i Was ist die beste Schätzung für die Konstanten c i? min R(c i ) =? Rechnung! Bei welchen Basisvektoren w i ist der Fehler minimal? min R(w i ) =? Rechnung! Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS

17 Analyse der Neuronengewichte Hauptkomponentenanalyse n p n Lin. Approximation (1. Glied Taylorentwicklung) A besteht aus Eigenvektoren der Kovarianzmatrix C xx = (x-x)(x-x) T (C ij ) = N 1 N k 1 k k k k x i x i x j x j.. A R(w) globales Minimum w*. B Sattelpunkte = EV w R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Normierung der Eingangsvariablen Problem: unterschiedliche Skalierungen z.b. x 1 : Weg in [m] x 2 : Grösse in [cm] x 3 : Gewicht in [kg] x 4 : Farbwert in [RGB-Zahl] Normierung aller numerischen Werte auf gleiche Skala! Gleichen Mittelwert, etwa x = 0 Gleiche Varianz = 1 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Normierung der Eingangsvariablen Abstände bilden nur mit normierten Variablen Mahalanobis-Abstand d 2 = (x c) T C 1 (x c) = (x c) T M T M(x c) Entspricht einer Skalierung, Drehung, Verschiebung mit x Mx = SDVx mit x (x T,1) T 1 S = D = V = s 0, 0 s c1 c2 cos a sina sina, cos a R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung

18 Verbesserungen des BP-Algorithmus Problem w ij (x) = g d i x j = g (..)S (z i ) x j Die Konvergenz ist relativ langsam, besonders bei mehreren Schichten Problem Ausgabefunktion Bei Wahl von S = Fermifunktion ist die Ableitung eine Glocken- Funktion mit S (-) = 0 = S () und damit bei sehr großem oder kleinem x d(x) = 0 Kein Lernen mehr möglich! S(z) S (z) z 1 11 e S' z z z 1 e z 1 e 2 1 Sz Sz R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Problem Ausgabefunktion Abhilfen: Andere Ausgabefunktion wählen (z.b. Sinus) Andere Zielfunktion wählen (Information statt quadr.fehler) Andere Lernfunktion wählen, z.b. Ergänzung durch Backpropagation Trägheitsmoment d(t+1) = ad(t) + (1-a)d(t-1) z.b. a = 0.9 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Black-Box- Modellierung Lineare Modellierung Nichtlin. Modellierung: MLP Nichtlin. Modellierung: RBF Eigenschaften von NN R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung

19 Klassifikation und RBF Motivation: lokale Cluster-Klassenbildung i = { x S( x x i ) > w 0 } w o x i Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ Klassifikation und RBF Bessere Klassifikation durch gekrümmte Entscheidungsgebiete Idee: Nichtlineare Abbildung in neuen Raum, in dem die Muster (mit höherer Wahrscheinlichkeit) linear separierbar sind Gaußfunktion Eingaberaum (xy-koordinaten) Neuer Raum (Punkte der Gauß-Funktionswerte) Funktionswert erste Gaußfunktion 1 Trennende Hyperebene (hier: Schwellwert im 1-Dim.) 0 1 Funktionswert der nächsten Gaußfunktion usw. 1 R.Brause, Institut für Informatik Radiale Basisfunktionen Definition Glockenfunktion Funktion S G mit den Eigenschaften S G (z) > 0, S G ( ) = S G () = 0, 0 < (x)dx < S G Es ex. ein c>0 mit S G (z) nicht anwachsend z [c,), nicht abfallend z (,c) Also ist S G (c) globales Maximum. c Rüdiger Brause: Adaptive Systeme, Institut für Informatik

20 RBF maximaler Information Welche Basisfunktionen hat maximale Information? H(p*) = max p H(p(x)) x, p*(x) =? NB1: p(x) dx = 1 oder g 1 (x):= p(x)dx 1 = 0 NB2: 2 = x 2 = - + p(x) x 2 dx oder g 2 (x):= - + p(x)x 2 dx 2 = 0 Ansatz Lagrange-Funktion L(p, 1, 2 ) := H(p) + 1 g 1 (p) + 2 g 2 (p) Lp* Li = 0, = 0 (Rechnung Kap.5.2) p i Ergebnis p*(x) = A exp( x 2 /2 2 ) Gauß'sche Glockenkurve Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ Parzen Window - Methode Approximation durch Überlagerung von Basisfunktionen Perfekte Approximation bei abnehmender Breite, wobei lim N 0, N n lim N N N Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ RBF-Netze Typisch: 2-Schichten Netzwerk x 1 x 2 y 1 y 2 f 1 f 2 Aktivität nicht normiert f i ( x ) = m k 1 w k y mit S k ( c k, x ) = e k m = w k S k k 1 - ( c k - x ) 2 2 s 2 ( x ) x n y normiert f i ( x ) = m k = 1 w k y k = m k = 1 m w S ( x ) j = 1 k k S ( x ) j R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung

21 RBF-Netze Aktivität Normiertes RBF-Netzwerk Schicht 1 Schicht 2 S 1 ( X ) / X 1 x n N o r m i e r u n g S i / S n ( X ) y ( X ) y (x) = f(x) = i w i (x,c i ) mit i S ~ S i( xc, i) S ( xc, ) i i S k( xc, k) k Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ Klassifikation mit RBF-Netzen Beste Klassifizierung Bayes-Klassifizierung Suche Klasse w i so, daß p(w i x) = max k p(w k x) Wir wissen: p(w i x) = p( wi, x) p( wi, x) p( x wi)p( wi) p( x) p( wk, ) Situation: x p( x wk)p( wk) k k Gaußvert. Abweichg. vom Klassenprototypen c i : p(x c i ) = A e ( ck x ) = S(c i,x) Bayes-Klassifizierung mit NN: Seien alle Klassen gleichwahrscheinlich p(w i ) = 1/m Suche Klasse i so, dass mit y i = S(c i,x) k S(c k,x) x1 x2 y1 y2 y i = max k y k xn ym winner take all RBF Suche Maximum R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Klassifikation mit winner-take-all Suche Maximum der Aktivität Ein-Schicht-Netzwerk (1 Cluster = 1 Klasse) Suche Klasse i so, dass mit y i = S(c i,x) / S(c k,x) y i = max k y k x 1 x 2 x n y 1 y 2 y n Zwei-Schichten-Netzwerk (mehrere Cluster = 1 Klasse) x 1 x 2 y 1 f 1 y 2 Suche Klasse i so, dass mit f i = i w i y i f 2 f i = max k f k x n y n Lernen nur der Gewichte für y i bzw. f i R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung

22 Frage Was ist das Ziel der Bayes-Klassifikation? Antwort 1. Die minimale Fehlerwahrscheinlichkeit 2. Die maximale bedingte Wahrscheinlichkeit für eine Entscheidung 3. Die minimale Abweichung vom korrekten Wert 4. Die maximale Korrelation mit dem korrekten Wert Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ RBF- Lernen Lernmethode: Einzelne Anpassung der Schichten Anpassen der 1. Schicht: Lage c i und Varianz C Anpassen der 2. Schicht: Gewichte w j Pro: schneller, da weniger komplex Contra: Suboptima möglich Lernmethode: Gleichzeitige Anpassung beider Schichten z.b. mit Backpropagation Pro: Globales Optimum leichter erreichbar Contra: langsam, mehr Daten für gegebenen max. Fehler nötig R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung RBF- Lernen: 1.Schicht Erstellen der 1. Schicht Bekannte Trainingsdaten Festlegen der RBF- Zentren und Weiten durch Clusterung (kmean, Kohonen-Netze,...) Initiale Festlegung der Anzahl der Zentren, Iterative Verbesserung von Lage und Weite durch sequentielles Training Unbekannte Daten Feste Unterteilung des Eingaberaumes, z.b. Netz potentieller Zentren bei uniformer, fester Weite für Datenbereich Inkrementeller Aufbau des Netzes: Sequentielle Regression R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung

23 RBF-Lernen : 1.Schicht k-means-clusterung Wähle k zufällige Muster x j A als Clusterzentren c j, bilde C j = {c j } REPEAT Ordne alle x i A zu den nächstgelegenen Clusterzentren zu: Suche für x i das Cluster c z so, dass x i -c z = min k x i -c k, und füge x i zu C z zu. Entferne alle Cluster i mit C i < 1 Bilde für jedes Cluster k ein neues Zentrum c k = x als Mittelwert aller Muster in C k UNTIL Iterationszahl > Max R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung RBF- Lernen : 1.Schicht Feste Unterteilung x 2 S(x 1) x 1 c1 c2 c3 c4 c5 x 1 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung RBF- Lernen : 1.Schicht Adaptive Unterteilung R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung

24 RBF-Lernen Erstellen der 1. Schicht: Sequentielle Regression Start mit einem Neuron Füge ein neues Neuron hinzu für jedes Beispiel mit hohem Fehler (Abweichung vom gewünschten Netz- Ausgabewert) Verändere die Parameter bei den Nachbarn so, dass der Fehler verringert wird (Einpassen des neuen Neurons) Das Netzwerk wächst solange, bis der Approximationsfehler auf das gewünschte Maß zurückgegangen ist. R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung RBF-Lernen 2. Schicht: Fehlerminimierung MSE der lin. Schicht z.b. mit Backpropagation-Lernen 2. Schicht w i = g (y i L i ) x Gewichte von S k zu Ausgabe i x := (S 1,..,S n ) und w := (w 1,..,w n ) oder: TLMSE w i (t+1) = w i (t) g 1 xy i und w i (t+1) = 1 Anti-Hebb Lernen x := (S 1,..,S n,l i ) und w := (w 1,..,w n,w n+1 ) oder: Konkurrenz-Lernen y c = max i y i w c = g (y c L c ) x Gewichte von S k zu Ausgabe c R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Anwendung: Industriereaktor Chem. Synthese eines Polymers Eingabe MMA VAc Initiator Lsgsmittel Kettentransferagent Inhibitor Kältemittel Temperatur Ausgabe Temperatur Kopolymer Nicht-reag. Zutaten Lsgsmittel R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung

25 Inputgenerierung Strategie RUS: Random uniform sampling Ausgabe Eingabe Strategie RDS: Random distributed sampling Ausgabe Eingabe R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Ergebnisse Schmale vs. breite RBF R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Ergebnisse K-means Clusterung vs. Sequ. Regression R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung

26 Black-Box- Modellierung Lineare Modellierung Nichtlin. Modellierung: MLP Nichtlin. Modellierung: RBF Eigenschaften von NN R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Approximationsleistungen Neuronaler Netze Allgemeine Eigenschaften von NN Kann man jede beliebige Funktion approximieren? Wenn ja, mit welcher Architektur? Wie viele Schichten benötigt man? Wie viele Neuronen pro Schicht braucht man? R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Fähigkeiten: Nomenklatur Mehrschichtennetze x 1 y 1 f 1 x 2 y 2 f 2 x n y n Eingabeschicht hidden units Ausgabeschicht m (2) x j w j x ˆf w S, j1 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung

27 Approximationsleistungen Neuronaler Netze Voraussetzungen Sigma-Funktionen (2-Schicht. NN) n S := { ˆ ˆ n f f : mit wobei w (2) j aus, x aus n, und z j z n := { z z(x) = w (1)T x + b } lim S x x 1, lim Sx 0 x x ˆf m 2 w S z j j x } j1 affine Funktionen n R.Brause, Adaptive Modellierung: Kap.2 Black-Box- Modellierung Approximationsleistungen Neuronaler Netze Aussage 1 (diskrete Punkte) Hornik, Stinchkombe, White 1989 Für die Funktionswerte jeder beliebigen Funktion f(x) : n von N Mustern x 1.. x N gibt es eine Sigma-Funktion f, so dass für alle Muster x i mit i = 1..N gilt i ˆf ( x ) = f(x i ) punktweise Übereinstimmung R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Approximationsleistung Neuronaler Netze Aussage 2 (stetige Funktionen) Ein 2-Schichtennetzwerk mit nicht-linearer Ausgabefunktion S(z) kann JEDE beliebige Funktion beliebig dicht approximieren, wenn genügend Neuronen ex. Eingabe z.b. DNA, Patientendaten, Robotersensoren x 1 x 2 x n nicht-linear y 1 y 2 y n linear f 1 f 2 Ausgabe z.b. Struktur, Diagnose, Roboterbewegung R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung

28 Fähigkeiten der Multilayer-Netzwerke Satz Jede beliebige, stetige Funktion f(x) in einem kompakten Intervall ("kompakte Teilmenge des n ") kann beliebig dicht (uniform dicht im Sinne der L s -Norm in der Menge C n aller stetigen Funktionen und p - dicht in der Menge der Borel meßbaren Funktionen) durch eine Sigma- Funktion F(x) approximiert werden Anmerkung: Gilt auch für S = stetig, begrenzt, nicht-konstant (RBF) R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Fähigkeiten der Multilayer-Netzwerke Frage: Wieviel Schichten muss ein Netzwerk mindestens haben, um eine beliebige Funktion beliebig gut zu approximieren?? Antworten: eine zwei drei unendlich viele R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung