Kapitel 9 Polynomklassifikator und Radiale-Basis-Funktionen-Netzwerke (RBFN) H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9
Ansätze zum Entwurf eines Klassifikators Es gibt zwei prinzipiell unterschiedliche Ansätze zum Entwurf eines Klassifikators:. Statistische parametrische Modellierung der Klassenverteilungen, dann MAP. Lösung eines Abbildungsproblems durch Funktionsapproximation (nichtlineare Regression) { fx y } min E ( ) X Merkmalsraum Y Entscheidungsraum H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9
Zu.) Die zuerst beschriebene Vorgehensweise beim Entwurf eines Klassifikators beruht darauf, dass man die klassenspezifischen Verteilungsdichten p(x ω) ( ) parametrisch durch statistische Modelle annähert (durch Schätzung der Parameter, z.bsp. Einer Gauß-Verteilung) und durch eine Maximumselektion zu einer Entscheidung kommt. Lernen bedeutet hierbei: Verbesserung des Parameter-Fitting. Zu.) Es gibt nun eine zweite Möglichkeit der Herangehensweise, welche auf die Auswertung der a-posteriori-wahrscheinlichkeitsdichte p(ω x) aufbaut und durch ein Problem der Funktionsapproximation beschrieben werden kann. H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 3
Diese Funktionsapproximation kann z.b. durch eine nichtlineare Regression mit Polynomen oder auch mit Hilfe eines künstlichen Neuronalen Netzwerkes (NN) durchgeführt werden. Im Rahmen dieser Veranstaltung sollen die Grundlagen für beide Vorgehensweisen behandelt werden. Grundsätzlich ist die Suche nach einer besten Näherungsfunktion ein Variationsproblem, welches durch die Wahl von Basisfunktionen auf ein parametrisches Optimierungsproblem zurückgeführt werden kann. Lernen bedeutet dann auch hier: Parameterfitting. Die Gleichwertigkeit der beiden genannten Vorgehensweisen ergibt sich aus dem Bayes-heorem: p( ω x) = i p( x ωi) P( ωi) p( x) unabhängig ggvon ω Die Gleichwertigkeit ergibt sich daraus, dass der Nenner unabhängig gvon ω ist. H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 4
Im folgenden soll nun die Überführung in ein Funktionsapproximations-problem durch eine Reihe begründet werden. Bei bekannter a-posteriori-w. p(ω x) würde für jedes kontinuierliche x bestmöglich ein ω zugeordnet werden (funktionale Zuordnung f: x ω). Gegeben sind jedoch nur Stichproben und man sucht nach einer Funktion f, welche bestmöglich die Einzelexperimente fittet und damit eine Abbildung realisert: f : Merkmalsraum Bedeutungsraum x ω Diese Aufgabenstellung kann mit Hilfe der Variationsrechnung gelöst werden. Wählt man als Gütekriterium das minimale Fehlerquadrat, so geht es um die Minimierung von: J = min E{ fx ( ) y } f ( x ) ω f (x i, ω k k) x H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 5
Dabei entstehen die Zielvektoren {y i } im Entscheidungsraum Y durch einfache Abbildung der skalaren Bedeutungswerte {ω i } Ω : = {,,, } ω ω ω K Y : {,,, } mit: y i = y y y K 0 0 = i-ter Einheitsvektor 0 0 H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 6
Zwei-Klassen-Problem mit Gaußverteilungsdichte p( x) = p( x ω ) P( ω ) K k k P( ω x) p( x) = p( x, ω ) = p( x ω ) P( ω ) k k k k p ( x ω ) P ( ω ) p( x ω ) P( ω ) p( x ω ) P( ω ) p ( x ω ) P ( ω ) 0 μ x x μ x x Merkmalsraum Entscheidungsfunktion für Klasse H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 7
Lösung des Variationsproblems Die Lösung des Variationsproblems erhält man über die Annahme, dass man eine optimale Funktion f*(x) bereits kennt. Dann muss jede Variation zu einer Verschlechterung des Gütekriteriums führen: J( f + δ f ) > J( f ) für δ f 0 f f*(x) J () f f*(x)+δf J ( f ) f δf f x H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 8
Mit Hilfe der Definitionsgleichung gergibt sich: { } { + + } J ( f + δf) = E f + δf y = E ( f y) δf,( f y) δf { } { ( ) } { } f y δf f y δf = E + E + E { f } J ( f ) = E y (für δf = 0) Eingesetzt in die Ungleichung J ( f + δf ) J ( f ) > 0 ergibt: { f } E{ f } E δf + δ f ( y ) > 0 δ f 0 Dies wird erfüllt, wenn der zweite erm verschwindet, da der erste erm positiv definit itist t( (siehe ih nächste äht Foli Fli!) e. Daraus resultiert eine notwendige Optimalitätsbedingung: { f f y } E δ ( ) = 0 H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 9
Zwischenrechnung: Mit { δf } { δf f y } a : = E f und b:= E f ( y) ergibt sich unter der Annahme einer Variation in eine beliebige bi Raumrichtung von δ f : δf λδf a λ + b λ > 0 λ λ( aλ + b) > 0 λ b a Ist b 0, so gilt für alle λ ( b a,0) : λ( aλ + b) < 0 b muss Null sein, dann lautet die Parabel: λ aλ > 0 H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 0
Der Erwartungswert kann mit der Verbundverteilungsdichte ausformuliert werden zu: E δf ( f y) = δf ( f y) p( x, y) { } x y = δf ( f y) p( y x) p( x) = 0 x y Dieser Ausdruck verschwindet, falls der erm in der eckigen Klammer Null wird. Daraus resultiert die folgende Optimalitätsbedingung: ( f y) p( y x) = f p( y x) y p( y x) y y y = f y p( y x) = 0 y Die optimale Schätzfunktion ist die sogenannte Regressionsfunktion: = { } f ( x) = y p( y x) = E y x) y H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9
Polynomiale Regression Wahl von Polynomen als Basisfunktionen für die Funktionsapproximation. Zunächst für eine skalare Funktion mit einem vektoriellen Argument x: f ( x ) = a0 + a x + a x + + an xn + a x + a x x + a x x + N+ N+ N+ 3 3 3 3 + a x + a x x + a x x + mit: N = dim( x) Dieses verallgemeinertes Polynom enthält eine Konstante a 0, gefolgt von N linearen ermen, N(N+)/ quadratischen ermen usw. Ein Polynom vom Grade G und der Dimension N des Argumentvektors x hat L N + G ( N + G)! = = G GN!! polynomiale erme, welche als Basisfunktionen f i (x), i=,,...,l einer Funktions- entwicklung betrachtet werden können. H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9
Obiges Polynom kann kompakt durch Einführung einer vektoriellen Abbildung eines N- dimensionalen Vektors x auf einen L-dimensionalen Vektor p beschrieben werden: 3 = x x xn x xx xx 3 x xx xx 3 px ( ) Wir führen einen Koeffizientenvektor a ein und erhalten für das skalare Polynom: L f( x) = a p( x) = a p ( x) mit: L= dim( p) i=0= 0 i i Für die Musterklassifikation benötigen wir für jede Klasse eine Polynomfunktion f k ( x ) = a k p ( x ) verantwortlich tli für die Klassen k =,,, K Kombiniert man die klassenspezifischen Koeffizientenvektoren a k zu einer Matrix [ ] A= a a a K so erhält man für die vektorielle Polynomfunktion: fx ( ) = Apx ( ) H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 3
Optimale Anpassung der Matrix A Es gilt nun, die Koeffizientenmatrix A während der Optimierungsprozedur bestmöglich anzupassen. Dabei kann das Approximationsproblem direkt auf die Messungen oder aber auf die Merkmale eines Unterraumes (z.b. nach einer KL) angewendet werden. Adaption der Koeffizientenmatrix A: J = { } { } f x y E A p x y A min E ( ) min ( ) f( x) Das Variationsproblem mit der Suche nach einer unbekannten Funktion wird durch die Wahl polynomialer Basisfunktionen auf ein Parameteroptimierungsproblem reduziert! Das Gütekriterium J minimiert die Varianz des Residuums, nämlich den Fehler zwischen y und der Approximation A p(x). Die Lösung wird bestimmt unter Ausnutzung des Variationsansatzes, was zu einer notwendigen Bedingung führt: J ( A + δ A ) J ( A ) f ür δ A 0 H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 4
Es gilt nun, die Koeffizientenmatrix A durch eine Optimierungsprozedur bestmöglich anzupassen. Adaption der Koeffizientenmatrix A: Wegen { A p x y } = E{ } p y p y J ( A ) = E ( ) y A p y A p y und ab = Spur( ba ) Skalarprodukt dyad. Produkt sowie Spur( PQ) = Spur( QP) erhält man: { } J( A) = E Spur Ap y Ap y { yy } A { py } A { pp } = Spur E Spur E + Spur E { } Spur { } Spur { } = E y E + E A py A pp A A H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 5
Wie zuvor angenommen, kann der Zielvektor y o.b.d.a. als Einheitsvektor formuliert sein und damit gilt: { } A E { } J ( A ) = S p u r A E py + Spur pp A Mit dem Variationsansatz ergibt sich: E{ } + δ E{ pp } + δ A E{ py } Spur δ A E{ py } E{ pp } Spur δ E{ pp } A E{ pp } δ A J ( A + δa) = Spur ( A + δa) py + Spur ( A A) ( A A) = Spur + Spur + A A A A + Spur δ Eingesetzt in die Ungleichung der notwendigen Bedingung für ein Optimum ergibt: { pp } A A { py } { pp } Spur Spur ( δ E δ δ E E ) A A 0 H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 6
Da der erste erm positiv ist (wegen der Positiv-Definitheit von der Momentenmatrix E{pp }), muss der zweite erm verschwinden: { } { } Spur δ ( E E ) A py pp A = 0 δ A und daraus schließlich das in A* lineare Gleichungssystem für den optimalen Polynomklassifikator: E { } { pp A = E py } A = E{ pp } E{ py } R pp R py = diese Gleichung garantiert ein minimales Residuum des Fehlervektors: Δ fx ( ) = fx ( ) y= A px ( ) y Die Lösung des Problems führt auf die Aufgabe, die beiden Momentenmatrizen E{pp } und E{py } aus dem rainingsdatensatz zu schätzen und eine lineare Matrizengleichung zu lösen. Der verbleibende Fehlervektor berechnet sich zu: { pp } J ( A ) = Spur A E A H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 7
Orthogonalität des Schätzfehlervektors Interpretation der Lösungsgleichung auf der Folie zuvor: Die Bestapproximation fordert nach dem Projektionssatz, dass der Fehlervektor Δf senkrecht steht auf den Unterraum, welcher durch die polynomialen Basisfunkionen in p(x) aufgespannt wird. In statistischer Notation bedeutet das, dass die Momentenmatrix, welche aus p und Δf aufgespannt wird, eine Nullmatrix sein muss: { } { } { = } { } ( ) E pδ f = E p A p y E pp A E py = 0 Diese Eigenschaft wird auch von p auf f vererbt, da f aus Linearkombinationen der Basisfunktionen in p(x) aufgebaut wird. { Δ } { Δ } { f f f = A pδ f } E Δ = E A pδ E Δ = 0 H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 8
Erwartungstreue der Approximationsfunktion Die Schätzfunktion ist erwartungstreu (unbiased). Der Schätzfehler (Residuum) hat den Erwartungswert 0. E Δf = E f ( x ) y = 0 { } { } Daraus aus folgt, dass f(x) ( ) eine e erwartungstreue eue Schätzung von y ist: E fx ( ) = E y { } { } H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 9
Rekursive Lernregel für den Polynomklassifikator (falls neue Werte in dem Experiment dazukommen können) Für den auf das minimale Fehlerquadrat aufbauende Klassifikator ergibt sich die folgende rekursive Lernstrategie für die Koeffizientenmatrix A: n n = n α i i n n n n i= A A pp p A p y G Diese Lernregel beinhaltet folgende Schritte: - Wahl eines Startwerts für [ xy] - Die momentante Stichprobe, wird abgebildet A [ py] mit Hilfe der Polynombasis px ( ) auf das Paar, - Berechne die Schätzung f auf der Basis der gegebenen Beobachtung p und der momentanten Koeffizientenmatrix A: f = A p - Berechne das Residuum: Δ f = f y - Korrigiere A auf der Grundlage obiger Rekursion n A = A αg p Δf n n n H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 0
Die Gewichtsmatrix G = E{pp } ist dabei die Momentenmatrix auf der Basis der n zur Verfügung stehenden Stichproben. Eine strikte Beachtung obiger Rekursion, würde sogar noch eine weitere Rekursion für die Inverse der Gewichtsmatrix erfordern gemäß: G G p p G n n n n n = α G n α α pn G n p n ( ) + G oder die echte zusätzliche Iteration ändern fast nichts am Ergebnis. G kann sogar noch vereinfacht werden zu: { } { } E [ diag( i ) ] G = E pp p I n n i i n pp [ diag( )] n pi i= i== ohne dass sich dabei die Konvergenzeigenschaften verschlechtern (Schürmann S. 74). H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9
Herleitung der rekursiven Lernregel E { pp } A = E { py } opt. Lösung des Polynomkl. Einführung von Schätzwerten: n n n pp i i An = n py i i i= i= G n H n G = ( α) G + αp p n n n n n n = Hn und Hn = ( α) Hn + αpnyn GA GA = ( α) H + αpy n n n n n = ( α ) G A + α py ( α ) n n n n = G p p A + αp y n n n n n n = GA α p ( pa y ) n n n n n n A = A αg p A p y n n n n n n n H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9
Polynomklassifikator für das XOR-Problem Wir wählen als Regressionsfunktion ein Polynom mit ermen zweiten Grades in der Hoffnung, dass damit eine Lösung erreicht werden kann (eine lineare Lösung existiert nicht!): f ( x ) = a x+ a x+ a3 x x= a p ( x ) = ai p i ( x ) mit: p [ x, x, x x ] und a [ a, a, a ] = = 3 L i= 0 x (0,) (,) (0,0) x (,0) Die Eckpunkte des Quadrats im zweidimensionalen Ursprungsraum X werden auf die Ecken eines (Hyper-) Würfels fl eines dreidimensionalend Merkmalraums P abgebildet und dieser schließlich auf den eindimensionalen Bedeutungsraum Y : X P Y X x 0 0 x 0 0 p 0 0 p 0 0 p3 0 0 0 y 0 0 X -Raum 0 p 00 0 P p 3 0 Y 000 00 P -Raum p H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 3
Die optimalen Parameter der Regressionsfunktion a* ergeben sich aus: { } { } p a E bzw: a = pp E p = py R R R pp R py py mit: { } 4 pp = E 4 i i i= R pp pp 0 0 0 0 0 0 0 0 0 0 = 4 4 0 + + + = 0 0 0 0 0 0 0 0 0 0 0 0 0 0 und: 4 4 py = E{ y} 4 i yi = 4 yi i i= i= R p p p 0 0 = 4 0 0 0 0 4 + + + = 0 0 0 0 3 Parameter a, a, a 3 und 4 Beobachtungen => R pp ist regulär! H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 4
Daraus folgt: 0 a = Rpp Rpy = 0 = 3 0 und damit eine Regressionsfunktion f ( x) = a, p = ax+ ax + axx = x+ x xx 3 welche lh an den 4Funktionswerten t genau die Werte der Zielfunktion annimmt und ansonsten interpoliert! H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 5
Regressionsfunktion f ( x) = x + x x x 0.8 06 0.6 0.4 0. x 0 0.5 0 x 0 0. 0.4 0.6 0.8 Matlab-Demo: XOR_poly.bat H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 6
rennflächen für die beiden Klassen Die rennfläche für die beiden Bedeutungsklassen verläuft dort, wo die Regressionsfunktion f(x) den arithmetischen Mittelwert der Zielfunktion, nämlich c=(0+)/=0,5 annimmt. Das nichtlinear separierbare XOR- Problem kann in dem dreidimensionalen Merkmalsraum durch eine lineare (Hyper-)Ebene separiert werden, was auch leicht geometrisch an dem dreidimensionalen Kubus nachvollziehbar ist: f( x) p p p 0,5), 0,5 > 0 x A = + 3 = a p < 0 x Gleichung für lineare rennfläche mit Normalenvktor a B 0 p 00 0 p 3 0 Nichtlineare rennfunktion im Originalraum: (Kegelschnitt, nämlich zwei Geraden) > 0 x A f( x) = x+ x xx 0,5 < 0 x B x + x x x 0,5 = ( x 0,5)( x 0,5) = 0 ( ) gilt für: x = 0,5 x beliebig Euklidisch ideale 000 00 x P -Raum x = 0,5 x beliebig rennlinien x X -Raum H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 7 p
Ortskurven konstanter Wertigkeit im Originalraum (Hyperbeln) für unterschiedliche Schwellwerte c f ( x ) = x + x x x = c x 0.9 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0. 0.8 0. rennkurven: Kegelschnitte Beim Übergang c 0,5 entarten die Hyperbeln in zwei Geraden 0.7 0.6 0.5 0.4 0.3 0. 0.7 0.3 0. 0.6 0.5 0.4 y = y = 0 y =0 0.5 0.5 y = c = 0.6 0.4 0.5 0.6 0.3 0.7 0. 0. 0.3 0.4 0.5 0 0 0. 0.4 0.6 0.8 0.6 0.7 0.8 0.9 x H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 8
rennflächen für die beiden Klassen Wir erhalten einen linearen Klassifikator im p-raum und einen nichtlinearen Klassifikator im x-raum H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 9
Polynomklassifikator für komplexere Beispiele i N N N f ( x) = a+ ax+ a xx +... = Px ( ) Px ( ) Px ( ) 0 i i im i m N i= i= m= i+ kartesisches Produkt der eindimensionalen Polynome mit: dim( x) = N und Grad des Polynoms: G d.h. der N-dimensionale Originalraum wird in einen L-dimensionalen Merkmalsraum abgebildet. Dieser enthält erme der Art: k k k x x x N mit: k + k + + k G N N Für ein Polynom vom Grade G und ein Merkmalsvektor der Dimension N ergibt sich eine Dimension des Ausgangsraums L von: L N + G ( N + G)! = = G GN!! H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 30
Demo mit MALAB (Klassifikationgui.m) Polynomklassifikator für XOR-Problem zuerst setmypath.m m aufrufen, dann C:\Home\ppt\Lehre\ME_00\matlab\KlassifikatorEntwurf- WinXX\Klassifikationgui Datensatz: samples/xor_test_exakt.mat laden Polynomklassifikator vom Grad anwenden L Zweiklassenproblem mit Bananenshape Datensatz: samples/banana_train_samples.mat laden Versuch mit Polynomklassifikator vom Grad und Grad 3 um genügend unabhängige Stichproben für das Polynom zu haben: Man benötigt mindestens: N + G ( N + G)! + = = = = 6 G GN!! unabhängige Beobachtungen. Start der Matlab-Demo matlab-klassifikation_gui.bat Man benötigt mindestens: N + G ( N + G)! + L = = = = 6 G GN!! unabhängige Beobachtungen. Man benötigt mindestens: N + G + 3 L = = = 0 G 3 unabhängige Beobachtungen. H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 3
Eigenschaften des Polynomklassifikators: Vorteile: Lineare Entwurfsgleichungen mit expliziter Lösung für ein globales Minimum des Approximationsfehlers Nachteile: Die Entwicklung nach den global wirkenden Polynombasen zeigen eine schlechte Konvergenz. Lokale Besonderheiten von Merkmalsclustern können nur sehr schlecht approximiert werden, ohne dabei gleichzeitig nicht zu viel an Qualität bei der Generalisierungsfähigkeit zu verlieren. H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 3
Funktionsapproximation mit einem Radiale- Basis-Funktionen-Netzwerk (RBFN) Anstatt Polynome für die Regressionsaufgabe zu verwenden, kann man auch eine lineare Entwicklung Et ikl in Radiale Rdil Basisfunktionen if (RBF) in Erwägung ziehen. Damit erhält man zwar wiederum ein nichtlineares Parameterschätzproblem (wie bei NN), welches typischerweise nur iterativ gelöst werden kann, aber es ergeben sich bessere Konvergenzeigenschaften. RBFs als Interpolationsfunktionen sind Funktionen der Form: p ( x c ) D.h. im Argument einer jeden RBF steht die Euklidsche Distanz zwischen dem Eingangsvektor x und einem Klassen-Zentrum c i (daraus erklärt sich der Name). Die RBFs wirken nur in lokalen Umgebungen (im Gegensatz zu Polynomen). i H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 33
Bi Beispiele il für Radiale-Basis-Funktionen Rdil i (RBFN) p( ( x) = exp x c (Gauss-RBFs) i σ i σ i p ( x ) = σ + x c i i Man kann nun zeigen, dass mit der folgenden Summe jede Funktion f(x) für hinreichend große L beliebig genau approximiert werden kann: L f( x) = a p( x) = a0 + aipi( x, ci, σ i) { ai},{ ci},{ σ i} linear in Unbekannt sind die Parameter: { ai} { ci} nichtlinear in { σ i } (Radius) i= nichtlinear in (ranslation) H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 34
RBF-Netzwerk als verallgemeinerter linearer Klassifikator x x p a a p f ( x ) f( x) = a p( x) = aipi( x, ci, σ i) L i= 0 x N p L a a 0 L Beim Perceptron wird der Originalraum in Hyperebenen aufgeteilt. RBF-Netzwerk: Der in den neuen Variablen p i lineare Klassifikator unterteilt den Originalraum in Hypersphären, da die p i (x) nichtlineare Funktionen von x-c i sind. Der Polynomklassifikator läßt sich in der gleichen Art charakterisieren, nur mit dem Unterschied, dass er ebenfalls in x nichtlinear, aber in den unbekannten Parametern linear ist! H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 35
Lösung des XOR-Problems mit einem Gauss-RBFN Wir wählen als Regressionsfunktion Gauss-RBFNs der Dimension L=, welche auf die Stichproben zentriert sind: Mit c = = L 0 + i= f( x) a p( x) a a p ( x) = a 0 L + ai exp x c i= σ i L i i = a0 + ai exp i= σ i L = i i i ( x c ) ( x c ), den beiden Zentren [ ] sowie c [ 0 0 ] = = sowie σ = ergibt sich: i ( x c ) exp px ( ) = exp( x c ) x (0,) (,) (0,0) X P x (,0) X -Raum x 0 0 x 0 0 p e 0.35 e 0.368 e 0.368 p e 0.368 e 0.368 e 0.35 f ( p) 0.35 0.64 0.64 0.35 f ( p ) = p + p H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 36
Lösung des XOR-Problems mit einem Gauss-RBFN 0 e Die Vektoren x = und werden auf den gleichen Punkt abgebildet. x= 0 p= e p (0,0) x (0,) (,) (,0) (0,) (,) ) p (0,0) x (,0) P -Raum X -Raum Im P-Raum sind die beiden Klassen nun offensichtlich linear separierbar: renngerade im P -Raum: f ( p ) = p + p = 0 rennkurve im X -Raum: ( x c ) ( ) x c f ( x ) = exp + exp = 0 H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 37
Vorteile: Eigenschaften von RBFNs: Im Unterschied zur Verwendung von Polynomen (aylorreihen) können lokale Besonderheiten von Merkmalsclustern sehr gut approximiert werden, ohne Qualitätsverlust bei der Generalisierungsfähigkeit, e e g e d.h.. man hat ein sehr gutes Konvergenzverhalten (falls optim. Lösung gefunden wird). Nachteile: Es handelt sich um einen in den Parametern nichtlinearen Entwurf, welcher nur iterativ gelöst werden kann mit all den negativen Begleiterscheinungen g evtl. langsamer Konvergenz der Iterationen und der Gefahr nur Nebenminima und damit nur suboptimale Lösungen zu finden. H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 38
Demo mit MALAB Funktionsapproximation mit RBFNs: (Demo/oolboxes/Neural Network/Radial Basis Networks) Gute Wahl der σ i (generalisierfähig) (Radial basis approximation, demorb.m) Wahl der σ i zu klein (overfitting, d.h. neu hinzukommende Punkte werden nicht erreicht) (Radial basis underlapping neurons, demorb3.m) Wahl der σ i zu groß; die Basisfunktionen spannen den Raum nur sehr schlecht auf, da sie nahezu linaer abhängig voneinander sind. (Radial basis overlapping neurons, demorb4.m) Klassifikationsbeispiel mit RBFNs (PNN classification, demopnn.m). Start der Matlab-Demo matlab-rbfns-n.bat (Batch-Mode, weiter mit Space-aste) Start der Matlab-Demo matlab-rbfns.bat (Interaktive-Mode, weiter mit Next-aste) H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 39