und Radiale-Basis-Funktionen-Netzwerke (RBFN) H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 1

Ähnliche Dokumente
Kapitel 8. Neuronale Netze

Neuronale Netze. H. Burkhardt, Institut für Informatik, Universität Freiburg ME-I, Kap. 8a 1

Ausgleichsproblem. Definition (1.0.3)

Anwendungen der Differentialrechnung

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016

Nichtlineare Klassifikatoren

Lösungen zu den Hausaufgaben zur Analysis II

42 Orthogonalität Motivation Definition: Orthogonalität Beispiel

Klausur Numerische Mathematik (für Elektrotechniker), 24. Februar 2016

Optimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren Thomas Brox, Fabian Kuhn

3.6 Eigenwerte und Eigenvektoren

Kapitel 5. Eigenwerte. Josef Leydold Mathematik für VW WS 2017/18 5 Eigenwerte 1 / 42

Kurzskript zur Vorlesung Mathematik I für MB, WI/MB und andere Prof. Dr. Ulrich Reif

EGRESSIONSANALYSE AVID BUCHATZ NIVERSITÄT ZU KÖLN

Inhalt. Mathematik für Chemiker II Lineare Algebra. Vorlesung im Sommersemester Kurt Frischmuth. Rostock, April Juli 2015

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017

Statistische Methoden der Datenanalyse Wintersemester 2011/2012 Albert-Ludwigs-Universität Freiburg

Fehler- und Ausgleichsrechnung

Aufgaben zu Kapitel 20

37 Gauß-Algorithmus und lineare Gleichungssysteme

Optimal-trennende Hyperebenen und die Support Vector Machine. Volker Tresp

Mathematik 2 Probeprüfung 1

Lösung zu Serie [Aufgabe] Faktorisieren Sie die folgenden Polynome so weit wie möglich:

KAPITEL 3. Konvexe Funktionen

Kapitel 5. Eigenwerte. Ein Leontief-Modell für eine Volkswirtschaft heißt geschlossen, wenn der Konsum gleich der Produktion ist, d.h. wenn.

Mathematik II für Studierende der Informatik (Analysis und lineare Algebra) im Sommersemester 2018

= ( n x j x j ) 1 / 2

Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II. Prof. Dr.

Interpolation und Approximation von Funktionen

Lösungen zur Prüfung Lineare Algebra I/II für D-MAVT

5 Eigenwerte und die Jordansche Normalform

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

K. Eppler, Inst. f. Num. Mathematik Übungsaufgaben. 11. Übung: Woche vom

Lösungen zu Prüfung Lineare Algebra I/II für D-MAVT

Linear nichtseparable Probleme

4.5 Überbestimmte Gleichungssysteme, Gauß sche Ausgleichrechnung

Lernstrategien für Neuronale Netze - Der Backpropagation-Algorithmus

Mehrdimensionale Zufallsvariablen

Kapitel 5. Vektorräume mit Skalarprodukt

Newton- und und Quasi-Newton-Methoden in der Optimierung. János Mayer

Vorlesung Einführung in die Mathematische Optimierung (Wintersemester 2013/14)

Vorlesung Einführung in die Mathematische Optimierung (Wintersemester 2013/14)

Adaptive Systeme. Mehrere Neuronen, Assoziative Speicher und Mustererkennung. Prof. Dr. rer. nat. Nikolaus Wulff

Mustererkennung. Support Vector Machines. R. Neubecker, WS 2018 / Support Vector Machines

Iterative Methoden zur Lösung von linearen Gleichungssystemen

Überbestimmte Gleichungssysteme

Datenmodelle, Regression

4.1. Vektorräume und lineare Abbildungen

y (k) (0) = y (k) y(z) = c 1 e αz + c 2 e βz. c 1 + c 2 = y 0 k=1 k=1,...,m y k f k (x)

Lineare Algebra und Numerische Mathematik für D-BAUG

5 Numerische Mathematik

Vortrag 20: Kurze Vektoren in Gittern

Mustererkennung. Bayes-Klassifikator. R. Neubecker, WS 2016 / Bayes-Klassifikator

Extremwerte von Funktionen mehrerer reeller Variabler

5.3.5 Abstiegs & Gradientenverfahren

eine vom Nullvektor verschiedene Lösung hat. r heisst in diesem Fall Eigenvektor der Matrix A zum Eigenwert λ.

Angewandte Multivariate Statistik Prof. Dr. Ostap Okhrin

Klausur,,Algorithmische Mathematik II

1.6 Implizite Funktionen

D-MAVT NUMERISCHE MATHEMATIK FS 14 K. Nipp, A. Hiltebrand Lösung vom Test 2

Lineare Regression. Kapitel Regressionsgerade

Das Trust-Region-Verfahren

RL und Funktionsapproximation

5 Interpolation und Approximation

Klassifikation von Daten Einleitung

D-MAVT Lineare Algebra I HS 2017 Prof. Dr. N. Hungerbühler. Lösungen Serie 14: Ferienserie

Klausur Numerische Mathematik (für Elektrotechniker), Samstag, 19. August 2017

5 Vektorräume. (V1) für alle x, y V : x + y = y + x; (V2) für alle x, y, z V : (x + y) + z = x + (y + z);

Musterlösung. 1 Relationen. 2 Abbildungen. TUM Ferienkurs Lineare Algebra 1 WiSe 08/09 Dipl.-Math. Konrad Waldherr

Der Begriff der konvexen Menge ist bereits aus Definition 1.4, Teil I, bekannt.

Das inhomogene System. A x = b

Dabei bezeichnet x die Einflussgrösse (Regressor), y die Zielvariable (die eine Folge der Ursache x ist) und die Störung. Die n = 3 Beobachtungen

Lineare Klassifikatoren

KAPITEL 1. Einleitung

Gleichungsbasierte Modellierung

18 Höhere Ableitungen und Taylorformel

Kapitel 6 Differential- und Integralrechnung in mehreren Variablen

(Allgemeine) Vektorräume (Teschl/Teschl 9)

Lineare Algebra für D-ITET, D-MATL, RW. Beispiellösung für Serie 9. Aufgabe 9.1. Herbstsemester Dr. V. Gradinaru D. Devaud A.

Statistik II für Betriebswirte Vorlesung 12

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

Richie Gottschalk Lineare Algebra I Seite 1. a) Welche der folgenden Ringe sind kommutativ? Es gibt genau einen Unterraum W von V mit dim(w ) = n.

12. R n als EUKLIDISCHER VEKTORRAUM

Tutorium: Analysis und Lineare Algebra. Vorbereitung der Bonusklausur am (Teil 1, Lösungen)

Teil I. Lineare Optimierung

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Klassifikation durch direkten Vergleich (Matching)

5.4 Basis, Lineare Abhängigkeit

Institut für Geometrie und Praktische Mathematik

Lösungshinweise zur Klausur. Mathematik für Informatiker III. (Dr. Frank Hoffmann) 18. Februar 2008

3. Übungsblatt zur Lineare Algebra I für Physiker

Inexakte Newton Verfahren

Allgemeine Chemie Computer Praktikum Frühjahrssemester Regressions-Tutorial Lineare und nicht-lineare Regression

Lineare Abbildungen und Orthonormalsysteme

(d) das zu Grunde liegende Problem gut konditioniert ist.

3 a) Berechnen Sie die normierte Zeilenstufenform der Matrix A = normierte Zeilenstufenform:

Konvexe Menge. Eine Menge D R n heißt konvex, wenn für zwei beliebige Punkte x, y D auch die Verbindungsstrecke dieser Punkte in D liegt, d.h.

Transkript:

Kapitel 9 Polynomklassifikator und Radiale-Basis-Funktionen-Netzwerke (RBFN) H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9

Ansätze zum Entwurf eines Klassifikators Es gibt zwei prinzipiell unterschiedliche Ansätze zum Entwurf eines Klassifikators:. Statistische parametrische Modellierung der Klassenverteilungen, dann MAP. Lösung eines Abbildungsproblems durch Funktionsapproximation (nichtlineare Regression) { fx y } min E ( ) X Merkmalsraum Y Entscheidungsraum H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9

Zu.) Die zuerst beschriebene Vorgehensweise beim Entwurf eines Klassifikators beruht darauf, dass man die klassenspezifischen Verteilungsdichten p(x ω) ( ) parametrisch durch statistische Modelle annähert (durch Schätzung der Parameter, z.bsp. Einer Gauß-Verteilung) und durch eine Maximumselektion zu einer Entscheidung kommt. Lernen bedeutet hierbei: Verbesserung des Parameter-Fitting. Zu.) Es gibt nun eine zweite Möglichkeit der Herangehensweise, welche auf die Auswertung der a-posteriori-wahrscheinlichkeitsdichte p(ω x) aufbaut und durch ein Problem der Funktionsapproximation beschrieben werden kann. H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 3

Diese Funktionsapproximation kann z.b. durch eine nichtlineare Regression mit Polynomen oder auch mit Hilfe eines künstlichen Neuronalen Netzwerkes (NN) durchgeführt werden. Im Rahmen dieser Veranstaltung sollen die Grundlagen für beide Vorgehensweisen behandelt werden. Grundsätzlich ist die Suche nach einer besten Näherungsfunktion ein Variationsproblem, welches durch die Wahl von Basisfunktionen auf ein parametrisches Optimierungsproblem zurückgeführt werden kann. Lernen bedeutet dann auch hier: Parameterfitting. Die Gleichwertigkeit der beiden genannten Vorgehensweisen ergibt sich aus dem Bayes-heorem: p( ω x) = i p( x ωi) P( ωi) p( x) unabhängig ggvon ω Die Gleichwertigkeit ergibt sich daraus, dass der Nenner unabhängig gvon ω ist. H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 4

Im folgenden soll nun die Überführung in ein Funktionsapproximations-problem durch eine Reihe begründet werden. Bei bekannter a-posteriori-w. p(ω x) würde für jedes kontinuierliche x bestmöglich ein ω zugeordnet werden (funktionale Zuordnung f: x ω). Gegeben sind jedoch nur Stichproben und man sucht nach einer Funktion f, welche bestmöglich die Einzelexperimente fittet und damit eine Abbildung realisert: f : Merkmalsraum Bedeutungsraum x ω Diese Aufgabenstellung kann mit Hilfe der Variationsrechnung gelöst werden. Wählt man als Gütekriterium das minimale Fehlerquadrat, so geht es um die Minimierung von: J = min E{ fx ( ) y } f ( x ) ω f (x i, ω k k) x H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 5

Dabei entstehen die Zielvektoren {y i } im Entscheidungsraum Y durch einfache Abbildung der skalaren Bedeutungswerte {ω i } Ω : = {,,, } ω ω ω K Y : {,,, } mit: y i = y y y K 0 0 = i-ter Einheitsvektor 0 0 H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 6

Zwei-Klassen-Problem mit Gaußverteilungsdichte p( x) = p( x ω ) P( ω ) K k k P( ω x) p( x) = p( x, ω ) = p( x ω ) P( ω ) k k k k p ( x ω ) P ( ω ) p( x ω ) P( ω ) p( x ω ) P( ω ) p ( x ω ) P ( ω ) 0 μ x x μ x x Merkmalsraum Entscheidungsfunktion für Klasse H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 7

Lösung des Variationsproblems Die Lösung des Variationsproblems erhält man über die Annahme, dass man eine optimale Funktion f*(x) bereits kennt. Dann muss jede Variation zu einer Verschlechterung des Gütekriteriums führen: J( f + δ f ) > J( f ) für δ f 0 f f*(x) J () f f*(x)+δf J ( f ) f δf f x H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 8

Mit Hilfe der Definitionsgleichung gergibt sich: { } { + + } J ( f + δf) = E f + δf y = E ( f y) δf,( f y) δf { } { ( ) } { } f y δf f y δf = E + E + E { f } J ( f ) = E y (für δf = 0) Eingesetzt in die Ungleichung J ( f + δf ) J ( f ) > 0 ergibt: { f } E{ f } E δf + δ f ( y ) > 0 δ f 0 Dies wird erfüllt, wenn der zweite erm verschwindet, da der erste erm positiv definit itist t( (siehe ih nächste äht Foli Fli!) e. Daraus resultiert eine notwendige Optimalitätsbedingung: { f f y } E δ ( ) = 0 H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 9

Zwischenrechnung: Mit { δf } { δf f y } a : = E f und b:= E f ( y) ergibt sich unter der Annahme einer Variation in eine beliebige bi Raumrichtung von δ f : δf λδf a λ + b λ > 0 λ λ( aλ + b) > 0 λ b a Ist b 0, so gilt für alle λ ( b a,0) : λ( aλ + b) < 0 b muss Null sein, dann lautet die Parabel: λ aλ > 0 H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 0

Der Erwartungswert kann mit der Verbundverteilungsdichte ausformuliert werden zu: E δf ( f y) = δf ( f y) p( x, y) { } x y = δf ( f y) p( y x) p( x) = 0 x y Dieser Ausdruck verschwindet, falls der erm in der eckigen Klammer Null wird. Daraus resultiert die folgende Optimalitätsbedingung: ( f y) p( y x) = f p( y x) y p( y x) y y y = f y p( y x) = 0 y Die optimale Schätzfunktion ist die sogenannte Regressionsfunktion: = { } f ( x) = y p( y x) = E y x) y H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9

Polynomiale Regression Wahl von Polynomen als Basisfunktionen für die Funktionsapproximation. Zunächst für eine skalare Funktion mit einem vektoriellen Argument x: f ( x ) = a0 + a x + a x + + an xn + a x + a x x + a x x + N+ N+ N+ 3 3 3 3 + a x + a x x + a x x + mit: N = dim( x) Dieses verallgemeinertes Polynom enthält eine Konstante a 0, gefolgt von N linearen ermen, N(N+)/ quadratischen ermen usw. Ein Polynom vom Grade G und der Dimension N des Argumentvektors x hat L N + G ( N + G)! = = G GN!! polynomiale erme, welche als Basisfunktionen f i (x), i=,,...,l einer Funktions- entwicklung betrachtet werden können. H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9

Obiges Polynom kann kompakt durch Einführung einer vektoriellen Abbildung eines N- dimensionalen Vektors x auf einen L-dimensionalen Vektor p beschrieben werden: 3 = x x xn x xx xx 3 x xx xx 3 px ( ) Wir führen einen Koeffizientenvektor a ein und erhalten für das skalare Polynom: L f( x) = a p( x) = a p ( x) mit: L= dim( p) i=0= 0 i i Für die Musterklassifikation benötigen wir für jede Klasse eine Polynomfunktion f k ( x ) = a k p ( x ) verantwortlich tli für die Klassen k =,,, K Kombiniert man die klassenspezifischen Koeffizientenvektoren a k zu einer Matrix [ ] A= a a a K so erhält man für die vektorielle Polynomfunktion: fx ( ) = Apx ( ) H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 3

Optimale Anpassung der Matrix A Es gilt nun, die Koeffizientenmatrix A während der Optimierungsprozedur bestmöglich anzupassen. Dabei kann das Approximationsproblem direkt auf die Messungen oder aber auf die Merkmale eines Unterraumes (z.b. nach einer KL) angewendet werden. Adaption der Koeffizientenmatrix A: J = { } { } f x y E A p x y A min E ( ) min ( ) f( x) Das Variationsproblem mit der Suche nach einer unbekannten Funktion wird durch die Wahl polynomialer Basisfunktionen auf ein Parameteroptimierungsproblem reduziert! Das Gütekriterium J minimiert die Varianz des Residuums, nämlich den Fehler zwischen y und der Approximation A p(x). Die Lösung wird bestimmt unter Ausnutzung des Variationsansatzes, was zu einer notwendigen Bedingung führt: J ( A + δ A ) J ( A ) f ür δ A 0 H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 4

Es gilt nun, die Koeffizientenmatrix A durch eine Optimierungsprozedur bestmöglich anzupassen. Adaption der Koeffizientenmatrix A: Wegen { A p x y } = E{ } p y p y J ( A ) = E ( ) y A p y A p y und ab = Spur( ba ) Skalarprodukt dyad. Produkt sowie Spur( PQ) = Spur( QP) erhält man: { } J( A) = E Spur Ap y Ap y { yy } A { py } A { pp } = Spur E Spur E + Spur E { } Spur { } Spur { } = E y E + E A py A pp A A H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 5

Wie zuvor angenommen, kann der Zielvektor y o.b.d.a. als Einheitsvektor formuliert sein und damit gilt: { } A E { } J ( A ) = S p u r A E py + Spur pp A Mit dem Variationsansatz ergibt sich: E{ } + δ E{ pp } + δ A E{ py } Spur δ A E{ py } E{ pp } Spur δ E{ pp } A E{ pp } δ A J ( A + δa) = Spur ( A + δa) py + Spur ( A A) ( A A) = Spur + Spur + A A A A + Spur δ Eingesetzt in die Ungleichung der notwendigen Bedingung für ein Optimum ergibt: { pp } A A { py } { pp } Spur Spur ( δ E δ δ E E ) A A 0 H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 6

Da der erste erm positiv ist (wegen der Positiv-Definitheit von der Momentenmatrix E{pp }), muss der zweite erm verschwinden: { } { } Spur δ ( E E ) A py pp A = 0 δ A und daraus schließlich das in A* lineare Gleichungssystem für den optimalen Polynomklassifikator: E { } { pp A = E py } A = E{ pp } E{ py } R pp R py = diese Gleichung garantiert ein minimales Residuum des Fehlervektors: Δ fx ( ) = fx ( ) y= A px ( ) y Die Lösung des Problems führt auf die Aufgabe, die beiden Momentenmatrizen E{pp } und E{py } aus dem rainingsdatensatz zu schätzen und eine lineare Matrizengleichung zu lösen. Der verbleibende Fehlervektor berechnet sich zu: { pp } J ( A ) = Spur A E A H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 7

Orthogonalität des Schätzfehlervektors Interpretation der Lösungsgleichung auf der Folie zuvor: Die Bestapproximation fordert nach dem Projektionssatz, dass der Fehlervektor Δf senkrecht steht auf den Unterraum, welcher durch die polynomialen Basisfunkionen in p(x) aufgespannt wird. In statistischer Notation bedeutet das, dass die Momentenmatrix, welche aus p und Δf aufgespannt wird, eine Nullmatrix sein muss: { } { } { = } { } ( ) E pδ f = E p A p y E pp A E py = 0 Diese Eigenschaft wird auch von p auf f vererbt, da f aus Linearkombinationen der Basisfunktionen in p(x) aufgebaut wird. { Δ } { Δ } { f f f = A pδ f } E Δ = E A pδ E Δ = 0 H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 8

Erwartungstreue der Approximationsfunktion Die Schätzfunktion ist erwartungstreu (unbiased). Der Schätzfehler (Residuum) hat den Erwartungswert 0. E Δf = E f ( x ) y = 0 { } { } Daraus aus folgt, dass f(x) ( ) eine e erwartungstreue eue Schätzung von y ist: E fx ( ) = E y { } { } H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 9

Rekursive Lernregel für den Polynomklassifikator (falls neue Werte in dem Experiment dazukommen können) Für den auf das minimale Fehlerquadrat aufbauende Klassifikator ergibt sich die folgende rekursive Lernstrategie für die Koeffizientenmatrix A: n n = n α i i n n n n i= A A pp p A p y G Diese Lernregel beinhaltet folgende Schritte: - Wahl eines Startwerts für [ xy] - Die momentante Stichprobe, wird abgebildet A [ py] mit Hilfe der Polynombasis px ( ) auf das Paar, - Berechne die Schätzung f auf der Basis der gegebenen Beobachtung p und der momentanten Koeffizientenmatrix A: f = A p - Berechne das Residuum: Δ f = f y - Korrigiere A auf der Grundlage obiger Rekursion n A = A αg p Δf n n n H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 0

Die Gewichtsmatrix G = E{pp } ist dabei die Momentenmatrix auf der Basis der n zur Verfügung stehenden Stichproben. Eine strikte Beachtung obiger Rekursion, würde sogar noch eine weitere Rekursion für die Inverse der Gewichtsmatrix erfordern gemäß: G G p p G n n n n n = α G n α α pn G n p n ( ) + G oder die echte zusätzliche Iteration ändern fast nichts am Ergebnis. G kann sogar noch vereinfacht werden zu: { } { } E [ diag( i ) ] G = E pp p I n n i i n pp [ diag( )] n pi i= i== ohne dass sich dabei die Konvergenzeigenschaften verschlechtern (Schürmann S. 74). H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9

Herleitung der rekursiven Lernregel E { pp } A = E { py } opt. Lösung des Polynomkl. Einführung von Schätzwerten: n n n pp i i An = n py i i i= i= G n H n G = ( α) G + αp p n n n n n n = Hn und Hn = ( α) Hn + αpnyn GA GA = ( α) H + αpy n n n n n = ( α ) G A + α py ( α ) n n n n = G p p A + αp y n n n n n n = GA α p ( pa y ) n n n n n n A = A αg p A p y n n n n n n n H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9

Polynomklassifikator für das XOR-Problem Wir wählen als Regressionsfunktion ein Polynom mit ermen zweiten Grades in der Hoffnung, dass damit eine Lösung erreicht werden kann (eine lineare Lösung existiert nicht!): f ( x ) = a x+ a x+ a3 x x= a p ( x ) = ai p i ( x ) mit: p [ x, x, x x ] und a [ a, a, a ] = = 3 L i= 0 x (0,) (,) (0,0) x (,0) Die Eckpunkte des Quadrats im zweidimensionalen Ursprungsraum X werden auf die Ecken eines (Hyper-) Würfels fl eines dreidimensionalend Merkmalraums P abgebildet und dieser schließlich auf den eindimensionalen Bedeutungsraum Y : X P Y X x 0 0 x 0 0 p 0 0 p 0 0 p3 0 0 0 y 0 0 X -Raum 0 p 00 0 P p 3 0 Y 000 00 P -Raum p H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 3

Die optimalen Parameter der Regressionsfunktion a* ergeben sich aus: { } { } p a E bzw: a = pp E p = py R R R pp R py py mit: { } 4 pp = E 4 i i i= R pp pp 0 0 0 0 0 0 0 0 0 0 = 4 4 0 + + + = 0 0 0 0 0 0 0 0 0 0 0 0 0 0 und: 4 4 py = E{ y} 4 i yi = 4 yi i i= i= R p p p 0 0 = 4 0 0 0 0 4 + + + = 0 0 0 0 3 Parameter a, a, a 3 und 4 Beobachtungen => R pp ist regulär! H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 4

Daraus folgt: 0 a = Rpp Rpy = 0 = 3 0 und damit eine Regressionsfunktion f ( x) = a, p = ax+ ax + axx = x+ x xx 3 welche lh an den 4Funktionswerten t genau die Werte der Zielfunktion annimmt und ansonsten interpoliert! H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 5

Regressionsfunktion f ( x) = x + x x x 0.8 06 0.6 0.4 0. x 0 0.5 0 x 0 0. 0.4 0.6 0.8 Matlab-Demo: XOR_poly.bat H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 6

rennflächen für die beiden Klassen Die rennfläche für die beiden Bedeutungsklassen verläuft dort, wo die Regressionsfunktion f(x) den arithmetischen Mittelwert der Zielfunktion, nämlich c=(0+)/=0,5 annimmt. Das nichtlinear separierbare XOR- Problem kann in dem dreidimensionalen Merkmalsraum durch eine lineare (Hyper-)Ebene separiert werden, was auch leicht geometrisch an dem dreidimensionalen Kubus nachvollziehbar ist: f( x) p p p 0,5), 0,5 > 0 x A = + 3 = a p < 0 x Gleichung für lineare rennfläche mit Normalenvktor a B 0 p 00 0 p 3 0 Nichtlineare rennfunktion im Originalraum: (Kegelschnitt, nämlich zwei Geraden) > 0 x A f( x) = x+ x xx 0,5 < 0 x B x + x x x 0,5 = ( x 0,5)( x 0,5) = 0 ( ) gilt für: x = 0,5 x beliebig Euklidisch ideale 000 00 x P -Raum x = 0,5 x beliebig rennlinien x X -Raum H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 7 p

Ortskurven konstanter Wertigkeit im Originalraum (Hyperbeln) für unterschiedliche Schwellwerte c f ( x ) = x + x x x = c x 0.9 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0. 0.8 0. rennkurven: Kegelschnitte Beim Übergang c 0,5 entarten die Hyperbeln in zwei Geraden 0.7 0.6 0.5 0.4 0.3 0. 0.7 0.3 0. 0.6 0.5 0.4 y = y = 0 y =0 0.5 0.5 y = c = 0.6 0.4 0.5 0.6 0.3 0.7 0. 0. 0.3 0.4 0.5 0 0 0. 0.4 0.6 0.8 0.6 0.7 0.8 0.9 x H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 8

rennflächen für die beiden Klassen Wir erhalten einen linearen Klassifikator im p-raum und einen nichtlinearen Klassifikator im x-raum H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 9

Polynomklassifikator für komplexere Beispiele i N N N f ( x) = a+ ax+ a xx +... = Px ( ) Px ( ) Px ( ) 0 i i im i m N i= i= m= i+ kartesisches Produkt der eindimensionalen Polynome mit: dim( x) = N und Grad des Polynoms: G d.h. der N-dimensionale Originalraum wird in einen L-dimensionalen Merkmalsraum abgebildet. Dieser enthält erme der Art: k k k x x x N mit: k + k + + k G N N Für ein Polynom vom Grade G und ein Merkmalsvektor der Dimension N ergibt sich eine Dimension des Ausgangsraums L von: L N + G ( N + G)! = = G GN!! H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 30

Demo mit MALAB (Klassifikationgui.m) Polynomklassifikator für XOR-Problem zuerst setmypath.m m aufrufen, dann C:\Home\ppt\Lehre\ME_00\matlab\KlassifikatorEntwurf- WinXX\Klassifikationgui Datensatz: samples/xor_test_exakt.mat laden Polynomklassifikator vom Grad anwenden L Zweiklassenproblem mit Bananenshape Datensatz: samples/banana_train_samples.mat laden Versuch mit Polynomklassifikator vom Grad und Grad 3 um genügend unabhängige Stichproben für das Polynom zu haben: Man benötigt mindestens: N + G ( N + G)! + = = = = 6 G GN!! unabhängige Beobachtungen. Start der Matlab-Demo matlab-klassifikation_gui.bat Man benötigt mindestens: N + G ( N + G)! + L = = = = 6 G GN!! unabhängige Beobachtungen. Man benötigt mindestens: N + G + 3 L = = = 0 G 3 unabhängige Beobachtungen. H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 3

Eigenschaften des Polynomklassifikators: Vorteile: Lineare Entwurfsgleichungen mit expliziter Lösung für ein globales Minimum des Approximationsfehlers Nachteile: Die Entwicklung nach den global wirkenden Polynombasen zeigen eine schlechte Konvergenz. Lokale Besonderheiten von Merkmalsclustern können nur sehr schlecht approximiert werden, ohne dabei gleichzeitig nicht zu viel an Qualität bei der Generalisierungsfähigkeit zu verlieren. H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 3

Funktionsapproximation mit einem Radiale- Basis-Funktionen-Netzwerk (RBFN) Anstatt Polynome für die Regressionsaufgabe zu verwenden, kann man auch eine lineare Entwicklung Et ikl in Radiale Rdil Basisfunktionen if (RBF) in Erwägung ziehen. Damit erhält man zwar wiederum ein nichtlineares Parameterschätzproblem (wie bei NN), welches typischerweise nur iterativ gelöst werden kann, aber es ergeben sich bessere Konvergenzeigenschaften. RBFs als Interpolationsfunktionen sind Funktionen der Form: p ( x c ) D.h. im Argument einer jeden RBF steht die Euklidsche Distanz zwischen dem Eingangsvektor x und einem Klassen-Zentrum c i (daraus erklärt sich der Name). Die RBFs wirken nur in lokalen Umgebungen (im Gegensatz zu Polynomen). i H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 33

Bi Beispiele il für Radiale-Basis-Funktionen Rdil i (RBFN) p( ( x) = exp x c (Gauss-RBFs) i σ i σ i p ( x ) = σ + x c i i Man kann nun zeigen, dass mit der folgenden Summe jede Funktion f(x) für hinreichend große L beliebig genau approximiert werden kann: L f( x) = a p( x) = a0 + aipi( x, ci, σ i) { ai},{ ci},{ σ i} linear in Unbekannt sind die Parameter: { ai} { ci} nichtlinear in { σ i } (Radius) i= nichtlinear in (ranslation) H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 34

RBF-Netzwerk als verallgemeinerter linearer Klassifikator x x p a a p f ( x ) f( x) = a p( x) = aipi( x, ci, σ i) L i= 0 x N p L a a 0 L Beim Perceptron wird der Originalraum in Hyperebenen aufgeteilt. RBF-Netzwerk: Der in den neuen Variablen p i lineare Klassifikator unterteilt den Originalraum in Hypersphären, da die p i (x) nichtlineare Funktionen von x-c i sind. Der Polynomklassifikator läßt sich in der gleichen Art charakterisieren, nur mit dem Unterschied, dass er ebenfalls in x nichtlinear, aber in den unbekannten Parametern linear ist! H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 35

Lösung des XOR-Problems mit einem Gauss-RBFN Wir wählen als Regressionsfunktion Gauss-RBFNs der Dimension L=, welche auf die Stichproben zentriert sind: Mit c = = L 0 + i= f( x) a p( x) a a p ( x) = a 0 L + ai exp x c i= σ i L i i = a0 + ai exp i= σ i L = i i i ( x c ) ( x c ), den beiden Zentren [ ] sowie c [ 0 0 ] = = sowie σ = ergibt sich: i ( x c ) exp px ( ) = exp( x c ) x (0,) (,) (0,0) X P x (,0) X -Raum x 0 0 x 0 0 p e 0.35 e 0.368 e 0.368 p e 0.368 e 0.368 e 0.35 f ( p) 0.35 0.64 0.64 0.35 f ( p ) = p + p H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 36

Lösung des XOR-Problems mit einem Gauss-RBFN 0 e Die Vektoren x = und werden auf den gleichen Punkt abgebildet. x= 0 p= e p (0,0) x (0,) (,) (,0) (0,) (,) ) p (0,0) x (,0) P -Raum X -Raum Im P-Raum sind die beiden Klassen nun offensichtlich linear separierbar: renngerade im P -Raum: f ( p ) = p + p = 0 rennkurve im X -Raum: ( x c ) ( ) x c f ( x ) = exp + exp = 0 H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 37

Vorteile: Eigenschaften von RBFNs: Im Unterschied zur Verwendung von Polynomen (aylorreihen) können lokale Besonderheiten von Merkmalsclustern sehr gut approximiert werden, ohne Qualitätsverlust bei der Generalisierungsfähigkeit, e e g e d.h.. man hat ein sehr gutes Konvergenzverhalten (falls optim. Lösung gefunden wird). Nachteile: Es handelt sich um einen in den Parametern nichtlinearen Entwurf, welcher nur iterativ gelöst werden kann mit all den negativen Begleiterscheinungen g evtl. langsamer Konvergenz der Iterationen und der Gefahr nur Nebenminima und damit nur suboptimale Lösungen zu finden. H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 38

Demo mit MALAB Funktionsapproximation mit RBFNs: (Demo/oolboxes/Neural Network/Radial Basis Networks) Gute Wahl der σ i (generalisierfähig) (Radial basis approximation, demorb.m) Wahl der σ i zu klein (overfitting, d.h. neu hinzukommende Punkte werden nicht erreicht) (Radial basis underlapping neurons, demorb3.m) Wahl der σ i zu groß; die Basisfunktionen spannen den Raum nur sehr schlecht auf, da sie nahezu linaer abhängig voneinander sind. (Radial basis overlapping neurons, demorb4.m) Klassifikationsbeispiel mit RBFNs (PNN classification, demopnn.m). Start der Matlab-Demo matlab-rbfns-n.bat (Batch-Mode, weiter mit Space-aste) Start der Matlab-Demo matlab-rbfns.bat (Interaktive-Mode, weiter mit Next-aste) H. Burkhardt, Institut für Informatik, Universität Freiburg ME-II, Kap. 9 39