Kapitel 8: Kernel-Methoden. Maschinelles Lernen und Neural Computation

Kaptel 8: Kernel-Methoden SS 009 Maschnelles Lernen und Neural Computaton 50

Ausgangsbass: Perceptron Learnng Rule Δw y = Kf = 0Ksonst K"target" = Kf Rosenblatt (96) Input wrd dazugezählt (abgezogen), wenn Output falsch ( msmatch-based ) Verwendung: Klassfkaton < y > y arget: Nach dem Lernschrtt: SS 009 Maschnelles Lernen und Neural Computaton 5

Mathematsche Formulerung Perceptron ( Output): f ( ) = w + w0 y = +/-: Δw = Daten kommen als nneres Produkt vor ( duale Darstellung ) y ( ) = + f y w0 Inneres Produkt (dot product) SS 009 Maschnelles Lernen und Neural Computaton 5

Vor- und Nachtele des Perceptrons Vortele: Globale Lösung garantert (kene lokalen Mnma) Lecht lösbar bzw. otpmerbar Nachtel: Auf lneare Separerbarket beschränkt Idee: ransformaton der Daten auf enen Raum, n dem das Problem lnear trennbar st SS 009 Maschnelles Lernen und Neural Computaton 53

Vergleche Dskrmnanzanalyse Allgemen lnear: belebge Vorverarbetungsfunktonen, lneare Verknüpfung Neuronales Netz: y y g p ( ) w y ( ) w0 = + = ( ) f ( w ) = f...sgmode MLP ( ) = f ( w ) f... Gauss RBFN NN mplementert adaptve Vorverarbetung nchtlnear n Parametern (w) durch Appromatonstheorem: belebg nchtlneare Dskrmnanzfunkton SS 009 Maschnelles Lernen und Neural Computaton 54

Kernels Zel st ene f bestmmte ransformaton Φ( ), sodass das Problem lnear trennbar st (ev. hochdmensonal) Kernel: Funkton, de als nneres Produkt von Φs darstellbar st: ( ) = Φ( ) Φ( ) K, Φ muss ncht enmal bekannt sen ( ) y K(,) f = + w0 SS 009 Maschnelles Lernen und Neural Computaton 55

SS 009 Maschnelles Lernen und Neural Computaton 56 Bespel: Polynomscher Kernel Dmensonen: Kernel entsprcht tatsächlch enem nneren Produkt aus Vektoren mt Vorverarbetung ( ) ( ), K z z = ( ) ( ) ( )( ) ( ) ( ) Φ z Φ z = = = = + + = = + = z z z z z z z z z z,,,,

Durch ransformaton wrd Problem lnear trennbar Ф Bespel Ф - SS 009 Maschnelles Lernen und Neural Computaton 57

De Wrkung des Kernel-rcks Ensatz des Kernels, z.b: ( ) ( ) ( = y + = ) K, w0 y 5 f + w0 66-dmensonale Vektoren (z.b. Pel-Blder), Polynom 5. Grades: Dmenson = 0 0 Inneres Produkt zweer 0000000000-dm. Vektoren Berechnung erfolgt m nedrgdmensonalen Raum: Inneres Produkt zweer 56-dm. Vektoren 5-te Potenz SS 009 Maschnelles Lernen und Neural Computaton 58

K z / σ (, z) = e Gauss scher Kernel Ф ncht darstellbar, hat aber unendlche Dmenson! (wenn ranngsset unbegrenzt groß sen kann) Folgt aus Mercer s heorem: Betrachte de Kernel-Matr über alle ranngsbespele K K K = M K (, ) K(, ) K K(, m) (,) K(,) K K(, m) ( m,) K( m,) K K( m, m) Berechne Egenwerte und -funktonen, dann glt: K (, z) = λ Φ ( ) Φ ( z) Für Gauss schen Kernel glt: Kernel-Matr hat vollen Rang! Dmenson so groß we das ranngsset M L M SS 009 Maschnelles Lernen und Neural Computaton 59

Hochdmensonaler Raum: Overfttng lecht möglch Lösung: Suche Entschedungslne (Hyperebene) mt größtem Abstand von den Punkten Large Margn Classfer w + b = 0 w + b = Optmerung: Mnmere w (Mamere d = ) w Randbedngung: y ( + b) 0 w w w + b = Abstand mamal d = w SS 009 Maschnelles Lernen und Neural Computaton 60

Optmerung Quadratsches Optmerungsproblem Lösungsansatz: Lagrange-Multplkanten L Randbedngung: P n = w α = α ( y ( w + b) ) mn 0. Abletung nach w und b muss 0 sen. Das ergbt: w = α y = 0 α y SS 009 Maschnelles Lernen und Neural Computaton 6

Optmerung Ensetzen der zuletzt ergebenen erme: L D α =, α α y y mn Duale Formulerung Wchtg: Daten stehen weder als nneres Produkt (dot product) m erm! Kernel-rck kann weder angewandt werden L D α =, α α y y K (, ) mn SS 009 Maschnelles Lernen und Neural Computaton 6

Optmerung 3 Mnmerung st quadratsches Programmerungsproblem Globales Mnmum garantert Methoden Chunkng nutzt de atsache dass vele α =0 Decomposton Methods Sequental Mnmal Optmzaton (SMO) löst ene Sequenz von Problemen der Größe (Paare von Varablen) SS 009 Maschnelles Lernen und Neural Computaton 63

Support Vectors Support-Vectors: Punkte am Rand des Margns Bestmmen allene de Lösung, für alle anderen Punkte glt: α =0, können weggelassen werden Kernelfunkton SS 009 Support Vectors Rückproekton Maschnelles Lernen und Neural Computaton 64

Bsherge Annahme: Problem st eakt trennbar Be Rauschen: Enführung von Slack varables : wecht den strengen Margn etwas auf y ( w b) ξ ξ 0 + Daten mt Rauschen SS 009 w + C ξ α =, Lernparameter mn Duales Problem (Lagrange) blebt glech (bs auf Randbedngung) L D α α y 0 α C y mn Maschnelles Lernen und Neural Computaton ξ w w 65

Bespel Kernel: Polynom 3. Ordnung Schätzung nur mt Support- Vectors ergbt de selbe Lösung: SS 009 Maschnelles Lernen und Neural Computaton 66

Jede Funkton K(,z), für de glt bzw., K a (, z) f ( ) f ( z) ddz 0 f a K ( ), a Bedngungen für Kernels für belebge ranngspunkte st ene Kernelfunkton ( postve defnte Kernels) Ist K und K en Kernel, so snd auch ak (für a>0) K +K K *K Kernel Wahl des rchtgen Kernels (Vorverarbetung) st entschedend! Modellselekton notwendg SS 009 Maschnelles Lernen und Neural Computaton 67

SVM-heore: VC-Dmenson Shatter : Wenn unter n Punkten alle n Klassfkatonen möglch snd VC-Dmenson h klenstes m von Punkten, für de der Lerner wenger als m Klassfkatonen schafft Z.B.: VC-Dm(Perceptron)=k+ (k Inputdmenson) Für komplee Lerner kann oft nur Schranke angegeben werden SS 009 Maschnelles Lernen und Neural Computaton 68

SVM-heore: Structural rsk mnmzaton Schranke für das Rsko (Fehler) Emprscher Fehler am ranngsset R R Anzahl ranngspunkte emp + h ln Mnmal möglcher Fehler δ + ln 4 n Mameren des Margns beschränkt VC-Dmenson w kann als Regularserungsterm betrachtet werden Gauss-Kernel: VC-Dm h= n h Mt Wahrschenlchket -δ SS 009 Maschnelles Lernen und Neural Computaton 69

SVM und Neuronale Netze Gauss-Kernel: RBF Sgmod-Kernel: MLP K K z / σ (, z) = e (, z) = tanh( κ z +θ ) So vele Hdden Unts we ranngsmuster Allerdngs andere Berechnung Raum st -dmensonal SVM und Boostng: formaler Zusammenhang vgl. Boostng: Punkte an der Entschedungsgrenze bekommen größte Bedeutung (we SV) SS 009 Maschnelles Lernen und Neural Computaton 70

Andere Kernelverfahren Kernel-rck funktonert be allen Methoden, n denen Daten als nneres Produkt vorkommen Kernel-PCA Kernel-Fsher Dksrmnante Kernel Regresson Gauss sche Prozesse SS 009 Maschnelles Lernen und Neural Computaton 7

Zusammenfassung SVMs snd nteressante Alternatve zu klassschen neuronalen Netzen Kernel-rck: Inneres Produkt von hochdmensonalen Features (Vorverabetung) kann nedrgdmensonal berechnet werden Beschränken der VC-Dm. (Vermedung von Overfttng): Large Margn Classfer Lneares Modell, Quadratsche Programmerung, Mnmum garantert Support Vectors: Punkte am Margn, snd allene für Lösung verantwortlch Aber: Overfttng dennoch möglch Modellselekton notwendg Wahl des geegneten Kernels st sehr wchtg! SS 009 Maschnelles Lernen und Neural Computaton 7