Machine Learning. ML Kapitel 7: Support Vector Machines. Prof. Dr. Johannes Maucher. Version November HdM CSM

Transkript

1 Machine Learning Kapitel 7: Support Vector Machines HdM CSM Version November 2017

2 Document History Version Date Changes Nr Eigene Beispiele hinzugefügt Vollständige Überarbeitung; Regression SVM hinzugefügt Anpassungen für WS 12/ Anpassungen für WS 13/ Anpassungen für WS 17/18

3 Übersicht Kapitel Support Vector Machines 1 Einführung SVM Einordnung Anwendungen 2 Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators 3 Soft-Margin-Trennebenen 4 Nichtlineare Transformation Kernel Trick Beispiele 5 Wiederholung parametrische Regression Regularisierung Optimierungsziel Einfluß der Parameter C und ɛ

4 Einordnung Anwendungen Support Vector Machines (SVM) Einordnung und Idee SVMs gehören zur Klasse der generalisierten linearen Klassifizierer 1 Durch nicht-lineare Transformation werden die nicht-linear-separablen Daten in einen Raum transformiert in dem sie linear separabel sind Es werden Support-Vektoren bestimmt (Datensätze in der Nähe der Entscheidungsgrenze), welche eine optimale Entscheidungsgrenze (Diskriminante) definieren. 1 siehe Kapitel 6 Lineare Diskriminanz, letzter Abschnitt

5 Einordnung Anwendungen Lineare Separierbarkeit im hochdimensionalen Raum

6 Welche Diskriminante ist die Beste? Einordnung Anwendungen

7 Anwendungskategorien Einordnung Anwendungen Lineare und nichtlineare Klassifizierung Lineare und nichtlineare Regression One-Class SVM, z.b. für Outlier-Detection Leicht konfigurierbar, zumindest wenn einer der Standard-Kernels verwendet wird. Eignen sich ganz besonders im Fall sehr hochdimensionaler Daten: Objekterkennung in Bild- und Videodaten 2 Dokument- und Textklassifikation Bioinformatik: Sequenzierung von DNA und Proteinen ObjectRecognition/SS17/V07Recognition.pdf

8 Linear separierbare Trainingsmenge Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Aufgabe: Finde die beste Klassifikationsgrenze x 1 x 2 class

9 K = 2-Klassifizierung mit SVM Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Trainingsdaten Überwachtes Lernen: T = {x p, r p} N K = 2-Klassifikation mit r p = 1, falls x p C 1 r p = +1, falls x p C 2 Finde w = (w 1,..., w d ) und w 0, so dass gilt Andere Formulierung: w T x p + w 0 +1 für r p = +1 w T x p + w 0 1 für r p = 1 r p(w T x p + w 0 ) 1 definiert einen Grenzbereich In den bisher vorgestellten Verfahren zur K = 2 Klassifikation galt: definiert eine Grenzlinie r p(w T x p + w 0 ) 0

10 Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Entscheidungsgrenze vs. Entscheidungsbereich 3 Instanzen müssen also nicht nur auf der richtigen Seite der Hyperebene liegen, sondern zudem in einem bestimmten Abstand zur Hyperebene. Lernen eines Entscheidungsbereichs impliziert bessere Generalisierung als eine erlernte Entscheidungsgrenze. Die auf den Grenzen des Bereiches liegenden Vektoren (eingekreist) werden Support-Vektoren genannt. 3 Bildquelle [ABH]

11 Abstand zur Diskriminante Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Abstand eines Trainingpunktes x p zur Diskriminanten: w T x p + w 0 = rp(wt x p + w 0 ), mit w = d w w SVM Lernaufgabe: Finde eine Diskriminante (Parameter w), so dass der minimale Abstand eines Trainingspunktes zur Diskriminanten maximal ist. w ist so zu bestimmen, dass der Wert ρ mit: r p(w T x p + w 0 ) w ρ, maximal ist. Für das Finden einer eindeutigen Lösung wird folgende Normierung gefordert. ρ w = 1 d.h. w muss minimiert werden um ρ zu maximieren. p i=1 w 2 i

12 Optimierungsaufgabe Einführung SVM Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Die Minimierung von w ist gleichbedeutend mit der Minimierung von 1 2 w 2, Das Optimierungsproblem lautet dann: Finde unter den Randbedingungen min( 1 2 w 2 ) (1) r p(w T x p + w 0 ) 1, p (2) Das ist ein Standardproblem der quadratischen Optimierung, dessen Komplexität von der Dimension d des Eingaberaums abhängt.

13 Optimierungsaufgabe Einführung SVM Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Die Minimierung von w ist gleichbedeutend mit der Minimierung von 1 2 w 2, Das Optimierungsproblem lautet dann: Finde unter den Randbedingungen min( 1 2 w 2 ) (1) r p(w T x p + w 0 ) 1, p (2) Das ist ein Standardproblem der quadratischen Optimierung, dessen Komplexität von der Dimension d des Eingaberaums abhängt. Lösung mit einem numerischen Optimierungsverfahren mit Randbedingungen

14 Optimierungsaufgabe Einführung SVM Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Die Minimierung von w ist gleichbedeutend mit der Minimierung von 1 2 w 2, Das Optimierungsproblem lautet dann: Finde unter den Randbedingungen min( 1 2 w 2 ) (1) r p(w T x p + w 0 ) 1, p (2) Das ist ein Standardproblem der quadratischen Optimierung, dessen Komplexität von der Dimension d des Eingaberaums abhängt. Lösung mit einem numerischen Optimierungsverfahren mit Randbedingungen Numerische Optimierung in Python (Scipy) siehe

15 Optimierungsaufgabe Einführung SVM Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Die Minimierung von w ist gleichbedeutend mit der Minimierung von 1 2 w 2, Das Optimierungsproblem lautet dann: Finde unter den Randbedingungen min( 1 2 w 2 ) (1) r p(w T x p + w 0 ) 1, p (2) Das ist ein Standardproblem der quadratischen Optimierung, dessen Komplexität von der Dimension d des Eingaberaums abhängt. Lösung mit einem numerischen Optimierungsverfahren mit Randbedingungen Numerische Optimierung in Python (Scipy) siehe Lösung mit fmin_cobyla(constrained Optimization BY Linear).

16 Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Finde optimale Trennebene durch numerische Optimierung 1 from scipy.optimize import fmin_cobyla 2 from matplotlib import pyplot as plt 3 import numpy as np 4 5 #Define points and the corresponding class labels########################### 6 p=[[3,2],[1,4],[2,4],[0.5,4.8],[3,5],[5,4],[3.5,5.5],[5.7,3]] 7 c=[-1,-1,-1,-1,1,1,1,1] 8 #Define class which returns the constraints functions####################### 9 class Constraint: 10 def init (self, points,classes): 11 self.p = points 12 self.c =classes 13 def len (self): 14 return len(self.p) 15 def getitem (self, i): 16 def c(x): 17 return self.c[i]*(x[0]*1+x[1]*self.p[i][0]+x[2]*self.p[i][1])-1 18 return c 19 #Define the function that shall be minimized################################ 20 def objective(x): 21 return 0.5*(x[1]**2+x[2]**2) 22 #Create a list of all constraints using the class defined above############# 23 const=constraint(p,c) 24 cl=[const. getitem (i) for i in range(len(c))] 25 #Call the scipy optimization method######################################### 26 res = fmin_cobyla(objective,[1.0,1.0,1.0],cl) 27 print "Found weights of the optimal discriminant: ",res

17 Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Ergebnis der Optimierung: Optimale Trennebene

18 Optimierungsaufgabe Einführung SVM Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Komplexität der Lösung des Optimierungsproblem (Gleichungen (1) und (2)) hängt von der Dimension d des Eingaberaums ab.

19 Optimierungsaufgabe Einführung SVM Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Komplexität der Lösung des Optimierungsproblem (Gleichungen (1) und (2)) hängt von der Dimension d des Eingaberaums ab. Die Dimension d kann extrem groß sein, insbesondere wenn für nicht-linear separable Klassen eine Transformation in einen höher-dimensionalen Raum nötig ist.

20 Optimierungsaufgabe Einführung SVM Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Komplexität der Lösung des Optimierungsproblem (Gleichungen (1) und (2)) hängt von der Dimension d des Eingaberaums ab. Die Dimension d kann extrem groß sein, insbesondere wenn für nicht-linear separable Klassen eine Transformation in einen höher-dimensionalen Raum nötig ist. Um diese hohe Komplexität zu vermeiden, wird das Optimierungsproblem in eine Form gebracht, die eine Lösung mit Komplexität proportional zu N (=Anzahl der Trainingselemente) erlaubt Duale Form

21 Optimierungsaufgabe Einführung SVM Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Komplexität der Lösung des Optimierungsproblem (Gleichungen (1) und (2)) hängt von der Dimension d des Eingaberaums ab. Die Dimension d kann extrem groß sein, insbesondere wenn für nicht-linear separable Klassen eine Transformation in einen höher-dimensionalen Raum nötig ist. Um diese hohe Komplexität zu vermeiden, wird das Optimierungsproblem in eine Form gebracht, die eine Lösung mit Komplexität proportional zu N (=Anzahl der Trainingselemente) erlaubt Duale Form Ausserdem können in der dualen Form die Basisfunktionen als Kernfunktionen umgeschrieben werden.

22 Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Herleitung der dualen Form: Lagrange Multiplikatoren Soll eine Funktion f (x) (z.b. Gleichung (1)) unter Einhaltung von N Nebenbedinungen (z.b. Gleichung (2)) minimiert werden, so kann diese Aufgabe als Optimierungsaufgabe ohne Nebenbedingungen wie folgt umformuliert werden. 1 Bringe alle Nebenbedingungen auf die Form c p(x) 0 2 Das nebenbedingungsfreie Optimierungsproblem lautet dann: Minimiere L = f (x) α p c p(x) 3 wobei die Lagrange Koeffizienten α p positiv sein müssen. Das in den Gleichungen (1) und (2) definierte Optimierungsproblem lautet dann: Minimiere L = 1 2 w 2 ) α p (r p(w T x p + w 0 ) 1, (3)

23 Herleitung der dualen Form Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Für die nebenbedingungsfreie Form (Gleichung (3)) werden dann alle partiellen Ableitungen nach den zu optimierenden Parametern (hier w und w 0 ), berechnet. L = w i α pr px p,i für i = 1,..., d w i L w 0 = α pr p

24 Herleitung der dualen Form Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Für die nebenbedingungsfreie Form (Gleichung (3)) werden dann alle partiellen Ableitungen nach den zu optimierenden Parametern (hier w und w 0 ), berechnet. L = w i α pr px p,i für i = 1,..., d w i L w 0 = α pr p Im Minimum müssen alle partiellen Ableitungen gleich Null sein.

25 Herleitung der dualen Form Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Für die nebenbedingungsfreie Form (Gleichung (3)) werden dann alle partiellen Ableitungen nach den zu optimierenden Parametern (hier w und w 0 ), berechnet. L = w i α pr px p,i für i = 1,..., d w i L w 0 = α pr p Im Minimum müssen alle partiellen Ableitungen gleich Null sein. Nach dem Nullsetzen der partiellen Ableitungen, können diese nach den zu optimierenden Parametern aufgelöst werden: w = α pr px p (4) 0 = α pr p (5)

26 Herleitung der dualen Form Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Für die nebenbedingungsfreie Form (Gleichung (3)) werden dann alle partiellen Ableitungen nach den zu optimierenden Parametern (hier w und w 0 ), berechnet. L = w i α pr px p,i für i = 1,..., d w i L w 0 = α pr p Im Minimum müssen alle partiellen Ableitungen gleich Null sein. Nach dem Nullsetzen der partiellen Ableitungen, können diese nach den zu optimierenden Parametern aufgelöst werden: w = α pr px p (4) 0 = α pr p (5) Die duale Form ergibt sich dann durch Einsetzen der resultierenden Gleichungen für die w i in die Ausgangsgleichung (3).

27 Duale Optimierungsaufgabe Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Maximiere L d = 1 ) (α pα sr pr sx T p 2 xs + α p (6) s=1 hinsichtlich der Lagrange-Koeffizienten α p unter der Bedingung α pr p = 0 und α p 0 p (7) Lösung unter Verwendung von quadratischen Optimierungsmethoden. Ergibt: Von den insgesamt N Koeffizienten α p sind die meisten = 0. Support Vektoren sind die Eingabedaten x p, deren α p > 0 Aus den berechneten α p > 0, können die Parameter w wie folgt bestimmt werden: w = α pr px p In diese Summe fließen nur die Support-Vektoren ein. Für die Support-Vektoren gilt r p(w T x p + w 0 ) = 1

28 Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Berechnung der Bias w 0 Aus der vorigen Gleichung kann unter Einsatz eines beliebigen Support-Vektors x p w 0 = r p w T x p berechnet werden. Empfohlen: Berechne w 0 für alle Support-Vektoren separat und wähle dann den Mittelwert. Die so gefundenen Diskriminanten werden Support-Vektor-Maschinen genannt. Beachte: In die Berechnung der Diskriminanten fließen nur die Daten an den Grenzen, nicht jedoch die weit innerhalb der Klassengebiete mit ein.

29 Klassifikation in Test- und Betriebsphase Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Für die Klassifikation im Test und Betrieb wird g(x) = w T x + w 0 berechnet und x der Klasse C 1 zugeordnet, falls g(x) < 0, sonst C 2. Es wird also nicht darauf bestanden, dass die Eingabe ausserhalb der Trennebene liegt. Für K > 2 müssen auf die gleiche Art K Support-Vektormaschinen g i (x) gelernt werden. Beim Testen werden alle g i (x) berechnet und das Maximum gewählt.

30 Nicht-linear separierbare Trainingsmenge Soft-Margin-Trennebenen Aufgabe: Finde die beste Klassifikationsgrenze x 1 x 2 class

31 Fall nicht-linear separabler Daten Soft-Margin-Trennebenen Wenn die Daten nicht linear-separabel sind, gibt es keine Trennebene, welche die Trainingsdaten separiert. Dann: Suche nach der Trennebene welche geringsten Fehler verursacht Fehler pro Trainingselement wird in der Schlupfvariablen ζ p festgehalten. Damit lautet die aufgeweichte Bedingung: r p(w T x p + w 0 ) 1 ζ p Zwei Arten von Abweichungen: Trainingsvektor liegt auf der falschen Seite der Hyperebene: ζ p > 1 Trainingsvektor liegt auf der richtigen Seite der Hyperebene jedoch innerhalb des Trennbereichs: 0 < ζ p < 1 Soft Error: ζ p

32 Optimierungsaufgabe Soft-Margin Soft-Margin-Trennebenen Das Optimierungsproblem lautet jetzt. Finde unter der Bedingung min( 1 2 w 2 + C ζ p) r p(w T x p + w 0 ) 1 ζ p, p mit ζ p 0 In der dualen Repräsentation: Maximiere L d = 1 2 s=1 (α pα sr pr sx T p x s ) + α p (8) hinsichtlich den Lagrange-Koeffizienten α p unter der Bedingung α pr p = 0 und 0 α p C p (9)

33 Einfluss des Soft-Margin Parameters C Soft-Margin-Trennebenen 4 Mit der Konstante C wird die relative Bedeutung zwischen Maximierung der Trennbereichsbreite und Minimierung des Soft Error eingestellt: Je größer C umso wichtiger die Soft Error Minimierung und umso unwichtiger die Maximierung der Trennebenenbreite. Die Support Vektoren sind wieder die Daten x p mit α p > 0. Sie liegen auf den Trennbereichsgrenzen oder innerhalb des Trennbereichs. 4 Bildquelle [ABH]

34 Beispiel nichtlineare Transformation Nichtlineare Transformation Kernel Trick Beispiele Abbildung: Original Daten (links) und transformierte Daten (rechts). Lineare Separierbarkeit der Klassen im transformierten Raum

35 Nichtlineare Transformation Kernel Trick Beispiele Transformation in höherdimensionalen Raum Nicht-lineare Diskriminanten im Originaleingaberaum können durch eine Transformation Φ im resultierenden höherdimensionalen Feature-Raum von linearer Form sein. 5 5 Siehe Kapitel 6 Lineare Diskriminanz, letzter Abschnitt

36 Beispiel polynomiale Transformation Nichtlineare Transformation Kernel Trick Beispiele Originalraum X: R 2 mit Basisfunktionen x 1 und x 2 Transformation: Φ : X F Feature Raum F : R 6 mit Basisfunktionen z 1 = Φ 1 (x) = 1 z 2 = Φ 2 (x) = 2x 1 z 3 = Φ 3 (x) = 2x 2 z 4 = Φ 4 (x) = 2x 1 x 2 z 5 = Φ 5(x) = x1 2 z 6 = Φ 6 (x) = x2 2 (10) Lineare Diskriminante im Feature Raum: g(z) = w T z + w 0 = w T Φ(x) + w 0 = 6 w j Φ j (x) + w 0 j=1 (11)

37 Problem: Komplexität im Feature-Raum Nichtlineare Transformation Kernel Trick Beispiele Im allgemeinen ist die Dimension des Raumes in welchem sich die Diskriminante linear darstellen läßt sehr hoch. Für die Klassifikation müßten alle Eingaben in den hochdimensionalen Raum abgebildet werden und die Berechnung der Diskriminante dort durchgeführt werden. Ansatz wäre für die praktische Realisierung zu komplex. Lösung: Kernel Trick. Damit ist es möglich die Diskriminante zu berechnen ohne die Eingaben in den hochdimensionalen Raum zu transformieren.

38 Der Kernel Trick Einführung SVM Nichtlineare Transformation Kernel Trick Beispiele Ausgangspunkt: Diskriminantengleichung (11) Nehme an, dass der Vektor w als Linearkombination der transformierten Trainingsvektoren dargestellt wird w = α pr pφ(x p) (12) Einsetzen in Gleichung (11) ergibt g(x) = w T Φ(x) + w 0 = ( ) α pr pφ(x p) T Φ(x) + w 0 (13) Der Kernel-Trick besteht darin, das Skalarprodukt Φ(x p) T Φ(x) durch eine Kernfunktion K (x p, x) zu ersetzen, die das gleiche Resultat wie das Skalarprodukt liefert, jedoch ohne die Transformation der Eingaben x in den hochdimensionalen Feature Raum auskommt. Die Diskriminante ist dann: g(x) = (α pr pk (x p, x)) + w 0 (14)

39 Bestimmung der Lagrange-Koeffizienten Nichtlineare Transformation Kernel Trick Beispiele Woher kommen die Koeffizienten α p in den Gleichungen (12)-(14)? Die Koeffizienten sind die Lagrangekoeffizienten, die durch Optimierung der folgenden dualen Optimierungsaufgabe bestimmt werden:

40 Bestimmung der Lagrange-Koeffizienten Nichtlineare Transformation Kernel Trick Beispiele Woher kommen die Koeffizienten α p in den Gleichungen (12)-(14)? Die Koeffizienten sind die Lagrangekoeffizienten, die durch Optimierung der folgenden dualen Optimierungsaufgabe bestimmt werden: Maximiere L d = 1 2 s=1 ( ) α pα sr pr sk (x T p, x s) + α p (15) hinsichtlich den Lagrange-Koeffizienten α p unter der Bedingung α pr p = 0 und 0 α p C p (16)

41 Wichtige Kernelfunktionen Nichtlineare Transformation Kernel Trick Beispiele Polynome vom Grad q K (x p, x) = ( x T x p + 1) q (17) Der Grad q wird problemabhängig vom Nutzer gewählt Beispiel q = 2, Dimension des Eingaberaums d = 2: 6 K (y, x) = ( ) 2 x T y + 1 = (x 1 y 1 + x 2 y 2 + 1) 2 ( ) = 1 + 2x 1 y 1 + 2x 2 y 2 + 2x 1 x 2 y 1 y 2 + x1 2 y1 2 + x2 2 y2 2 Diese Funktion in x 1 und x 2 liefert genau das gleiche Ergebnis wie das Skalarprodukt der Basisvektoren aus Gleichung (10)! Die Diskriminante kann also berechnet werden ohne den hoch-dimensionalen Feature-Raum zu benutzen. 6 Für eine bessere Lesbarkeit wird hier anstelle des Symbol x p das Symbol y verwendet

42 Polynomialer Kernel: Einfluss des Grades Nichtlineare Transformation Kernel Trick Beispiele Größerer Grad, flexiblere Grenzen und größere Gefahr für Overfitting.

43 Wichtige Kernelfunktionen Nichtlineare Transformation Kernel Trick Beispiele Radiale Basisfunktionen K (x p, x) = exp [ γ x p x 2] (18) Definiert einen sphärischen Kern mit Zentrum x p Konstante γ wird problemabhänig vom Nutzer gewählt.

44 Nichtlineare Transformation Kernel Trick Beispiele Visualization of 1-dimensional RBFs with different γ

45 RBF Kernel: Einfluss des Parameters γ Nichtlineare Transformation Kernel Trick Beispiele Größeres Gamma, flexiblere Grenzen und größere Gefahr für Overfitting

46 Beispielanwendung: OCR Nichtlineare Transformation Kernel Trick Beispiele Beispiel nach [CV] Pixel Dimension des Eingaberaums d = 256 Polynomiale Transformation mit Grad q = 3 Dimension des Feature Raum: k 1 Million. Anzahl der Klassen K = 10 für die Zahlen 0,..., 9 Anzahl der verwendeten Datensätze im Test N = 7300 Obere Grenze für den Erwartungswert der Testfehlerrate nach [VA] P N (Fehler) = S N wobei N die Anzahl der Datensätze und S die durchschnittliche Anzahl von Supportvektoren ist.

47 Nichtlineare Transformation Kernel Trick Beispiele Beispiele: Elliptische und Hyperbolische Klassengrenze

48 Bezug zur parametrischen Regression Wiederholung parametrische Regression Regularisierung Optimierungsziel Einfluß der Parameter C und ɛ Aus Vorlesung Bayes sche Entscheidungstheorie, Kapitel Parametrische Regression: Gegebene Trainingsmenge T = {x t, r t} N t=1 Von der zu lernenden Funktion g(x) wird angenommen, dass sie bis auf die Parameter Θ bekannt ist. Beispiel: g(x Θ) = w 0 + w 1 x + w 2 x w k x k Gelernt werden müssen hier die unbekannten Parameter Θ = {w 0, w 1, w 2,..., w k } Unter der Annahme, dass das Rauschen n eine normalverteilte Zufallsvariable mit Mittelwert µ = 0 und Varianz σ 2 ist läßt sich zeigen, dass sich die gesuchten Parameter Θ durch Minimierung der Fehlerfunktion E(Θ T ) = 1 [r t g(x t Θ)] 2 (19) 2 berechnen lassen. t=1

49 Wiederholung parametrische Regression Regularisierung Optimierungsziel Einfluß der Parameter C und ɛ Parametrische Regression mit Regularisierung Bestimmung der optimalen Parameter Θ = {w 0, w 1, w 2,..., w k } durch Nullsetzen aller partiellen Ableitungen E w i Erweiterung durch Regularisierung 7 : Anstelle der Fehlerfunktion in Gleichung (19) wird die regularisierte Fehlerfunktion E(Θ T ) = 1 2 [r t g(x t Θ)] 2 + λ 2 t=1 k i=0 w 2 i (20) zugrunde gelegt. Durch diese Erweiterung der Fehlerfunktion, werden die Parameter Θ = {w 0, w 1, w 2,..., w k } mit der Zusatzbedingung Minimierung der Parameter w i bestimmt. Durch die zusätzliche Minimierung der Parameter w i wird die Gefahr für Overfitting reduziert. 7 siehe auch [CB]

50 Wirkung der Regularisierung Wiederholung parametrische Regression Regularisierung Optimierungsziel Einfluß der Parameter C und ɛ

51 Wiederholung parametrische Regression Regularisierung Optimierungsziel Einfluß der Parameter C und ɛ Optimierungsziel: Trainingsinstanzen innerhalb der ɛ-tube Bei der SVM Regression wird nicht versucht ein g(x) zu finden, das die Fehlerfunktion (Gleichung 19) minimiert, sondern es wird ein g(x) gesucht, so dass r t g(x t) < ɛ für alle (x t, r t) T und einen einstellbaren Wert ɛ gilt. D.h. alle Trainingsinstanzen müssen innerhalb eines definierten Bereichs um die gelernte Funktion liegen.

52 Regularisierte Optimierungsaufgabe Wiederholung parametrische Regression Regularisierung Optimierungsziel Einfluß der Parameter C und ɛ Das regularisierte Optimierungsproblem lautet dann: Finde unter den Randbedingungen min( 1 2 w 2 ) (21) w T x t + w 0 r t ɛ, oder r t (w T x t + w 0 ) ɛ t (22) Vergleiche mit Gleichungen (1) und (2). Abhängig vom Wert des Parameters ɛ können diese Randbedingungen unerfüllbar sein. Abhilfe: Siehe nächste Seite

53 Wiederholung parametrische Regression Regularisierung Optimierungsziel Einfluß der Parameter C und ɛ Aufweichung der Randbedingungen und Fehlerfunktion Aufweichung der Randbedingungen durch Akzeptanz von Trainingspunkten ausserhalb der ɛ-tube. Integriere die Minimierung des Fehlers durch die Punkte ausserhalb der ɛ-tube in das Optimierungsproblem. Bei der SVM Regression wird als zu minimierende Fehlerfunktion nicht Gleichung (19), sondern die ɛ-insenitive Fehlerfunktion mit E(T ) = E ɛ(g(x t) r t) t=1 { 0 falls g(xt) r t < ɛ E ɛ(g(x t) r t) = g(x t) r t ɛ sonst angewandt. Damit werden bei der SVM Fehlerwerte < ɛ ignoriert Fehlerwerte ɛ linear und nicht quadratisch berücksichtigt

54 Wiederholung parametrische Regression Regularisierung Optimierungsziel Einfluß der Parameter C und ɛ Vergleich der Fehlerfunktionen von parametrischer- und SVM- Regression Die Abweichung eines Trainingspunktes (x t, r t ) überhalb der ɛ-tube vom oberen Rand der Tube wird mit der Schlupfvariablen ζ t bezeichnet. Die Abweichung eines Trainingspunktes (x t, r t ) unterhalb der ɛ-tube vom unteren Rand der Tube wird mit der Schlupfvariablen ζ t bezeichnet. SVM Regression ist toleranter gegen Rauschen und Ausreisser und damit robuster.

55 g(x t ) r t ɛ + ζ t (24) Schlupfvariablen Einführung SVM Wiederholung parametrische Regression Regularisierung Optimierungsziel Einfluß der Parameter C und ɛ Minimiert werden muss dann C (ζ t + ζ t ) w 2 (23) t=1 für ζ t 0 und ζ t > 0 und r t g(x t ) ɛ + ζ t

56 Wiederholung parametrische Regression Regularisierung Optimierungsziel Einfluß der Parameter C und ɛ Duale Repräsentation der Optimierungsaufgabe Die duale Repräsentation des Optimierungsproblem lautet dann: Maximiere L d = 1 ((α p α p)(α s α s)k(x p, x s)) ɛ (α p + α p)+ (α p α p)r p 2 s=1 (25) hinsichtlich der Lagrange-Koeffizienten α p (gehört zur Schlupfvariablen ζ p) und α p (gehört zur Schlupfvariablen ζ p) unter den Bedingungen 0 α p C (26) 0 α p C (27) (α p α p) = 0 (28) Verwendete Kernfunktion k(x p, x s)) = Φ(x p) T Φ(x s). Für den linearen Ansatz ist die Kernfunktion einfach k(x p, x s)) = x T p xs Für den nicht-linearen Ansatz entsprechend Gleichung (11) werden in der Regel polynomiale Kernelfunktionen (Gleichung (17)) oder Radiale Basisfunktionen (Gleichung (18)) eingesetzt.

57 Berechnung der Gewichte w Wiederholung parametrische Regression Regularisierung Optimierungsziel Einfluß der Parameter C und ɛ Aus den durch die Optimierung gefundenen Lagrange-Koeffizienten lassen sich die Gewichte wie folgt berechnen w = (α p α p)φ(x p) (29) Einsetzen von (29) in (11) ergibt: g(x) = (α p α p)k(x, x p) + w 0 (30) Die Trainingsinstanzen mit α p 0 α p 0 sind die Support Vektoren. Nur sie bestimmen das gelernte Modell (Gleichung (30 ))

58 Wiederholung parametrische Regression Regularisierung Optimierungsziel Einfluß der Parameter C und ɛ Support Vektoren und Berechung von w 0 Es läßt sich zeigen 8, dass für alle Trainingsinstanzen (x p, r p) innerhalb der ɛ-tube gilt: α p = α p = 0 auf der oberen Grenze der ɛ-tube gilt: 0 < α p < C α p = 0 oberhalb der ɛ-tube gilt: α p = C α p = 0 auf der unteren Grenze der ɛ-tube gilt: 0 < α p < C α p = 0 unterhalb der ɛ-tube gilt: α = C α p = 0 Die Support-Vektoren sind also die Trainingsinstanzen, die nicht innerhalb der ɛ-tube liegen Berechnung der Konstanten w 0 : Bestimme einen Suppor-Vektor (x p, r p) mit 0 < α p < C. Für diesen ist ζ = 0 und damit w 0 = r p ɛ (α m α m)k(x p, x m) (31) m=1 Empfohlen: Berechne diese Gleichung für alle (x p, r p) mit 0 < α p < C und setze w 0 als den Mittelwert der Resultate. 8 Siehe [SM]

59 Einfluß des Parameters ɛ: RBF Kernel Wiederholung parametrische Regression Regularisierung Optimierungsziel Einfluß der Parameter C und ɛ

60 Einfluß des Parameters C: RBF Kernel Wiederholung parametrische Regression Regularisierung Optimierungsziel Einfluß der Parameter C und ɛ

61 Referenzen Ethem Alpaydin Maschinelles Lernen; deutschsprachige Ausgabe erschienen im Oldenbourg Verlag, München 2008 Christopher M. Bishop Pattern Recognition and Machine Learning; Springer Verlag, 2006 Asa Ben-Hur, Jason Weston A User s Guide to Support Vector Machines; C. Cortes, V. Vapnik Support Vector Networks; Machine Learning 20; 1995 V. Vapnik The Nature of Statistical Learning Theory; Springer Verlag; New York 1995 Alex J. Smola, Bernhard Schölkopf A Tutorial on Support Vector Regression;