Machine Learning. ML Kapitel 7: Support Vector Machines. Prof. Dr. Johannes Maucher. Version November HdM CSM

Größe: px
Ab Seite anzeigen:

Download "Machine Learning. ML Kapitel 7: Support Vector Machines. Prof. Dr. Johannes Maucher. Version November HdM CSM"

Transkript

1 Machine Learning Kapitel 7: Support Vector Machines HdM CSM Version November 2017

2 Document History Version Date Changes Nr Eigene Beispiele hinzugefügt Vollständige Überarbeitung; Regression SVM hinzugefügt Anpassungen für WS 12/ Anpassungen für WS 13/ Anpassungen für WS 17/18

3 Übersicht Kapitel Support Vector Machines 1 Einführung SVM Einordnung Anwendungen 2 Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators 3 Soft-Margin-Trennebenen 4 Nichtlineare Transformation Kernel Trick Beispiele 5 Wiederholung parametrische Regression Regularisierung Optimierungsziel Einfluß der Parameter C und ɛ

4 Einordnung Anwendungen Support Vector Machines (SVM) Einordnung und Idee SVMs gehören zur Klasse der generalisierten linearen Klassifizierer 1 Durch nicht-lineare Transformation werden die nicht-linear-separablen Daten in einen Raum transformiert in dem sie linear separabel sind Es werden Support-Vektoren bestimmt (Datensätze in der Nähe der Entscheidungsgrenze), welche eine optimale Entscheidungsgrenze (Diskriminante) definieren. 1 siehe Kapitel 6 Lineare Diskriminanz, letzter Abschnitt

5 Einordnung Anwendungen Lineare Separierbarkeit im hochdimensionalen Raum

6 Welche Diskriminante ist die Beste? Einordnung Anwendungen

7 Anwendungskategorien Einordnung Anwendungen Lineare und nichtlineare Klassifizierung Lineare und nichtlineare Regression One-Class SVM, z.b. für Outlier-Detection Leicht konfigurierbar, zumindest wenn einer der Standard-Kernels verwendet wird. Eignen sich ganz besonders im Fall sehr hochdimensionaler Daten: Objekterkennung in Bild- und Videodaten 2 Dokument- und Textklassifikation Bioinformatik: Sequenzierung von DNA und Proteinen ObjectRecognition/SS17/V07Recognition.pdf

8 Linear separierbare Trainingsmenge Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Aufgabe: Finde die beste Klassifikationsgrenze x 1 x 2 class

9 K = 2-Klassifizierung mit SVM Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Trainingsdaten Überwachtes Lernen: T = {x p, r p} N K = 2-Klassifikation mit r p = 1, falls x p C 1 r p = +1, falls x p C 2 Finde w = (w 1,..., w d ) und w 0, so dass gilt Andere Formulierung: w T x p + w 0 +1 für r p = +1 w T x p + w 0 1 für r p = 1 r p(w T x p + w 0 ) 1 definiert einen Grenzbereich In den bisher vorgestellten Verfahren zur K = 2 Klassifikation galt: definiert eine Grenzlinie r p(w T x p + w 0 ) 0

10 Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Entscheidungsgrenze vs. Entscheidungsbereich 3 Instanzen müssen also nicht nur auf der richtigen Seite der Hyperebene liegen, sondern zudem in einem bestimmten Abstand zur Hyperebene. Lernen eines Entscheidungsbereichs impliziert bessere Generalisierung als eine erlernte Entscheidungsgrenze. Die auf den Grenzen des Bereiches liegenden Vektoren (eingekreist) werden Support-Vektoren genannt. 3 Bildquelle [ABH]

11 Abstand zur Diskriminante Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Abstand eines Trainingpunktes x p zur Diskriminanten: w T x p + w 0 = rp(wt x p + w 0 ), mit w = d w w SVM Lernaufgabe: Finde eine Diskriminante (Parameter w), so dass der minimale Abstand eines Trainingspunktes zur Diskriminanten maximal ist. w ist so zu bestimmen, dass der Wert ρ mit: r p(w T x p + w 0 ) w ρ, maximal ist. Für das Finden einer eindeutigen Lösung wird folgende Normierung gefordert. ρ w = 1 d.h. w muss minimiert werden um ρ zu maximieren. p i=1 w 2 i

12 Optimierungsaufgabe Einführung SVM Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Die Minimierung von w ist gleichbedeutend mit der Minimierung von 1 2 w 2, Das Optimierungsproblem lautet dann: Finde unter den Randbedingungen min( 1 2 w 2 ) (1) r p(w T x p + w 0 ) 1, p (2) Das ist ein Standardproblem der quadratischen Optimierung, dessen Komplexität von der Dimension d des Eingaberaums abhängt.

13 Optimierungsaufgabe Einführung SVM Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Die Minimierung von w ist gleichbedeutend mit der Minimierung von 1 2 w 2, Das Optimierungsproblem lautet dann: Finde unter den Randbedingungen min( 1 2 w 2 ) (1) r p(w T x p + w 0 ) 1, p (2) Das ist ein Standardproblem der quadratischen Optimierung, dessen Komplexität von der Dimension d des Eingaberaums abhängt. Lösung mit einem numerischen Optimierungsverfahren mit Randbedingungen

14 Optimierungsaufgabe Einführung SVM Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Die Minimierung von w ist gleichbedeutend mit der Minimierung von 1 2 w 2, Das Optimierungsproblem lautet dann: Finde unter den Randbedingungen min( 1 2 w 2 ) (1) r p(w T x p + w 0 ) 1, p (2) Das ist ein Standardproblem der quadratischen Optimierung, dessen Komplexität von der Dimension d des Eingaberaums abhängt. Lösung mit einem numerischen Optimierungsverfahren mit Randbedingungen Numerische Optimierung in Python (Scipy) siehe

15 Optimierungsaufgabe Einführung SVM Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Die Minimierung von w ist gleichbedeutend mit der Minimierung von 1 2 w 2, Das Optimierungsproblem lautet dann: Finde unter den Randbedingungen min( 1 2 w 2 ) (1) r p(w T x p + w 0 ) 1, p (2) Das ist ein Standardproblem der quadratischen Optimierung, dessen Komplexität von der Dimension d des Eingaberaums abhängt. Lösung mit einem numerischen Optimierungsverfahren mit Randbedingungen Numerische Optimierung in Python (Scipy) siehe Lösung mit fmin_cobyla(constrained Optimization BY Linear).

16 Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Finde optimale Trennebene durch numerische Optimierung 1 from scipy.optimize import fmin_cobyla 2 from matplotlib import pyplot as plt 3 import numpy as np 4 5 #Define points and the corresponding class labels########################### 6 p=[[3,2],[1,4],[2,4],[0.5,4.8],[3,5],[5,4],[3.5,5.5],[5.7,3]] 7 c=[-1,-1,-1,-1,1,1,1,1] 8 #Define class which returns the constraints functions####################### 9 class Constraint: 10 def init (self, points,classes): 11 self.p = points 12 self.c =classes 13 def len (self): 14 return len(self.p) 15 def getitem (self, i): 16 def c(x): 17 return self.c[i]*(x[0]*1+x[1]*self.p[i][0]+x[2]*self.p[i][1])-1 18 return c 19 #Define the function that shall be minimized################################ 20 def objective(x): 21 return 0.5*(x[1]**2+x[2]**2) 22 #Create a list of all constraints using the class defined above############# 23 const=constraint(p,c) 24 cl=[const. getitem (i) for i in range(len(c))] 25 #Call the scipy optimization method######################################### 26 res = fmin_cobyla(objective,[1.0,1.0,1.0],cl) 27 print "Found weights of the optimal discriminant: ",res

17 Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Ergebnis der Optimierung: Optimale Trennebene

18 Optimierungsaufgabe Einführung SVM Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Komplexität der Lösung des Optimierungsproblem (Gleichungen (1) und (2)) hängt von der Dimension d des Eingaberaums ab.

19 Optimierungsaufgabe Einführung SVM Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Komplexität der Lösung des Optimierungsproblem (Gleichungen (1) und (2)) hängt von der Dimension d des Eingaberaums ab. Die Dimension d kann extrem groß sein, insbesondere wenn für nicht-linear separable Klassen eine Transformation in einen höher-dimensionalen Raum nötig ist.

20 Optimierungsaufgabe Einführung SVM Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Komplexität der Lösung des Optimierungsproblem (Gleichungen (1) und (2)) hängt von der Dimension d des Eingaberaums ab. Die Dimension d kann extrem groß sein, insbesondere wenn für nicht-linear separable Klassen eine Transformation in einen höher-dimensionalen Raum nötig ist. Um diese hohe Komplexität zu vermeiden, wird das Optimierungsproblem in eine Form gebracht, die eine Lösung mit Komplexität proportional zu N (=Anzahl der Trainingselemente) erlaubt Duale Form

21 Optimierungsaufgabe Einführung SVM Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Komplexität der Lösung des Optimierungsproblem (Gleichungen (1) und (2)) hängt von der Dimension d des Eingaberaums ab. Die Dimension d kann extrem groß sein, insbesondere wenn für nicht-linear separable Klassen eine Transformation in einen höher-dimensionalen Raum nötig ist. Um diese hohe Komplexität zu vermeiden, wird das Optimierungsproblem in eine Form gebracht, die eine Lösung mit Komplexität proportional zu N (=Anzahl der Trainingselemente) erlaubt Duale Form Ausserdem können in der dualen Form die Basisfunktionen als Kernfunktionen umgeschrieben werden.

22 Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Herleitung der dualen Form: Lagrange Multiplikatoren Soll eine Funktion f (x) (z.b. Gleichung (1)) unter Einhaltung von N Nebenbedinungen (z.b. Gleichung (2)) minimiert werden, so kann diese Aufgabe als Optimierungsaufgabe ohne Nebenbedingungen wie folgt umformuliert werden. 1 Bringe alle Nebenbedingungen auf die Form c p(x) 0 2 Das nebenbedingungsfreie Optimierungsproblem lautet dann: Minimiere L = f (x) α p c p(x) 3 wobei die Lagrange Koeffizienten α p positiv sein müssen. Das in den Gleichungen (1) und (2) definierte Optimierungsproblem lautet dann: Minimiere L = 1 2 w 2 ) α p (r p(w T x p + w 0 ) 1, (3)

23 Herleitung der dualen Form Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Für die nebenbedingungsfreie Form (Gleichung (3)) werden dann alle partiellen Ableitungen nach den zu optimierenden Parametern (hier w und w 0 ), berechnet. L = w i α pr px p,i für i = 1,..., d w i L w 0 = α pr p

24 Herleitung der dualen Form Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Für die nebenbedingungsfreie Form (Gleichung (3)) werden dann alle partiellen Ableitungen nach den zu optimierenden Parametern (hier w und w 0 ), berechnet. L = w i α pr px p,i für i = 1,..., d w i L w 0 = α pr p Im Minimum müssen alle partiellen Ableitungen gleich Null sein.

25 Herleitung der dualen Form Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Für die nebenbedingungsfreie Form (Gleichung (3)) werden dann alle partiellen Ableitungen nach den zu optimierenden Parametern (hier w und w 0 ), berechnet. L = w i α pr px p,i für i = 1,..., d w i L w 0 = α pr p Im Minimum müssen alle partiellen Ableitungen gleich Null sein. Nach dem Nullsetzen der partiellen Ableitungen, können diese nach den zu optimierenden Parametern aufgelöst werden: w = α pr px p (4) 0 = α pr p (5)

26 Herleitung der dualen Form Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Für die nebenbedingungsfreie Form (Gleichung (3)) werden dann alle partiellen Ableitungen nach den zu optimierenden Parametern (hier w und w 0 ), berechnet. L = w i α pr px p,i für i = 1,..., d w i L w 0 = α pr p Im Minimum müssen alle partiellen Ableitungen gleich Null sein. Nach dem Nullsetzen der partiellen Ableitungen, können diese nach den zu optimierenden Parametern aufgelöst werden: w = α pr px p (4) 0 = α pr p (5) Die duale Form ergibt sich dann durch Einsetzen der resultierenden Gleichungen für die w i in die Ausgangsgleichung (3).

27 Duale Optimierungsaufgabe Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Maximiere L d = 1 ) (α pα sr pr sx T p 2 xs + α p (6) s=1 hinsichtlich der Lagrange-Koeffizienten α p unter der Bedingung α pr p = 0 und α p 0 p (7) Lösung unter Verwendung von quadratischen Optimierungsmethoden. Ergibt: Von den insgesamt N Koeffizienten α p sind die meisten = 0. Support Vektoren sind die Eingabedaten x p, deren α p > 0 Aus den berechneten α p > 0, können die Parameter w wie folgt bestimmt werden: w = α pr px p In diese Summe fließen nur die Support-Vektoren ein. Für die Support-Vektoren gilt r p(w T x p + w 0 ) = 1

28 Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Berechnung der Bias w 0 Aus der vorigen Gleichung kann unter Einsatz eines beliebigen Support-Vektors x p w 0 = r p w T x p berechnet werden. Empfohlen: Berechne w 0 für alle Support-Vektoren separat und wähle dann den Mittelwert. Die so gefundenen Diskriminanten werden Support-Vektor-Maschinen genannt. Beachte: In die Berechnung der Diskriminanten fließen nur die Daten an den Grenzen, nicht jedoch die weit innerhalb der Klassengebiete mit ein.

29 Klassifikation in Test- und Betriebsphase Trennbereich Duale Repräsentation des Optimierungsproblem Anwendung des gelernten Klassifikators Für die Klassifikation im Test und Betrieb wird g(x) = w T x + w 0 berechnet und x der Klasse C 1 zugeordnet, falls g(x) < 0, sonst C 2. Es wird also nicht darauf bestanden, dass die Eingabe ausserhalb der Trennebene liegt. Für K > 2 müssen auf die gleiche Art K Support-Vektormaschinen g i (x) gelernt werden. Beim Testen werden alle g i (x) berechnet und das Maximum gewählt.

30 Nicht-linear separierbare Trainingsmenge Soft-Margin-Trennebenen Aufgabe: Finde die beste Klassifikationsgrenze x 1 x 2 class

31 Fall nicht-linear separabler Daten Soft-Margin-Trennebenen Wenn die Daten nicht linear-separabel sind, gibt es keine Trennebene, welche die Trainingsdaten separiert. Dann: Suche nach der Trennebene welche geringsten Fehler verursacht Fehler pro Trainingselement wird in der Schlupfvariablen ζ p festgehalten. Damit lautet die aufgeweichte Bedingung: r p(w T x p + w 0 ) 1 ζ p Zwei Arten von Abweichungen: Trainingsvektor liegt auf der falschen Seite der Hyperebene: ζ p > 1 Trainingsvektor liegt auf der richtigen Seite der Hyperebene jedoch innerhalb des Trennbereichs: 0 < ζ p < 1 Soft Error: ζ p

32 Optimierungsaufgabe Soft-Margin Soft-Margin-Trennebenen Das Optimierungsproblem lautet jetzt. Finde unter der Bedingung min( 1 2 w 2 + C ζ p) r p(w T x p + w 0 ) 1 ζ p, p mit ζ p 0 In der dualen Repräsentation: Maximiere L d = 1 2 s=1 (α pα sr pr sx T p x s ) + α p (8) hinsichtlich den Lagrange-Koeffizienten α p unter der Bedingung α pr p = 0 und 0 α p C p (9)

33 Einfluss des Soft-Margin Parameters C Soft-Margin-Trennebenen 4 Mit der Konstante C wird die relative Bedeutung zwischen Maximierung der Trennbereichsbreite und Minimierung des Soft Error eingestellt: Je größer C umso wichtiger die Soft Error Minimierung und umso unwichtiger die Maximierung der Trennebenenbreite. Die Support Vektoren sind wieder die Daten x p mit α p > 0. Sie liegen auf den Trennbereichsgrenzen oder innerhalb des Trennbereichs. 4 Bildquelle [ABH]

34 Beispiel nichtlineare Transformation Nichtlineare Transformation Kernel Trick Beispiele Abbildung: Original Daten (links) und transformierte Daten (rechts). Lineare Separierbarkeit der Klassen im transformierten Raum

35 Nichtlineare Transformation Kernel Trick Beispiele Transformation in höherdimensionalen Raum Nicht-lineare Diskriminanten im Originaleingaberaum können durch eine Transformation Φ im resultierenden höherdimensionalen Feature-Raum von linearer Form sein. 5 5 Siehe Kapitel 6 Lineare Diskriminanz, letzter Abschnitt

36 Beispiel polynomiale Transformation Nichtlineare Transformation Kernel Trick Beispiele Originalraum X: R 2 mit Basisfunktionen x 1 und x 2 Transformation: Φ : X F Feature Raum F : R 6 mit Basisfunktionen z 1 = Φ 1 (x) = 1 z 2 = Φ 2 (x) = 2x 1 z 3 = Φ 3 (x) = 2x 2 z 4 = Φ 4 (x) = 2x 1 x 2 z 5 = Φ 5(x) = x1 2 z 6 = Φ 6 (x) = x2 2 (10) Lineare Diskriminante im Feature Raum: g(z) = w T z + w 0 = w T Φ(x) + w 0 = 6 w j Φ j (x) + w 0 j=1 (11)

37 Problem: Komplexität im Feature-Raum Nichtlineare Transformation Kernel Trick Beispiele Im allgemeinen ist die Dimension des Raumes in welchem sich die Diskriminante linear darstellen läßt sehr hoch. Für die Klassifikation müßten alle Eingaben in den hochdimensionalen Raum abgebildet werden und die Berechnung der Diskriminante dort durchgeführt werden. Ansatz wäre für die praktische Realisierung zu komplex. Lösung: Kernel Trick. Damit ist es möglich die Diskriminante zu berechnen ohne die Eingaben in den hochdimensionalen Raum zu transformieren.

38 Der Kernel Trick Einführung SVM Nichtlineare Transformation Kernel Trick Beispiele Ausgangspunkt: Diskriminantengleichung (11) Nehme an, dass der Vektor w als Linearkombination der transformierten Trainingsvektoren dargestellt wird w = α pr pφ(x p) (12) Einsetzen in Gleichung (11) ergibt g(x) = w T Φ(x) + w 0 = ( ) α pr pφ(x p) T Φ(x) + w 0 (13) Der Kernel-Trick besteht darin, das Skalarprodukt Φ(x p) T Φ(x) durch eine Kernfunktion K (x p, x) zu ersetzen, die das gleiche Resultat wie das Skalarprodukt liefert, jedoch ohne die Transformation der Eingaben x in den hochdimensionalen Feature Raum auskommt. Die Diskriminante ist dann: g(x) = (α pr pk (x p, x)) + w 0 (14)

39 Bestimmung der Lagrange-Koeffizienten Nichtlineare Transformation Kernel Trick Beispiele Woher kommen die Koeffizienten α p in den Gleichungen (12)-(14)? Die Koeffizienten sind die Lagrangekoeffizienten, die durch Optimierung der folgenden dualen Optimierungsaufgabe bestimmt werden:

40 Bestimmung der Lagrange-Koeffizienten Nichtlineare Transformation Kernel Trick Beispiele Woher kommen die Koeffizienten α p in den Gleichungen (12)-(14)? Die Koeffizienten sind die Lagrangekoeffizienten, die durch Optimierung der folgenden dualen Optimierungsaufgabe bestimmt werden: Maximiere L d = 1 2 s=1 ( ) α pα sr pr sk (x T p, x s) + α p (15) hinsichtlich den Lagrange-Koeffizienten α p unter der Bedingung α pr p = 0 und 0 α p C p (16)

41 Wichtige Kernelfunktionen Nichtlineare Transformation Kernel Trick Beispiele Polynome vom Grad q K (x p, x) = ( x T x p + 1) q (17) Der Grad q wird problemabhängig vom Nutzer gewählt Beispiel q = 2, Dimension des Eingaberaums d = 2: 6 K (y, x) = ( ) 2 x T y + 1 = (x 1 y 1 + x 2 y 2 + 1) 2 ( ) = 1 + 2x 1 y 1 + 2x 2 y 2 + 2x 1 x 2 y 1 y 2 + x1 2 y1 2 + x2 2 y2 2 Diese Funktion in x 1 und x 2 liefert genau das gleiche Ergebnis wie das Skalarprodukt der Basisvektoren aus Gleichung (10)! Die Diskriminante kann also berechnet werden ohne den hoch-dimensionalen Feature-Raum zu benutzen. 6 Für eine bessere Lesbarkeit wird hier anstelle des Symbol x p das Symbol y verwendet

42 Polynomialer Kernel: Einfluss des Grades Nichtlineare Transformation Kernel Trick Beispiele Größerer Grad, flexiblere Grenzen und größere Gefahr für Overfitting.

43 Wichtige Kernelfunktionen Nichtlineare Transformation Kernel Trick Beispiele Radiale Basisfunktionen K (x p, x) = exp [ γ x p x 2] (18) Definiert einen sphärischen Kern mit Zentrum x p Konstante γ wird problemabhänig vom Nutzer gewählt.

44 Nichtlineare Transformation Kernel Trick Beispiele Visualization of 1-dimensional RBFs with different γ

45 RBF Kernel: Einfluss des Parameters γ Nichtlineare Transformation Kernel Trick Beispiele Größeres Gamma, flexiblere Grenzen und größere Gefahr für Overfitting

46 Beispielanwendung: OCR Nichtlineare Transformation Kernel Trick Beispiele Beispiel nach [CV] Pixel Dimension des Eingaberaums d = 256 Polynomiale Transformation mit Grad q = 3 Dimension des Feature Raum: k 1 Million. Anzahl der Klassen K = 10 für die Zahlen 0,..., 9 Anzahl der verwendeten Datensätze im Test N = 7300 Obere Grenze für den Erwartungswert der Testfehlerrate nach [VA] P N (Fehler) = S N wobei N die Anzahl der Datensätze und S die durchschnittliche Anzahl von Supportvektoren ist.

47 Nichtlineare Transformation Kernel Trick Beispiele Beispiele: Elliptische und Hyperbolische Klassengrenze

48 Bezug zur parametrischen Regression Wiederholung parametrische Regression Regularisierung Optimierungsziel Einfluß der Parameter C und ɛ Aus Vorlesung Bayes sche Entscheidungstheorie, Kapitel Parametrische Regression: Gegebene Trainingsmenge T = {x t, r t} N t=1 Von der zu lernenden Funktion g(x) wird angenommen, dass sie bis auf die Parameter Θ bekannt ist. Beispiel: g(x Θ) = w 0 + w 1 x + w 2 x w k x k Gelernt werden müssen hier die unbekannten Parameter Θ = {w 0, w 1, w 2,..., w k } Unter der Annahme, dass das Rauschen n eine normalverteilte Zufallsvariable mit Mittelwert µ = 0 und Varianz σ 2 ist läßt sich zeigen, dass sich die gesuchten Parameter Θ durch Minimierung der Fehlerfunktion E(Θ T ) = 1 [r t g(x t Θ)] 2 (19) 2 berechnen lassen. t=1

49 Wiederholung parametrische Regression Regularisierung Optimierungsziel Einfluß der Parameter C und ɛ Parametrische Regression mit Regularisierung Bestimmung der optimalen Parameter Θ = {w 0, w 1, w 2,..., w k } durch Nullsetzen aller partiellen Ableitungen E w i Erweiterung durch Regularisierung 7 : Anstelle der Fehlerfunktion in Gleichung (19) wird die regularisierte Fehlerfunktion E(Θ T ) = 1 2 [r t g(x t Θ)] 2 + λ 2 t=1 k i=0 w 2 i (20) zugrunde gelegt. Durch diese Erweiterung der Fehlerfunktion, werden die Parameter Θ = {w 0, w 1, w 2,..., w k } mit der Zusatzbedingung Minimierung der Parameter w i bestimmt. Durch die zusätzliche Minimierung der Parameter w i wird die Gefahr für Overfitting reduziert. 7 siehe auch [CB]

50 Wirkung der Regularisierung Wiederholung parametrische Regression Regularisierung Optimierungsziel Einfluß der Parameter C und ɛ

51 Wiederholung parametrische Regression Regularisierung Optimierungsziel Einfluß der Parameter C und ɛ Optimierungsziel: Trainingsinstanzen innerhalb der ɛ-tube Bei der SVM Regression wird nicht versucht ein g(x) zu finden, das die Fehlerfunktion (Gleichung 19) minimiert, sondern es wird ein g(x) gesucht, so dass r t g(x t) < ɛ für alle (x t, r t) T und einen einstellbaren Wert ɛ gilt. D.h. alle Trainingsinstanzen müssen innerhalb eines definierten Bereichs um die gelernte Funktion liegen.

52 Regularisierte Optimierungsaufgabe Wiederholung parametrische Regression Regularisierung Optimierungsziel Einfluß der Parameter C und ɛ Das regularisierte Optimierungsproblem lautet dann: Finde unter den Randbedingungen min( 1 2 w 2 ) (21) w T x t + w 0 r t ɛ, oder r t (w T x t + w 0 ) ɛ t (22) Vergleiche mit Gleichungen (1) und (2). Abhängig vom Wert des Parameters ɛ können diese Randbedingungen unerfüllbar sein. Abhilfe: Siehe nächste Seite

53 Wiederholung parametrische Regression Regularisierung Optimierungsziel Einfluß der Parameter C und ɛ Aufweichung der Randbedingungen und Fehlerfunktion Aufweichung der Randbedingungen durch Akzeptanz von Trainingspunkten ausserhalb der ɛ-tube. Integriere die Minimierung des Fehlers durch die Punkte ausserhalb der ɛ-tube in das Optimierungsproblem. Bei der SVM Regression wird als zu minimierende Fehlerfunktion nicht Gleichung (19), sondern die ɛ-insenitive Fehlerfunktion mit E(T ) = E ɛ(g(x t) r t) t=1 { 0 falls g(xt) r t < ɛ E ɛ(g(x t) r t) = g(x t) r t ɛ sonst angewandt. Damit werden bei der SVM Fehlerwerte < ɛ ignoriert Fehlerwerte ɛ linear und nicht quadratisch berücksichtigt

54 Wiederholung parametrische Regression Regularisierung Optimierungsziel Einfluß der Parameter C und ɛ Vergleich der Fehlerfunktionen von parametrischer- und SVM- Regression Die Abweichung eines Trainingspunktes (x t, r t ) überhalb der ɛ-tube vom oberen Rand der Tube wird mit der Schlupfvariablen ζ t bezeichnet. Die Abweichung eines Trainingspunktes (x t, r t ) unterhalb der ɛ-tube vom unteren Rand der Tube wird mit der Schlupfvariablen ζ t bezeichnet. SVM Regression ist toleranter gegen Rauschen und Ausreisser und damit robuster.

55 g(x t ) r t ɛ + ζ t (24) Schlupfvariablen Einführung SVM Wiederholung parametrische Regression Regularisierung Optimierungsziel Einfluß der Parameter C und ɛ Minimiert werden muss dann C (ζ t + ζ t ) w 2 (23) t=1 für ζ t 0 und ζ t > 0 und r t g(x t ) ɛ + ζ t

56 Wiederholung parametrische Regression Regularisierung Optimierungsziel Einfluß der Parameter C und ɛ Duale Repräsentation der Optimierungsaufgabe Die duale Repräsentation des Optimierungsproblem lautet dann: Maximiere L d = 1 ((α p α p)(α s α s)k(x p, x s)) ɛ (α p + α p)+ (α p α p)r p 2 s=1 (25) hinsichtlich der Lagrange-Koeffizienten α p (gehört zur Schlupfvariablen ζ p) und α p (gehört zur Schlupfvariablen ζ p) unter den Bedingungen 0 α p C (26) 0 α p C (27) (α p α p) = 0 (28) Verwendete Kernfunktion k(x p, x s)) = Φ(x p) T Φ(x s). Für den linearen Ansatz ist die Kernfunktion einfach k(x p, x s)) = x T p xs Für den nicht-linearen Ansatz entsprechend Gleichung (11) werden in der Regel polynomiale Kernelfunktionen (Gleichung (17)) oder Radiale Basisfunktionen (Gleichung (18)) eingesetzt.

57 Berechnung der Gewichte w Wiederholung parametrische Regression Regularisierung Optimierungsziel Einfluß der Parameter C und ɛ Aus den durch die Optimierung gefundenen Lagrange-Koeffizienten lassen sich die Gewichte wie folgt berechnen w = (α p α p)φ(x p) (29) Einsetzen von (29) in (11) ergibt: g(x) = (α p α p)k(x, x p) + w 0 (30) Die Trainingsinstanzen mit α p 0 α p 0 sind die Support Vektoren. Nur sie bestimmen das gelernte Modell (Gleichung (30 ))

58 Wiederholung parametrische Regression Regularisierung Optimierungsziel Einfluß der Parameter C und ɛ Support Vektoren und Berechung von w 0 Es läßt sich zeigen 8, dass für alle Trainingsinstanzen (x p, r p) innerhalb der ɛ-tube gilt: α p = α p = 0 auf der oberen Grenze der ɛ-tube gilt: 0 < α p < C α p = 0 oberhalb der ɛ-tube gilt: α p = C α p = 0 auf der unteren Grenze der ɛ-tube gilt: 0 < α p < C α p = 0 unterhalb der ɛ-tube gilt: α = C α p = 0 Die Support-Vektoren sind also die Trainingsinstanzen, die nicht innerhalb der ɛ-tube liegen Berechnung der Konstanten w 0 : Bestimme einen Suppor-Vektor (x p, r p) mit 0 < α p < C. Für diesen ist ζ = 0 und damit w 0 = r p ɛ (α m α m)k(x p, x m) (31) m=1 Empfohlen: Berechne diese Gleichung für alle (x p, r p) mit 0 < α p < C und setze w 0 als den Mittelwert der Resultate. 8 Siehe [SM]

59 Einfluß des Parameters ɛ: RBF Kernel Wiederholung parametrische Regression Regularisierung Optimierungsziel Einfluß der Parameter C und ɛ

60 Einfluß des Parameters C: RBF Kernel Wiederholung parametrische Regression Regularisierung Optimierungsziel Einfluß der Parameter C und ɛ

61 Referenzen Ethem Alpaydin Maschinelles Lernen; deutschsprachige Ausgabe erschienen im Oldenbourg Verlag, München 2008 Christopher M. Bishop Pattern Recognition and Machine Learning; Springer Verlag, 2006 Asa Ben-Hur, Jason Weston A User s Guide to Support Vector Machines; C. Cortes, V. Vapnik Support Vector Networks; Machine Learning 20; 1995 V. Vapnik The Nature of Statistical Learning Theory; Springer Verlag; New York 1995 Alex J. Smola, Bernhard Schölkopf A Tutorial on Support Vector Regression;

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Stützvektormethode Katharina Morik LS 8 Informatik Technische Universität Dortmund 12.11.2013 1 von 39 Gliederung 1 Hinführungen zur SVM 2 Maximum Margin Methode Lagrange-Optimierung

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Stützvektormethode Katharina Morik LS 8 Informatik 8.11.2011 1 von 38 Gliederung 1 2 Lagrange-Optimierung 2 von 38 Übersicht über die Stützvektormethode (SVM) Eigenschaften

Mehr

Einführung in Support Vector Machines (SVMs)

Einführung in Support Vector Machines (SVMs) Einführung in (SVM) Januar 31, 2011 Einführung in (SVMs) Table of contents Motivation Einführung in (SVMs) Outline Motivation Vektorrepräsentation Klassifikation Motivation Einführung in (SVMs) Vektorrepräsentation

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Gliederung Vorlesung Wissensentdeckung Stützvektormethode 1 Hinführungen zur SVM Katharina Morik, Claus Weihs 26.5.2009 2 Maximum Margin Methode Lagrange-Optimierung 3 Weich trennende SVM 1 von 40 2 von

Mehr

Support Vector Machines (SVM)

Support Vector Machines (SVM) Universität Ulm 12. Juni 2007 Inhalt 1 2 3 Grundlegende Idee Der Kern-Trick 4 5 Multi-Klassen-Einteilung Vor- und Nachteile der SVM 1 2 3 Grundlegende Idee Der Kern-Trick 4 5 Multi-Klassen-Einteilung Vor-

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Stützvektormethode Katharina Morik, Uwe Ligges 23.5.2013 1 von 48 Gliederung 1 Geometrie linearer Modelle: Hyperebenen Einführung von Schölkopf/Smola 2 Lagrange-Optimierung

Mehr

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken Wissensentdeckung in Datenbanken Support Vector Machine Nico Piatkowski und Uwe Ligges 30.05.2017 1 von 14 Überblick Was bisher geschah... Modellklassen Verlustfunktionen Numerische Optimierung Regularisierung

Mehr

Funktionslernen. 5. Klassifikation. 5.6 Support Vector Maschines (SVM) Reale Beispiele. Beispiel: Funktionenlernen

Funktionslernen. 5. Klassifikation. 5.6 Support Vector Maschines (SVM) Reale Beispiele. Beispiel: Funktionenlernen 5. Klassifikation 5.6 Support Vector Maschines (SVM) übernommen von Stefan Rüping, Katharina Morik, Universität Dortmund Vorlesung Maschinelles Lernen und Data Mining, WS 2002/03 und Katharina Morik, Claus

Mehr

Support Vector Machines, Kernels

Support Vector Machines, Kernels Support Vector Machines, Kernels Katja Kunze 13.01.04 19.03.2004 1 Inhalt: Grundlagen/Allgemeines Lineare Trennung/Separation - Maximum Margin Hyperplane - Soft Margin SVM Kernels Praktische Anwendungen

Mehr

Lineare Klassifikatoren. Volker Tresp

Lineare Klassifikatoren. Volker Tresp Lineare Klassifikatoren Volker Tresp 1 Einführung Lineare Klassifikatoren trennen Klassen durch eine lineare Hyperebene (genauer: affine Menge) In hochdimensionalen Problemen trennt schon eine lineare

Mehr

Support Vector Machines (SVM)

Support Vector Machines (SVM) Seminar Statistische Lerntheorie und ihre Anwendungen Support Vector Machines (SVM) Jasmin Fischer 12. Juni 2007 Inhaltsverzeichnis Seite 1 Inhaltsverzeichnis 1 Grundlagen 2 2 Lineare Trennung 3 2.1 Aufstellung

Mehr

Lineare Klassifikationsmethoden

Lineare Klassifikationsmethoden Verena Krieg Fakultät für Mathematik und Wirtschaftswissenschaften 08. Mai 2007 Inhaltsverzeichnis 1. Einführung 2. Lineare Regression 3. Lineare Diskriminanzanalyse 4. Logistische Regression 4.1 Berechnung

Mehr

One-class Support Vector Machines

One-class Support Vector Machines One-class Support Vector Machines Seminar Wissensbasierte Systeme Dietrich Derksen 3. Januar 204 Motivation One-class Support Vector Machines: Detektion von Ausreißern (Systemfehlererkennung) Klassifikation

Mehr

Vorlesung Digitale Bildverarbeitung Sommersemester 2013

Vorlesung Digitale Bildverarbeitung Sommersemester 2013 Vorlesung Digitale Bildverarbeitung Sommersemester 2013 Sebastian Houben (Marc Schlipsing) Institut für Neuroinformatik Inhalt Crash-Course in Machine Learning Klassifikationsverfahren Grundsätzliches

Mehr

Hauptseminar Machine Learning: Support Vector Machines, Kernels. Katja Kunze

Hauptseminar Machine Learning: Support Vector Machines, Kernels. Katja Kunze Hauptseminar Machine Learning: Support Vector Machines, Kernels Katja Kunze 13.01.2004 Inhaltsverzeichnis 1 Einführung 2 1.1 Grundlagen............................ 2 2 Lineare Seperation 5 2.1 Maximum

Mehr

Technische Universität

Technische Universität Technische Universität München Fakultät für Informatik Forschungs- und Lehreinheit Informatik IX Support Vector Machines Hauptseminar Robert Rackl Betreuer: Abgabetermin: 8. Juli.2004 Dipl.-Inform. Simone

Mehr

Logistische Regression

Logistische Regression Logistische Regression Christian Herta August, 2013 1 von 45 Christian Herta Logistische Regression Lernziele Logistische Regression Konzepte des maschinellen Lernens (insb. der Klassikation) Entscheidungsgrenze,

Mehr

RL und Funktionsapproximation

RL und Funktionsapproximation RL und Funktionsapproximation Bisher sind haben wir die Funktionen V oder Q als Tabellen gespeichert. Im Allgemeinen sind die Zustandsräume und die Zahl der möglichen Aktionen sehr groß. Deshalb besteht

Mehr

Pareto optimale lineare Klassifikation

Pareto optimale lineare Klassifikation Seminar aus Maschinellem Lernen Pareto optimale lineare Klassifikation Vesselina Poulkova Betreuer: Eneldo Loza Mencía Gliederung 1. Einleitung 2. Pareto optimale lineare Klassifizierer 3. Generelle Voraussetzung

Mehr

9.5 Entscheidungsbäume

9.5 Entscheidungsbäume 9.5. ENTSCHEIDUNGSBÄUME 149 9.5 Entscheidungsbäume Wir betrachten wieder einen Datensatz von Ereignissen mit jeweils m Merkmalen, zusammengefasst in x, die zwei verschiedenen Klassen angehören, zum Beispiel

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Klassifikation und Regression: nächste Nachbarn Katharina Morik, Uwe Ligges 14.05.2013 1 von 24 Gliederung Funktionsapproximation 1 Funktionsapproximation Likelihood 2 Kreuzvalidierung

Mehr

Die Datenmatrix für Überwachtes Lernen

Die Datenmatrix für Überwachtes Lernen Die Datenmatrix für Überwachtes Lernen X j j-te Eingangsvariable X = (X 0,..., X M 1 ) T Vektor von Eingangsvariablen M Anzahl der Eingangsvariablen N Anzahl der Datenpunkte Y Ausgangsvariable x i = (x

Mehr

Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017

Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017 Mustererkennung Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017 Optimierung: Lagrange-Funktionen, Karush-Kuhn-Tucker-Bedingungen Optimierungsprobleme Optimierung Suche nach dem Maximum oder Minimum

Mehr

Extrema von Funktionen mit Nebenbedingung

Extrema von Funktionen mit Nebenbedingung Wirtschaftswissenschaftliches Zentrum Universität Basel Mathematik für Ökonomen 1 Dr. Thomas Zehrt Extrema von Funktionen mit Nebenbedingung Literatur: Gauglhofer, M. und Müller, H.: Mathematik für Ökonomen,

Mehr

Thema: Support Vector Machines Johannes Lächele

Thema: Support Vector Machines Johannes Lächele Proseminar: Machine Learning 26. Juli 2006 Johannes Lächele Zusammenfassung: In dieser Seminararbeit wird das Basiswissen für das Verständnis von Support Vector Machines oder SVM vermittelt. Nach einer

Mehr

Überwachtes Lernen / Support Vector Machines. Rudolf Kruse Neuronale Netze 246

Überwachtes Lernen / Support Vector Machines. Rudolf Kruse Neuronale Netze 246 Überwachtes Lernen / Support Vector Machines Rudolf Kruse Neuronale Netze 246 Überwachtes Lernen, Diagnosesystem für Krankheiten Trainingsdaten: Expressionsprofile von Patienten mit bekannter Diagnose

Mehr

2 Extrema unter Nebenbedingungen

2 Extrema unter Nebenbedingungen $Id: lagrange.tex,v 1.6 2012/11/06 14:26:21 hk Exp hk $ 2 Extrema unter Nebenbedingungen 2.1 Restringierte Optimierungsaufgaben Nachdem wir jetzt die bereits bekannten Techniken zur Bestimmung der lokalen

Mehr

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Grundlagen Überblick Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes-Klassifikator

Mehr

Optimieren unter Nebenbedingungen

Optimieren unter Nebenbedingungen Optimieren unter Nebenbedingungen Hier sucht man die lokalen Extrema einer Funktion f(x 1,, x n ) unter der Nebenbedingung dass g(x 1,, x n ) = 0 gilt Die Funktion f heißt Zielfunktion Beispiel: Gesucht

Mehr

Statistical Learning

Statistical Learning Statistical Learning M Gruber KW 45 Rev 1 1 Support Vector Machines Definition 1 (Lineare Trennbarkeit) Eine Menge Ü µ Ý µ Ü Æµ Ý Æµ R ist linear trennbar, wenn mindestens ein Wertepaar Û R µ existiert

Mehr

Lineare Klassifikatoren

Lineare Klassifikatoren Lineare Klassifikatoren Mustererkennung und Klassifikation, Vorlesung No. 8 1 M. O. Franz 06.12.2007 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001. Übersicht 1 Nächste-Nachbarn-

Mehr

BZQ II: Stochastikpraktikum

BZQ II: Stochastikpraktikum BZQ II: Stochastikpraktikum Block 3: Lineares Modell, Klassifikation, PCA Randolf Altmeyer January 9, 2017 Überblick 1 Monte-Carlo-Methoden, Zufallszahlen, statistische Tests 2 Nichtparametrische Methoden

Mehr

Lösung - Serie 25. D-MAVT/D-MATL Analysis II FS 2017 Dr. Andreas Steiger

Lösung - Serie 25. D-MAVT/D-MATL Analysis II FS 2017 Dr. Andreas Steiger D-MAVT/D-MATL Analysis II FS 2017 Dr. Andreas Steiger Lösung - Serie 25 1. Wie lautet die charakteristische Gleichung der Differentialgleichung y + 2y + y = 0? (a) λ 3 + 2λ + 1 = 0 (b) λ 3 + 2λ = 0 (c)

Mehr

Unüberwachtes Lernen

Unüberwachtes Lernen Unüberwachtes Lernen Mustererkennung und Klassifikation, Vorlesung No. 12 M. O. Franz 17.01.2008 Übersicht 1 Hauptkomponentenanalyse 2 Nichtlineare Hauptkomponentenanalyse 3 K-Means-Clustering Übersicht

Mehr

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil

Mehr

4. Verteilungen von Funktionen von Zufallsvariablen

4. Verteilungen von Funktionen von Zufallsvariablen 4. Verteilungen von Funktionen von Zufallsvariablen Allgemeine Problemstellung: Gegeben sei die gemeinsame Verteilung der ZV en X 1,..., X n (d.h. bekannt seien f X1,...,X n bzw. F X1,...,X n ) Wir betrachten

Mehr

Inhaltsverzeichnis. Innere-Punkte-Verfahren 3. Inhaltsverzeichnis 1

Inhaltsverzeichnis. Innere-Punkte-Verfahren 3. Inhaltsverzeichnis 1 Inhaltsverzeichnis 1 Inhaltsverzeichnis Innere-Punkte-Verfahren 3 1 Theoretische Grundlagen 3 1.1 Die KKT-Bedingungen........................... 3 1.2 Der zentrale Pfad.............................. 4

Mehr

Einführung in die Bioinformatik: Lernen mit Kernen

Einführung in die Bioinformatik: Lernen mit Kernen Einführung in die Bioinformatik: Lernen mit Kernen Dr. Karsten Borgwardt Forschungsgruppe für Maschinelles Lernen und Bioinformatik Max-Planck-Institut für Intelligente Systeme & Max-Planck-Institut für

Mehr

Grundlagen von Support Vector Maschinen und Anwendungen in der Bildverarbeitung

Grundlagen von Support Vector Maschinen und Anwendungen in der Bildverarbeitung Grundlagen von Support Vector Maschinen und Anwendungen in der Bildverarbeitung Jan Eichhorn jan.eichhorn@tuebingen.mpg.de Max-Planck-Institut für biologische Kybernetik 72076 Tübingen Danksagung Olivier

Mehr

Optimierung unter Nebenbedingungen

Optimierung unter Nebenbedingungen Optimierung unter Nebenbedingungen Kapitel 7: Optimierung unter Nebenbedingungen Informationen zur Vorlesung: http://www.mathematik.uni-trier.de/ wengenroth/ J. Wengenroth () 1. Juli 2009 1 / 18 7.1 Bemerkung

Mehr

Learning to Rank Sven Münnich

Learning to Rank Sven Münnich Learning to Rank Sven Münnich 06.12.12 Fachbereich 20 Seminar Recommendersysteme Sven Münnich 1 Übersicht 1. Einführung 2. Methoden 3. Anwendungen 4. Zusammenfassung & Fazit 06.12.12 Fachbereich 20 Seminar

Mehr

Vorlesung Wissensentdeckung in Datenbanken

Vorlesung Wissensentdeckung in Datenbanken Vorlesung Wissensentdeckung in Datenbanken Bias und Varianz Kristian Kersting, (Katharina Morik), Claus Weihs LS 8 Informatik Computergestützte Statistik Technische Universität Dortmund 22.05.2014 1 von

Mehr

Methoden zur Cluster - Analyse

Methoden zur Cluster - Analyse Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics

Mehr

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar Statistische Methoden in der Physik Studentenseminar "Statistische Methoden in der Physik" Gliederung 1 2 3 Worum geht es hier? Gliederung 1 2 3 Stichproben Gegeben eine Beobachtungsreihe x = (x 1, x 2,..., x n ): Realisierung der n-dimensionalen

Mehr

[5], [0] v 4 = + λ 3

[5], [0] v 4 = + λ 3 Aufgabe 9. Basen von Untervektorräumen. Bestimmen Sie Basen von den folgenden Untervektorräumen U K des K :. K = R und U R = span,,,,,.. K = C und U C = span + i, 6, i. i i + 0. K = Z/7Z und U Z/7Z = span

Mehr

Höhere Mathematik für die Fachrichtung Physik

Höhere Mathematik für die Fachrichtung Physik Karlsruher Institut für Technologie Institut für Analysis Dr. Christoph Schmoeger Michael Hott, M. Sc. WS 5/.. Höhere Mathematik für die Fachrichtung Physik Lösungsvorschläge zum 4. Übungsblatt Aufgabe

Mehr

Kernel, Perceptron, Regression. Erich Schubert, Arthur Zimek. 2014-07-20 KDD Übung

Kernel, Perceptron, Regression. Erich Schubert, Arthur Zimek. 2014-07-20 KDD Übung Kernel, Perceptron, Regression Erich Schubert, Arthur Zimek Ludwig-Maximilians-Universität München 2014-07-20 KDD Übung Kernel-Fukctionen Kernel kann mehrdeutig sein! Unterscheidet zwischen: Kernel function

Mehr

9 Differentialrechnung für Funktionen in n Variablen

9 Differentialrechnung für Funktionen in n Variablen $Id: diff.tex,v.7 29/7/2 3:4:3 hk Exp $ $Id: ntaylor.tex,v.2 29/7/2 3:26:42 hk Exp $ 9 Differentialrechnung für Funktionen in n Variablen 9.6 Lagrange Multiplikatoren Die Berechnung von Maxima und Minima

Mehr

Optimierung für Wirtschaftsinformatiker: Lineare Programme

Optimierung für Wirtschaftsinformatiker: Lineare Programme Optimierung für Wirtschaftsinformatiker: Lineare Programme Dr. Nico Düvelmeyer Dienstag, 31. Mai 2011 1: 1 [1,1] Inhaltsübersicht für heute 1 Lineare Programme Allgemeine Form 2 Spezielle Darstellungen

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen Universität Potsdam Institut für Informatik Lehrstuhl Niels Landwehr, Silvia Makowski, Christoph Sawade, Tobias Scheffer Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Übung: Di 10:00-11:30

Mehr

Biostatistik, Sommer 2017

Biostatistik, Sommer 2017 1/51 Biostatistik, Sommer 2017 Wahrscheinlichkeitstheorie: Verteilungen, Kenngrößen Prof. Dr. Achim Klenke http://www.aklenke.de 8. Vorlesung: 09.06.2017 2/51 Inhalt 1 Verteilungen Normalverteilung Normalapproximation

Mehr

Reelle Zufallsvariablen

Reelle Zufallsvariablen Kapitel 3 eelle Zufallsvariablen 3. Verteilungsfunktionen esultat aus der Maßtheorie: Zwischen der Menge aller W-Maße auf B, nennen wir sie W B ), und der Menge aller Verteilungsfunktionen auf, nennen

Mehr

Institut für Analysis und Scientific Computing Dr. E. Weinmüller SS 2015

Institut für Analysis und Scientific Computing Dr. E. Weinmüller SS 2015 Institut für Analysis und Scientific Computing TU Wien Dr. E. Weinmüller SS 205 A N A L Y S I S I I F Ü R T P H, (0.09) Test 2 Gruppe (DI, 6.6.205) (mit Lösung ) Sie können den Taschenrechner verwenden.

Mehr

Überwachtes Lernen II: Netze und Support-Vektor-Maschinen

Überwachtes Lernen II: Netze und Support-Vektor-Maschinen Überwachtes Lernen II: Klassifikation und Regression - Neuronale Netze und Support-Vektor-Maschinen Praktikum: Data Warehousing und Data Mining Praktikum Data Warehousing und Mining, Sommersemester 2009

Mehr

6.4 Neuronale Netze zur Verarbeitung von Zeitreihen

6.4 Neuronale Netze zur Verarbeitung von Zeitreihen 6.4 Neuronale Netze zur Verarbeitung von Zeitreihen Aufgabe: Erlernen einer Zeitreihe x(t + 1) = f(x(t), x(t 1), x(t 2),...) Idee: Verzögerungskette am Eingang eines neuronalen Netzwerks, z.b. eines m-h-1

Mehr

Serie 4. Analysis D-BAUG Dr. Cornelia Busch FS 2015

Serie 4. Analysis D-BAUG Dr. Cornelia Busch FS 2015 Analysis D-BAUG Dr. Cornelia Busch FS 05 Serie 4. Finden Sie die lokalen Extrema der Funktionen f : R R auf dem Einheitskreis S = {x, y R : x + y = } und geben Sie an, ob es sich um ein lokales Minimum

Mehr

Approximate Maximum Margin Algorithms with Rules Controlled by the Number of Mistakes

Approximate Maximum Margin Algorithms with Rules Controlled by the Number of Mistakes Approximate Maximum Margin Algorithms with Rules Controlled by the Number of Mistakes Seminar Maschinelles Lernen VORTRAGENDER: SEBASTIAN STEINMETZ BETREUT VON: ENELDO LOZA MENCÍA Inhalt Vorbedingungen

Mehr

Elliptische Regression von Datenpunkten

Elliptische Regression von Datenpunkten Elliptische Regression von Datenpunkten Dipl.- Ing. Björnstjerne Zindler, M.Sc. Erstellt: 17. Oktober 2013 Letzte Revision: 30. April 2014 Inhaltsverzeichnis 1 Die Elliptische Regression im Allgemeinen

Mehr

5 Interpolation und Approximation

5 Interpolation und Approximation 5 Interpolation und Approximation Problemstellung: Es soll eine Funktion f(x) approximiert werden, von der die Funktionswerte nur an diskreten Stellen bekannt sind. 5. Das Interpolationspolynom y y = P(x)

Mehr

Angewandte Multivariate Statistik Prof. Dr. Ostap Okhrin

Angewandte Multivariate Statistik Prof. Dr. Ostap Okhrin Angewandte Multivariate Statistik Angewandte Multivariate Statistik Prof. Dr. Ostap Okhrin Ostap Okhrin 1 of 46 Angewandte Multivariate Statistik A Short Excursion into Matrix Algebra Elementare Operationen

Mehr

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen Wir betrachten nun ein Verfahren zur Konstruktion von Schätzvariablen für Parameter von Verteilungen. Sei X = (X 1,..., X n ). Bei X

Mehr

D-BAUG Analysis I/II Winter 2015 Dr. Meike Akveld

D-BAUG Analysis I/II Winter 2015 Dr. Meike Akveld D-BAUG Analysis I/II Winter 5 Dr. Meike Akveld Lösung. [ Punkte] Es sei das Gebiet B {z C } z + Im(z) gegeben. a) Skizzieren Sie das Gebiet B in der komplexen Ebene. Für z x + iy gilt z + Im(z) x + y +

Mehr

Numerische Methoden und Algorithmen in der Physik

Numerische Methoden und Algorithmen in der Physik Numerische Methoden und Algorithmen in der Physik Hartmut Stadie, Christian Autermann 15.01.2009 Numerische Methoden und Algorithmen in der Physik Christian Autermann 1/ 47 Methode der kleinsten Quadrate

Mehr

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator Überblick Grundlagen Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes-Klassifikator

Mehr

Lösungen zu den Hausaufgaben zur Analysis II

Lösungen zu den Hausaufgaben zur Analysis II Christian Fenske Lösungen zu den Hausaufgaben zur Analysis II Blatt 6 1. Seien 0 < b < a und (a) M = {(x, y, z) R 3 x 2 + y 4 + z 4 = 1}. (b) M = {(x, y, z) R 3 x 3 + y 3 + z 3 = 3}. (c) M = {((a+b sin

Mehr

Kuhn-Tucker Bedingung

Kuhn-Tucker Bedingung Kapitel 13 Kuhn-Tucker Bedingung Josef Leydold Mathematik für VW WS 017/18 13 Kuhn-Tucker Bedingung 1 / Optimierung unter Nebenbedingungen Aufgabe: Berechne das Maximum der Funktion f (x, y) g(x, y) c,

Mehr

Principal Component Analysis (PCA)

Principal Component Analysis (PCA) Principal Component Analysis (PCA) Motivation: Klassifikation mit der PCA Berechnung der Hauptkomponenten Theoretische Hintergründe Anwendungsbeispiel: Klassifikation von Gesichtern Weiterführende Bemerkungen

Mehr

Multivariate Verteilungen

Multivariate Verteilungen Multivariate Verteilungen Zufallsvektoren und Modellierung der Abhängigkeiten Ziel: Modellierung der Veränderungen der Risikofaktoren X n = (X n,1, X n,2,..., X n,d ) Annahme: X n,i und X n,j sind abhängig

Mehr

Lineare Regression. Christian Herta. Oktober, Problemstellung Kostenfunktion Gradientenabstiegsverfahren

Lineare Regression. Christian Herta. Oktober, Problemstellung Kostenfunktion Gradientenabstiegsverfahren Lineare Regression Christian Herta Oktober, 2013 1 von 33 Christian Herta Lineare Regression Lernziele Lineare Regression Konzepte des Maschinellen Lernens: Lernen mittels Trainingsmenge Kostenfunktion

Mehr

Einführung in das statistische Lernen

Einführung in das statistische Lernen Universität Ulm 24. April 2007 Inhalt Motivation Grundbegriffe Kleinste Quadrate und k-nächste-nachbar-methode Statistische Entscheidungstheorie Regressionsmodelle und Kernmethoden Zusammenfassung Modellwahl

Mehr

Prüfungsvorbereitungskurs Höhere Mathematik 3

Prüfungsvorbereitungskurs Höhere Mathematik 3 Prüfungsvorbereitungskurs Höhere Mathematik 3 Gewöhnliche Differentialgleichungen Marco Boßle Jörg Hörner Mathematik Online Frühjahr 2011 PV-Kurs HM 3 Gew. DGl 1-1 Zusammenfassung y (x) = F (x, y) Allgemeine

Mehr

Über- und unterbestimmte

Über- und unterbestimmte Über- und unterbestimmte Systeme (verallgemeinerte Lösungen) Über- und unterbestimmte Systeme Ax = b ist genau dann für alle b R m eindeutig lösbar, wenn m = n und rk A = n. Falls m n oder rk A < min{m,

Mehr

Stochastik Praktikum Parametrische Schätztheorie

Stochastik Praktikum Parametrische Schätztheorie Stochastik Praktikum Parametrische Schätztheorie Thorsten Dickhaus Humboldt-Universität zu Berlin 05.10.2010 Prolog Momentenmethode X : Ω 1 Ω Zufallsgröße, die Experiment beschreibt. Ein statistisches

Mehr

Die Funktion f wird als Regressionsfunktion bezeichnet.

Die Funktion f wird als Regressionsfunktion bezeichnet. Regressionsanalyse Mit Hilfe der Techniken der klassischen Regressionsanalyse kann die Abhängigkeit metrischer (intervallskalierter) Zielgrößen von metrischen (intervallskalierten) Einflussgrößen untersucht

Mehr

In der Praxis werden wir häufig mit relativ komplexen Funktionen konfrontiert. y

In der Praxis werden wir häufig mit relativ komplexen Funktionen konfrontiert. y Approximationen In der Praxis werden wir häufig mit relativ komplexen Funktionen konfrontiert. y y = f (x) x Um das Arbeiten mit einer komplizierten Funktion zu vermeiden, können wir versuchen, diese Funktion

Mehr

6. Vorlesung. Rechnen mit Matrizen.

6. Vorlesung. Rechnen mit Matrizen. 6. Vorlesung. Rechnen mit Matrizen. In dieser Vorlesung betrachten wir lineare Gleichungs System. Wir betrachten lineare Gleichungs Systeme wieder von zwei Gesichtspunkten her: dem angewandten Gesichtspunkt

Mehr

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3 Inhaltsverzeichnis 1 Einleitung 1 1.1 Definitionen, Begriffe........................... 1 1.2 Grundsätzliche Vorgehensweise.................... 3 2 Intuitive Klassifikation 6 2.1 Abstandsmessung zur Klassifikation..................

Mehr

Innere-Punkt-Methoden

Innere-Punkt-Methoden Innere-Punkt-Methoden Johannes Stemick 26.01.2010 Johannes Stemick () Innere-Punkt-Methoden 26.01.2010 1 / 28 Übersicht 1 Lineare Optimierung 2 Innere-Punkt-Methoden Path-following methods Potential reduction

Mehr

Y = g 2 (U 1,U 2 ) = 2 ln U 1 sin 2πU 2

Y = g 2 (U 1,U 2 ) = 2 ln U 1 sin 2πU 2 Bsp. 72 (BOX MÜLLER Transformation) Es seien U 1 und U 2 zwei unabhängige, über dem Intervall [0, 1[ gleichverteilte Zufallsgrößen (U i R(0, 1), i = 1, 2), U = (U 1,U 2 ) T ein zufälliger Vektor. Wir betrachten

Mehr

16. FUNKTIONEN VON MEHREREN VARIABLEN

16. FUNKTIONEN VON MEHREREN VARIABLEN 16. FUNKTIONEN VON MEHREREN VARIABLEN 1 Reelle Funktionen auf dem R 2 Wir betrachten Funktionen f(x 1, x 2 ) von zwei reellen Variablen x 1, x 2, z.b. f(x 1, x 2 ) = x 2 1 + x2 2, g(x 1, x 2 ) = x 2 1

Mehr

Inhaltsübersicht für heute:

Inhaltsübersicht für heute: Inhaltsübersicht für heute: Innere-Punkte-Verfahren Lineare Optimierung über Kegeln Second-Order-Cone Programme SOC Anwendung: Regularisierung SOC Anwendung: Klassifizierung, Support-Vektor SOC Anwendung:

Mehr

Übung 5, Analytische Optimierung

Übung 5, Analytische Optimierung Übung 5, 5.7.2011 Analytische Optimierung Aufgabe 5.1 Bei der Herstellung von Konserven werden für Boden und Deckel bzw. für den Konservenmantel verschiedene Materialien verwendet, die g 1 = bzw. g 2 =

Mehr

Ausgleichsproblem. Definition (1.0.3)

Ausgleichsproblem. Definition (1.0.3) Ausgleichsproblem Definition (1.0.3) Gegeben sind n Wertepaare (x i, y i ), i = 1,..., n mit x i x j für i j. Gesucht ist eine stetige Funktion f, die die Wertepaare bestmöglich annähert, d.h. dass möglichst

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 18. Januar 2006 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Symbolumwandlung der Kernfunktionen

Symbolumwandlung der Kernfunktionen 91 Symbolumwandlung der Kernfunktionen Positiv definierte, konvexe Kernfunktionen können als Fuzzy-Mengen betrachtet werden. z.b.: µ B (x) = 1 1 + ( x 50 10 ) 2 92 ZF-Funktionen 1 1 0-5 0 5 (a) 1 0-5 0

Mehr

Kurzskript zur Vorlesung Mathematik I für MB, WI/MB und andere Prof. Dr. Ulrich Reif

Kurzskript zur Vorlesung Mathematik I für MB, WI/MB und andere Prof. Dr. Ulrich Reif 14 Oktober 2008 1 Kurzskript zur Vorlesung Mathematik I für MB, WI/MB und andere Prof Dr Ulrich Reif Inhalt: 1 Vektorrechnung 2 Lineare Gleichungssysteme 3 Matrizenrechnung 4 Lineare Abbildungen 5 Eigenwerte

Mehr

T2 Quantenmechanik Lösungen 4

T2 Quantenmechanik Lösungen 4 T2 Quantenmechanik Lösungen 4 LMU München, WS 17/18 4.1. Lösungen der Schrödinger-Gleichung Beweisen Sie die folgenden Aussagen. Prof. D. Lüst / Dr. A. Schmi-May version: 06. 11. a) Die Separationskonstante

Mehr

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken Wissensentdeckung in Datenbanken Strukturelle Modelle SVMstruct Katharina Morik, Claus Weihs LS 8 Informatik 16.6.2009 1 von 37 Gliederung LS 8 Informatik 1 Überblick Lernaufgaben 2 Primales Problem 3

Mehr

Vorbereitung für die Prüfung Mathematik II für Informatiker

Vorbereitung für die Prüfung Mathematik II für Informatiker Technische Universität Ilmenau SS 2010 Institut für Mathematik Inf Prof. Dr. Michael Stiebitz Vorbereitung für die Prüfung Mathematik II für Informatiker 1 Lineare Algebra Aufgabe 1 Schauen Sie sich die

Mehr

Substitutionsverfahren vs. Lagrange-Methode

Substitutionsverfahren vs. Lagrange-Methode Substitutionsverfahren vs. Lagrange-Methode 1 Motivation Substitutionsverfahren und Lagrange-Methode sind Verfahren, die es ermöglichen, Optimierungen unter Nebenbedingungen durchzuführen. Die folgende

Mehr

MULTI-CLASS PROTEIN CLASSIFICATION USING ADAPTIVE CODES

MULTI-CLASS PROTEIN CLASSIFICATION USING ADAPTIVE CODES 1 MULTI-CLASS PROTEIN CLASSIFICATION USING ADAPTIVE CODES Jérôme Kirchhoff Seminar maschinelles Lernen Einleitung 2 Motivation Ohne Proteine kein Stoffwechsel keine Zellteilung Verstehen der Proteine kein

Mehr

Kapitel 2. Mathematik für Mikroökonomie

Kapitel 2. Mathematik für Mikroökonomie Kapitel Mathematik für Mikroökonomie 1 Mathematik der Optimierung Ökonomische Theorien basieren auf der Annahme, dass die Agenten versuchen, den optimalen Wert einer Funktion zu wählen. Konsumenten maximieren

Mehr

Wie können Computer lernen?

Wie können Computer lernen? Wie können Computer lernen? Ringvorlesung Perspektiven der Informatik, 18.2.2008 Prof. Jun. Matthias Hein Department of Computer Science, Saarland University, Saarbrücken, Germany Inferenz I Wie lernen

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Konvexe Menge. Eine Menge D R n heißt konvex, wenn für zwei beliebige Punkte x, y D auch die Verbindungsstrecke dieser Punkte in D liegt, d.h.

Konvexe Menge. Eine Menge D R n heißt konvex, wenn für zwei beliebige Punkte x, y D auch die Verbindungsstrecke dieser Punkte in D liegt, d.h. Konvexe Menge Eine Menge D R n heißt konvex, wenn für zwei beliebige Punkte x, y D auch die Verbindungsstrecke dieser Punkte in D liegt, dh Kapitel Extrema konvex: h x + h y D für alle h [0, ], und x,

Mehr

Lagrange-Multiplikatoren

Lagrange-Multiplikatoren Lagrange-Multiplikatoren Ist x eine lokale Extremstelle der skalaren Funktion f unter den Nebenbedingungen g i (x) = 0, dann existieren Lagrange-Multiplikatoren λ i, so dass grad f (x ) = λ i grad g i

Mehr

f f(x ɛξ) f(x) 0, d.h. f (x)ξ = 0 für alle ξ B 1 (0). Also f (x) = 0. In Koordinaten bedeutet dies gerade, dass in Extremstellen gilt: f(x) = 0.

f f(x ɛξ) f(x) 0, d.h. f (x)ξ = 0 für alle ξ B 1 (0). Also f (x) = 0. In Koordinaten bedeutet dies gerade, dass in Extremstellen gilt: f(x) = 0. Mehrdimensionale Dierenzialrechnung 9 Optimierung 9 Optimierung Definition Seien U R n oen, f : U R, x U x heiÿt lokales Maximum, falls eine Umgebung V U von x existiert mit y V : fx fy x heiÿt lokales

Mehr

FORSCHUNGSZENTRUM JÜLICH GmbH Zentralinstitut für Angewandte Mathematik D Jülich, Tel. (02461)

FORSCHUNGSZENTRUM JÜLICH GmbH Zentralinstitut für Angewandte Mathematik D Jülich, Tel. (02461) FORSCHUNGSZENTRUM JÜLICH GmbH Zentralinstitut für Angewandte Mathematik D-52425 Jülich, Tel. (02461) 61-6402 Interner Bericht Eine Einführung zu String-Kernen für die Sequenzanalyse mit Support-Vektor-Maschinen

Mehr

3.2.5 Dualität der linearen Optimierung I

3.2.5 Dualität der linearen Optimierung I 3..5 Dualität der linearen Optimierung I Jedem linearen Programm in Standardform kann ein sogenanntes duales Programm zugeordnet werden. Es entsteht dadurch, daß man von einem Minimierungsproblem zu einem

Mehr

3. Lineare Ausgleichsrechnung

3. Lineare Ausgleichsrechnung 3 Lineare Ausgleichsrechnung 1 Ausgleichsrechnung (1) Definition 31 (Ausgleichsproblem) Gegeben sind n Wertepaare (x i,y i ), i = 1,,n mit x i x j für i j Gesucht ist eine stetige Funktion f, die in einem

Mehr