Einführung in Support Vector Machines (SVMs)

Transkript

1 Einführung in (SVM) Januar 31, 2011 Einführung in (SVMs)

2 Table of contents Motivation Einführung in (SVMs)

3 Outline Motivation Vektorrepräsentation Klassifikation Motivation Einführung in (SVMs)

4 Vektorrepräsentation Motivation Vektorrepräsentation Klassifikation Datenpunkte (Dokumente, Bilder, Suchanfragen, etc) können als Vektoren dargestellt werden. Einführung in (SVMs)

5 Vektorrepräsentation Klassifikation Vektorrepräsentation Datenpunkte (Dokumente, Bilder, Suchanfragen, etc) können als Vektoren dargestellt werden. Einzelne Features entsprechen den numerischen Werten einzelner Komponenten des Vektors. Einführung in (SVMs)

6 Vektorrepräsentation Klassifikation Vektorrepräsentation Datenpunkte (Dokumente, Bilder, Suchanfragen, etc) können als Vektoren dargestellt werden. Einzelne Features entsprechen den numerischen Werten einzelner Komponenten des Vektors. z.b.: v = (3, 2, 5,..., 9) v = (3 oil, 2 iraq, 5 bush,..., 9 war) Einführung in (SVMs)

7 Vektorrepräsentation Klassifikation Vektorrepräsentation - 2 Klassifikation von Datenpunkten Datenpunkte als Tupel (x i, y i ), i = 1,..., N, x i R m mit Klassen y i 1, 1 (für binäre Klassifikation) Einführung in (SVMs)

8 Vektorrepräsentation Klassifikation Vektorrepräsentation - 2 Klassifikation von Datenpunkten Datenpunkte als Tupel (x i, y i ), i = 1,..., N, x i R m mit Klassen y i 1, 1 (für binäre Klassifikation) Wozu dient diese Formalismus? 1. Aufteilung meiner Datenbasis in Übungs- und Testdaten. 2. Jeder Datenpunkte bekommt eine Klasse zugewiesen (im Training bekannt, im Testing unbekannt). 3. Lerne Classifier 4. Klassifiziere Testdaten auf Basis der Information aus den bisher gesehen Trainingsdaten. Einführung in (SVMs)

9 Vektorrepräsentation - 3 Vektorrepräsentation Klassifikation Figure: php?action=home Einführung in (SVMs)

10 Klassifikation Motivation Vektorrepräsentation Klassifikation Wie kann ich entscheiden ob ein neuer Datenpunkt zu +1 oder 1 gehört? Einführung in (SVMs)

11 Klassifikation Motivation Vektorrepräsentation Klassifikation Wie kann ich entscheiden ob ein neuer Datenpunkt zu +1 oder 1 gehört? Ähnlichkeitsmaß für Vektoren: a, b = N a i b i = a b cos(γ) i=1 Einführung in (SVMs)

12 Klassifikation Motivation Vektorrepräsentation Klassifikation Wie kann ich entscheiden ob ein neuer Datenpunkt zu +1 oder 1 gehört? Ähnlichkeitsmaß für Vektoren: a, b = N a i b i = a b cos(γ) i=1 Wann das Skalarprodukt null? Wann ist es Maximal? Einführung in (SVMs)

13 Klassifikation Motivation Vektorrepräsentation Klassifikation Wie kann ich entscheiden ob ein neuer Datenpunkt zu +1 oder 1 gehört? Ähnlichkeitsmaß für Vektoren: a, b = N a i b i = a b cos(γ) i=1 Wann das Skalarprodukt null? Wann ist es Maximal? Minimal: a, b = 0 = a b Maximal: a b, γ = 0 Einführung in (SVMs)

14 Klassifikation - 2 Motivation Vektorrepräsentation Klassifikation Klassifikationsmöglichkeiten: Einführung in (SVMs)

15 Vektorrepräsentation Klassifikation Klassifikation - 2 Klassifikationsmöglichkeiten: Clustering und Mittelwertbildung auf Trainingsdaten. Vergleiche neue Datenpunkte mittels Skalarprodukt mit dem Clustercenter. Einführung in (SVMs)

16 Vektorrepräsentation Klassifikation Klassifikation - 2 Klassifikationsmöglichkeiten: Clustering und Mittelwertbildung auf Trainingsdaten. Vergleiche neue Datenpunkte mittels Skalarprodukt mit dem Clustercenter. Naïve Bayes: arg max y p(x, y) p(y) i p(x i y) Einführung in (SVMs)

17 Vektorrepräsentation Klassifikation Klassifikation - 2 Klassifikationsmöglichkeiten: Clustering und Mittelwertbildung auf Trainingsdaten. Vergleiche neue Datenpunkte mittels Skalarprodukt mit dem Clustercenter. Naïve Bayes: arg max y p(x, y) p(y) i p(x i y) Perceptron: Finde eine Hyperebene welche die Trainingsdaten bestmöglich teilt. Einführung in (SVMs)

18 Vektorrepräsentation Klassifikation Klassifikation - 2 Klassifikationsmöglichkeiten: Clustering und Mittelwertbildung auf Trainingsdaten. Vergleiche neue Datenpunkte mittels Skalarprodukt mit dem Clustercenter. Naïve Bayes: arg max y p(x, y) p(y) i p(x i y) Perceptron: Finde eine Hyperebene welche die Trainingsdaten bestmöglich teilt. (SVMs) Einführung in (SVMs)

19 Hyperebene Motivation Vektorrepräsentation Klassifikation Hyperebene: lineare, Entscheidungsgrenze im Feature Space. Einführung in (SVMs)

20 Hyperebene Motivation Vektorrepräsentation Klassifikation Hyperebene: lineare, Entscheidungsgrenze im Feature Space. Entscheidungsgrenze : Definition der Hyperebene: w, x + b = 0 und einer Entscheidungsfunktion y = sgn( w, x + b) Einführung in (SVMs)

21 Hyperebene Motivation Vektorrepräsentation Klassifikation Hyperebene: lineare, Entscheidungsgrenze im Feature Space. Entscheidungsgrenze : Definition der Hyperebene: w, x + b = 0 und einer Entscheidungsfunktion y = sgn( w, x + b) Im n-dim. Raum: n 1 dim. Hyperebene Einführung in (SVMs)

22 Hyperebene - 2 Motivation Vektorrepräsentation Klassifikation Figure: Svm_max_sep_hyperplane_with_margin.png Einführung in (SVMs)

23 Hyperebene - 3 Motivation Vektorrepräsentation Klassifikation Linearität : vollständig linear separierbar sind Daten genau dann wenn es kein x gibt für das gilt: y ( w, x + b) < 0 Das heißt, es gibt keinen Datenpunkt, der auf der falschen Seite der Hyperebene liegt, welche durch einen konstanten Vektor definiert wird. Einführung in (SVMs)

24 Perceptron Motivation Vektorrepräsentation Klassifikation Perceptron.html Figure: Linear Separierbar Einführung in (SVMs)

25 Perceptron - 2 Motivation Vektorrepräsentation Klassifikation Figure: Nicht linear separierbar Einführung in (SVMs)

26 Demonstration SVM, LIBSVM Vektorrepräsentation Klassifikation Figure: nicht linear separierbar, in SVM Einführung in (SVMs)

27 Input Space vs. Feature Space Kernel Outline Motivation Einführung in (SVMs)

28 Input Space vs. Feature Space Kernel Input Space vs. Feature Space Für nicht linear separierbare Daten: keine Hyberebene im Feature Space! Lösung: Transferiere Daten in höher-dimensionalen Feature mittels Φ und finde Hyberebene in H. Φ : X H, x φ(x) Ab jetzt: unterscheide zw. Input Space und Feature Space! a a Schölkopf, Smola, Learning with kernels, Cambridge (Mass.), London 2002, p. 16. Einführung in (SVMs)

29 Input Space vs. Feature Space Kernel Input Space vs. Feature Space - 2 Wie sieht so eine Abbildung aus? Einführung in (SVMs)

30 Input Space vs. Feature Space Kernel Input Space vs. Feature Space - 2 Wie sieht so eine Abbildung aus? z.b.: Φ : R 2 R 3 (x 1, x 2 ) (x 1, x 2, x 1 x 2 ) Einführung in (SVMs)

31 Input Space vs. Feature Space Kernel Input Space vs. Feature Space - 2 Wie sieht so eine Abbildung aus? z.b.: Φ : R 2 R 3 (x 1, x 2 ) (x 1, x 2, x 1 x 2 ) x = (2, 2), Φ(x ) = (1, 2, 4) Einführung in (SVMs)

32 Input Space vs. Feature Space Kernel Input Space vs. Feature Space - 3 Figure: Hyperebene im Feature Space und im Input Space. 1 1 Schölkopf, Smola, Learning with kernels, p. 29. Einführung in (SVMs)

33 Input Space vs. Feature Space Kernel Definition eines Kernels Entscheidungsfunktion im Feature Raum: y = sgn( w, φ(x) + b), w, φ(x) H Die funktion y ist linear in H, aber nicht (immer) linear in X! Einführung in (SVMs)

34 Input Space vs. Feature Space Kernel Definition eines Kernels Entscheidungsfunktion im Feature Raum: y = sgn( w, φ(x) + b), w, φ(x) H Die funktion y ist linear in H, aber nicht (immer) linear in X! Da wir w im Feature Raum nicht direkt berechnen wollen, definieren wir uns eine Hilfsfunktion: Definiere Kernel (Skalarprodukt im Feature Space) : k(x, x ) = φ(x), φ(x ) Einführung in (SVMs)

35 Input Space vs. Feature Space Kernel Definition eines Kernels - 2 Wir können als Kernel mehrere (pos. def.) Ähnlichkeitsmaße auswählen: Linear kernel: Polynomial kernel: Radial Basis Function kernel: Sigmoid Kernel: k(x, x ) = x, x k(x, x ) = (γ x, x + coef ) p k(x, x ) = exp( γ (x x ) 2 ) k(x, x ) = tanh(γ x, x + coef ) Einführung in (SVMs)

36 Input Space vs. Feature Space Kernel Definition eines Kernels - 3 Was können wir damit erreichen? Einführung in (SVMs)

37 Input Space vs. Feature Space Kernel Definition eines Kernels - 3 Was können wir damit erreichen? Wir können w, φ(x) in der Entscheidungsfunktion y durch die Kernel Funktion k(x, x ) ersetzen: y(x) = N α n y n k(x n, x) + b n=1 Einführung in (SVMs)

38 Input Space vs. Feature Space Kernel Definition eines Kernels - 3 Was können wir damit erreichen? Wir können w, φ(x) in der Entscheidungsfunktion y durch die Kernel Funktion k(x, x ) ersetzen: y(x) = N α n y n k(x n, x) + b n=1 D.h. die Klasse eines Testpunktes x kann durch die lineare Kombination der Trainingspunkte bestimmt werden! Einführung in (SVMs)

39 Input Space vs. Feature Space Kernel Definition eines Kernels - 3 Was können wir damit erreichen? Wir können w, φ(x) in der Entscheidungsfunktion y durch die Kernel Funktion k(x, x ) ersetzen: y(x) = N α n y n k(x n, x) + b n=1 D.h. die Klasse eines Testpunktes x kann durch die lineare Kombination der Trainingspunkte bestimmt werden! Die Abbildung Φ ist hier nicht mehr enthalten! Einführung in (SVMs)

40 Input Space vs. Feature Space Kernel Herleitung - Kurzfassung Wir wählen (im Feature Space) unser w so, dass w, x n + b = +1, für ein Beispiel der Klasse +1 w, x n + b = 1, für ein Beispiel der Klasse -1 w ist Hyperebene und lineare Entscheidungsgrenze! Einführung in (SVMs)

41 Input Space vs. Feature Space Kernel Herleitung - Kurzfassung Wir wählen (im Feature Space) unser w so, dass w, x n + b = +1, für ein Beispiel der Klasse +1 w, x n + b = 1, für ein Beispiel der Klasse -1 w ist Hyperebene und lineare Entscheidungsgrenze! Maximiere den den Abstand der Datenpunkte welche am nähsten an w liegen. Wähle d = d + = 1 w und minimiere w. Einführung in (SVMs)

42 Input Space vs. Feature Space Kernel Herleitung - Kurzfassung - 2 Constraint Optimization Problem: Minimiere unter den Bedingungen arg min w,b 1 2 w 2 y n ( w, x n + b) 1, n Kann mittels Lagrange Multiplikatoren gelöst werden. Einführung in (SVMs)

43 Input Space vs. Feature Space Kernel Lagrange Multiplikatoren Finde das Minimum der Lagrange Funktion: L(w, b, α) = 1 N 2 w 2 α i [y i ( w, x i + b) 1] i=1 Einführung in (SVMs)

44 Input Space vs. Feature Space Kernel Lagrange Multiplikatoren Finde das Minimum der Lagrange Funktion: L(w, b, α) = 1 2 w 2 N α i [y i ( w, x i + b) 1] i=1...(partielle Ableitungen + Dunkle Magie)... : Alle Datenpunkte x i tauchen im nur im Skalarprodukt mit anderen Datenpunkten auf. Der Kernel k(x, x ) kann anstelle dieses Produktes verwendet werden. Der Hyperebenvektor w wird nicht gebraucht! Einführung in (SVMs)

45 Input Space vs. Feature Space Kernel Wir können w, φ(x) in der Entscheidungsfunktion y durch die Kernel Funktion k(x, x ) ersetzen: y(x) = N α n y n k(x n, x) + b n=1 Die α n werden mittels der Lagrange Funktion berechnet (quadratisches Optimierungsproblem) Einführung in (SVMs)

46 Input Space vs. Feature Space Kernel Wir können w, φ(x) in der Entscheidungsfunktion y durch die Kernel Funktion k(x, x ) ersetzen: y(x) = N α n y n k(x n, x) + b n=1 Die α n werden mittels der Lagrange Funktion berechnet (quadratisches Optimierungsproblem) Wir brauchen den Hyperebenvektor w nicht! Einführung in (SVMs)

47 Input Space vs. Feature Space Kernel Wir können w, φ(x) in der Entscheidungsfunktion y durch die Kernel Funktion k(x, x ) ersetzen: y(x) = N α n y n k(x n, x) + b n=1 Die α n werden mittels der Lagrange Funktion berechnet (quadratisches Optimierungsproblem) Wir brauchen den Hyperebenvektor w nicht! Wir müssen die Abbildung φ nicht kennen. Sie wird implizit mitberechnet! Einführung in (SVMs)

48 LIBSVM Library Wahl des Kernels und Parameter Outline Motivation Einführung in (SVMs)

49 LIBSVM Library Wahl des Kernels und Parameter Das bag of feature Model Wir nehmen an, dass jedes Objekt als eine Menge (ungeordneter) Features aus einem gemeinsamen Vokabular repräsentiert werden kann. Jedes Objekt wird als Vektor dargestellt. Die Komponenten des Vektors repräsentieren die Frequenzen einzelner Features. z.b.: Nti(:, 1) = [4, 8, 0, 0, 4, 13,..., 14] Nti(:, 13) = [2, 0, 0, 6, 0, 0,..., 6] (apple) (swan) Einführung in (SVMs)

50 LIBSVM Library Wahl des Kernels und Parameter Das bag of feature Model Einführung in (SVMs)

51 LIBSVM Library Wahl des Kernels und Parameter Apple Logos vs. Schwäne Einführung in (SVMs)

52 LIBSVM Library Wahl des Kernels und Parameter Implementierung Implementierungsschritte Unterteilung in Test-, und Trainingsdaten, Crossvalidation Einführung in (SVMs)

53 LIBSVM Library Wahl des Kernels und Parameter Implementierung Implementierungsschritte Unterteilung in Test-, und Trainingsdaten, Crossvalidation Extraktion von SIFT Features für jedes Bild Einführung in (SVMs)

54 LIBSVM Library Wahl des Kernels und Parameter Implementierung Implementierungsschritte Unterteilung in Test-, und Trainingsdaten, Crossvalidation Extraktion von SIFT Features für jedes Bild Durchschnittlich Interest Points im Vokabular Einführung in (SVMs)

55 LIBSVM Library Wahl des Kernels und Parameter Implementierung Implementierungsschritte Unterteilung in Test-, und Trainingsdaten, Crossvalidation Extraktion von SIFT Features für jedes Bild Durchschnittlich Interest Points im Vokabular Quantisierung der Features um die Vokabulargröße zu reduzieren mittels KMeans (k=100) Einführung in (SVMs)

56 LIBSVM Library Wahl des Kernels und Parameter Implementierung Implementierungsschritte Unterteilung in Test-, und Trainingsdaten, Crossvalidation Extraktion von SIFT Features für jedes Bild Durchschnittlich Interest Points im Vokabular Quantisierung der Features um die Vokabulargröße zu reduzieren mittels KMeans (k=100) Aufgabe: Vergleiche Naïve Bayes Classification mit SVM Classification Einführung in (SVMs)

57 LIBSVM Library Wahl des Kernels und Parameter LIBSVM Bibliothek LIBSVM, Version 3.0, Sep. 2010, 2 Von Chih-Chung Chang, Chih-Jen Lin, Chih-Wei Hsu, National Taiwan University, C++ Bibliothek mit wrapper for Matlab Unterstützung für lineare, polynomiale, rbf, sigmoid Kernels. 2 Einführung in (SVMs)

58 LIBSVM Library Wahl des Kernels und Parameter LIBSVM Bibliothek LIBSVM, Version 3.0, Sep. 2010, 2 Von Chih-Chung Chang, Chih-Jen Lin, Chih-Wei Hsu, National Taiwan University, C++ Bibliothek mit wrapper for Matlab Unterstützung für lineare, polynomiale, rbf, sigmoid Kernels. Syntax Beispiel für Training: model = svmtrain(labels, data, t 0 ); (linear kernel) Syntax Beispiel für Testing: [predictlabel, accuracy, decvalues] = svmpredict(testlabels, testdata, model); 2 Einführung in (SVMs)

59 LIBSVM Library Wahl des Kernels und Parameter LIBSVM Bibliothek LIBSVM, Version 3.0, Sep. 2010, 2 Von Chih-Chung Chang, Chih-Jen Lin, Chih-Wei Hsu, National Taiwan University, C++ Bibliothek mit wrapper for Matlab Unterstützung für lineare, polynomiale, rbf, sigmoid Kernels. Syntax Beispiel für Training: model = svmtrain(labels, data, t 0 ); (linear kernel) Syntax Beispiel für Testing: [predictlabel, accuracy, decvalues] = svmpredict(testlabels, testdata, model); Freie Parameter: Skalierung der Daten, Wahl des Kernels, Kernelparameter 2 Einführung in (SVMs)

60 LIBSVM Library Wahl des Kernels und Parameter Wahl des Kernels und Parameter Evaluierung des Kernels (Linear, Polynomial, Rbf, Sigmoid) Brute-force Suche im Parameterraum Einführung in (SVMs)

61 LIBSVM Library Wahl des Kernels und Parameter Wahl des Kernels und Parameter Evaluierung des Kernels (Linear, Polynomial, Rbf, Sigmoid) Brute-force Suche im Parameterraum Beste Parameter geben höhsten Genauigkeitswert im Crossvalidation. Einführung in (SVMs)

62 LIBSVM Library Wahl des Kernels und Parameter Wahl des Kernels und Parameter Evaluierung des Kernels (Linear, Polynomial, Rbf, Sigmoid) Brute-force Suche im Parameterraum Beste Parameter geben höhsten Genauigkeitswert im Crossvalidation. Suche über exponentielle Parameterverteilung (2 x ) Einführung in (SVMs)

63 LIBSVM Library Wahl des Kernels und Parameter Wahl des Kernels und Parameter Evaluierung des Kernels (Linear, Polynomial, Rbf, Sigmoid) Brute-force Suche im Parameterraum Beste Parameter geben höhsten Genauigkeitswert im Crossvalidation. Suche über exponentielle Parameterverteilung (2 x ) Der polynomiale, rbf, sigmoid Kernel hat zwei Parameter und der lineare Kernel hat einen Parameter. Einführung in (SVMs)

64 LIBSVM Library Wahl des Kernels und Parameter 1. Linearer Kernel: k(x, y) = x T y Parametersuche für C = 2 20,..., 2 15 Bestes Ergebnis: C = 1 Einführung in (SVMs)

65 LIBSVM Library Wahl des Kernels und Parameter 2. Polynomialer Kernel: k(x, y) = (γ x T y + coef ) p Suche im Parameterraum über coef 0 = 2 15,..., 2 10 and γ = 2 25,..., 2 5 Bestes : γ = 2 3 and coef = 2 5 Einführung in (SVMs)

66 LIBSVM Library Wahl des Kernels und Parameter 3. Radial Basis Function kernel: exp( γ (x y) 2 ) Suche im Parameterraum über C = 2 15,..., 2 25 and γ = 2 25,..., 2 10 Bestes : γ = 2 2 and C = 2 5, Bestes Gesamtergebnis! Einführung in (SVMs)

67 LIBSVM Library Wahl des Kernels und Parameter 4. Sigmoid Kernel: tanh(γ x T y + coef ) Suche im Parameterraum über coef = 2 25,..., 2 0 and γ = 2 10,..., 2 10 Bestes : γ = 2 3 and coef = 2 13 Einführung in (SVMs)

68 LIBSVM Library Wahl des Kernels und Parameter Vergleich: Naïve Bayes Classification vs. SVM Classification Lösung mit Naïve Bayes: 12/20 Apple Logos und 12/16 Schwäne richtig erkannt. (Durschn. Genauigkeit: 66 %) SVM Classification mit rbf Kernel: 18/20 Apple Logos und 14.5/16 Schwäne richtig erkannt. (Durschn. Genauigkeit: %) Einführung in (SVMs)

69 LIBSVM Library Wahl des Kernels und Parameter Fragen Fragen? Einführung in (SVMs)

70 LIBSVM Library Wahl des Kernels und Parameter Referenzen Referenzen Schölkopf, Smola, Learning with kernels, Cambridge (Mass.), London Weston, Jason, Extensions to the Support Vector Method, PhD Thesis, University of London, Einführung in (SVMs)