Ridge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel

Transkript

1 Ridge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel Dr. Dominik Grimm Probelehrveranstaltung Fakultät für Informatik und Mathematik Hochschule München München, 10. Mai Mai 2017 Ridge Regression & Support Vector Machine 1

2 Inhalte & Lernziele dieser Vorlesung Einführung ins Thema Was ist Ridge Regression? Was ist eine Kernalized Support Vector Machine? Vergleich von Ridge Regression & SVM an einem Beispiel Zusammenfassung der Vorlesungsinhalte und Ausblick 10. Mai 2017 Ridge Regression & Support Vector Machine 2

3 Preis in Motivation & Einführung Rückblick: Lineare Regression Fläche Wohnung in m Mai 2017 Ridge Regression & Support Vector Machine 3

4 Motivation & Einführung Rückblick: Lineare Regression Lineare Regression: y = b + w & x x R + : Einflussgröße (Feature) y R + : Zielvariable (Target) n: Anzahl Trainingsinstanzen b, w & R: Gewichte (Parameter) 10. Mai 2017 Ridge Regression & Support Vector Machine 4

5 Motivation & Einführung Rückblick: Lineare Regression Lineare Regression: y = b + w & x Parameter b, w & sind unbekannt. Diese müssen gelernt werden. x R + : Einflussgröße (Feature) y R + : Zielvariable (Target) n: Anzahl Trainingsinstanzen b, w & R: Gewichte (Parameter) 10. Mai 2017 Ridge Regression & Support Vector Machine 5

6 Motivation & Einführung Rückblick: Lineare Regression Lineare Regression: y = b + w & x x R + : Einflussgröße (Feature) y R + : Zielvariable (Target) n: Anzahl Trainingsinstanzen b, w & R: Gewichte (Parameter) Straffunktion (Loss): n L w = 0 y 2 b + w & x & 10. Mai 2017 Ridge Regression & Support Vector Machine 6

7 Motivation & Einführung Rückblick: Lineare Regression Lineare Regression: y = b + w & x x R + : Einflussgröße (Feature) y R + : Zielvariable (Target) n: Anzahl Trainingsinstanzen b, w & R: Gewichte (Parameter) Straffunktion (Loss): n L w = 0 y 2 b + w & x & Lernen der unbekannten Parameter durch Minimierung der Straffunktion 10. Mai 2017 Ridge Regression & Support Vector Machine 7

8 Motivation & Einführung Rückblick: Lineare Regression 10. Mai 2017 Ridge Regression & Support Vector Machine 8

9 Motivation & Einführung Rückblick: Lineare Regression Unteranpassung (Underfitting) Das Modell beschreibt die Trainingsdaten nicht ausreichend 10. Mai 2017 Ridge Regression & Support Vector Machine 9

10 Motivation & Einführung Rückblick: Lineare Regression Polynomiale Regression durch Hinzufügen von Features höherer Ordnung: y = b + w & x 1 + w 5 x w : x w &== x Mai 2017 Ridge Regression & Support Vector Machine 10

11 Motivation & Einführung Rückblick: Lineare Regression Polynomiale Regression durch Hinzufügen von Features höherer Ordnung: y = b + w & x 1 + w 5 x w : x w &== x Zielvariable y 100 Features (Einflussgrößen) 120 Trainingsinstanzen 120 Trainingsinstanzen 10. Mai 2017 Ridge Regression & Support Vector Machine 11

12 Motivation & Einführung Rückblick: Polynomiale Regression (m=100; Grad des Polynoms) 10. Mai 2017 Ridge Regression & Support Vector Machine 12

13 Motivation & Einführung Rückblick: Polynomiale Regression (m=100) Überanpassung (Overfitting) Das Modell generalisiert schlecht auf unbekannten Daten 10. Mai 2017 Ridge Regression & Support Vector Machine 13

14 Einführung in Ridge Regression Ridge Regression Ridge Regression Loss: n L w = 1 n 0 y 2 b + x α w & BCDEFGH2I2CHE+DIJCHK 10. Mai 2017 Ridge Regression & Support Vector Machine 14

15 Einführung in Ridge Regression Ridge Regression Ridge Regression Loss: n L w = 1 n 0 y 2 b + x α w & BCDEFGH2I2CHE+DIJCHK w 5 5 = 0 w L 5 = w L Quadrierte L2-Norm Lernen der unbekannten Parameter durch Minimierung der Straffunktion 10. Mai 2017 Ridge Regression & Support Vector Machine 15

16 Einführung in Ridge Regression Intuition Ridge Regression w 2 LQ n L w = 1 n 0 y 2 b + x & w Mai 2017 Ridge Regression & Support Vector Machine 16

17 Einführung in Ridge Regression Intuition Ridge Regression w 2 LQ n L w = 1 n 0 y 2 b + x α w & w* w Mai 2017 Ridge Regression & Support Vector Machine 17

18 Einführung in Ridge Regression Intuition Ridge Regression w 2 LQ n L w = 1 n 0 y 2 b + x α w & w* Effekt eines kleinen α w 1 Regularisierung hat einen schwachen Effekt auf Parameter (Gefahr von Overfitting) 10. Mai 2017 Ridge Regression & Support Vector Machine 18

19 Einführung in Ridge Regression Intuition Ridge Regression w 2 LQ n L w = 1 n 0 y 2 b + x α w & w* Effekt eines großen α w 1 Regularisierung hat einen starken Effekt auf die Parameter (Gefahr von Underfitting) 10. Mai 2017 Ridge Regression & Support Vector Machine 19

20 Einführung in Ridge Regression Effekt der L2-Regularisierung auf die Gewichte/Parameter Überanpassung Unteranpassung 10. Mai 2017 Ridge Regression & Support Vector Machine 20

21 Einführung in Ridge Regression Wie findet man den optimalen Parameter α? Training Folds Test Fold Subtraining Trainiere mit kleinem alpha Erhöhe alpha Trainiere mit hohem alpha Subtest Teste Teste Trainiere mit bestem alpha Teste 10. Mai 2017 Ridge Regression & Support Vector Machine 21

22 Einführung in Ridge Regression Wie findet man den optimalen Parameter α? Verschachtelte k-fache Kreuzvalidierung mit interner Liniensuche 10. Mai 2017 Ridge Regression & Support Vector Machine 22

23 Einführung in Ridge Regression Beispiel: Ridge Regression (m=100) 10. Mai 2017 Ridge Regression & Support Vector Machine 23

24 Einführung in Ridge Regression Beispiel: Ridge Regression (m=100) Optimale Abwägung zwischen zu einfachem und zu komplexem Model durch L2-Regularisierung 10. Mai 2017 Ridge Regression & Support Vector Machine 24

25 Zusammenfassung Ridge Regression Was haben wir gelernt? Ridge Regression wird bei Regressionsproblemen verwendet, welche viele (korrelierten) Features besitzt (und/oder wenige Trainings- Instanzen), um eine Unter- oder Überanpassung des Models zu vermeiden. Ridge Regression ist eine überwachte (supervised) Lernmethode, welche einen Strafterm besitzt, um die Gewichte (Parameter) der Regressionsmethode zu regularisieren. Der Strafterm entspricht der L2-Norm. Den optimalen Hyperparameter α findet man mittels verschachtelter k- fachen Kreuzvalidierung. 10. Mai 2017 Ridge Regression & Support Vector Machine 25

26 Einführung in Support Vector Machines Regression vs. Klassifikation Regression y R + : Zielvariable (Target) Klassifikation y { 1,1} + : Zielvariable (Label) 10. Mai 2017 Ridge Regression & Support Vector Machine 26

27 Einführung in Support Vector Machines Klassifizieren mit einer Entscheidungsfunktion w T x + b < 0 w T x + b > 0 w T x + b = Mai 2017 Ridge Regression & Support Vector Machine 27

28 Einführung in Support Vector Machines Klassifizieren mit einer Entscheidungsfunktion Entscheidungsfunktion (Decision Function): f x = x + b) Vorzeichenfunktion (Sign Function): +1 falls z > 0 sgn z = Z 0 falls z = 0 1 falls z < Mai 2017 Ridge Regression & Support Vector Machine 28

29 Einführung in Support Vector Machines Klassifizieren mit einer Entscheidungsfunktion w T x + b = Mai 2017 Ridge Regression & Support Vector Machine 29

30 Einführung in Support Vector Machines Klassifizieren mit einer Entscheidungsfunktion w T x + b = 0? 10. Mai 2017 Ridge Regression & Support Vector Machine 30

31 Einführung in Support Vector Machines Klassifizieren mit einer Entscheidungsfunktion w T x + b = 0? 10. Mai 2017 Ridge Regression & Support Vector Machine 31

32 Einführung in Support Vector Machines Klassifizieren mit einer Entscheidungsfunktion Falls zwei Klassen mit einer linearen Funktion trennbar sind, gibt es unendlich viele Entscheidungsfunktionen 10. Mai 2017 Ridge Regression & Support Vector Machine 32

33 Einführung in Support Vector Machines Hard-Margin SVM (Vapnik und Chervonenkis, 1974) 10. Mai 2017 Ridge Regression & Support Vector Machine 33

34 Einführung in Support Vector Machines Hard-Margin SVM (Vapnik und Chervonenkis, 1974) Margin = 2 w `` Support Vectors w T x + b = 1 w T x + b = 0 w w T x + b = Mai 2017 Ridge Regression & Support Vector Machine 34

35 Einführung in Support Vector Machines Hard-Margin SVM (Vapnik und Chervonenkis, 1974) Optimierungsproblem mit Nebenbedingung um w zu lernen 1 min w,h 2 w 5 5 subject to y 2 x 2 + b 1, i {1,, n} Je kleiner w desto größer die Margin: 2 w Die Nebenbedingung stellt sicher, dass alle Trainingsinstanzen der selben Klasse außerhalb oder auf dem Margin liegen 10. Mai 2017 Ridge Regression & Support Vector Machine 35

36 Einführung in Support Vector Machines Hard-Margin SVM (Vapnik und Chervonenkis, 1974) 10. Mai 2017 Ridge Regression & Support Vector Machine 36

37 Einführung in Support Vector Machines Hard-Margin SVM (Vapnik und Chervonenkis, 1974) Es gibt keine Lösung für nicht vollständig linear trennbare Probleme Support Vectors 10. Mai 2017 Ridge Regression & Support Vector Machine 37

38 Einführung in Support Vector Machines Hard-Margin SVM (Vapnik und Chervonenkis, 1974) Es gibt keine Lösung für nicht vollständig linear trennbare Probleme Support Vectors Erlaube die Fehlklassifikation von Trainingsinstanzen 10. Mai 2017 Ridge Regression & Support Vector Machine 38

39 Einführung in Support Vector Machines Soft-Margin SVM: C-SVM (Cortes und Vapnik, 1995) 10. Mai 2017 Ridge Regression & Support Vector Machine 39

40 Einführung in Support Vector Machines Soft-Margin SVM: C-SVM (Cortes und Vapnik, 1995) Erlaube die Fehlklassifikation von Trainingsinstanzen min w,h,k w C 0 ξ 2 2 subject to y 2 x 2 + b 1 ξ 2, i 1,, n, ξ 2 0 ξ ist ein Schlupfvariable (Slackvariable): Misst den Grad der Fehlklassifikation für jede Trainingsinstanz C R ist ein Regularisierungsparameter: Tradeoff zwischen Maximierung der Margin und Minimierung des Trainingsfehlers 10. Mai 2017 Ridge Regression & Support Vector Machine 40

41 Einführung in Support Vector Machines Soft-Margin SVM: C-SVM (Cortes und Vapnik, 1995) Erlaube die Fehlklassifikation von Trainingsinstanzen + 1 min w,h,k 2 w C 0 ξ 2 2 subject to y 2 x 2 + b 1 ξ 2, i 1,, n, ξ 2 0 = min w,h + 1 n 0 max(0,1 y x 2 + b)) + λ 2 w & p2+dc qrii λ = 2 nc x 2 + b 10. Mai 2017 Ridge Regression & Support Vector Machine

42 Einführung in Support Vector Machines Soft-Margin SVM: C-SVM (Cortes und Vapnik, 1995) Kleines C führt zu einer großen Margin (à Gefahr von Underfitting) 10. Mai 2017 Ridge Regression & Support Vector Machine 42

43 Einführung in Support Vector Machines Soft-Margin SVM: C-SVM (Cortes und Vapnik, 1995) Großes C führt zu einer kleinen Margin (à Gefahr von Overfitting) 10. Mai 2017 Ridge Regression & Support Vector Machine 43

44 Einführung in Support Vector Machines Nicht-Linear-Trennbare Daten 10. Mai 2017 Ridge Regression & Support Vector Machine 44

45 Einführung in Support Vector Machines Nicht-Linear-Trennbare Daten Nicht trennbar mit einer linearen Entscheidungsfunktion 10. Mai 2017 Ridge Regression & Support Vector Machine 45

46 Einführung in Support Vector Machines Transformation der Daten in einen höherdimensionalen Raum Transformation in 3-dimensionalen Raum R 5 R : x &, x 5 z &, z 5, z : (x &, x 5, x 5 & + x 5 5 ) 10. Mai 2017 Ridge Regression & Support Vector Machine 46

47 Einführung in Support Vector Machines Transformation der Daten in einen höherdimensionalen Raum z : z & z Mai 2017 Ridge Regression & Support Vector Machine 47

48 Einführung in Support Vector Machines Transformation der Daten in einen höherdimensionalen Raum z : z & z Mai 2017 Ridge Regression & Support Vector Machine 48

49 Einführung in Support Vector Machines Transformation der Daten in einen höherdimensionalen Raum Feature Transformation muss explizit berechnet werden à Unmöglich für unendlich-dimensionale Daten 10. Mai 2017 Ridge Regression & Support Vector Machine 49

50 Einführung in Support Vector Machines Kerntrick + f x = sgn 0 α 2 y 2 x 2 + b 27& 10. Mai 2017 Ridge Regression & Support Vector Machine 50

51 Einführung in Support Vector Machines Kerntrick f x = sgn + 0 α 2 y 2 x 2 + b 27& + = sgn 0 α 2 y 2 φ φ(x 2 ) + b 27& Entscheidungsfunktion hängt von Trainingsinstanzen x nur über Skalarprodukt φ φ(x 2 ) ab 10. Mai 2017 Ridge Regression & Support Vector Machine 51

52 Einführung in Support Vector Machines Kerntrick f x = sgn + 0 α 2 y 2 φ φ(x 2 ) + b 27& + = sgn 0 α 2 y 2 k(x, x 2 ) + b 27& Entscheidungsfunktion hängt von Trainingsinstanzen x nur über Skalarprodukt φ φ(x 2 ) ab k(x, x 2 ) = φ φ(x 2 ) Ersetzt Skalarprodukt und Transformation durch einen Kern (Kernel) 10. Mai 2017 Ridge Regression & Support Vector Machine 52

53 Einführung in Support Vector Machines Warum handelt es sich dabei um einen Trick? Wenn man Kernfunktionen verwendet, muss man nichts über den genauen Feature Space wissen. Man benötigt nur eine Funktion, welche ein Ähnlichkeitsmaß zwischen den Features berechnet. Ein optimaler Kern weist Trainingsinstanzen einen höheren Ähnlichkeitswert zu, wenn diese zur gleichen Klasse gehören einen niedrigeren Ähnlichkeitswert, wenn diese zu unterschiedlichen Klassen gehören. 10. Mai 2017 Ridge Regression & Support Vector Machine 53

54 Einführung in Support Vector Machines Beispiele von Kernen Linearer Kern Polynomialer Kern k x, x = x k x, x = x y + c { Gaußsche Radiale Basisfunktion (RBF) Kern k x, x = exp 1 5 x xy 2σ5 10. Mai 2017 Ridge Regression & Support Vector Machine 54

55 Zusammenfassung Kernalized Support Vector Machine Was haben wir gelernt? Die Support Vector Machine wird im (klassischen Sinne) bei Klassifikationsproblemen verwendet. Die Hard-Margin SVM ist eine überwachte (supervised) Lernmethode, welche sich nur auf vollständig linear-trennbare Probleme anwenden lässt. Die Soft-Margin SVM (C-SVM) besitzt einen zusätzlichen Strafterm, um einen optimalen Tradeoff zwischen der Maximierung der Margin und der Minimierung des Trainingsfehler zu finden. Der Kerntrick besteht darin, mittels Kernfunktionen nicht-lineare Probleme in einem höherdimensionalen Raum zu lösen, ohne die Punkte explizit in diesen Raum projizieren zu müssen. 10. Mai 2017 Ridge Regression & Support Vector Machine 55

56 Anwendungsbeispiel Vergleich von Ridge Regression und SVM an einem Anwendungsbeispiel Neues Medikament für die Therapie eines speziellen Tumors 10. Mai 2017 Ridge Regression & Support Vector Machine 56

57 Anwendungsbeispiel Vergleich von Ridge Regression und SVM an einem Anwendungsbeispiel Neues Medikament für die Therapie eines speziellen Tumors Medikament zeigt eine Wirkung innerhalb von 50 Tagen Medikament zeigt Wirkung erst nach 50 Tagen, aber mit erheblichen Nebenwirkungen 10. Mai 2017 Ridge Regression & Support Vector Machine 57

58 Anwendungsbeispiel Vergleich von Ridge Regression und SVM an einem Anwendungsbeispiel Können wir anhand der genetischen Unterschiede (z. B. der Mutationen) zwischen den Patienten die Anzahl der Tage vorhersagen, ab wann das Medikament eine Wirkung zeigt? 10. Mai 2017 Ridge Regression & Support Vector Machine 58

59 Anwendungsbeispiel Vergleich von Ridge Regression und SVM an einem Anwendungsbeispiel Anzahl Patienten (Trainingsinstanzen): 400 Anzahl Mutationen (Features): 600 Zielvariable y: Anzahl der Tage bis Medikament Wirkung zeigt Können wir anhand der genetischen Unterschiede (z. B. der Mutationen) zwischen den Patienten die Anzahl der Tage vorhersagen, ab wann das Medikament eine Wirkung zeigt? 10. Mai 2017 Ridge Regression & Support Vector Machine 59

60 Anwendungsbeispiel Vergleich von Ridge Regression und SVM an einem Anwendungsbeispiel Ergebnis Ridge Regression auf Testdaten: Mittlerer Quadratische Fehler (MSE): Ergebnis SVM mit linearen Kern auf Testdaten: Genauigkeit (Accuracy): 82% Ergebnis SVM mit RBF Kern auf Testdaten: Genauigkeit (Accuracy): 93% 10. Mai 2017 Ridge Regression & Support Vector Machine 60

61 Ausblick auf die nächste Vorlesung Was kommt als nächstes? Ridge Regression Herleitung der Lösung für das Optimierungsproblem, um die Parameter w zu lernen Implementierung des Algorithmus in Python Support Vector Machine Detaillierte Betrachtung des Optimierungsproblems für Hard-Margin SVM Detaillierte Betrachtung des Optimierungsproblems für Soft-Margin SVM Praktische Evaluierung unterschiedlicher Kerne 10. Mai 2017 Ridge Regression & Support Vector Machine 61

62 Danksagung Berufungsausschuss Allen Zuhörern und Zuhörerinnen Folien und Code zur Vorlesung Zusätzliche Referenzen Friedman, J., Hastie, T., & Tibshirani, R. (2001). The elements of statistical learning (Vol. 1). Springer, Berlin: Springer series in statistics. Murphy, K. P. (2012). Machine learning: a probabilistic perspective. MIT press. Schölkopf, B., & Smola, A. J. (2002). Learning with kernels: support vector machines, regularization, optimization, and beyond. MIT press. Icons made by Freepik from is licensed under CC BY Mai 2017 Ridge Regression & Support Vector Machine 62