5. Klassifikation. 5.6 Support Vector Maschines (SVM)

Größe: px

Ab Seite anzeigen:

Download "5. Klassifikation. 5.6 Support Vector Maschines (SVM)"

Bernt Abel
vor 5 Jahren
Abrufe

1 5. Klassifikation 5.6 Support Vector Maschines (SVM) übernommen von Stefan Rüping, Katharina Morik, Universität Dortmund Vorlesung Maschinelles Lernen und Data Mining, WS 2002/03 und Katharina Morik, Claus Weihs, Universität Dortmund Wissensentdeckung in Datenbanken, SS 2006 Vorlesung Knowledge Discovery 276

2 Gegeben: Beispiele X in LE Funktionslernen die anhand einer Wahrscheinlichkeitsverteilung P auf X erzeugt wurden und mit einem Funktionswert Y = t(x) versehen sind (alternativ: Eine Wahrscheinlichkeitsverteilung P(Y X) der möglichen Funktionswerte - verrauschte Daten). H die Menge von Funktionen in LH. Ziel: Eine Hypothese h(x) H, die das erwartete Fehlerrisiko R(h) minimiert. Risiko: R ( h) = Q( x, h) P( x) x Vorlesung Knowledge Discovery 277

3 Beispiel: Funktionenlernen 0% 50% 5% % 0% 20% H = { f a f a (x) = 1, für x a, f a (x) = -1 sonst, a R} R(f 0 ) = 0, ,20 = 0,45 R(f 1,5 ) = ,20 = 0,20 R(f 3,5 ) = 0 + 0,5 + 0,05 = 0,55 Vorlesung Knowledge Discovery 278

4 Reale Beispiele Klassifikation: Q(x,h) = 0, falls t(x) = h(x), 1 sonst Textklassifikation (x = Worthäufigkeiten) Handschriftenerkennung (x = Pixel in Bild) Vibrationsanalyse in Triebwerken (x = Frequenzen) Intensivmedizinische Alarmfunktion (x = Vitalzeichen) Regression: Q(x,h) = (t(x)-h(x))) 2 Zeitreihenprognose (x = Zeitreihe, t(x) = nächster Wert) Vorlesung Knowledge Discovery 279

5 Erinnerung: Minimierung des beobachteten Fehlers Funktionslernaufgabe nicht direkt lösbar. Problem: Die tatsächliche Funktion t(x) ist unbekannt. Die zugrunde liegende Wahrscheinlichkeit ist unbekannt. Ansatz: eine hinreichend große Lernmenge nehmen und für diese den Fehler minimieren. Empirical Risk Minimization Vorlesung Knowledge Discovery 280

6 Beispiel Vorlesung Knowledge Discovery 281

7 Beispiel II Vorlesung Knowledge Discovery 282

8 Probleme der ERM Aufgabe ist nicht eindeutig beschrieben: Mehrere Funktionen mit minimalem Fehler existieren. Welche wählen? Overfitting: Verrauschte Daten und zu wenig Beispiele führen zu falschen Ergebnissen. Vorlesung Knowledge Discovery 283

9 Die optimale Hyperebene Beispiele heißen linear trennbar, wenn es eine Hyperebene H gibt, die die positiven und negativen Beispiele voneinander trennt. H heißt optimale Hyperebene, wenn ihr Abstand d zum nächsten positiven und zum nächsten negativen Beispiel maximal ist. Satz: Es existiert eine eindeutig bestimmte optimale Hyperebene. d d H Vorlesung Knowledge Discovery 284

10 Vorlesung Knowledge Discovery 285

11 Vorlesung Knowledge Discovery 286

12 Vorlesung Knowledge Discovery 287

13 Vorlesung Knowledge Discovery 288

14 Vorlesung Knowledge Discovery 289

15 Vorlesung Knowledge Discovery 290

16 Berechnung der opt. Hyperebene Hyperebene H = {x w*x+b = 0} H trennt (x i,y i ), y i {±1} H ist optimale Hyperebene Entscheidungsfunktion f(x) = w*x+b f(x i ) > 0 y i > 0 w minimal und f(x i ) 1, wenn y i = 1 f(x i ) -1, wenn y i = -1 H +1 f -1 Vorlesung Knowledge Discovery 291

17 Optimierungsaufgabe der SVM Minimiere w 2 so dass für alle i gilt: f(x i ) = w*x i +b 1 für y i = 1 und f(x i ) = w*x i +b -1 für y i = -1 Äquivalente Nebenbedingung: y i *f(x i ) 1 Konvexes, quadratisches Optimierungsproblem eindeutig in O(n 3 ) lösbar. Satz: w = 1/d, d = Abstand der optimalen Hyperebene zu den Beispielen. Vorlesung Knowledge Discovery 292

18 Vorlesung Knowledge Discovery 293

19 Vorlesung Knowledge Discovery 294

20 Vorlesung Knowledge Discovery 295

21 Vorlesung Knowledge Discovery 296

22 Vorlesung Knowledge Discovery 297

23 Vorlesung Knowledge Discovery 298

24 Vorlesung Knowledge Discovery 299

25 Vorlesung Knowledge Discovery 300

26 Optimierungsalgorithmus s = Gradient von W(α) // s i = α j (x j *x i ) while(nicht konvergiert(s)) // auf ε genau WS = working_set(s) // suche k gute Variablen α = optimiere(ws) // k neue α-werte s = update(s, α ) // s = Gradient von W(α ) Gradientensuchverfahren Trick: Stützvektoren allein definieren Lösung Weitere Tricks: Shrinking, Caching von x i *x j Vorlesung Knowledge Discovery 301

27 Vorlesung Knowledge Discovery 302

28 Nicht linear trennbare Daten In der Praxis sind linear trennbare Daten selten. 1. Ansatz: Entferne eine minimale Menge von Datenpunkten, so dass die Daten linear trennbar werden (minimale Fehlklassifikation). Problem: Algorithmus wird exponentiell.? Vorlesung Knowledge Discovery 303

29 Weich trennende Hyperebene Wähle C R >0 und minimiere so dass für alle i gilt: f(x i ) = w*x i +b 1-ξ i für y i = 1 und f(x i ) = w*x i +b -1+ξ i für y i = -1 Äquivalent: y i *f(x i ) 1- ξ i w 2 + C n i= 1 ξ i +1 f ξ ξ Vorlesung Knowledge Discovery 304

30 Bedeutung von ξ und α ξ=0, α=0 ξ=0, 0 α<c ξ>1, α=c 0<ξ<1, 0<α<C f(x)=-1 f(x)=0 f(x)=1 Beispiele x i mit α i >0 heißen Stützvektoren SVM Vorlesung Knowledge Discovery 305

31 Was wissen wir jetzt über SVM s? Funktionslernen als allgemeine Lernaufgabe Minimierung des empirischen Risikos als Lösungsstrategie Optimale Hyperebene präzisiert die ERM Praxis: weich trennende Hyperebene Berechnung mittels SVM und dualem Problem Offene Fragen: Generelles Prinzip hinter der optimalen Hyperebene? Nicht lineare Daten? Kernel-Methoden Vorlesung Knowledge Discovery 306

Ähnliche Dokumente

Funktionslernen. 5. Klassifikation. 5.6 Support Vector Maschines (SVM) Reale Beispiele. Beispiel: Funktionenlernen

Funktionslernen. 5. Klassifikation. 5.6 Support Vector Maschines (SVM) Reale Beispiele. Beispiel: Funktionenlernen 5. Klassifikation 5.6 Support Vector Maschines (SVM) übernommen von Stefan Rüping, Katharina Morik, Universität Dortmund Vorlesung Maschinelles Lernen und Data Mining, WS 2002/03 und Katharina Morik, Claus