5. Klassifikation. 5.6 Support Vector Maschines (SVM)

Ähnliche Dokumente
Funktionslernen. 5. Klassifikation. 5.6 Support Vector Maschines (SVM) Reale Beispiele. Beispiel: Funktionenlernen

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen

Vorlesung Wissensentdeckung

Neuronale Netze. Prof. Dr. Rudolf Kruse

Wissensentdeckung in Datenbanken

Erinnerung: Funktionslernen. 5.6 Support Vector Maschines (SVM) Beispiel: Funktionenlernen. Reale Beispiele

Maschinelles Lernen Vorlesung

Mustererkennung. Support Vector Machines. R. Neubecker, WS 2018 / Support Vector Machines

Lineare Klassifikatoren. Volker Tresp

Support Vector Machines (SVM)

Überwachtes Lernen / Support Vector Machines. Rudolf Kruse Neuronale Netze 246

Optimal-trennende Hyperebenen und die Support Vector Machine. Volker Tresp

5.1 Einleitung. 5. Klassifikation. 5.1 Einleitung. 5.1 Der Prozess der Klassifikation. Inhalt dieses Kapitels. Beispiel. Konstruktion des Modells

Textklassifikation, Informationsextraktion

Wissensentdeckung in Datenbanken

Vorlesung Maschinelles Lernen

Support Vector Machines, Kernels

Vorlesung Maschinelles Lernen

Ridge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel

Vorlesung Maschinelles Lernen

Support Vector Machines (SVM)

Die Datenmatrix für Überwachtes Lernen

2.4 Verallgemeinerte Ungleichungen

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Pareto optimale lineare Klassifikation

Data Mining Kapitel 11: Machine Learning. Johannes Zschache Wintersemester 2018/19

Optimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren Thomas Brox, Fabian Kuhn

Einführung in Support Vector Machines (SVMs)

Kontinuierliche Optimierung

Vorlesung Wissensentdeckung

Vorlesung Maschinelles Lernen

Theoretische Informatik 1

Optimierungstheorie Scheinklausur Sommersemester Juli 2007

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Hauptseminar Machine Learning: Support Vector Machines, Kernels. Katja Kunze

Technische Universität

Das Trust-Region-Verfahren

Support-Vektor Maschinen: Feature-Funktionen. 27. Juni / 62

Data Mining - Wiederholung

Grundlagen von Support Vector Maschinen und Anwendungen in der Bildverarbeitung

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen

Übung 5, Analytische Optimierung

Statistical Learning

Lineare Klassifikationsmethoden

Vorlesung Wissensentdeckung

Übungsblatt 6 Lösungsvorschläge

Signalverarbeitung 2. Volker Stahl - 1 -

Der Satz von Krein-Milman und der Satz von der trennenden Hyperebene

1. Hausaufgabenblatt (16.04./ )

Seminar Ausgewählte Kapitel des Operations Research Die Allgegenwärtigkeit von Lagrange (Teil 1)

Optimierung. Optimierung. Vorlesung 5 Optimierung mit Nebenbedingungen Thomas Brox, Fabian Kuhn

Newton-Verfahren zur gleichungsbeschränkten Optimierung. 1 Gleichungsbeschränkte Optimierungsprobleme

KAPITEL 3. Konvexe Funktionen

Operations Research. Konvexe Funktionen. konvexe Funktionen. konvexe Funktionen. Rainer Schrader. 4. Juni Gliederung

(1) Der Anwender hat stets die Möglichkeit, die Beispiele durch Zusatzinformationen (Features) aufzubereiten.

Wissensentdeckung in Datenbanken

Wiederholung von Linearer Algebra und Differentialrechnung im R n

One-class Support Vector Machines

Thema: Support Vector Machines Johannes Lächele

Kapitel 6 Differential- und Integralrechnung in mehreren Variablen

Numerische Lineare Algebra

Lösungsvorschlag zur Nachklausur zur Analysis

Statistische Lerntheorie und Empirische Inferenz Statistical Learning Theorie and Empirical Inference

Einführung in die Bioinformatik: Lernen mit Kernen

Lineare Regression. Volker Tresp

Linear nichtseparable Probleme

Bekannte Anwendungen. Wissensentdeckung in Datenbanken. Interesse an Anwendungen. CRISP-DM: CRoss Industry Standard Process for Data Mining

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern

6 Extremwerte mit Nebenbedingungen: Die Lagrange-Multiplikatoren-Methode

Innere-Punkt-Methoden

x 2 x 1 x Lernen mit Entscheidungsbäumen

Lineare Optimierung: Simplexverfahren Phase Ⅰ

Optimierung für Nichtmathematiker

11 Untermannigfaltigkeiten des R n und lokale Extrema mit Nebenbedingungen

Einführung in das statistische Lernen

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

12. Trennungssätze für konvexe Mengen 83

1.3 Differenzierbarkeit

Anwendungen der Differentialrechnung

Machine Learning. ML Kapitel 7: Support Vector Machines. Prof. Dr. Johannes Maucher. Version November HdM CSM

Optimalitätsbedingungen

Näherungsverfahren zur Bestimmung der Nullstelle α sind iterativ, d.h. sie liefern eine Folge {x (k) } k=0 mit α = lim x (k). (3.0.

Rückblick auf die letzte Vorlesung. Bemerkung

Kleingruppen zur Service-Veranstaltung Mathematik I fu r Ingenieure bei Prof. Dr. G. Herbort im WS12/13 Dipl.-Math. T. Pawlaschyk,

Optimierung. Optimierung. Vorlesung 4 Newton und Quasi Newton Verfahren (Teil II) 2013 Thomas Brox, Fabian Kuhn

1. Klausur zur Vorlesung Informatik III Wintersemester 2003/2004. Mit Lösung!

y (k) (0) = y (k) y(z) = c 1 e αz + c 2 e βz. c 1 + c 2 = y 0 k=1 k=1,...,m y k f k (x)

Algorithmische Geometrie: Delaunay Triangulierung (Teil 2)

Konvexe Mengen. Kanglin,Chen. Universität Bremen, Proseminar WS 04/05

Vorlesung Wissensentdeckung in Datenbanken

Mehrkriterielle Optimierung mit Metaheuristiken

Kapitel 12. Lagrange-Funktion. Josef Leydold Mathematik für VW WS 2017/18 12 Lagrange-Funktion 1 / 28. f (x, y) g(x, y) = c. f (x, y) = x y 2

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

16. FUNKTIONEN VON MEHREREN VARIABLEN

Transkript:

5. Klassifikation 5.6 Support Vector Maschines (SVM) übernommen von Stefan Rüping, Katharina Morik, Universität Dortmund Vorlesung Maschinelles Lernen und Data Mining, WS 2002/03 und Katharina Morik, Claus Weihs, Universität Dortmund Wissensentdeckung in Datenbanken, SS 2006 Vorlesung Knowledge Discovery 276

Gegeben: Beispiele X in LE Funktionslernen die anhand einer Wahrscheinlichkeitsverteilung P auf X erzeugt wurden und mit einem Funktionswert Y = t(x) versehen sind (alternativ: Eine Wahrscheinlichkeitsverteilung P(Y X) der möglichen Funktionswerte - verrauschte Daten). H die Menge von Funktionen in LH. Ziel: Eine Hypothese h(x) H, die das erwartete Fehlerrisiko R(h) minimiert. Risiko: R ( h) = Q( x, h) P( x) x Vorlesung Knowledge Discovery 277

Beispiel: Funktionenlernen 0% 50% 5% 1 2 3 25% 0% 20% H = { f a f a (x) = 1, für x a, f a (x) = -1 sonst, a R} R(f 0 ) = 0,25 + 0 + 0,20 = 0,45 R(f 1,5 ) = 0 + 0 + 0,20 = 0,20 R(f 3,5 ) = 0 + 0,5 + 0,05 = 0,55 Vorlesung Knowledge Discovery 278

Reale Beispiele Klassifikation: Q(x,h) = 0, falls t(x) = h(x), 1 sonst Textklassifikation (x = Worthäufigkeiten) Handschriftenerkennung (x = Pixel in Bild) Vibrationsanalyse in Triebwerken (x = Frequenzen) Intensivmedizinische Alarmfunktion (x = Vitalzeichen) Regression: Q(x,h) = (t(x)-h(x))) 2 Zeitreihenprognose (x = Zeitreihe, t(x) = nächster Wert) Vorlesung Knowledge Discovery 279

Erinnerung: Minimierung des beobachteten Fehlers Funktionslernaufgabe nicht direkt lösbar. Problem: Die tatsächliche Funktion t(x) ist unbekannt. Die zugrunde liegende Wahrscheinlichkeit ist unbekannt. Ansatz: eine hinreichend große Lernmenge nehmen und für diese den Fehler minimieren. Empirical Risk Minimization Vorlesung Knowledge Discovery 280

Beispiel Vorlesung Knowledge Discovery 281

Beispiel II Vorlesung Knowledge Discovery 282

Probleme der ERM Aufgabe ist nicht eindeutig beschrieben: Mehrere Funktionen mit minimalem Fehler existieren. Welche wählen? Overfitting: Verrauschte Daten und zu wenig Beispiele führen zu falschen Ergebnissen. Vorlesung Knowledge Discovery 283

Die optimale Hyperebene Beispiele heißen linear trennbar, wenn es eine Hyperebene H gibt, die die positiven und negativen Beispiele voneinander trennt. H heißt optimale Hyperebene, wenn ihr Abstand d zum nächsten positiven und zum nächsten negativen Beispiel maximal ist. Satz: Es existiert eine eindeutig bestimmte optimale Hyperebene. d d H Vorlesung Knowledge Discovery 284

Vorlesung Knowledge Discovery 285

Vorlesung Knowledge Discovery 286

Vorlesung Knowledge Discovery 287

Vorlesung Knowledge Discovery 288

Vorlesung Knowledge Discovery 289

Vorlesung Knowledge Discovery 290

Berechnung der opt. Hyperebene Hyperebene H = {x w*x+b = 0} H trennt (x i,y i ), y i {±1} H ist optimale Hyperebene Entscheidungsfunktion f(x) = w*x+b f(x i ) > 0 y i > 0 w minimal und f(x i ) 1, wenn y i = 1 f(x i ) -1, wenn y i = -1 H +1 f -1 Vorlesung Knowledge Discovery 291

Optimierungsaufgabe der SVM Minimiere w 2 so dass für alle i gilt: f(x i ) = w*x i +b 1 für y i = 1 und f(x i ) = w*x i +b -1 für y i = -1 Äquivalente Nebenbedingung: y i *f(x i ) 1 Konvexes, quadratisches Optimierungsproblem eindeutig in O(n 3 ) lösbar. Satz: w = 1/d, d = Abstand der optimalen Hyperebene zu den Beispielen. Vorlesung Knowledge Discovery 292

Vorlesung Knowledge Discovery 293

Vorlesung Knowledge Discovery 294

Vorlesung Knowledge Discovery 295

Vorlesung Knowledge Discovery 296

Vorlesung Knowledge Discovery 297

Vorlesung Knowledge Discovery 298

Vorlesung Knowledge Discovery 299

Vorlesung Knowledge Discovery 300

Optimierungsalgorithmus s = Gradient von W(α) // s i = α j (x j *x i ) while(nicht konvergiert(s)) // auf ε genau WS = working_set(s) // suche k gute Variablen α = optimiere(ws) // k neue α-werte s = update(s, α ) // s = Gradient von W(α ) Gradientensuchverfahren Trick: Stützvektoren allein definieren Lösung Weitere Tricks: Shrinking, Caching von x i *x j Vorlesung Knowledge Discovery 301

Vorlesung Knowledge Discovery 302

Nicht linear trennbare Daten In der Praxis sind linear trennbare Daten selten. 1. Ansatz: Entferne eine minimale Menge von Datenpunkten, so dass die Daten linear trennbar werden (minimale Fehlklassifikation). Problem: Algorithmus wird exponentiell.? Vorlesung Knowledge Discovery 303

Weich trennende Hyperebene Wähle C R >0 und minimiere so dass für alle i gilt: f(x i ) = w*x i +b 1-ξ i für y i = 1 und f(x i ) = w*x i +b -1+ξ i für y i = -1 Äquivalent: y i *f(x i ) 1- ξ i w 2 + C n i= 1 ξ i +1 f ξ ξ Vorlesung Knowledge Discovery 304

Bedeutung von ξ und α ξ=0, α=0 ξ=0, 0 α<c ξ>1, α=c 0<ξ<1, 0<α<C f(x)=-1 f(x)=0 f(x)=1 Beispiele x i mit α i >0 heißen Stützvektoren SVM Vorlesung Knowledge Discovery 305

Was wissen wir jetzt über SVM s? Funktionslernen als allgemeine Lernaufgabe Minimierung des empirischen Risikos als Lösungsstrategie Optimale Hyperebene präzisiert die ERM Praxis: weich trennende Hyperebene Berechnung mittels SVM und dualem Problem Offene Fragen: Generelles Prinzip hinter der optimalen Hyperebene? Nicht lineare Daten? Kernel-Methoden Vorlesung Knowledge Discovery 306