Vorlesung Maschinelles Lernen

Ähnliche Dokumente
Vorlesung Maschinelles Lernen

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung

Mustererkennung. Support Vector Machines. R. Neubecker, WS 2018 / Support Vector Machines

Optimal-trennende Hyperebenen und die Support Vector Machine. Volker Tresp

5. Klassifikation. 5.6 Support Vector Maschines (SVM)

Wissensentdeckung in Datenbanken

Funktionslernen. 5. Klassifikation. 5.6 Support Vector Maschines (SVM) Reale Beispiele. Beispiel: Funktionenlernen

Lineare Klassifikatoren. Volker Tresp

Support Vector Machines (SVM)

Maschinelles Lernen Vorlesung

Lineare Klassifikationsmethoden

Mathematik 2 für Wirtschaftsinformatik

Kapitel 12. Lagrange-Funktion. Josef Leydold Mathematik für VW WS 2017/18 12 Lagrange-Funktion 1 / 28. f (x, y) g(x, y) = c. f (x, y) = x y 2

Kuhn-Tucker Bedingung

6 Extremwerte mit Nebenbedingungen: Die Lagrange-Multiplikatoren-Methode

Ridge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel

Mathematische Grundlagen für Wirtschaftswissenschaftler Leseprobe - Abschnitt 6.5 (das agraökonomische Schaf )

Neuronale Netze. Prof. Dr. Rudolf Kruse

Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017

Support Vector Machines, Kernels

Optimierungstheorie Scheinklausur Sommersemester Juli 2007

2 Extrema unter Nebenbedingungen

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Optimieren unter Nebenbedingungen

KAPITEL 3. Konvexe Funktionen

Wirtschaftsmathematik für International Management (BA) und Betriebswirtschaft (BA)

Mathematische Werkzeuge R. Neubecker, WS 2018 / 2019 Optimierung Lagrange-Funktionen, Karush-Kuhn-Tucker-Bedingungen

(3D-)Extrema unter Nebenbedingungen. Problemstellung (lokale Optimierung)

Serie 4. Analysis D-BAUG Dr. Cornelia Busch FS 2015

FK WMS: Wirtschaftsmathematik 2, Einheit 7/8

Inhaltsverzeichnis. Innere-Punkte-Verfahren 3. Inhaltsverzeichnis 1

Wissensentdeckung in Datenbanken

Inhalt. 8.1 Motivation. 8.2 Optimierung ohne Nebenbedingungen. 8.3 Optimierung unter Nebenbedingungen. 8.4 Lineare Programmierung

Support Vector Machines (SVM)

Musterlösung zu Blatt 1

Machine Learning. ML Kapitel 7: Support Vector Machines. Prof. Dr. Johannes Maucher. Version November HdM CSM

7 Anwendungen der Linearen Algebra

Technische Universität

Dualität bei konvexer Optimierung

Statistical Learning

Klausurrepetitorium ABWL

Vorlesung Wissensentdeckung

Einführung in Support Vector Machines (SVMs)

Substitutionsverfahren

Extrema von Funktionen mit Nebenbedingung

Überwachtes Lernen / Support Vector Machines. Rudolf Kruse Neuronale Netze 246

Rückblick auf die letzte Vorlesung

Mikroökonomik Prof. Dr. Stefan Klonner SoSe Übungsblatt 1

Grundlagen von Support Vector Maschinen und Anwendungen in der Bildverarbeitung

Konvexe Menge. Eine Menge D R n heißt konvex, wenn für zwei beliebige Punkte x, y D auch die Verbindungsstrecke dieser Punkte in D liegt, d.h.

Vorlesung Maschinelles Lernen

Entwicklung von Optimierungsverfahren für das Lösen verschiedener Lernaufgaben mit der Stützvektormethode

Vorlesung Maschinelles Lernen

16. FUNKTIONEN VON MEHREREN VARIABLEN

Lagrange-Multiplikatoren

Vorlesung Maschinelles Lernen

Optimierung. Optimierung. Vorlesung 5 Optimierung mit Nebenbedingungen Thomas Brox, Fabian Kuhn

Das Lagrange-duale Problem

3. Übungsblatt Aufgaben mit Lösungen

Extrema mit Nebenbedingungen

Vorbereitung für die Prüfung Mathematik II für Informatiker

Optimierung unter Nebenbedingungen

9 Differentialrechnung für Funktionen in n Variablen

Geometrische Interpretation

Support-Vektor Maschinen: Feature-Funktionen. 27. Juni / 62

2.4 Verallgemeinerte Ungleichungen

2 Funktionen in mehreren Variablen: Differentiation

Klausur zu Analysis II - Lösungen

Übung 5, Analytische Optimierung

9 Optimierung mehrdimensionaler reeller Funktionen f : R n R

Hauptseminar Machine Learning: Support Vector Machines, Kernels. Katja Kunze

Wirtschaftsmathematik 00054: Mathematik für Wirtschaftswissenschaftler II Kurseinheit 2: Lineare Algebra II

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

zul. Kurve g 1 C zul dθ (0) y = dϕ dθ (0) =

Operations Research. Konvexe Funktionen. konvexe Funktionen. konvexe Funktionen. Rainer Schrader. 4. Juni Gliederung

Grundlagen von Support Vector Machines (SVM)

Kapitel VI. Euklidische Geometrie

Kapitel 2. Mathematik für Mikroökonomie

Kommentierte Musterlösung zur Klausur HM II für Naturwissenschaftler

Folgerungen aus dem Auflösungsatz

Optimalitätsbedingungen

3 Optimierung mehrdimensionaler Funktionen f : R n R

Kombinatorische Optimierung

14.4 Warum die Methode der Lagrange-Multiplikatoren funktioniert

Innere-Punkt-Methoden

Pareto optimale lineare Klassifikation

Graphentheorie. Kürzeste Wege. Kürzeste Wege. Kürzeste Wege. Rainer Schrader. 25. Oktober 2007

One-class Support Vector Machines

Karlsruher Institut für Technologie Institut für Analysis Dr. Andreas Müller-Rettkowski Dr. Vu Hoang. Sommersemester

Technische Universität Berlin Fakultät II Institut für Mathematik WS 11/12 Böse, Penn-Karras, Schneider

Seminar: Finanzmathematik. Portfoliooptimierung im vollständigen Finanzmarktmodell. Katharina Hasow

Seminar Ausgewählte Kapitel des Operations Research Die Allgegenwärtigkeit von Lagrange (Teil 1)

12. Trennungssätze für konvexe Mengen 83

Optimierung. Vorlesung 02

KAPITEL 10 DIE INNERE-PUNKTE-METHODE

Transkript:

Vorlesung Maschinelles Lernen Stützvektormethode Katharina Morik LS 8 Informatik 8.11.2011 1 von 38

Gliederung 1 2 Lagrange-Optimierung 2 von 38

Übersicht über die Stützvektormethode (SVM) Eigenschaften der Stützvektormethode (SVM) (Support Vector Machine) Maximieren der Breite einer separierenden Hyperebene maximum margin method ergibt eindeutige, optimale trennende Hyperebene. Transformation des Datenraums durch Kernfunktion behandelt Nichtlinearität. Regularisierung minimiert nicht nur den Fehler, sondern auch die Komplexität des Modells. 3 von 38

Einführende Literatur Vladimir Vapnik The Nature of Statistical Learning Theory Springer Vg. 1995 W.N. Wapnik, A. Tscherwonenkis Theorie der Zeichenerkennung Akademie Vg. 1979 Christopher Burges A Tutorial on Support Vector Machines for Pattern Recognition in: Data Mining and Knowledge Discovery 2, 1998, 121-167 Vertiefung: Bernhard Schölkopf, Alexander Smola Learning with Kernels, MIT Press, 2002 4 von 38

Probleme der Empirischen Risikominimierung Empirische Risikominimierung: Bisher haben wir lineare Modelle p Ŷ = ˆβ 0 X j ˆβj j=1 auf die Fehlerminimierung hin optimiert: RSS( ˆ N β) = (y i x T ˆβ) i 2 5 von 38

Wo trennen wir die Daten? Problem: Mehrere Funktionen mit minimalem Fehler existieren. Welche wählen? 1. Ausweg: Verbessertes Kriterium: maximum margin. 2. Ausweg: Zusätzliches Kriterium: möglichst geringe Komplexität des Modells (Regularisierung) 6 von 38

Klassifikationsproblem LS 8 Informatik Gegeben sei ein Klassifikationsproblem mit Y = {1; 1} und X R p. Sei X = C C die Menge der Trainingsbeispiele mit C = {( x, y) y = 1} und C = {( x, y) y = 1} Zur Klassifikation ist nun eine Hyperebene { H = x β 0 x, β } = 0 gesucht, die die Mengen C und C bestmöglichst trennt Für eine gegebene Hyperebene H erfolgt die Klassifikation dann durch ( ŷ = sign β 0 x, β ) 7 von 38

Notationen... LS 8 Informatik Und warum jetzt x, β statt x T β? Wir bewegen uns derzeit in einem R-Vektorraum der Beispiele mit dem Standardskalarprodukt x, β = x T β }{{} Matrixmultiplikation = x β }{{} ImplizitesSkalarprodukt Und warum jetzt β 0 x, β statt Warum nicht? Vorher β 0 = β, a x, β β 0? > 0, es geht auch β 0 < 0. 8 von 38

Klassifikation mit Hyperebenen LS 8 Informatik Die vorzeichenbehaftete Distanz eines Punktes x zu einer Hyperebene H mit dem Stützvektor a und Normalenvektor β ist d( x, H) = x, β β 0 (1) = x, β a, β (2) = x a, β (3) = x a β }{{ cos( ( x a, β)) } (4) >0 Nur cos( ( x a, β)) kann negativ werden und bestimmt die Klassifizierung. 9 von 38

Klassifikation mit Hyperebenen H x x a a α cos(α) }{{} >0 β 10 von 38

Klassifikation mit Hyperebenen LS 8 Informatik H x x a α a cos(α) }{{} <0 β 11 von 38

Klassifikation mit Hyperebenen LS 8 Informatik Die vorzeichenbehaftete Distanz d( x, H) drückt aus 1 den Abstand d( x, H) von x zu Ebene H 2 die Lage von x relativ zur Orientierung ( β) von H, d.h. sign (d( x, H)) = { 1 d( x, H) > 0, cos ( x, β) > 0 1 d( x, H) < 0, cos ( x, β) < 0 Auf diese Weise lassen sich die Punkte klassifizieren mit ( ŷ = sign β 0 x, β ) Bei y = 1 liegen die Punkte x i im Halbraum des Ursprungs. 12 von 38

Einführung von Schölkopf/Smola Gegeben eine Menge von Schafen, packe immer die ähnlichen zusammen! Vorgehen: Schafe vergleichen! 13 von 38

Einfacher Ansatz nach Schölkopf/Smola LS 8 Informatik Ein einfacher Ansatz zu einer separierenden Hyperebene zu kommen, geht über die Zentroiden von C und C : Seien c := 1 C x und c := 1 C ( x,y) C ( x,y) C x Wähle nun a := c c 2 und β := c c als Hyperebene mit Normalenvektor β durch den Punkt x 0 14 von 38

Separierende Hyperebene über Zentroiden Durch β und a ist die Hyperebene gegeben als { H = x x a, β } { = 0 = x x, β a, β } = 0 }{{} =:β 0 Damit erfolgt die Klassifikation durch ( ŷ = sign x c, β ) = sign ( x, c x, c β 0 ) 15 von 38

Lernalgorithmus im Bild c c c x c x 16 von 38

Fast...... wäre das schon die Stützvektormethode. Aber: Einfach den Mittelpunkt der Beispiele einer Klasse zu berechnen ist zu einfach, um ein ordentliches β zu bekommen. Man erhält so nicht die optimale Hyperebene. 17 von 38

Die optimale Hyperebene H Eine Menge von Beispielen heißt linear trennbar, falls es eine Hyperebene H gibt, die die positiven und negativen Beispiele trennt. 5.1: Optimale Hyperebene Eine separierende Hyperebene H heißt optimal, wenn ihr minimaler Abstand d zu allen Beispielen maximal ist. 5.2: Satz (Eindeutigkeit) Es existiert eine eindeutig bestimmte optimale Hyperebene. 18 von 38

Die optimale Hyperebene H Eine Menge von Beispielen heißt linear trennbar, falls es eine Hyperebene H gibt, die die positiven und negativen Beispiele trennt. 5.1: Optimale Hyperebene Eine separierende Hyperebene H heißt optimal, wenn ihr minimaler Abstand d zu allen Beispielen maximal ist. 5.2: Satz (Eindeutigkeit) Es existiert eine eindeutig bestimmte optimale Hyperebene. 18 von 38

Die optimale Hyperebene H Eine Menge von Beispielen heißt linear trennbar, falls es eine Hyperebene H gibt, die die positiven und negativen Beispiele trennt. 5.1: Optimale Hyperebene Eine separierende Hyperebene H heißt optimal, wenn ihr minimaler Abstand d zu allen Beispielen maximal ist. 5.2: Satz (Eindeutigkeit) Es existiert eine eindeutig bestimmte optimale Hyperebene. 18 von 38

Bild LS 8 Informatik H = { x x, β } β 0 = 0 x 1 Nach 5.1 wird die optimale Hyperebene durch die nächstliegenden Punkte aus C und C bestimmt. H 1 H 2 Skalierung von β und β 0, so dass für die nächstliegenden Punkte x i zu H gilt: β, xi β 0 = 1 x 2 Die Beispiele am nächsten zur Hyperebene liefern die beiden Hyperebenen H 1 und H 2 { H j = x x, β β 0 = (1) j} 19 von 38

Abstand der Hyperebenen zum Ursprung H = { x x, β } β 0 = 0 Der Abstand der mittleren Ebene H zum Ursprung beträgt H 2 d( 0, H ) = β 0 β H 1 Der Abstand zwischen den Ebenen H 1 und H 2 ist d(h 1, H 2 ) = β01 β β01 β = β0β011 β = 2 β 20 von 38

Margin H = { x x, β } β 0 = 0 Nach Konstruktion liegt kein Beispiel zwischen H 1 und H 2, d.h. H 2 x, β β 0 1 x C (5) H 1 x, β β 0 1 x C (6) d(h 1, H 2 ) Der Abstand d(h 1, H 2 ) = 2 β heißt Margin und soll maximiert werden! 21 von 38

Maximimum Margin LS 8 Informatik Mit der Maximierung des Margin finden wir eine optimale Hyperebene innerhalb der Menge der möglichen trennenden Hyperebenen. Konvexes, quadratisches Optimierungsproblem: Es existiert eine eindeutig bestimmte, optimale Hyperebene { H = x x, β } β 0 = 0 unter der Bedingung, dass 1 2 β 2 minimal ist. Das Optimierungsproblem läßt sich in Zeit O(N 3 ) lösen. 22 von 38

Optimierungsaufgabe LS 8 Informatik Nach diesen Vorüberlegungen haben wir also (nur noch) die folgende Optimierungsaufgabe zu lösen: Optimierungsaufgabe Minimiere 1 2 β 2 unter den Nebenbedingungen x, β x, β β 0 1 x C β 0 1 x C Die Nebenbedingungen lassen sich zusammenfassen zu y( x, β β 0 ) 1 0 ( x, y) X (7) 23 von 38

Optimierung mit Nebenbedingungen Sei die optimierende Funktion f : R R gegeben als f(x) = (x 1) 2 unter der einzigen Nebenbedingung g(x) = x 2 1, d.h. für die möglichen Lösungen x muss gelten x {x R g(x) 0} 24 von 38

Beispiel Lagrange Multiplikatoren zur Optimierung Gegeben: Funktion f(x, y), Nebenbedingung g(x, y) = c, Optimierungsziel: maximiere c. Notwendige Bedingung: f(x, y) = c und g(x, y) = c. Lagrangefunktion L(x, y, λ) = f(x, y) λ(g(x, y) c))) http://de.wikipedia.org/wiki/lagrange-multiplikator 25 von 38

Optimierung mit Lagrange Die Optimierung nach Lagrange formuliert die Optimierung einer Funktion f(x) unter Nebenbedingungen um in eine Optimierung ohne Nebenbedingungen. Mit der Lagrange-Methode lassen sich Nebenbedingungen g i und h j der Art g i (x) 0 und h j (x) = 0 in die zu optimierende Funktion f hinzufügen, im Falle eines Minimierungsproblems als min f(x) i α i g i (x) j µ j h j (x) mit α i, µ j 0 i, j Die α i und µ j heißen auch Lagrange-Multiplikatoren. 26 von 38

Lagrange-Funktion Die Umformung der Nebenbedingungen (7) erlaubt nun die Anwendung von Lagrange (nur Ungleichheitsbedingungen): Lagrange-Funktion Sei das Optimierungsproblem gegeben, f( β) zu minimieren unter den Nebenbedingungen g i ( β) 0, i = 1,..., m dann ist die Lagrange-Funktion: ( ) L β, α = f( β) m α i g i ( β) (8) Dabei muss gelten α i 0, Gleichheitsbedingungen sind nicht gegeben. 27 von 38

SVM Optimierungsfunktion als Lagrange LS 8 Informatik Die Nebenbedingungen g i sind gegeben durch g i ( β, β 0 ) = y i ( x i, β ) β 0 1 0 x i X Die Formulierung des Optimierungsproblems nach Lagrange wird auch als Primales Problem bezeichnet: Primales Problem Die Funktion L P ( β, β 0, α) = 1 2 β 2 ( α i y i ( x i, β ) ) β 0 1 soll L P bezüglich β und β 0 minimiert und bezüglich α maximiert werden! (9) 28 von 38

Karush-Kuhn-Tucker Bedingungen LS 8 Informatik Durch die partiellen Ableitung nach β und β 0 erhalten wir β L P ( β, β 0, α) = β i α i y i x i und β 0 L P ( β, β 0, α) = i α i y i Nullsetzen der Ableitungen und die Berücksichtigung der Nebenbedingungen führt zu den KKT-Bedingungen für eine Lösung für L P : β = α i y i x i und α i y i = 0 (10) α i 0 i = 1,..., N (11) ( α i y i ( x i, β ) ) β 0 1 = 0 i = 1,..., N (12) 29 von 38

Duales Problem LS 8 Informatik Das primale Problem soll bezüglich β und β 0 minimiert und bezüglich α maximiert werden: Mit den Bedingungen aus L P β Lagrange-Ausdruck L D ( α) und L P β 0 erhalten wir den dualen Der duale Lagrange-Ausdruck L( α) soll maximiert werden. Das Minimum des ursprünglichen Optimierungsproblems tritt genau bei jenen Werten von β,β 0, α auf wie das Maximum des dualen Problems. 30 von 38

Umformung des primalen in das duale Problem 1 2 β 2 = 1 2 β 2 = 1 2 β 2 (10) = 1 2 β 2 [ α i y i ( x i, β ) ] β 0 1 α i y i ( x i, β ) β 0 α i y i x i, β α i y i x i, β α i y i β 0 α i α i α i 31 von 38

Umformung II Einsetzen von β = N α i y i x i führt zu LS 8 Informatik = 1 2 1 2 β 2 = j=1 α i α j y i y j x i, x j α i 1 2 j=1 α i y i x i, β α i α j y i y j x i, x j j=1 α i α j y i y j x i, x j α i α i unter den Nebenbedingungen 0 = N α i y i und α i 0 i 32 von 38

SVM Optimierungsproblem (Duales Problem) Die Umformungen führen nach Einsetzen der KKT-Bedingungen zum dualen Problem: Duales Problem Maximiere L D ( α) = α i 1 2 y i y j α i α j x i, x j (13) j=1 unter den Bedingungen α i 0 i = 1,..., N und α i y i = 0 33 von 38

Stützvektoren LS 8 Informatik Die Lösung α des dualen Problems L D ( α) = α i 1 2 y i y j α i α j x i, x j j=1 muss die KKT-Bedingungen erfüllen, d.h. es gilt unter anderem ( α i y i ( x i, β ) ) β 0 1 = 0 i = 1,..., N α enthält für jedes Beispiel x i genau ein α i mit α i = 0, falls x i im richtigen Halbraum liegt α i > 0, falls x i auf der Hyperebene H 1 oder H 2 liegt Ein Beispiel x i mit α i > 0 heißt Stützvektor. 34 von 38

Optimale Hyperebene LS 8 Informatik Haben wir das optimale α bestimmt, erhalten wir unsere optimale Hyperebene: Nach (10) gilt β = α i y i x i d.h. der optimale Normalenvektor β ist eine Linearkombination von Stützvektoren. Um β 0 zu bestimmen können wir ( α i y i ( x i, β ) ) β 0 1 = 0 für ein beliebiges i und unser berechnetes β nutzen. 35 von 38

Berechnung der α i? Das prinzipielle Vorgehen ist bei der SVM wie bei anderen Lernverfahren auch: Parametrisierung der Modelle, hier über Umwege durch α Festlegung eines Optimalitätskriteriums, hier: Maximum Margin Formulierung als Optimierungsproblem Das finale Optimierungsproblem läßt sich mit unterschiedlichen Ansätzen lösen Numerische Verfahren (quadratic problem solver) Sequential Minimal Optimization (SMO, [J. C. Platt, 1998]) Evolutionäre Algorithmen (EvoSVM, [I. Mierswa, 2006]) 36 von 38

Zusammenfassung der Lagrange-Optimierung für SVM Das Lagrange-Optimierungs-Problem (9) ist definiert als: L P = 1 2 β 2 α i [y i ( x i, β ] β 0 ) 1 mit den Lagrange-Multiplikatoren α i 0. Notwendige Bedingung für ein Minimum liefern die Ableitungen nach β und β 0 L P β = β α i y i x i und Diese führen zum dualen Problem (13) L D = α i 1 2 i =1 L P β 0 = α i y i α i α i y i y i x i, x i 37 von 38

Was wissen wir jetzt? Maximieren des Margins einer Hyperebene ergibt eine eindeutige Festlegung der optimalen trennenden Hyperebene. Dazu minimieren wir die Länge des Normalenvektors β Formulierung als Lagrange-Funktion Formulierung als duales Optimierungsproblem Das Lernergebnis ist eine Linearkombination von Stützvektoren. Mit den Beispielen müssen wir nur noch das Skalarprodukt rechnen. 38 von 38