Vorlesung Wissensentdeckung

Ähnliche Dokumente
Vorlesung Wissensentdeckung

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen

Vorlesung Wissensentdeckung

5. Klassifikation. 5.6 Support Vector Maschines (SVM)

Mustererkennung. Support Vector Machines. R. Neubecker, WS 2018 / Support Vector Machines

Funktionslernen. 5. Klassifikation. 5.6 Support Vector Maschines (SVM) Reale Beispiele. Beispiel: Funktionenlernen

Optimal-trennende Hyperebenen und die Support Vector Machine. Volker Tresp

Support Vector Machines (SVM)

Wissensentdeckung in Datenbanken

Maschinelles Lernen Vorlesung

Lineare Klassifikatoren. Volker Tresp

Neuronale Netze. Prof. Dr. Rudolf Kruse

Support Vector Machines (SVM)

Ridge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel

Wissensentdeckung in Datenbanken

Lineare Klassifikationsmethoden

Support Vector Machines, Kernels

2 Extrema unter Nebenbedingungen

Vorlesung Maschinelles Lernen

Kuhn-Tucker Bedingung

Überwachtes Lernen / Support Vector Machines. Rudolf Kruse Neuronale Netze 246

Vorlesung Maschinelles Lernen

6 Extremwerte mit Nebenbedingungen: Die Lagrange-Multiplikatoren-Methode

Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017

KAPITEL 3. Konvexe Funktionen

Kapitel 12. Lagrange-Funktion. Josef Leydold Mathematik für VW WS 2017/18 12 Lagrange-Funktion 1 / 28. f (x, y) g(x, y) = c. f (x, y) = x y 2

Mathematische Grundlagen für Wirtschaftswissenschaftler Leseprobe - Abschnitt 6.5 (das agraökonomische Schaf )

Optimieren unter Nebenbedingungen

Einführung in Support Vector Machines (SVMs)

Substitutionsverfahren

Vorlesung Maschinelles Lernen

7 Anwendungen der Linearen Algebra

Statistical Learning

(3D-)Extrema unter Nebenbedingungen. Problemstellung (lokale Optimierung)

Mathematik 2 für Wirtschaftsinformatik

Inhalt. 8.1 Motivation. 8.2 Optimierung ohne Nebenbedingungen. 8.3 Optimierung unter Nebenbedingungen. 8.4 Lineare Programmierung

Serie 4. Analysis D-BAUG Dr. Cornelia Busch FS 2015

Optimierungstheorie Scheinklausur Sommersemester Juli 2007

Musterlösung zu Blatt 1

Vorlesung Wissensentdeckung

Technische Universität

Mathematische Werkzeuge R. Neubecker, WS 2018 / 2019 Optimierung Lagrange-Funktionen, Karush-Kuhn-Tucker-Bedingungen

FK WMS: Wirtschaftsmathematik 2, Einheit 7/8

Vorlesung Wissensentdeckung in Datenbanken

Extrema von Funktionen mit Nebenbedingung

Rückblick auf die letzte Vorlesung

Wirtschaftsmathematik 00054: Mathematik für Wirtschaftswissenschaftler II Kurseinheit 2: Lineare Algebra II

16. FUNKTIONEN VON MEHREREN VARIABLEN

3. Übungsblatt Aufgaben mit Lösungen

Dualität bei konvexer Optimierung

Machine Learning. ML Kapitel 7: Support Vector Machines. Prof. Dr. Johannes Maucher. Version November HdM CSM

Entwicklung von Optimierungsverfahren für das Lösen verschiedener Lernaufgaben mit der Stützvektormethode

Klausurrepetitorium ABWL

Inhaltsverzeichnis. Innere-Punkte-Verfahren 3. Inhaltsverzeichnis 1

Hauptseminar Machine Learning: Support Vector Machines, Kernels. Katja Kunze

Grundlagen von Support Vector Maschinen und Anwendungen in der Bildverarbeitung

Optimierung. Optimierung. Vorlesung 5 Optimierung mit Nebenbedingungen Thomas Brox, Fabian Kuhn

Support-Vektor Maschinen: Feature-Funktionen. 27. Juni / 62

Operations Research. Konvexe Funktionen. konvexe Funktionen. konvexe Funktionen. Rainer Schrader. 4. Juni Gliederung

KAPITEL 10 DIE INNERE-PUNKTE-METHODE

9 Optimierung mehrdimensionaler reeller Funktionen f : R n R

Optimierung unter Nebenbedingungen

Übung 5, Analytische Optimierung

Efficient Learning of Label Ranking by Soft Projections onto Polyhedra

Monotonie, Konkavität und Extrema

Monotonie, Konkavität und Extrema

Thema: Support Vector Machines Johannes Lächele

9 Differentialrechnung für Funktionen in n Variablen

Betriebliche Optimierung

3 Optimierung mehrdimensionaler Funktionen f : R n R

Wirtschaftsmathematik für International Management (BA) und Betriebswirtschaft (BA)

Konvexe Menge. Eine Menge D R n heißt konvex, wenn für zwei beliebige Punkte x, y D auch die Verbindungsstrecke dieser Punkte in D liegt, d.h.

One-class Support Vector Machines

Kapitel 2. Mathematik für Mikroökonomie

14.4 Warum die Methode der Lagrange-Multiplikatoren funktioniert

Graphentheorie. Kürzeste Wege. Kürzeste Wege. Kürzeste Wege. Rainer Schrader. 25. Oktober 2007

Betriebswirtschaftliche Optimierung

2.4 Verallgemeinerte Ungleichungen

Innere-Punkt-Methoden

Übungen zur Ingenieur-Mathematik III WS 2011/12 Blatt Aufgabe 25: Berechnen Sie den kritischen Punkt der Funktion

Optimierung. Vorlesung 02

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Pareto optimale lineare Klassifikation

Grundlagen von Support Vector Machines (SVM)

2 Funktionen in mehreren Variablen: Differentiation

1 Lineare Optimierung, Simplex-Verfahren

K. Eppler, Inst. f. Num. Mathematik Übungsaufgaben. 3. Übung SS 17: Woche vom

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Kombinatorische Optimierung

12. Trennungssätze für konvexe Mengen 83

Seminar: Finanzmathematik. Portfoliooptimierung im vollständigen Finanzmarktmodell. Katharina Hasow

5 Interpolation und Approximation

Lagrange-Multiplikatoren

Newton-Verfahren zur gleichungsbeschränkten Optimierung. 1 Gleichungsbeschränkte Optimierungsprobleme

Kurze Einführung in das maschinelle Lernen mit einem Fokus auf Support Vector Maschinen

Optimalitätsbedingungen

Transkript:

Gliederung Vorlesung Wissensentdeckung Stützvektormethode 1 Hinführungen zur SVM Katharina Morik, Claus Weihs 26.5.2009 2 Maximum Margin Methode Lagrange-Optimierung 3 Weich trennende SVM 1 von 40 2 von 40 Übersicht über die Stützvektormethode (SVM) Einführende Literatur Eigenschaften der Stützvektormethode (SVM) (Support Vector Machine) Maximieren der Breite einer separierenden Hyperebene maximum margin method ergibt eindeutige, optimale trennende Hyperebene. Transformation des Datenraums durch Kernfunktion behandelt Nichtlinearität. Strukturelle Risikominimierung minimiert nicht nur den Fehler, sondern auch die Komplexität des Modells. Vladimir Vapnik The Nature of Statistical Learning Theory Springer Vg. 1995 W.N. Wapnik, A. Tscherwonenkis Theorie der Zeichenerkennung Akademie Vg. 1979 Christopher Burges A Tutorial on Support Vector Machines for Pattern Recognition in: Data Mining and Knowledge Discovery 2, 1998, 121-167 Vertiefung: Bernhard Schölkopf, Alexander Smola Learning with Kernels, MIT Press, 2002 3 von 40 4 von 40

Probleme der Empirischen Risikominimierung Wo trennen wir die Daten? Empirische Risikominimierung: Bisher haben wir lineare Modelle p Ŷ = ˆβ 0 X j ˆβj j=1 auf die Fehlerminimierung hin optimiert: RSS( ˆ N β)= (y i x T ˆβ) i 2 5 von 40 Problem: Mehrere Funktionen mit minimalem Fehler existieren. Welche wählen? 1. Ausweg: Verbessertes Kriterium: maximum margin. 2. Ausweg: Zusätzliches Kriterium: möglichst geringe Komplexität des Modells (Strukturelle Risikominimierung) 6 von 40 Klassifikationsproblem Notationen... Gegeben sei ein Klassifikationsproblem mit Y = 1; 1} und X R p. Sei X = C C die Menge der Trainingsbeispiele mit C = ( x, y) y = 1} und C = ( x, y) y = 1} Zur Klassifikation ist nun eine Hyperebene H = x β 0 x, β } =0 gesucht, die die Mengen C und C bestmöglichst trennt Für eine gegebene Hyperebene H erfolgt die Klassifikation dann durch ( ŷ = sign β 0 x, β ) Und warum jetzt x, β statt x T β? Wir bewegen uns derzeit in einem R-Vektorraum der Beispiele mit dem Standardskalarprodukt x, β = x T β }} Matrixmultiplikation = x β }} ImplizitesSkalarprodukt Die Notation x, β sollte aus der linearen Algebra (Schule?) bekannt sein. 7 von 40 8 von 40

Klassifikation mit Hyperebenen Klassifikation mit Hyperebenen Ist eine Ebene H mit H = } x β 0 x, β =0 gegeben, können wir diese in Hesse-Normalenform überführen H = x β0 x, β } =0 mit β := β β, β 0 := β 0 β und erhalten die vorzeichenbehaftete Distanz eines Punktes x zu H durch d( x, H) = x x 0, β = 1 ( β x, β ) β 0 Die vorzeichenbehaftete Distanz d( x, H) drückt aus 1 den Abstand d( x, H) von x zu Ebene H 2 die Lage von x relativ zur Orientierung ( β) von H, d.h. 1, falls cos ( x, β) 0 sign (d( x, H)) = 1, sonst Auf diese Weise lassen sich die Punkte klassifizieren mit ( ŷ = sign β 0 x, β ) (Übungsaufgabe) 9 von 40 10 von 40 Einfacher Ansatz nach Schölkopf/Smola Separierende Hyperebene über Zentroiden Ein einfacher Ansatz zu einer separierenden Hyperebene zu kommen, geht über die Zentroiden von C und C : Seien Wähle nun c := 1 C x und c := 1 C ( x,y) C x 0 := c c 2 und β := c c ( x,y) C x Durch β und x 0 ist die Hyperebene gegeben als H = x x x 0, β } =0 = x x, β x 0, β }} Damit erfolgt die Klassifikation durch ( ŷ = sign x c, β ) =:β 0 =0 = sign ( x, c x, c β 0 ) (Übung) } als Hyperebene mit Normalenvektor β durch den Punkt x 0 11 von 40 12 von 40

Lernalgorithmus im Bild Fast...... wäre das schon die Stützvektormethode. Aber: c c x c x c Einfach den Mittelpunkt der Beispiele einer Klasse zu berechnen ist zu einfach, um ein ordentliches β zu bekommen. Man erhält so nicht die optimale Hyperebene. 13 von 40 14 von 40 Die optimale Hyperebene Bild Eine Menge von Beispielen heißt linear trennbar, falls es eine Hyperebene H gibt, die die positiven und negativen Beispiele trennt. 5.1: Optimale Hyperebene Eine separierende Hyperebene H heißt optimal, wenn ihr Abstand d zum nächsten positiven und nächsten negativen Beispiel maximal ist. 5.2: Satz (Eindeutigkeit) Es existiert eine eindeutig bestimmte optimale Hyperebene. d d H = x x, β } β 0 =0 β 0 x 0 H 1 H 2 Nach 5.1 wird die optimale Hyperebene durch die nächstliegenende Punkte aus C und C bestimmt. Skalierung von β und β 0, so dass β, x β 0 =1 für alle Beispiele am nächsten zur Hyperebene liefert die Hyperebenen H 1 und H 2 H j = x x, β β 0 =(1) j} 15 von 40 16 von 40

Abstand der Hyperebenen zum Ursprung Margin H = x x, β } β 0 =0 Der Abstand der mittleren Ebene H zum Ursprung beträgt Nach Konstruktion liegt kein Beispiel zwischen H 1 und H 2, d.h. β 0 x 0 H 1 H 2 d( 0,H )= β 0 β Die Abstände der grauen Ebenen H 1 und H 2 sind d( 0,H j )= β 0 (1) j β H 1 H 2 d(h1,h 2 )= 2 β x, β β 0 1 x C (1) x, β β 0 1 x C (2) Der Abstand d(h 1,H 2 )= 2 β heißt Margin und soll maximiert werden! H 1 H H 2 d d 17 von 40 18 von 40 Maximimum Margin Optimierungsaufgabe Mit der Maximierung des Margin finden wir eine optimale Hyperebene innerhalb der Menge der möglichen trennenden Hyperebenen. Durch die Minimierung von 1 2 β 2 erhalten wir ein konvexes, quadratisches Optimierungsproblem, d.h. Es existiert eine eindeutig bestimmte, optimale Hyperebene H = x x, β } β 0 =0 Das quadratische Optimierungsproblem läßt sich in Zeit O(N 3 ) lösen. Nach diesen Vorüberlegungen haben wir also (nur noch) die folgende Optimierungsaufgabe zu lösen: Optimierungsaufgabe Minimiere 1 2 β 2 unter den Nebenbedingungen x, β x, β β 0 1 x C β 0 1 x C Die Nebenbedingungen lassen sich zusammenfassen zu y( x, β β 0 ) 1 0 ( x, y) X (3) 19 von 40 20 von 40

Optimierung mit Nebenbedingungen Optimierung mit Lagrange Sei die optimierende Funktion f : R R gegeben als f(x) =(x 1) 2 unter der einzigen Nebenbedingung g(x) =x 2 1, Die Optimierung nach Lagrange ermöglicht die Optimierung einer Funktion f(x) unter Nebenbedingungen durch Relaxation. Mit der Lagrange-Methode lassen sich Nebenbedingungen g i und h j der Art g i (x) 0 und h j (x) =0 behandeln, indem diese zur zu optimierenden Funktion f hinzugefügt werden, im Falle eines Minimierungsproblems als d.h. für die möglichen Lösungen x muss gelten min f(x) i g i (x) j µ j h j (x) mit,µ j 0 i, j x x R g(x) 0} Die und µ j heißen auch Lagrange-Multiplikatoren. 21 von 40 22 von 40 Lagrange-Funktion Optimierungsfunktion als Lagrange Die Umformung der Nebenbedingungen (3) erlaubt nun die Anwendung von Lagrange (nur Ungleichheitsbedingungen): Lagrange-Funktion Sei das Optimierungsproblem gegeben, f( β) zu minimieren unter den Nebenbedingungen g i ( β) 0,,..., m dann ist die Lagrange-Funktion: ( ) L β, α = f( β) m g i ( β) (4) Dabei muss gelten 0, Gleichheitsbedingungen sind nicht gegeben. Die Nebenbedingungen g i sind gegeben durch g i ( β, β 0 )=y i ( x i, β ) β 0 1 0 x i X Die Formulierung des Optimierungsproblems nach Lagrange wird auch als Primales Problem bezeichnet: Primales Problem Die Funktion L P ( β, β 0, α )= 1 2 β 2 ( ( x i, β ) ) β 0 1 soll L P bezüglich β und β 0 minimiert und bezüglich α maximiert werden! (5) 23 von 40 24 von 40

Karush-Kuhn-Tucker Bedingungen Duales Problem Durch die partiellen Ableitung nach β und β 0 erhalten wir β L P ( β, β 0, α )= β i x i und β 0 L P ( β, β 0, α )= i Das primale Problem soll bezüglich β und β 0 minimiert und bezüglich α maximiert werden: Nullsetzen der Ableitungen und die Berücksichtigung der Nebenbedingungen führt zu den KKT-Bedingungen für eine Lösung für L P : β = x i und =0 (6) 0 i =1,..., N (7) ( ( x i, β ) ) β 0 1 =0 i =1,..., N (8) Mit den Bedingungen aus L P β Lagrange-Ausdruck L D ( α ) und L P β 0 erhalten wir den dualen Der duale Lagrange-Ausdruck L( α ) soll maximiert werden. Das Minimum des ursprünglichen Optimierungsproblems tritt genau bei jenen Werten von β,β 0, α auf wie das Maximum des dualen Problems. 25 von 40 26 von 40 Umformung des primalen in das duale Problem 1 2 β 2 = 1 2 β 2 = 1 2 β 2 (6) = 1 2 β 2 [ ( x i, β ) ] β 0 1 ( x i, β ) β 0 x i, β x i, β β 0 27 von 40 Umformung II Einsetzen von β = N x i führt zu = 1 2 1 2 β 2 = j=1 α j y i y j x i, x j 1 2 j=1 x i, β α j y i y j x i, x j j=1 α j y i y j x i, x j unter den Nebenbedingungen 0= N und 0 i 28 von 40

SVM Optimierungsproblem (Duales Problem) Stützvektoren Die Umformungen führen nach Einsetzen der KKT-Bedingungen zum dualen Problem: Duales Problem Maximiere L D ( α )= 1 2 unter den Bedingungen j=1 y i y j α j x i, x j (9) Die Lösung α des dualen Problems L D ( α )= 1 2 j=1 y i y j α j x i, x j muss die KKT-Bedingungen erfüllen, d.h. es gilt unter anderem ( ( x i, β ) ) β 0 1 =0 i =1,..., N α enthält für jedes Beispiel x i genau ein mit 0 i =1,..., N und =0 =0, falls x i im richtigen Halbraum liegt > 0, falls x i auf der Hyperebene H 1 oder H 2 liegt Ein Beispiel x i mit > 0 heißt Stützvektor. 29 von 40 30 von 40 Optimale Hyperebene Berechnung der? Haben wir das optimale α bestimmt, erhalten wir unsere optimale Hyperebene: Nach (6) gilt β = x i d.h. der optimale Normalenvektor β ist eine Linearkombination von Stützvektoren. Um β 0 zu bestimmen können wir ( ( x i, β ) ) β 0 1 =0 für ein beliebiges i und unser berechnetes β nutzen. Das prinzipielle Vorgehen ist bei der SVM wie bei anderen Lernverfahren auch: Parametrisierung der Modelle, hier über Umwege durch α Festlegung eines Optimalitätskriteriums, hier: Maximum Margin Formulierung als Optimierungsproblem Das finale Optimierungsproblem läßt sich mit unterschiedlichen Ansätzen lösen Numerische Verfahren (quadratic problem solver) Sequential Minimal Optimization (SMO, [J. C. Platt, 1998]) Evolutionäre Algorithmen (EvoSVM, [I. Mierswa, 2006]) 31 von 40 32 von 40

Zusammenfassung der Lagrange-Optimierung für SVM Was wissen wir jetzt? Das Lagrange-Optimierungs-Problem (5) ist definiert als: L P = 1 2 β 2 [y i ( x i, β ] β 0 ) 1 mit den Lagrange-Multiplikatoren 0. Notwendige Bedingung für ein Minimum liefern die Ableitungen nach β und β 0 L P β = β x i und Diese führen zum dualen Problem (9) L D = 1 2 i =1 L P β 0 = y i y i x i, x i 33 von 40 Maximieren des Margins einer Hyperebene ergibt eine eindeutige Festlegung der optimalen trennenden Hyperebene. Dazu minimieren wir die Länge des Normalenvektors β Formulierung als Lagrange-Funktion Formulierung als duales Optimierungsproblem Das Lernergebnis ist eine Linearkombination von Stützvektoren. Mit den Beispielen müssen wir nur noch das Skalarprodukt rechnen. 34 von 40 SVM mit Ausnahmen Nicht linear trennbare Daten Was passiert, wenn die Beispiele nicht komplett trennbar sind? In der Praxis sind linear trennbare Daten selten: 1. Ansatz: Entferne eine minimale Menge von Datenpunkten, so dass die Daten linear trennbar werden (minimale Fehlklassifikation). Problem: Algorithmus wird exponentiell.? 35 von 40 36 von 40

SVM mit Ausnahmen Weich trennende Hyperebene Ein anderer Ansatz basiert wieder auf einer Relaxation: Punkte, die nicht am Rand oder auf der richtigen Seite der Ebene liegen, bekommen einen Strafterm ξ j > 0. Korrekt klassifizierte Punkte erhalten eine Variable ξ j =0. Dies führt zu folgenden Minimierungsproblem 1 2 β 2 C ξ j für ein festes C R >0 (10) j=1 Daraus folgt insbesondere 0 C 37 von 40 Relaxiertes Optimierungsproblem Sei C R mit C>0 fest. Minimiere β 2 C unter den Nebenbedingungen x i, β β 0 1 ξ i für y i = 1 x i, β β 0 1ξ i für y i = 1 Durch Umformung erhalten wir wieder Bedingungen für die Lagrange-Optimierung: y i ( x i, β β 0 ) 1 ξ i i =1,..., N ξ i 38 von 40 Bedeutung von ξ und α Wo sind wir? ξ > 1, α = C f( x) =1 f( x) =0 f( x) = 1 Beispiele x i mit > 0 sind Stützvektoren. ξ =0, α =0 ξ =0, 0 α C 0 ξ 1, 0 α C 39 von 40 Maximieren der Breite einer separierenden Hyperebene (maximum margin method) ergibt eindeutige, optimale trennende Hyperebene. Das haben wir heute in der Theorie für linear separierbare Beispielmengen und mit weicher Trennung gesehen wie es praktisch geht, sehen wir nächstes Mal. Die Grundlagen waren die selben wie bei den linearen Modellen. Transformation des Datenraums durch Kernfunktion behandelt Nichtlinearität. Das kam nur einmal am Rande vor. Wir sehen es nächstes Mal genauer. Es baut auf die Behandlung der Nichtlinearität durch die Basisexpansion auf. Strukturelle Risikominimierung minimiert nicht nur den Fehler, sondern auch die Komplexität des Modells. Später! 40 von 40