Support-Vektor Maschinen: Feature-Funktionen. 27. Juni / 62

Ähnliche Dokumente
(1) Der Anwender hat stets die Möglichkeit, die Beispiele durch Zusatzinformationen (Features) aufzubereiten.

Optimal-trennende Hyperebenen und die Support Vector Machine. Volker Tresp

Support Vector Machines (SVM)

Mustererkennung. Support Vector Machines. R. Neubecker, WS 2018 / Support Vector Machines

Lineare Klassifikatoren. Volker Tresp

KAPITEL 3. Konvexe Funktionen

Vorlesung Wissensentdeckung

Vorlesung Maschinelles Lernen

Vorlesung Wissensentdeckung

Vorlesung Maschinelles Lernen

Vorlesung Wissensentdeckung

Funktionslernen. 5. Klassifikation. 5.6 Support Vector Maschines (SVM) Reale Beispiele. Beispiel: Funktionenlernen

Von schwachen zu starken Lernern

Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017

Operations Research. Konvexe Funktionen. konvexe Funktionen. konvexe Funktionen. Rainer Schrader. 4. Juni Gliederung

Konvexe Menge. Eine Menge D R n heißt konvex, wenn für zwei beliebige Punkte x, y D auch die Verbindungsstrecke dieser Punkte in D liegt, d.h.

9 Optimierung mehrdimensionaler reeller Funktionen f : R n R

Mathematische Werkzeuge R. Neubecker, WS 2018 / 2019 Optimierung Lagrange-Funktionen, Karush-Kuhn-Tucker-Bedingungen

3 Optimierung mehrdimensionaler Funktionen f : R n R

Optimierungstheorie Scheinklausur Sommersemester Juli 2007

5. Klassifikation. 5.6 Support Vector Maschines (SVM)

Neuronale Netze. Prof. Dr. Rudolf Kruse

Wissensentdeckung in Datenbanken

Maschinelles Lernen Vorlesung

Lineare Algebra II 8. Übungsblatt

Optimierung. Optimierung. Vorlesung 5 Optimierung mit Nebenbedingungen Thomas Brox, Fabian Kuhn

Computational Learning Theory. Sommersemester 2018

Innere-Punkt-Methoden

[5], [0] v 4 = + λ 3

Ridge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel

(a), für i = 1,..., n.

Wirtschaftsmathematik II

Technische Universität München Zentrum Mathematik. Übungsblatt 7

a b Q = b a 0 ) existiert ein Element p Q, so dass gilt: q 1 q 2 = 2 b 1 b 2 a 1 b 2 a 2 b 1 a 1 a 2 b 1 b 2 a 1 b 2 a 2 b 1 a b p = 1 det(q) C 2 2,

Einführung in Support Vector Machines (SVMs)

Implizite Funktionen, der Umkehrsatz und Extrema unter Nebenbedingungen

Vorbereitung für die Prüfung Mathematik II für Informatiker

Dualitätssätze der linearen Optimierung

Optimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren Thomas Brox, Fabian Kuhn

Lösungen zur Prüfung Lineare Algebra I/II für D-MAVT

Lösung - Serie 25. D-MAVT/D-MATL Analysis II FS 2017 Dr. Andreas Steiger

Support Vector Machines (SVM)

1 Einführung in Lineare Programme und Dualität

Kapitel 12. Lagrange-Funktion. Josef Leydold Mathematik für VW WS 2017/18 12 Lagrange-Funktion 1 / 28. f (x, y) g(x, y) = c. f (x, y) = x y 2

Optimierung für Wirtschaftsinformatiker: Dualität, Ganzzahlige lineare Optimierung

FK WMS: Wirtschaftsmathematik 2, Einheit 7/8

3 a) Berechnen Sie die normierte Zeilenstufenform der Matrix A = normierte Zeilenstufenform:

Test zum PS Lineare Algebra und Geomtrie 2 H. Feichtinger & D. Eiwen Wintersemester 2011 Datum: 28. Nov. 2011

Holomorphe Funktionen

M U = {x U f 1 =... = f n k (x) = 0}, (1)

Klausur zur Vorlesung Lineare Algebra I

Lineare Klassifikationsmethoden

f f(x ɛξ) f(x) 0, d.h. f (x)ξ = 0 für alle ξ B 1 (0). Also f (x) = 0. In Koordinaten bedeutet dies gerade, dass in Extremstellen gilt: f(x) = 0.

Statistical Learning

Kapitel 5. Peter Becker (H-BRS) Operations Research I Sommersemester / 298

Mathematik 2 für Wirtschaftsinformatik

Vorlesung Einführung in die Mathematische Optimierung (Wintersemester 2013/14)

Vorlesung Einführung in die Mathematische Optimierung (Wintersemester 2013/14)

Pareto optimale lineare Klassifikation

Der Begriff der konvexen Menge ist bereits aus Definition 1.4, Teil I, bekannt.

Lösungen zu den Hausaufgaben zur Analysis II

Lineare Algebra für PhysikerInnen

Inhalt. Mathematik für Chemiker II Lineare Algebra. Vorlesung im Sommersemester Kurt Frischmuth. Rostock, April Juli 2015

Online Lernen: Die Themen

Richie Gottschalk Lineare Algebra I Seite 1. a) Welche der folgenden Ringe sind kommutativ? Es gibt genau einen Unterraum W von V mit dim(w ) = n.

T := {σ S 4 σ 3 = Id}. a) Es seien V ein Vektorraum und Φ ein Endomorphismus von V, sodass

Das Trust-Region-Verfahren

Das Lagrange-duale Problem

Serie 8: Online-Test

Nachklausur zur Analysis 2, SoSe 2017

Aufgaben und Lösungen zur Klausur Lineare Algebra im Frühjahr 2009

1 0, x C X (A). = 1 χ A(x).

5 Quadriken. K = { R 2 ax 2 + bxy + cy 2 + dx + ey + f = 0} wobei a, b, c, d, e, f reelle Zahlen sind mit (a, b, c) (0, 0, 0).

Optimierung unter Nebenbedingungen

Teil 6. Differentialrechnung mehrerer Veränderlicher

5 Stetigkeit und Differenzierbarkeit

Optimieren unter Nebenbedingungen

5 Eigenwerte und die Jordansche Normalform

Lineare Algebra und Numerische Mathematik für D-BAUG

Kapitel 5. Eigenwerte. Josef Leydold Mathematik für VW WS 2017/18 5 Eigenwerte 1 / 42

Lineare Algebra II 11. Übungsblatt

{ id, falls sgn(σ) = 1, τ, falls sgn(σ) = 1,

2.4 Verallgemeinerte Ungleichungen

5 Eigenwerte und die Jordansche Normalform

Proseminar Lineare Algebra II, SS 11. Blatt

2 k k 1 k(k + 1) = 2n+1. n = 0 = k(k + 1) = 2n+1 n n. = 2 n+1 n + 2 (n + 1)(n + 2) + n. (n + 1)(n + 2)

Online Lernen: Die Themen

3.6 Eigenwerte und Eigenvektoren

10.5 Maximum-Likelihood Klassifikation (I)

Support Vector Machines, Kernels

D-MAVT NUMERISCHE MATHEMATIK FS 14 K. Nipp, A. Hiltebrand Lösung vom Test 2

Lineare Algebra für D-ITET, D-MATL, RW. Beispiellösung für Serie 6. Aufgabe 6.1. Dr. V. Gradinaru K. Imeri. Herbstsemester 2018.

Wirtschaftsmathematik für International Management (BA) und Betriebswirtschaft (BA)

Stroppel Musterlösung , 180min. Aufgabe 1 (4 Punkte) Bestimmen Sie die folgenden Grenzwerte und Funktionengrenzwerte.

Musterlösungen zur Linearen Algebra II Weihnachtszettel

Es wird vor allem auf die wesentlichen Ideen der Verfahren eingegangen und weniger auf Details.

Übungsblatt

Transkript:

Support-Vektor Maschinen: Feature-Funktionen 27. Juni 2017 1 / 62

Feature Funktionen Beispiele werden durch Zusatzinformationen, Features, aufbereitet. Eine Funktion φ : X R N heißt eine Feature-Funktion. φ(x) = (φ 1 (x),..., φ N (x)) ist der Feature-Vektor des Beispiels x und ist der Feature-Raum. φ(x) = {φ(x) x X} Der Lernalgorithmus erhält die klassifizierten Feature-Vektoren φ(x 1 ),..., φ(x s ) anstatt der ursprünglichen Beispiele x 1,..., x s X. 27. Juni 2017 2 / 62

Feature-Funktionen: Der Bag-of-Words Ansatz Atomarer Text (oder Atome) eines Textes T sind sinntragende Teilworte von T wie Stammsilben oder ganze Worte. - Für ein Atom s und ein Dokument x D aus einer Menge D von Dokumenten ist hs (x) die Häufigkeit des Atoms s im Dokument x, D(s) die Anzahl untersuchter Dokumente mit mindestens einem Auftreten des Atoms s und κ(x) eine Normalisierungskonstante. - Für ein Dokument x ist φ(x) = (φ s (x) s) ein Feature-Vektor mit φ s (x) = h s(x) log 2 ( D D(s) ) κ(x) φ s (x) gewichtet die Häufigkeit des Atoms s im Dokument x mit dem Informationsgehalt log 2 ( D D(s) ) des Atoms. 27. Juni 2017 3 / 62

Feature-Funktionen: Interpolation Wir erhalten Paare, die aus einem Punkt x X R 3 und einem Wert y = p(x) R bestehen. Gesucht ist ein Polynoms p vom Grad 2. - Wir wählen die Feature-Funktion φ(x 1, x 2, x 3 ) = (x 2 1, x 2 2, x 2 3, x 1 x 2, x 1 x 3, x 2 x 3, x 1, x 2, x 3, 1). - Wir suchen also nach Koeffizienten c i, so dass (c 1 x 2 1 + c 2 x 2 2 + c 3 x 2 3 ) + (c 4 x 1 x 2 + c 5 x 1 x 3 + c 6 x 2 x 3 ) + (c 7 x 1 + c 8 x 2 + c 9 x 3 ) + c 0 = y für alle x X gilt. Das unbekannte Polynom wird zu einer linearen Funktion, die durch ein lineares Gleichungssystem bestimmt werden kann. 27. Juni 2017 4 / 62

Support-Vektor Maschinen: Die Grundidee 27. Juni 2017 5 / 62

Support-Vektor Maschinen: Der Ansatz Eine binäre Klassifizierung f : X {0, 1} ist zu lernen. 1. Der Entwickler konstruiert eine Feature Funktion φ : X R N. 2. In {φ(x 1 ),..., φ(x s ) } sind die positiven von den negativen Beispielen mit Hilfe einer Hyperebene im R N bestmöglich zu trennen. + Halbräume sind die mächtigste, effizient lernbare Hypothesenklasse. Benutze die lineare Programmierung.? Für großes N ist der Feature-Raum φ(x) hochdimensional:! Die Bestimmung einer trennenden Hyperebene ist aufwändig.! Sind viele Beispiele notwendig? Overfitting droht! 27. Juni 2017 6 / 62

Die Grundidee: Klassifikation mit großem Margin Bestimme eine trennende Hyperebene, die die positiven von den negativen Beispielen mit möglichst großem Margin ρ trennt. (1) Der Perzeptron-Algorithmus benötigt höchstens ( ) R 2 ρ Gegenbeispiele, wenn alle Beispiele die Norm R besitzen. Wenige Gegenbeispiele bei entsprechend großem Margin ρ. Abhängigkeit von der Dimension des Feature Raums nur indirekt, nämlich über den Margin ρ und den Radius R! (2) Kein Overfitting für relativ kleines R und relativ großes ρ? Aber der Aufwand in der Bestimmung einer trennenden Hyperebene im hochdimensionalen Feature-Raum ist doch hoch?! 27. Juni 2017 7 / 62

Der Kernel-Trick 27. Juni 2017 8 / 62

Der Kernel-Trick (1/3) Was passiert im Beispielraum X bei der Trennung der positiven von den negativen Feature-Vektoren durch f (x) = w, φ(x) + t? Der Perzeptron Algorithmus bestimmt s w = α i φ(x i ) i=1 als Linearkombination der Gegenbeispiele φ(x 1 ),..., φ(x s ) = s f (x) = w, φ(x) + t = α i φ(x i ), φ(x) + t = i=1 s α i φ(x i ), φ(x) +t. }{{} =:K (x i,x) i=1 27. Juni 2017 9 / 62

Der Kernel-Trick (2/3) Definiere den Kern K durch K (x, z) := φ(x), φ(z). Aus f (x) = s i=1 α i φ(x i ), φ(x) + t folgt s f (x) = α i K (x i, x) + t. i=1? Wann kann K (x i, x) schnell berechnet werden?? Welche Funktionen K kommen in Frage? Offensichtlich ist K (x, z) = x, z eine Möglichkeit. Später: polynomielle Kerne K (x, z) = ( x, z ) d, der Gauß-Kern K (x, z) = e x z 2 2σ 2 und viele weitere Funktionen. Im Beispielraum trennen wir also unter Umständen mit komplexen Hyperflächen {x s i=1 α i K (x i, x) = t}. 27. Juni 2017 10 / 62

Der Kernel-Trick (3/3) Wir möchten eine Signatur für einen Virus erstellen. Für ein Alphabet Σ sei X eine Menge X Σ von Dateien, von denen wir wissen ob sie befallen sind oder nicht. Für eine Zahl d wähle die Eigenschaft ein Wort u Σ d als Teilwort zu haben als Feature und definiere die Feature-Funktion φ(x) := ( b v v Σ d ), wobei b v {0, 1} und b v = 1 v ist ein Teilwort von x. :-( Der Feature-Raum hat die viel zu große Dimension Σ d. :-) φ(x), φ(x ) = Anzahl gemeinsamer Teilstrings für x und x = der Kern lässt sich in Zeit O(min{ x, y } 2 ) berechnen. 27. Juni 2017 11 / 62

Lernen mit großem Margin 27. Juni 2017 12 / 62

Support-Vektor Maschinen: Das Verfahren (1/3) Wenn positive und negative Feature-Vektoren linear trennbar sind: 1. Bestimme eine Feature-Funktion φ : X R. 2. Fordere klassifizierte Beispiele (φ(x 1 ), f (x 1 )),..., (φ(x s ), f (x s )) an. 3. Trenne positive und negative Beispiele mit möglichst großem Margin: Wenn die lineare Funktion w, z + t mit w = 1 den Margin ρ erreicht, dann ist f (x i ) ( w, φ(x i ) + t ) ρ für alle i. Deshalb löse das Maximierungsproblem maximiere w,t ρ sodass w = 1 und für jedes i, (1 i s): f (x i ) ( w, φ(x i ) + t ) ρ. 27. Juni 2017 13 / 62

Support-Vektor Maschinen: Das Verfahren (2/3) Das Optimierungsproblem hat nur lineare Nebenbedingungen bis auf die Bedingung w = 1.? Wir können die Bedingung w = 1 durch w 1 ersetzen: Die Bedingung ist zumindest konvex. Statt den Margin ρ unter der Nebenbedingung w 1 zu maximieren, minimiere w unter der Nebenbedingung ρ 1: minimiere w,t w 2 sodass für jedes i, (1 i s): f (x i ) ( w, φ(x i ) + t ) 1. + Das Optimierungsproblem ist gutartig: Eine konvexe quadratische Form ist unter linearen Nebenbedingungen zu minimieren,? aber im hochdimensionalen Feature-Raum! 27. Juni 2017 14 / 62

Support-Vektor Maschinen: Das Verfahren (3/3) Bisherige Annahme: Vollständige Trennbarkeit (Hard Margin). Jetzt: Nur partielle Trennbarkeit (Soft Margin) Füge Slack Variablen ξ i für jedes Beispiel hinzu und löse minimiere w,t,ξ w 2 + C m i=1 ξ i sodass für jedes i: f (x i ) ( w, φ(x i ) + t ) 1 ξ i und ξ 0. - Je größer ξ i umso schlechter die Klassifizierung von φ(x i ). - Der Parameter C definiert wie stark falsche Klassifizierungen bestraft werden: Bestimme C mit Validierung. 27. Juni 2017 15 / 62

Beispielkomplexität 27. Juni 2017 16 / 62

Der empirische Margin-Loss: Vorbereitung Wird der Margin ρ für ein Beispiel φ(x) eingehalten. unterschritten, bzw. wird φ(x) sogar falsch klassifiziert? Für eine positive reelle Zahl ist 0 ρ < z Φ ρ (z) := 1 z ρ 0 z ρ 1 z < 0. Im Folgenden: h(x) = w, x mit w 1 sei eine lineare Funktion. 27. Juni 2017 17 / 62

Der empirische Margin-Loss (a) Für eine Hypothese h mit h : R N R, eine Verteilung D auf X und eine Beispielmenge S = { x 1,..., x s } X ist Loss S,ρ (h) := 1 s der empirische Margin-Loss. s i=1 ( ) Φ ρ f (x i )h(φ(x i )) (b) Des weiteren ist ( ) Loss D (h) = E x D [ Φ ρ f (x)h(φ(x)) ] der erwartete Hinge a Loss. a hinge (engl.) steht für Scharnier oder Gelenk. Der erwartete 0-1 Loss ist nicht größer als der erwartete Hinge Loss. 27. Juni 2017 18 / 62

Der Verallgemeinerungsfehler für SVMs Es gelte φ(x) R für alle x X und es sei ρ > 0. Bei s Beispielen gilt für jedes δ > 0 und jede lineare Funktion h(x) = w, x mit w 1, Loss D (h) Loss S,ρ (h) + 1 ( R 2 2 }{{}}{{} s ρ 2 + ln 1 ) δ 2 erwarteter Hinge Loss empirischer Margin-Loss mit Wahrscheinlichkeit mindestens 1 δ. R ρ << s, sonst ist Schranke bedeutungslos. 0-1 Loss Hinge-Loss Wir erhalten eine obere Schranke für den wahren Fehler. Neue Perspektive: Keine Forderung an die Beispielzahl, sondern eine Aussage über den Fehler. Ist die Aussage gut oder schlecht? 27. Juni 2017 19 / 62

Gute oder schlechte Fehlerschranke? Loss D (h) }{{} erwarteter Hinge Loss ( ) Loss S,ρ (h) + 1 R }{{} s 2 2 ln + 1 ρ 2 δ 2 empirischer Margin-Loss Eine heuristische Rechnung führt auf ε 1 s ε 2 1 ( s R 2 2 ρ 2 + 1 ( 4R 2 s ρ 2 + ln 1 δ 2 ln 1 δ 2 ) 2 ( ) R 2 2 ln + 1 ρ 2 δ 2 = ) ( ( 1 R 2 = O s ρ 2 + ln 1 )) δ Fehlerschranke wie im agnostischen Lernmodell. Schlechte Schranke, wenn R 2 /ρ 2 sehr viel größer als die Dimension des Feature-Raums ist. 27. Juni 2017 20 / 62

Fehlerschranke im Hard-Margin-Fall 1 LINEAR ρ (Def) ist die Klasse aller Threshold-Funktionen mit Definitionsbereich Def und Margin ρ auf Def. 2 VC(LINEAR ρ (Def)) R2 ρ 2. Im Idealfall gehört die Zielfunktion f zur Klasse LINEAR ρ (Def) = s 1 ( ) R 2 ε ρ 2 ln(1 ε ) + ln(1 δ ) bzw ε 1 ( ) R 2 s ρ 2 ln(1 ε ) + ln(1 δ ) Bis auf logarithmische Faktoren gilt ε 1 ( ) R 2 s ρ 2 + ln(1 δ ). 27. Juni 2017 21 / 62

Was ist getan, was bleibt zu tun? Ein vorläufiges Fazit: Effizientes Training - aber nicht für sehr große Beispielzahlen. ERM-Hypothesen werden bestimmt. Hochwahrscheinlicher Lernerfolg ist bei kleinem empirischen Margin-Loss garantiert. 1. Wie sehen typische Anwendungen aus? 2. Welche Funktionen können als Kern verwandt werden? 3. Wie findet man im hochdimensionalen Feature-Raum schnell eine lineare Trennung mit großem Margin? 27. Juni 2017 22 / 62

Anwendungen 27. Juni 2017 23 / 62

Text Klassifikation: Der Bag-of-Words Ansatz Zwei Anwendungen: - Klassifiziere Nachrichten einer Nachrichtenagentur in verschiedene Kategorien. - Ordne medizinische Dokumente einer von 23 Krankheiten zu. (1) Der Bag-of-Words Ansatz besitzt für jede Stammsilbe s und jedes Dokument x das Feature φ s (x) = h s(x) log 2 ( D D(s) ) κ(x) (2) Das innere Produkt φ(x), φ(z) = s φ s (x) φ s (z) wird benutzt. Auch polynomielle Kerne und der Gauß-Kern erreichen eine ähnliche Leistung: Die Wahl des Kerns ist nicht entscheidend. 27. Juni 2017 24 / 62

Experimentbedingungen (1) Nachrichtenklassifikation: Training mit 9603 Nachrichten der Agentur Reuters, Evaluierung mit 3299 Nachrichten. Durchschnittliche Nachrichtenlänge ungefähr 200 Worte. Die 10,000 Stammsilben mit größtem Informationsgehalt (auf der Trainingsmenge) werden ausgewählt. (2) Krankheitszuordnung: 10,000 medizinische Dokumente werden zum Training und 10,000 Dokumente zur Evaluierung benutzt. 15,561 Stammsilben werden ausgewählt, wobei jede Stammsilbe in mindestens drei Dokumenten vorkommt. In beiden Fällen ist die Lernleistung konventionellen Ansätzen (Bayes-Verfahren, Rocchio, C4.5 und k-nearest Neighbor) überlegen. 27. Juni 2017 25 / 62

Bilderkennung (1/2) 100 Objekte werden aus 72 verschiedenen Blickwinkeln aufgenommen. Jedes Bild ist einem der Objekte zuzuordnen. - Die Feature Funktion φ: Die 7200 Bilder werden, nach Durchschnittsbildung auf 4 4 Gittern, von einer Auflösung von 128 128 Pixel auf 32 32 Pixel reduziert. Die Feature-Funktion weist jedem Bild also einen Vektor von 1024 Graustufen zu. - Die Objekte sind aufgrund der großen Zahl der Features bereits mit dem linearen Kern trennbar. 27. Juni 2017 26 / 62

Bilderkennung (2/2) 1400 Photos der Corel Stock Photo Collection sind verschiedenen Kategorien zuzuweisen. 2/3 der Photos werden zum Training und 1/3 zum Test verwandt. (1) Die Feature Funktion: Jedem Pixel wird sein HSV-Wert (Hue Saturation Value) zugewiesen. HSV-Werte sind biologisch plausibler als RGB-Werte, da auch Helligkeitsinformation benutzt wird. Der 3-dimensionale Würfel der HSV-Werte wird in 4096 Farbbereiche zerlegt. Jedem Bild wird ein Histogramm als Feature-Vektor zugeodnet, das die Häufigkeit für jeden Farbbereich wiedergibt. Der Feature-Vektor ist translations-invariant. (2) Der Kern K (x, z) = exp x z 1 mit x z 1 = i x i z i wird erfolgreich eingesetzt. Die Wahl des Kerns ist kritisch. 27. Juni 2017 27 / 62

Ziffernerkennung - In einem Benchmark-Datensatz des US Postal Service für die Ziffererkennung treten 7291 Trainings- und 2007 Testbeispiele auf. - Jedes Beispiel des Datensatzes wird als 16 16 Pixelmatrizen mit 256 Graustufen repräsentiert. (1) Die Feature-Funktion: Es ist φ(x) = x. Die Features entsprechen somit den Grauwerten der einzelnen Pixel. (2) Es werden polynomielle Kerne und der Gauß-Kern benutzt: Für polynomielle Kerne ergibt sich lineare Separierbarkeit erst für den Grad d 3. (3) Support-Vektor Maschinen werden somit ohne problem-spezifische Aufbereitung eingesetzt. Die Lernleistung ist nur wenig schwächer als die der besten maßgeschneiderten Methoden. 27. Juni 2017 28 / 62

Kerne 27. Juni 2017 29 / 62

Kerne Sei V ein Vektorraum. (a), : V 2 R ist ein inneres Produkt für V, falls ( ), bilinear ist, falls also α x + β y, u = α x, u + β y, u und x, γ u + δ v = γ x, u + δ x, v für alle α, β, δ, γ R und Vektoren x, y, u, v V gilt, ( ) x, u = u, x für alle Vektoren x, u V gilt und falls ( ) für alle x V : x, x 0 und x, x = 0 x = 0. (b) Ein Kern für eine Menge X ist eine Funktion K : X 2 R, wobei K (x, z) = φ(x), φ(z) für eine Funktion φ : X R N und ein inneres Produkt,. 27. Juni 2017 30 / 62

Der Kern als Ähnlichkeitsmaß α(x, z) := K (x, z) K (x, x) K (z, z) = = φ(x) φ(x), φ(x), φ(z) φ(x), φ(x) φ(z), φ(z) ( ) φ(z) φ(z) = Kosinus φ(x), φ(z) [ 1, 1]. - Die Vektoren φ(x) und φ(z) (und damit die Beispiele x und z) sind ähnlich, wenn α(x, z) nahe bei Eins liegt. - Positive und negative Beispiele sollten jeweils untereinander ähnlich sein, um eine lineare Trennung zu erlauben. 27. Juni 2017 31 / 62

Wann ist K ein Kern? Der Satz von Mercer 27. Juni 2017 32 / 62

Kerne: Auf welche Eigenschaften kommt es an? Sei S = { x 1,..., x s } X eine Beispielmenge und K : X X R eine Funktion. Die s s-gram-matrix G S K wird definiert durch G S K [i, j] := K (x i, x j ). Wenn K ein Kern ist, dann ist K symmetrisch und die Gram-Matrix GK S ist positiv semidefinit, d.h. ut GK S u 0 gilt für alle Vektoren u: u T G S K u = i,j u i G S K [i, j] u j = i,j u i φ(x i ), φ(x j ) u j = u i φ(x i ), u j φ(x j ) = x, x 0. i j }{{}}{{} =x =x 27. Juni 2017 33 / 62

Der Satz von Mercer Die Funktion K : X X R sei symmetrisch. Dann gilt: K ist ein Kern GK S ist für jede endliche Teilmenge S X positiv semidefinit. = = Definiere R X := { f : f : X R } und ψ(x) := K (, x). 1. Der Vektorraum V werde von den Funktionen ψ(x) R X aufgespannt. Dann ist i α i ψ(x i ), i β i ψ(x i ) := i,j α i β j K (x i, x j ) ein inneres Produkt auf V. 2. Es ist ψ(x), ψ(x ) = K (x, x ) = K ist ein Kern. 27. Juni 2017 34 / 62

Der Satz von Mercer: Erste Konsequenzen α, β seien nicht-negative reelle Zahlen. Wenn K 1 und K 2 Kerne sind, dann ist auch K = α K 1 + β K 2 ein Kern. Warum? Wir wenden den Satz von Mercer an. Sei S eine endliche Teilmenge von X. Es ist u T GK S u ) = ut (α G SK1 + β G SK2 u ( ) ( ) = α u T GK S 1 u +β u T GK S 2 u 0 } {{ } } {{ } 0 0 und das war zu zeigen. 27. Juni 2017 35 / 62

Symmetrische, positiv semidefinite Matrizen 1. Symmetrische Matrizen B sind diagonalisierbar, d.h. es gibt eine orthogonale Matrix U und eine Diagonalmatrix D mit B = U T D U. 2. Wenn B positiv semidefinit ist, dann sind alle Eigenwerte nichtnegativ. B = (U T D) ( D U). B ist genau dann symmetrisch und positiv semidefinit, wenn es eine Matrix M gibt mit B = M T M. 27. Juni 2017 36 / 62

Weitere Konsequenzen Wenn K 1 und K 2 Kerne sind, dann ist auch K 1 K 2 ein Kern. GK S 1 ist positiv semidefinit = GK S 1 = M T M für eine Matrix M. ) u i (G K S 1 [i, j] GK S 2 [i, j] u j = ( (M u T i M ) ) [i, j] GK S 2 [i, j] i,j i,j = ( ) u i M T [i, k] M[k, j] GK S 2 [i, j] u j i,j k = ( ) u i u j M[k, i] M[k, j] GK S 2 [i, j] k i,j = ( ) u i M[i, k] GK S 2 [i, j] u j M[j, k] k i,j }{{} 0 u j 27. Juni 2017 37 / 62

Und noch mehr Kerne (1) Sei K ein Kern und sei p ein Polynom mit nicht-negativen Koeffizienten. Dann ist auch p(k ) ist ein Kern. (2) f : R R sei durch eine Potenzreihe mit nicht-negativen Koeffizienten darstellbar. Dann ist auch f (K ) ein Kern. (1) Kerne sind abgeschlossen unter Addition und Multiplikation. (2) f = lim n p n für Polynome p n. Für S X sind die Matrizen G S pn(k ) positiv semidefinit. Es gilt G S f (K ) = lim n Gp S n(k ) und GS f (K ) ist positiv semidefinit, da u T Gf S (K ) u = ut ( lim n GS p n(k ) ) u = lim n ut Gp S n(k ) u 0. 27. Juni 2017 38 / 62

Basis-Kerne Wir wissen jetzt, wie man aus bestehenden Kerne weitere Kerne baut. Wir müssen diesen Prozess mit bestehenden Kernen starten! - Sei f : X R eine beliebige Funktion. Dann ist K (x, z) = f (x) f (z) ein Kern: Benutze f als Feature-Funktion. - Sei A eine symmetrische, positiv semidefinite Matrix. Dann ist ein Kern, denn K (x, z) = x T A z K (x, z) = x T A z = x T M T M z = M x, M z 0. 27. Juni 2017 39 / 62

Der Gauß-Kern (1) Sei K ein Kern. Dann ist auch exp K (x,z) ein Kern. (2) exp x z 2 σ 2 ist ein Kern und wird der Gauß-Kern genannt. (1) Die Exponentialfunktion hat die Potenzreihe i=0 x n n!. Alle Koeffizienten sind nicht-negativ und deshalb ist exp K (x,z) ein Kern. (2) Es ist exp x z 2 σ 2 = (exp x 2 σ 2 exp z 2 σ 2 ) exp 2 x,z σ 2. Das erste Produkt ist ein Kern. Warum? Der dritte Faktor ist nach (1) ein Kern und der Gauß-Kern ist als Produkt von Kernen ein Kern. 27. Juni 2017 40 / 62

Zusammenfassung Was haben wir bisher erreicht? (1) Wir haben große Klassen von Kernfunktionen konstruiert, die in vielen Anwendungen Fast-Trennbarkeit garantieren. (2) Wir wissen, dass bis auf logarithmische Faktoren ungefähr s 1 (( ε 2 Rρ )2 + ln( 1δ ) ) bzw s 1 (( ε Rρ )2 + ln( 1δ ) ) Beispiele im Soft-Margin-Fall bzw. Hard-Margin-Fall genügen = Erfolgreiches Lernen bei kleinem Margin-Loss. Was ist noch zu tun? Die effiziente Berechnung einer lineare Trennung mit großem Margin in einem hochdimensionalen Feature-Raum! Der wichtige Gauß-Kern benötigt unendlich viele Features! 27. Juni 2017 41 / 62

Konvexe Minimierung 27. Juni 2017 42 / 62

Konvexe Mengen und Funktionen f : R N R ist konvex, falls für alle x, y R N und alle λ [0, 1] f ( λ x + (1 λ) y) ) λ f (x) + (1 λ) f (y), falls also der Funktionsgraph stets unter oder auf der Sekante durch (x, f (x)) und (y, f (y)) liegt. Eine Menge X R N ist konvex, wenn für je zwei Punkte x, y X die Strecke {λ x + (1 λ) y 0 λ 1} von x nach y in X liegt. (1) i w i 2 ist konvex: Die Funktion x x 2 ist konvex und eine Summe konvexer Funktionen ist konvex. (2) Der Durchschnitt konvexer Mengen ist konvex. 27. Juni 2017 43 / 62

Optimierungsprobleme Das Ziel: minimiere w,t 1 2 w 2 so dass für jedes i (1 i s): f (x i ) ( w, φ(x i ) + t ) 1. Welche speziellen Eigenschaften hat unser Minimierungsproblem? (1) Die Zielfunktion f (w) := 1 2 w 2 = i w i 2 ist konvex. (2) Alle Restriktionen sind lineare Ungleichungen. (3) Eine konvexe Funktion ist über einer konvexen Menge, nämlich einem Durchschnitt von Halbräumen, zu minimieren. 27. Juni 2017 44 / 62

Konvexe Optimierungsprobleme Ein Minimierungsproblem heißt konvex, falls die Zielfunktion konvex ist und falls alle Nebenbedingungen konvex sind. (1) Wir müssen eine konvexe Funktion über einer konvexen Menge minimieren. (2) Jedes lokale Minimum x ist auch ein globales Minimum: Ist x kein globales Minimum, dann gibt es eine Lösung y mit f (y) < f (x). Für die x und y verbindende Gerade gilt für λ < 1 f ( λ x + (1 λ) y) ) λ f (x) + (1 λ) f (y) < f (x) und x ist kein lokales Minimum. 27. Juni 2017 45 / 62

Das duale Problem 27. Juni 2017 46 / 62

Das duale Problem Unser Minimierungsproblem hat die allgemeine Form minimiere x f (x), so dass h j (x) 0 für j = 1,..., m, (1) wobei f, h 1,..., h m konvex sind. (a) Hebe die Nebenbedingungen durch die nicht-negativen Lagrange-Multiplikatoren ξ i in die Zielfunktion. Dann heißt L(x, ξ) = f (x) + j ξ j h j (x) die verallgemeinerte Lagrange-Funktion von (1). (b) Das duale Problem hat die Form maximiere ξ 0 ( minimierex L(x, ξ) ). 27. Juni 2017 47 / 62

Was ist der Zusammenhang zum dualen Problem? Für jedes ξ 0 und jede Lösung y gilt { min f (x) + } ξ j h j (x) f (y) + x j j denn h 1 (y),..., h m (y) 0 und ξ 0. Also gilt die schwache Dualität: maximiere ξ 0 ( minimierex L(x, ξ) ) minimiere x ist Loesung f (x). Wir zeigen, dass sogar Gleichheit gilt, d.h. maximiere ξ 0 ( minimierex L(x, ξ) ) = minimiere x ist Loesung f (x). ξ j h j (y) f (y), 27. Juni 2017 48 / 62

Die Karush-Kuhn-Tucker (KKT) Bedingungen Die Funktionen f, h 1,..., h m seien konvex und es gelte h 1 (x ) 0,..., h m (x ) 0. Dann sind äquivalent: (a) f (x ) = min { f (x) : h 1 (x) 0,..., h m (x) 0 }. (b) Es gibt Lagrange-Multiplikatoren ξ 1,..., ξ m 0 mit (1) f (x ) + m j=1 ξ j h j (x ) = L(x, ξ ) = 0 und (2) ξ j h j (x ) = 0 für alle j. (a) = (b) Wenn das globale Minimum x ein innerer Punkt ist, d.h. wenn h j (x ) < 0 für alle j gilt: - Der Gradient von f im Punkt x verschwindet: Es ist f (x ) = 0. - Setze ξ 1 = = ξ m = 0 und die KKT-Bedingungen sind erfüllt. Und wenn nicht? (b) = (a) Siehe Skript. 27. Juni 2017 49 / 62

Beweis der Dualität Die Funktion f sei konvex mit globalem Minimum x. Die Lagrange-Multiplikatoren seien ξ 1,..., ξ m 0. (1) Dann ist f (x ) + m j=1 ξ j h j (x ) = 0. (2) Es gilt min f (y) + y j ξ j h j (y) = f (x ) + j ξ j h j (x ), da F(y) = f (y) + j ξ j h j (y) ist konvex, denn ξ 0. Wegen (1) ist x ein lokales Minimum von F und damit auch ein globales Optimum. (3) j ξ j h j (x ) = 0, denn ξj hj (x) = 0 für alle j (KKT). Also min f (y) + y j ξj h j (y) = f (x ) + ξj h j (x ) j }{{} =L(x,ξ ) = f (x ). 27. Juni 2017 50 / 62

Das primale und duale Problem Aus den KKT-Bedingungen folgt max min ξ 0 y L(y, ξ) min y L(y, ξ ) = L(x, ξ ) = f (x ) }{{} schwache Dualität max min ξ 0 y L(y, ξ). Das primale Problem min f (x) x ist Loesung werde von der Lösung x minimiert. Dann folgt für das duale Problem max ξ 0 ( min x L(x, ξ) ) = L(x, ξ ) = f (x ) und wir erhalten den Dualitätssatz. Wir benötigen später nur max ξ 0 L(x, ξ) = f (x ). 27. Juni 2017 51 / 62

Dualitätssatz Die Funktionen f und h 1,..., h m seien konvex. Dann gilt ( max min f (x) + ) ξ j h j (x) = min f (x). ξ 0 x x:h j (x) 0 für alle j j Es ist min x ( maxξ 0 f (x) + j ξ j h j (x) ) = min x:hj (x) 0 für alle j f (x) = Eine äquivalente Form des Dualitätssatzes: ( max min f (x) + ξ 0 x j ) ξ j h j (x) ( = min max f (x) + x ξ 0 j ) ξ j h j (x) 27. Juni 2017 52 / 62

Der Hard-Margin-Fall 27. Juni 2017 53 / 62

Ist das duale Problem wirklich so kompliziert? Es ist max L(w, t, ξ) = min w, w. ξ 0 w,t: h 1 (w,t),...,h m(w,t) 0 1. Wende die KKT-Bedingungen an, um x mit Hilfe von ξ zu eliminieren und 2. bestimme die Lagrange-Multiplikatoren ξ mit dem dualen Maximierungsproblem. 27. Juni 2017 54 / 62

Hard Margin: Das duale Problem (1/3) Die verallgemeinerte Lagrange Funktion für den Hard Margin Fall: L(w, t, ξ) = 1 s ( ) w, w ξ i f (x i ) ( w, φ(x i ) + t) 1. 2 i=1 Wende die KKT-Bedingungen an: Sei (w, t ) ein globales Minimum mit den Lagrange-Multiplikatoren ξ 1,..., ξ m 0. w L(w, t, ξ ) = w t L(w, t, ξ ) = s ξi f (x i ) φ(x i ), i=1 s ξi f (x i ). i=1 Es ist w L(w, t ) = 0 und t L(w, t ) = 0 = Bestimme w nach Nullsetzung und t taucht nicht mehr auf. 27. Juni 2017 55 / 62

Hard Margin: Das duale Problem (2/3) Nach Rückeinsetzung ergibt sich L(w, t, ξ ) = 1 2 s f (x i )ξi φ(x i ), φ(x j ) f (x j )ξj + i,j=1 s ξi. Das duale Problem D := max ξ 0 (min w,t L(w, t, ξ)) ist äquivalent zu max ξ 0 i=1 ( min L(w, t, ξ) ) = max L(w, t, ξ) = min L(w, t, ξ). w,t ξ 0 ξ 0 D = min ξ 0 1 2 s f (x i )ξ i φ(x i ), φ(x j ) f (x j )ξ j i,j=1 so dass ξ 0 und s ξ i f (x i ) = 0. i=1 } {{ } KKT-Bedingung s i=1 ξ i 27. Juni 2017 56 / 62

Hard Margin: Das duale Problem (3/3) Es ist K (x i, x j ) = φ(x i ), φ(x j ). Das duale Problem hat also die Form minimiere ξ 1 2 s f (x i )ξ i K (x i, x j ) f (x j )ξ j i,j=1 so dass ξ 0 und s ξ i f (x i ) = 0. i=1 s i=1 ξ i Wir können im niedrig-dimensionalen Beispielraum minimieren. (1) Die Anzahl der Unbestimmten des Minimierungsproblems stimmt mit der Anzahl s der Beispiele überein. (2) Es gibt nur wenige, nämlich s + 1 Nebenbedingungen. 27. Juni 2017 57 / 62

Support-Vektoren 27. Juni 2017 58 / 62

Support-Vektoren (1/2) Eine der KKT Bedingungen: ξi (f (x i ) ( w, φ(x i ) + t ) 1) = 0. (1) Setze SV = { i f (x i ) ( w, φ(x i ) + t ) = 1 }. (2) Ein Beispiel x i mit i SV heißt ein Support-Vektor. Es ist ξ i = 0 für jedes i SV und deshalb w = s f (x i )ξi φ(x i ) = f (x i )ξi φ(x i ). i=1 i SV Nur die Support-Vektoren φ(x i ), also die am nächsten an der trennenden Hyperebene liegenden Beispiele, bestimmen den optimalen Gewichtsvektor w. 27. Juni 2017 59 / 62

Support-Vektoren (2/2) Je weniger Support-Vektoren, umso wahrscheinlicher ist erfolgreiches Lernen. (1) Warum? Die Hypothese kann durch wenige Beispiele beschrieben werden. Occam: Einfache Hypothesen machen erfolgreiches Lernen wahrscheinlicher. (2) Eine Support-Vektor Hypothese erhält automatisch ein Gütesiegel bei wenigen Support-Vektoren. 27. Juni 2017 60 / 62

Soft Margin Im Feature-Raum zu lösen: min w,β,η w 2 + C m i=1 η i so dass für jedes i: f (x i ) ( w, φ(x i ) + β ) 1 η i und η i 0. Nach Analyse des dualen Programms löse im Beispielraum: min ξ 0 1 2 s f (x i )ξ i K (x i, x j ) f (x j )ξ j i,j=1 sodass 0 ξ j C für alle j und s i=1 ξ i s ξ i f (x i ) = 0. i=1 27. Juni 2017 61 / 62

Zusammenfassung (1) Der Anwender wählt eine Feature-Funktion φ und einen Kern ψ aus dem Werkzeugkasten (Polynome, Gauß-Funktion etc.) K (φ(x), φ(z)) = ψ(φ(x)), ψ(φ(z)). (2) Die Bestimmung einer trennenden Hyperebene kann im niedrig-dimensionalen Beispielraum durchgeführt werden. (3) Bei s Beispielen der Länge höchstens R und Margin ρ gilt Loss D (h) }{{} erwarteter Hinge Loss Loss S,ρ (h) + 1 ( R 2 2 }{{} s ρ 2 + empirischer Margin-Loss mit Wahrscheinlichkeit mindestens 1 δ. (4) Wenige Support-Vektoren machen erfolgreiches Lernen hochwahrscheinlich. ln 1 ) δ 2 27. Juni 2017 62 / 62