Grundlagen von Support Vector Maschinen und Anwendungen in der Bildverarbeitung

Transkript

1 Grundlagen von Support Vector Maschinen und Anwendungen in der Bildverarbeitung Jan Eichhorn Max-Planck-Institut für biologische Kybernetik Tübingen

2 Danksagung Olivier Bousquet und Bernhard Schölkopf (slides) Wolf Kienzle (Demo) September 10, 2004, page 1 of 33

3 Übersicht Grundlagen von Support Vector Maschinen Motivation aus Statistischer Lerntheorie Lineare Klassifizierer warum großer Margin? Formulierung der Support Vector Maschine Der Kern-Trick Anwendungen in der Bildverarbeitung Kern-Funktionen für lokale Deskriptoren Separable Filter zur Beschleunigung von SVMs in der Gesichtserkennung September 10, 2004, page 2 of 33

4 Das Klassifikationsproblem Trainingsdaten: D = {(x i, y i )} i=1...m X Y X = R 2, Y = {+1, 1} Entscheidungsfunktion: f(x) = sgn(... ) = ±1? September 10, 2004, page 3 of 33

5 Das Lernproblem Gegeben: Daten D = {(x i, y i )} i=1...m X Y Annahme: Datenpunkte unabhängig und gleichverteilt nach unbekannter Verteilung: (x i, y i ) P(x, y) Ziel: Schätze Entscheidungsfunktion f F so, dass das Risiko R[f] minimal ist. R[f] = X Y l(f(x), y) dp(x, y) l(f(x), y) ist die Verlustfunktion für die Vorhersage f(x) wenn der wahre Wert y ist. September 10, 2004, page 4 of 33

6 Empirische Risiko-Minimierung Wahres Risiko R[f] ist nicht berechenbar, da P(x, y) unbekannt Man muss aus den Daten D lernen Induktionsprinzip Empirisches Risiko aus den Daten geschätzt: R m emp[f] = 1 m m i=1 l(y i, f(x i )) Empirische Risiko-Minimierung: finde f m so dass f m = arg min f F Rm emp[f] Wie gut approximiert R m emp[f] das Wahre Risiko R[f]? September 10, 2004, page 5 of 33

7 No free lunch-theorem Betr. zwei Fälle: 1. F enthält nur eine einzige Funktion Gesetz der Großen Zahlen R m emp[f] m R[f] 2. F = {±1} X enthält alle Funktionen: Betr. zwei Mengen mit m Punkten: D train, D test X {±1}, D train D test = Zu jedem f F gibt es ein f F so dass: f (x i ) = f(x i ), x i D train aber f (x j ) f(x j ), x j D test Auf D train sind f und f ununterscheidbar, liefern jedoch entgegengesetzte Resultate auf D test. September 10, 2004, page 6 of 33

8 Einschränkung der Funktionenklasse Die Funktionenklasse muss eingeschränkt werden, um erfolgreich lernen zu können. Statistische Lerntheorie beschränkt die Kapazität der Funktionenklasse (z.b. VC-Dimension) Bayesianische Lerntheorie nimmt eine a priori -Wahrscheinlichkeitsverteilung der Funktionen im Funktionenraum an Heuristisch: Der Algorithmus benutzt implizit eine bestimmte Funktionenklasse (Nearest Neighbour) oder es wird eine Regularisierung vorgenommen (early stopping in N.N., Ridge-Regression). September 10, 2004, page 7 of 33

9 Die Vapnik-Chervonenkis-Dimension Die Menge X = {x i } i=1...m kann auf max. 2 m Arten in zwei Klassen aufgeteilt werden. Wenn Funktionen f F alle Aufteilungen realisieren können, sagt man F zertrümmert X. F hat die VC-Dimension h, wenn F eine Menge von h Punkten zertrümmern kann, es aber keine Konfiguration von h + 1 Punkten gibt, die F zertrümmern kann. Gibt es kein solches h so ist V C(F) = test Vapnik und Chervonenkis, 1968, 1971 September 10, 2004, page 8 of 33

10 Gleichmäßige Konvergenz Das empirische Risiko konvergiert gleichmäßig (über alle f F) gegen das wahre Risiko genau dann wenn VC-Dimension endlich. ( lim P ( R m emp [f] R[f] ) ) > ɛ = 0 V C(F) < m sup f F Wenn h = V C(F) < m dann gilt mit Wahrscheinlichkeit 1 δ: R[f] < R m emp[f] + φ (h, m, δ) φ (h, m, δ) = 1 m ( h (ln 2mh ) ln 4 δ Beim Lernen die VC-Dimension kontrollieren!! ) h m September 10, 2004, page 9 of 33

11 Hyperebenen und Margin <w,x>+b=0 <w,x>+b=-1 <w,x>+b=+1 rag replacements w ρ = 1 w Margin ρ: Kleinster Abstand der Punkte zur Hyperebene September 10, 2004, page 10 of 33

12 Lineare Klassifizierer Entscheidungsfunktion: f(x) = sgn ( w, PSfrag x + replacements b) Beispiel: Prototype-Klassifizierer f(x) = sgn ( c + c, x c ) c + w c x c c also? x w = c + c, b = w, c September 10, 2004, page 11 of 33

13 Lineare Klassifizierer Welche der möglichen kanonischen Ebenen hat die besten Verallgemeinerungs-Chancen? Welche Ebene soll man wählen? die mit dem größten Margin September 10, 2004, page 12 of 33

14 Warum Large Margin Klassifizierer? Satz [Vapnik, 1979]: Betrachte Hyperebenen w, x = 0 wobei w so normiert ist, dass diese in kanonischer Form bzgl. einer Menge von Punkten X = {x 1,..., x r } sind, d.h., min i=1,...,r w, x i = 1. Die Menge der auf X definierten Entscheidungsfunktionen f w (x) = sgn w, x hat eine VC-Dimension h R2 ρ 2 Hierbei ist R der Radius der kleinsten Kugel um den Ursprung, die X enthält. September 10, 2004, page 13 of 33

15 Intuitive Erklärung Rauschen in den Datenpunkten: Je größer der Margin, desto mehr Rauschen in den Daten verträgt der Algorithmus, ohne dass die Klassifizierung falsch wird. September 10, 2004, page 14 of 33

16 Die Support Vector Maschine Formulierung des Optimierungsproblems für größtmöglichen Margin (bedenke: ρ 1/ w ) unter den Nebenbedingungen min w,b w 2 y i ( w, x i + b) 1, i = 1... m D.h., die Trainingsdaten werden korrekt separiert. September 10, 2004, page 15 of 33

17 Die Lagrange-Funktion Einführung von Lagrange-Multiplikatoren α i 0 liefert die Lagrange-Funktion: L(w, b, α) = 1 2 w 2 m i=1 α i [ y i ( w, x i + b) 1] L(w, b, α) wird minimiert bzgl. der primären Variablen w und b und maximiert bzgl. der dualen Variablen α i. September 10, 2004, page 16 of 33

18 Die duale Formulierung Einsetzen der KKT-Bedingungen in L(w, b, α) liefert das duale Problem: m m max α W (α) = i=1 α i 1 2 i,j=1 α i α j y i y j x i, x j unter den Nebenbedingungen: α i 0, i = 1... m, und m i=1 α i y i = 0. Konvexes quadratisches Optimierungsproblem (d.h. globales Optimum erreichbar) September 10, 2004, page 17 of 33

19 Support Vektoren m w = α i y i x i i=1 wobei i = 1... m entweder y i [ w, x i + b] > 1 = α i = 0 x i irrelevant oder y i [ w, x i + b] = 1 (auf dem Margin) x i Support Vector Die Lösung wird bestimmt durch die Datenpunkte auf dem Margin. f(x) = sgn ( x, w + b) ( m ) = sgn α i y i x, x i + b i=1. September 10, 2004, page 18 of 33

20 Der Kern-Trick Erlaubt lineare Algorithmen auf nicht linear separierbare Probleme anzuwenden durch effiziente Berechnung einer (nicht-linearen) Merkmalstransformation. September 10, 2004, page 19 of 33

21 Merkmalstransformation x 1 x 2 z 1 z 3 z 2 Φ : R 2 R 3 (x 1, x 2 ) (z 1, z 2, z 3 ) := (x 2 1, 2 x 1 x 2, x 2 2) September 10, 2004, page 20 of 33

22 Merkmalsraum Für nicht linear separierbare Probleme können in einem Vorverarbeitungsschritt geeignete Merkmale konstruiert werden (z.b. Pixel-Korrelationen in Bildern). Vorverarbeitung der Daten mit: Φ : X H x Φ(x) Der lineare Klassifizierer kann jetzt auf den neuen Merkmalen arbeiten. September 10, 2004, page 21 of 33

23 Der Kern-Trick in der SVM Die Zielfunktion max α W (α) = m i=1 α i 1 2 m i,j=1 α i α j y i y j Φ(x i ), Φ(x j ) und die Entscheidungsfunktion ( m ) f(x) = sgn α iy i Φ(x), Φ(x i ) + b. i=1 verwenden nur Skalarprodukte der Daten. Das Skalarprodukt im Merkmalsraum kann durch eine Kernfunktion k(x, x ) = Φ(x), Φ(x ) ausgedrückt werden. September 10, 2004, page 22 of 33

24 Welche Kerne sind erlaubt? Für X sind folgende Aussagen äquivalent: k ist positiv definit (pd), d.h. für eine beliebige Menge von Punkten x 1,..., x m X und für alle a 1,..., a m R gilt: a Ka = a i a j K ij 0, wobei K ij := k(x i, x j ) i,j Es gibt eine Funktion Φ : X H in einen Hilbertraum H so dass k(x, x ) = Φ(x), Φ(x ) H ist ein sogenannter reproducing kernel Hilbert space (RKHS). September 10, 2004, page 23 of 33

25 Kern-Trick Zusammenfassung Jeder Algorithmus, der nur Skalarprodukte verwendet, kann den Kern-Trick benutzen Große Vielfalt kernelisierter Standardalgorithmen (z.b. Kernel-Perceptron, Kernel-Fisher-Diskriminante, Kernel-PCA, Kernel-CCA). Man kann den Kern als ein nichtlineares Ähnlichkeitsmaß interpretieren. Daher braucht X kein Vektorraum zu sein ( Kerne auf Graphen, Text etc.). Die Geometrie wird durch die Kernfunktion induziert. September 10, 2004, page 24 of 33

26 Beispiel: Gausscher Kern k(x, x ) = 1 exp ( x ) x 2 2πσ 2σ 2 σ kontrolliert die Lokalität der Daten demo September 10, 2004, page 25 of 33

27 Weiterführende Ansätze C-SVM und µ-svm für nicht separierbare Probleme Support Vektor Regression One-Class-SVM zur Identifikation von Ausreißern Reduced-set-Methoden zur Beschleunigung (s. Anwendung) Andere Large-Margin-Klassifizierer (z.b. Boosting) und Kernel-Maschinen September 10, 2004, page 26 of 33

28 Anwendungen in der Bildverarbeitung SVM für Objekt-Kategorisierung, Repräsentation der Bilder durch lokale Deskriptoren Kernfunktion für Mengen SVM in der Gesichtserkennung, Kaskade von Klassifizierern, Beschleunigung des ersten Layers durch separable Filter September 10, 2004, page 27 of 33

29 Objekt-Kategorisierung mit SVM September 10, 2004, page 28 of 33

30 Lokale Deskriptoren für Bilder Wie? 1. Interest Point Detector findet markante Punkte 2. In lokaler Umgebung wird eine Bildcharakteristik berechnet (z.b. Ausschnitt, Gradientenhistogramm etc.) Warum? Je nach Konstruktion - Invariant unter Translation, Rotation, Skalierung, Änderung von Kontrast, Helligkeit etc. Sehr erfolgreich in Objektidentifizierung (D. Lowe) September 10, 2004, page 29 of 33

31 Geeignete Kernfunktion SVM braucht eine Kernfunktion auf Mengen von lokalen Deskriptoren f1 f2 f3 f4... fm f1 f2 f3... fn Problem: Keine natürliche Reihenfolge Bilder haben i.a. verschiedene Anzahl von markanten Punkten September 10, 2004, page 30 of 33

32 Bisherige Ansätze Wallraven et al. a : Berechne Mittelwert des Abstandes zum jeweils ähnlichsten Deskriptor Vergleichen einzelne Deskriptoren Kondor und Jebara b : Berechnen die Ähnlichkeit zweier Verteilungen Vergleichen suffiziente Statistiken a C. Wallraven et al, Recognition with Local Features: the Kernel Recipe, Proc. of ICCV 03 b R. Kondor and T. Jebara, A Kernel between Sets of Vectors, Proceedings of the ICML, 2003 September 10, 2004, page 31 of 33

33 A Kernel between Sets of Vectors Bhattacharyya-Kern für Wahrscheinlichkeitsverteilungen: K(p, p ) = p(x) p (x) dx Geschlossener Ausdruck für p N (µ, Σ) Mehr Variabilität durch Merkmalstranformation: x N (µ, Σ) Φ Φ(x) N ( µ, Σ) effizient berechenbar durch Kern-Trick September 10, 2004, page 32 of 33

34 Literatur References [1] B. E. Boser, I. M. Guyon, and V. Vapnik. A training algorithm for optimal margin classifiers. In D. Haussler, editor, Proceedings of the 5th Annual ACM Workshop on Computational Learning Theory, pages , Pittsburgh, PA, July ACM Press. [2] V. N. Vapnik. Statistical Learning Theory. Wiley, New York, [3] V. N. Vapnik. The Nature of Statistical Learning Theory. Statistics for Engineering and Information Science. Springer Verlag, New York, 2nd edition, [4] B. Schölkopf and A. J. Smola. Learning with Kernels. MIT Press, Cambridge, MA, [5] N. Cristianini and J. Shawe-Taylor. An Introduction to Support Vector Machines. Cambridge University Press, [6] A. J. Smola, P. L. Bartlett, B. Schölkopf, and D. Schuurmans. Advances in Large Margin Classifiers. MIT Press, Cambridge, MA, [7] E. T. Jaynes. Probability Theory - The Logic of Science. Cambridge University Press, Cambridge, U.K., [8] D. J. C. MacKay. Information Theory, Inference, and Learning Algorithms. Cambridge University Press, Cambridge, UK, September 10, 2004, page 33 of 33