Support Vector Machines, Kernels

Ähnliche Dokumente
Überwachtes Lernen / Support Vector Machines. Rudolf Kruse Neuronale Netze 246

Überblick. Classifying The Real World. Textkategorisierung. Textkategorisierung. Textkategorisierung (II)

Statistical Learning

One-class Support Vector Machines

Grundlagen von Support Vector Maschinen und Anwendungen in der Bildverarbeitung

x 2 x 1 x Lernen mit Entscheidungsbäumen

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Optimieren unter Nebenbedingungen

Überbestimmte lineare Gleichungssysteme

DIPLOMARBEIT. Martin-Luther-Universität Halle-Wittenberg. Detektion von Transkriptionsfaktorbindestellen mit Support-Vektor-Maschinen

Kernel, Perceptron, Regression. Erich Schubert, Arthur Zimek KDD Übung

9.5 Entscheidungsbäume

Lernende Suchmaschinen

Outline. 1 Vektoren im Raum. 2 Komponenten und Koordinaten. 3 Skalarprodukt. 4 Vektorprodukt. 5 Analytische Geometrie. 6 Lineare Räume, Gruppentheorie

Corinne Schenka Vorkurs Mathematik WiSe 2012/13

The State of the Game: Spamerkennung in den TREC und CEAS Spam-Challenges

Extrema mit Nebenbedingungen

Wirtschaftsmathematik für International Management (BA) und Betriebswirtschaft (BA)

2 Euklidische Vektorräume

(Technisch: Setze alle Skalarprodukte der allgemeinen Lösung mit den Basisvektoren des Kerns gleich Null eindeutige leastsqares Lösung)

Länge eines Vektors und Abstand von zwei Punkten 2. 4 = 6. Skalarprodukt und Winkel zwischen Vektoren

Principal Component Analysis (PCA)

Felix Gessert, , Seminar maschinelles Lernen (Uni Hamburg)

Statistische Methoden in der Wirtschaftsund Sozialgeographie

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Mathematik 2 für Wirtschaftsinformatik

f f(x ɛξ) f(x) 0, d.h. f (x)ξ = 0 für alle ξ B 1 (0). Also f (x) = 0. In Koordinaten bedeutet dies gerade, dass in Extremstellen gilt: f(x) = 0.

Wie lautet die Gleichung der Geraden, durch die beiden Punkte A(4/1) und B(-5/8)?

Vektoren - Basiswechsel

Lineare Algebra für D-ITET, D-MATL, RW. Beispiellösung für Serie 10. Aufgabe ETH Zürich D-MATH. Herbstsemester Dr. V. Gradinaru D.

Support Vector Machine und Ridge Regression in der digitalen Bildverarbeitung

Anwendungen der Hauptkomponentenanalyse. Volker Tresp vertreten durch Florian Steinke

DEUTSCHE SCHULE MONTEVIDEO BIKULTURELLES DEUTSCH-URUGUAYISCHES ABITUR ( AUF SPANISCH )

OPERATIONS-RESEARCH (OR)

f(x) f(x 0 ) lokales Maximum x U : gilt, so heißt x 0 isoliertes lokales Minimum lokales Minimum Ferner nennen wir x 0 Extremum.

Grundlagen: Bildbearbeitung / Objekterkennung. Julia Peterwitz zum Seminar: Videobasierte Erkennung und Analyse menschlicher Aktionen

Lösungen zu den Hausaufgaben zur Analysis II

Mathematik für Wirtschaftswissenschaftler

Inhaltsverzeichnis. Vorwort Kapitel 1 Einführung, I: Algebra Kapitel 2 Einführung, II: Gleichungen... 57

Mathematik für Wirtschaftswissenschaftler Kapitel 4-6. Universität Trier Wintersemester 2013 / 2014

Allgemeines Gleichungssystem mit zwei Gleichungen und zwei Variablen. Der erste Index bezeichnet die Nummer der Zeile, der zweite die der Spalte.

Klausur zur Mathematik für Biologen

Aufgabensammlung aus Mathematik 2 UMIT, SS 2010, Version vom 7. Mai 2010

Mathematik 1 für Wirtschaftsinformatik

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Definition, Rechenoperationen, Lineares Gleichungssystem

Seminar Einführung in die Kunst mathematischer Ungleichungen

Navigation anhand natürlicher Landmarken mit Hilfe der Scale Invariant Feature Transform. Thorsten Jost INF-M2 AW1 Sommersemester

Kapitel VI. Euklidische Geometrie

2) Wir betrachten den Vektorraum aller Funktionen f(x) = ax 4 +bx 2 +c mit a, b, c R.

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

Mit maschinellem Lernen erfolgreich Bilanzmanipulation erkennen

ADS: Algorithmen und Datenstrukturen 2

Kapitel 5. Peter Becker (H-BRS) Operations Research I Sommersemester / 298

Das Skalarprodukt zweier Vektoren

Lineare Ausgleichsprobleme. Jetzt: Lösung überbestimmter linearer GS, d.h. mehr Gleichungen als Unbekannte

Probe-Klausur zur Vorlesung Multilinguale Mensch-Maschine Kommunikation 2013

Computer Vision: SVM-Anwendungsbeispiele, Generalisierbarkeit

Serie 10: Inverse Matrix und Determinante

Optimalitätskriterien

Lineare Gleichungssysteme

Normalengleichungen. Für eine beliebige m n Matrix A erfüllt jede Lösung x des Ausgleichsproblems Ax b min die Normalengleichungen A t Ax = A t b,

WS 2010/ Januar Mathematisches Institut der Universität München Prof. Dr. Rudolf Fritsch

Skalarprodukte (Teschl/Teschl Kap. 13)

6. Rechnen mit Matrizen.

Mathematik 1, Teil B. Inhalt:

4 Vorlesung: Matrix und Determinante

Konvexe Funktionen und Legendre-Transformation

entspricht der Länge des Vektorpfeils. Im R 2 : x =

Lineare Algebra I (WS 13/14)

Basen von Schnitt und Summe berechnen

Thema: Eigenschaften von Funktionen (Wiederholung und Symmetrie, Nullstellen, Transformation)

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Pflichtteil - Exponentialfunktion

3.6 Eigenwerte und Eigenvektoren

6 Symmetrische Matrizen und quadratische Formen

Mathematische Methoden für Informatiker

INTELLIGENTE DATENANALYSE IN MATLAB. Objekterkennung

Lineare Algebra und Numerische Mathematik für D-BAUG

Klausur zum Fach Mathematik 1 Teil 1

Inhaltsverzeichnis. 1 Lineare Algebra 12

Analytische Geometrie I

Threading - Algorithmen

3.2 Lineare Optimierung (Entscheidungen unter Sicherheit)

Companion Technologie

Kapitel 4. Optimierungsalgorithmen. Technische Universität Wien. Gunnar Klau Technische Universität Wien. Institut für Computergraphik und Algorithmen

Prüfung Lineare Algebra Sei V ein n-dimensionaler euklidischer Raum. Welche der folgenden Aussagen ist wahr?

Übungen zu Einführung in die Lineare Algebra und Geometrie

Formelsammlung Analytische Geometrie

(geometrische) Anschauung

5.4 Vektorgeometrie. 1 Repetition der Vektorgeometrie I Freie Vektoren, Ortsvektoren Die skalare Multiplikation eines Vektors...

Mathematik I Übungsblatt 5 WS 12/13 Prof. Dr. W. Konen, Dr.A.Schmitter

Optimale Steuerung 1

RapidMiner als Werkzeug für die textorientierten Geisteswissenschaften Katharina Morik

Computer Vision: AdaBoost. D. Schlesinger () Computer Vision: AdaBoost 1 / 10

Mathematik anschaulich dargestellt

4. Übungsblatt zur Mathematik I für Maschinenbau

Aufgaben mit Ebenen. Parameterform Normalenform Koordinatenform. Darstellung = + r + s =0 ax 1 + bx 2 + cx 3 = d. Beispiel

Studiengang Informatik der FH Gießen-Friedberg. Sequenz-Alignment. Jan Schäfer. WS 2006/07 Betreuer: Prof. Dr. Klaus Quibeldey-Cirkel

Analytische Geometrie II

Transkript:

Support Vector Machines, Kernels Katja Kunze 13.01.04 19.03.2004 1

Inhalt: Grundlagen/Allgemeines Lineare Trennung/Separation - Maximum Margin Hyperplane - Soft Margin SVM Kernels Praktische Anwendungen 19.03.2004 2

Allgemeines Entwickelt von V. Vapnik zur Klassifizierung von Daten Basiert auf der Statistischen Lern-Theorie Speziell: Verfahren mit guter Generalisierungsmöglichkeit Komplexität der Optimierung unabhängig von der Anzahl der Features und deren Dimension 19.03.2004 3

Underfitting Overfitting 19.03.2004 4

Vereinigung von 4 Konzepten in SVM 1. Minimierung und Fixierung des Fehlerrisikos, Daten falsch zu klassifizieren 2. Daten niedriger Dimension werden abgebildet auf einen neuen Featurespace _ Diese Variablen werden zum Lernen benutzt. 3. Anwendung von linearen Schätzern/ Näherungsfunktionen auf den neuen Feartureraum _ Minimierung des Fehlers bei der Näherung 4. Duales Optimierungsproblem 19.03.2004 5

Begriffe: Trainigsdaten: Daten von denen bekannt ist, zu welcher Klasse sie gehören Lernen/Trainieren: Ableitung einer Entscheidungsregel, die die beiden Klassen voneinander trennt. Generalisierungsfähigkeit: wie gut ist die Entscheidungsregel bei neuen Daten? _ Ziel: Finden einer Entscheidungsregel mit hoher Generalisierungsfähigkeit 19.03.2004 6

Lineare Trennung der Trainingsdaten Gegebene Trainingsdaten in Vektorform: wobei Hyperebene H: Abstand zur Ebene: 19.03.2004 7

Wie separiere ich die Klassen? _ Verschiede Möglichkeiten: Welche Ebene ist optimal? 19.03.2004 8

Linearer Fall: Maximum Margin Hyperplane (MMH) = Minimaler Abstand eines Objektes zur Ebene = Objekte, für die der kleinste Abstand ist = Support Vectors Optimale Ebene: in der Mitte des größten Spalts zwischen den Klassen wird nur durch die Support Vectors bestimmt 19.03.2004 9

Vektorprodukt: Darstellung der Ebene: Unterteilung in 2 Klassen: wobei 19.03.2004 10

Abstand : Man erhält: _ Die Gleichung hängt nur ab von und. Die Ebene ist kanonisch, deshalb gilt: 19.03.2004 11

_ Maximierung von unter der Bedingung oder _ entspricht der Minimierung von. = Beschränktes Optimierungsproblem 19.03.2004 12

Lösung mit den Lagrangemultiplikatoren und der Lagrangefunktion: Für gilt: L kann maximiert werden für b und für : 19.03.2004 13

Man erhält: und: Durch Substitution in die Lagrangefunktion erhält man das Duale Optimierungs-Problem : Lösung mit Algorithmen aus der Optimierungs-Theorie. 19.03.2004 14

Nicht-Linearer Fall: Soft Margin Hyperplane (SMH) Einführung von Variablen, die den Abstand eines falschpositionierten Punktes beschreiben _ Zulassen eines Fehlers 19.03.2004 15

_ Minimierung des Fehlers, der bei Linearer Seperation auftritt. Abstand der Hyperebene multipliziert mit Fehlergewicht C: unter der Bedingung 19.03.2004 16

Kernels Verwendung von Kernelfunktionen bei Daten, die nicht durch eine lineare Seperation klassifiziert werden können: 1.Schritt: Transformation der Daten in einen neuen Raum, indem Lineare Trennung möglich ist.. 2.Schritt: Anwendung von Linearen Methoden auf die Daten. 19.03.2004 17

Transformation in einen Raum höherer Dimension: _ Jetzt ist die Konstruktion einer Hyperebene einfach. 19.03.2004 18

Jetzt ist aber Folgendes Skalarprodukt zu berechnen: _ zu schwierig, wenn die Dimension sehr hoch ist! Kerneltrick: Statt Skalarprodukt benutzt man eine Kernelfunktion K, die sich wie ein Skalarprodukt verhält: 19.03.2004 19

Rechenbeispiel Gegeben: Wir wenden folgende Abbildung darauf an: und berechnen das Skalarprodukt: 19.03.2004 20

_ Man kann das Skalarprodukt ausrechnen, ohne die Funktion berechnen zu müssen. Es reicht aus, das Quadrat von x und y im zu berechnen. So ist auch das duale Optimierungsproblem lösbar: 19.03.2004 21

3 Kriterien müssen von einer Kernelfunktion erfüllt werden: 1. Symmetrie: 2. Cauchy-Schwarz: 3. Matrix muss positiv (semi-definit) sein : 19.03.2004 22

Beispiele für häufig verwendete Kernelfunktionen: linear: Radial-Basis-Kernel: polynomiell: sigmoid: 19.03.2004 23

Eine Support Vector Machine ist eine Hyperebene mit maximaler Trennspanne im Feature Space. konstruiert im hochdimensionalen Raum durch eine Kernelfunktion. 19.03.2004 24

Gesichtserkennung Praktische Anwendungen: Ziel: Vorverarbeitung der Daten (Bilder) notwendig 19.03.2004 25

Gesichtserkennung 1. Gleichgroße Fenster (z.b 20x20 Pixel) aus dem Bild ausschneiden 2. Bild skalieren (Verkleinern/Vergröße rn) und wieder Fenster ausschneiden 3. Verschiedene Fenster vorverarbeiten (Graustufen, Schärfe...) 19.03.2004 26

Gesichtserkennung 4. SVM klassifiziert Gesicht/Nicht Gesicht 5. Falls Gesicht: Markieren mit Rahmen 6. Bootstrapping 19.03.2004 27

Spamfilterung Praktische Anwendungen Parameter z.b.: Anzahl bestimmter Wörter: FREE,... Struktur der Absendeadresse Bestimmte Zeichen im Header Klassen: Spam No Spam 19.03.2004 28

In der Bioinformatik Praktische Anwendungen Man arbeitet oft mit einem kleinen Datensatz hochdimensionaler Daten, z.b.: Klassifizierung eines Proteins: _ Konvertierung in einen 20-dimensionalen Vektor, indem man seine Aminosäure-Sequenz darstellt 19.03.2004 29

19.03.2004 30

Praktische Anwendungen Beispiel für Erkennung mehrerere Klassen: Handschrifterkennung Verwendeter Kernel: Gaussian-Dynamic- Time-Warping-Kernel 19.03.2004 31

SVM: Vorteile Klassifizierung sehr schnell möglich Hohe Präzision und geringe Fehlerwahrscheinlichkeit Benutzung von relativ einfachen und gut verständlichen Funktionen und Rechentechniken Effektiv auf Daten mit vielen Merkmalen Gute Performance in Real-World -Anwendungen 19.03.2004 32

SVM Nachteile Benötigt sehr viel Zeit fürs Lernen (Entscheidung für die richtige Hyperebene) Es muss empirisch nach der geeigneten Kernelfunktion gesucht werden. Neues Training erforderlich, falls neue Eingabedaten verschieden sind. Richtige Vorverarbeitung der Daten (z.b. Skalierung, welche Merkmale sind wichtig) ist essentiell 19.03.2004 33

Vielen Dank für die Aufmerksamkeit. Noch Fragen? 19.03.2004 34