Lineare Klassifikatoren

Ähnliche Dokumente
k-nächste-nachbarn-schätzung

Nichtlineare Klassifikatoren

Linear nichtseparable Probleme

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Signalentdeckungstheorie, Dichteschätzung

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Wenn PCA in der Gesichtserkennung eingesetzt wird heißen die Eigenvektoren oft: Eigenfaces

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016

Mustererkennung. Support Vector Machines. R. Neubecker, WS 2018 / Support Vector Machines

Syntaktische und Statistische Mustererkennung. Bernhard Jung

EFME Aufsätze ( Wörter) Der Aufbau von Entscheidungsbäumen...1

Mustererkennung. Bayes-Klassifikator. R. Neubecker, WS 2016 / Bayes-Klassifikator

Alois Fichtl, Julius Vogelbacher 10. Juni Voronoi und Johnson-Mehl Mosaike

Unüberwachtes Lernen

Vorlesung 2. Maschinenlernen: Klassische Ansätze I

Andere Methoden zur Klassikation und Objekterkennung

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester Lösungsblatt 3 Maschinelles Lernen und Klassifikation

One-class Support Vector Machines

Das Modell: Nichtlineare Merkmalsextraktion (Preprozessing) + Lineare Klassifikation

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung

( ) ( ) < b k, 1 k n} (2) < x k

Mustererkennung und Klassifikation

Übungen zur Linearen Algebra 1

Zulassungstest zur Physik II für Chemiker

Pareto optimale lineare Klassifikation

Principal Component Analysis (PCA)

Methoden zur Cluster - Analyse

Vorlesung Maschinelles Lernen

Funktionslernen. 5. Klassifikation. 5.6 Support Vector Maschines (SVM) Reale Beispiele. Beispiel: Funktionenlernen

Vorlesung Maschinelles Lernen

Support Vector Machines (SVM)

Filter. Industrielle Bildverarbeitung, Vorlesung No M. O. Franz

. TRENNENDE HYPEREBENEN

Decision-Tree-Klassifikator

Serie 3. z = f(x, y) = 9 (x 2) 2 (y 3) 2 z 2 = 9 (x 2) 2 (y 3) 2, z 0 9 = (x 2) 2 + (y 3) 2 + z 2, z 0.

102 KAPITEL 14. FLÄCHEN

Proseminar HS Ebene algebraische Kurven Vortrag I.6. Duale Kurven. David Bürge 4. November 2010

Vorlesung Wissensentdeckung

Automatic segmentation for dental operation planning. Diplomarbeit. Nguyen The Duy

Eigenfaces vs. Fisherfaces: Recognition Using Class Specific Linear Projection

Sei ω eine symplektische Struktur auf U 2n. Satz 12. In einer Umgebung eines beliebigen Punktes x gibt es

Support Vector Machines, Kernels

Lineare Methoden zur Klassifizierung

Inhalt der Vorlesung. 1 Einführung 2 Konvexe Mengen 3 Konvexe Funktionen 4 Konvexe Optimierung 5 Lösungsverfahren (6 Anwendungen)

Klassische Klassifikationsalgorithmen

Einführung R. Neubecker, WS 2018 / 2019

Übungen zur Ingenieur-Mathematik III WS 2012/13 Blatt

Tangentialebene. Sei f eine stetig differenzierbare Funktion und p = (p 1,..., p n ) die Koordinaten eines Punktes P auf der durch

3.3 Nächste-Nachbarn-Klassifikatoren

12. Flächenrekonstruktion aus 3D-Punktwolken und generalisierte Voronoi-Diagramme

Kapitel 8. Neuronale Netze

Instanzenbasiertes Lernen: Übersicht

Übungen zu Theoretische Physik II

KAPITEL VIII. Elektrostatik. VIII.1 Elektrisches Potential. VIII.1.1 Skalarpotential. VIII.1.2 Poisson-Gleichung

Lineare Klassifikatoren

3.4 Kombinatorische Äquivalenz und Dualität von Polytopen

6 Methoden zur Lösung des elektrostatischen Randwertproblems

Extremalprobleme mit Nebenbedingungen

Übungen zur Vorlesung Grundlagen der Bilderzeugung und Bildanalyse (Mustererkennung) WS 05/06. Musterlösung 11

Wahrscheinlichkeitsrechnung und Statistik für Biologen Diskriminanzanalyse

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Mathematik II für Studierende der Informatik (Analysis und lineare Algebra) im Sommersemester 2018

Ferienkurs - Experimentalphysik 2 - Übungsblatt - Lösungen

Morphologische Filter

Projektive Räume und Unterräume

Optimierung. Vorlesung 02

Neuronale Netzwerke: Feed-forward versus recurrent (d.h. feed-back )

Lineare Klassifikationsmethoden

Geometrie. Ingo Blechschmidt. 4. März 2007

Berufsmaturitätsprüfung 2013 Mathematik

Lösungen zu Prüfung Lineare Algebra I/II für D-MAVT

Übungen zu Partielle Differentialgleichungen, WS 2016

Frequentisten und Bayesianer. Volker Tresp

Beispiele. Strecke A R 1 (genauso für R d ):

Mustererkennung: Neuronale Netze. D. Schlesinger ()Mustererkennung: Neuronale Netze 1 / 12

1 Verteilungsfunktionen, Zufallsvariable etc.

Mathematik 1 für Wirtschaftsinformatik

Physik-Department. Ferienkurs zur Experimentalphysik 2 - Aufgaben

Fluch der Dimensionen

Anorganische Chemie III

Wie können Computer lernen?

Klassifikation von Daten Einleitung

Least Absolute Shrinkage And Seletion Operator (LASSO)

5.4 Nächste-Nachbarn-Klassifikatoren

Klassische Klassifikationsalgorithmen

26. Der Gaußsche Integralsatz

Kugelfunktionen und Kugelflächenfunktionen

1 = z = y + e. Nabla ist ein Vektor, der als Komponenten keine Zahlen sondern Differentiationsbefehle

Triangulierungen von Punktmengen und Polyedern

5. Gitter, Gradienten, Interpolation Gitter. (Rezk-Salama, o.j.)

Syntaktische und Statistische Mustererkennung. Bernhard Jung

Proseminar über multimediale Lineare Algebra und Analytische Geometrie

Differentialgeometrie II (Flächentheorie) WS

Vorlesung Digitale Bildverarbeitung Sommersemester 2013

Elektromagnetische Felder und Wellen

Transkript:

Lineare Klassifikatoren Mustererkennung und Klassifikation, Vorlesung No. 8 1 M. O. Franz 06.12.2007 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001.

Übersicht 1 Nächste-Nachbarn- und lineare Klassifikation 2 Klassifikation in hochdimensionalen Problemen 3 Lineare Klassifikation

Übersicht 1 Nächste-Nachbarn- und lineare Klassifikation 2 Klassifikation in hochdimensionalen Problemen 3 Lineare Klassifikation

Durch Nächste-Nachbar-Regel erzeugtes Voronoi-Mosaik

k-nächste-nachbarn-regel Offensichtliche Erweiterung: k-nächste-nachbarn-regel Entscheide immer für die Klasse ω i der Mehrheit aller Prototypen innerhalb der k-nächste-nachbarn-zelle. Im Limit unendlich vieler Daten führt die k-nächste-nachbarn- Regel auf kleinere Fehlerraten als die Nächste-Nachbar-Regel. Die Schätzungen sind robuster (wegen Mehrheitswahl), aber glätten über eine größere Umgebung.

Beispiel: 1-Nächster-Nachbar-Klassifikator [Hastie et al., 2001]

Beispiel: 15-Nächste-Nachbarn-Klassifikator [Hastie et al., 2001]

Beispiel: Linearer Klassifikator [Hastie et al., 2001]

Beispiel: Bayes-Klassifikator [Hastie et al., 2001]

Beispiel: Fehlerraten [Hastie et al., 2001]

Vergleich Nächste-Nachbarn / lineare Klassifikatoren Lineare Entscheidungsgrenzen sind glatt und relativ stabil anzufitten, aber sie basieren auf der (anscheinend) einschränkenden Annahme der linearen Trennbarkeit hoher Bias, geringe Varianz. NN-Klassifikatoren machen beinahe keine einschränkenden Annahmen über die Verteilung, aber die Entscheidungsgrenzen hängen sehr stark vom jeweiligen Trainingsdatensatz ab geringer Bias, hohe Varianz. Lineare Klassifikatoren eignen sich besonders für breite, identisch oder isotrop gaußverteilte Klassen, NN für Mischungen vieler schmaler Verteilungen.

Übersicht 1 Nächste-Nachbarn- und lineare Klassifikation 2 Klassifikation in hochdimensionalen Problemen 3 Lineare Klassifikation

Fluch der Dimensionalität Fluch der Dimensionalität: Die Komplexität von Funktionen mit mehreren Variablen kann exponentiell mit der Dimension wachsen, d.h. die Schätzung einer solchen Funktion erfordert ebenfalls exponentiell viele Daten. Anzahl w der Würfel x 2 x2 Volumen der Seitenlänge L steigt mit der Dimension d x1 bei gleicher Kantenlänge l wie D = 1 x 1 D = 2 x 1 x3 D = 3 [Bishop, 2006] w = L (hier w = 3 d ) l Die Anzahl Datenpunkte für NN mit gleicher Auflösung skaliert ebenso! d

Beispiel: Fluch der Dimensionalität (2) [Hastie et al., 2001]

Beispiel: Fluch der Dimensionalität (3) volume fraction 1 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1 Welcher Volumenanteil einer d-dimensionalen Kugel mit Radius 1 liegt in der Schale von 1 ɛ und 1? Volumen der Kugel: Anteil: V(r) = Kr d V(1) V(1 ɛ) V(1) = 1 (1 ɛ) d [Bishop, 2006] In hochdimensionalen Räumen ist das Volumen einer Kugel in einer dünnen Schale an der Oberfläche konzentriert!

Klassifikation in hochdimensionalen Räumen Durch den Fluch der Dimensionalität funktionieren nichtparametrische Methoden wie NN oder Kerndichteschätzer nur bei geringer Dimensionalität. Klassifikation in hochdimensionalen Räumen erfordert Vorwissen. Reale Daten lassen sich dennoch oft klassifizieren, obwohl sie hochdimensional sind, weil sie oft nur einen niedrigdimensionalen Unterraum besetzen, lokale Glattheitseigenschaften aufweisen (d.h. kleine Änderungen am Input führen auch zu kleinen Änderungen des Ergebnisses). Lineare Klassifikatoren nutzen Vorwissen über solche lokale Glattheitseigenschaften der Klassenverteilungen.

Übersicht 1 Nächste-Nachbarn- und lineare Klassifikation 2 Klassifikation in hochdimensionalen Problemen 3 Lineare Klassifikation

Lineare Diskriminantenfunktionen Lineare Diskriminantenfunktion: g(x) = w x + w 0 mit dem Gewichtsvektor w und Bias oder Schwellwert w 0.

Lineare Entscheidungsgrenzen Entscheidungsregel: Entscheide für Klasse ω 1 für g(x) > 0, für ω 2 für g(x) < 0, keine Entscheidung für g(x) = 0. Die Gleichung g(x) = 0 definiert eine Entscheidungsfläche, die Punkte von ω 1 und ω 2 trennt. Da g(x) linear ist, ist die Entscheidungsfläche eine Hyperebene. Für 2 Punkte x 1 und x 2 auf der Hyperebene H gilt w x 1 + w 0 = w x 2 + w 0 bzw. w (x 1 x 2 ) = 0. d.h. der Gewichtsvektor w ist der Normalenvektor der Hyperebene H. H teilt den Merkmalsraum in 2 Halbräume: R 1 für ω 1 bzw. g(x) > 0 (d.h. w zeigt Richtung R 1, positive Seite), R 2 für ω 2 bzw. g(x) < 0 (negative Seite).

Abstand zur Entscheidungsebene Die Diskriminantenfunktion g(x) mißt die Distanz von x zu H: x = x p + r w w Da g(x p ) = 0 bzw. w x p = w 0, ist g(x) = w x + w 0 = w x p + w 0 r w w w = r w oder r = g(x) w Abstand zum Ursprung: g(x) = w 0 r 0 = w 0 / w.

Polychotomien (1) One-vs.-All-Architektur:

Polychotomien (2) One-vs.-One-Architektur:

Polychotomien: Lineare Maschinen Für c Klassen werden c lineare Diskriminantenfunktionen g i (x) = w i x + w 0i benutzt. Entscheidung für ω i, wenn g i (x) > g j (x) für alle j i.

Entscheidungsgrenzen in linearen Maschinen Zwei angrenzende Entscheidungsregionen R i und R j werden durch einen Abschnitt H ij einer Hyperebene getrennt: g i (x) = g j (x) bzw. (w i w j ) x + (w i0 w j0 ) = 0, d.h. der Normalenvektor von H ij ist (w i w j ), der (vorzeichenbehaftete) Abstand von x zu H ij ist (g i (x) g j (x))/ w i w j. Jede Entscheidungsregion ist einfach zusammenhängend. Lineare Maschinen sind daher besonders für Probleme mit unimodalen A-posteriori-Verteilungene geeignet. Aber: Es gibt multimodale Probleme, bei denen lineare Diskriminanten hervorragend abschneiden, und unimodale Probleme, bei denen sie schlecht funktionieren (s. Gauß)

Erweiterte Merkmalsvektoren d g(x) = w 0 + w i x i = i=1 d w i x i i=0 Erweiterter Merkmalsvektor: 1 x 1 ] y =. x d = [ 1 x Einführung einer zusätzlichen konstanten Koordinate x 0 = 1 vereinfacht Notation. Erweiterter Gewichtsvektor: w 0 w 1 [ ] a =.. = w0 w w d