Vorlesung 11. Unüberwachtes Lernen II

Größe: px

Ab Seite anzeigen:

Download "Vorlesung 11. Unüberwachtes Lernen II"

Leander Thomas
vor 6 Jahren
Abrufe

1 Vorlesung 11 Unüberwachtes Lernen II Martin Giese

2 Übersicht Diskriminanzanalse Lernen spärlicher Repräsentationen Nichtnegative Matrifaktorisierung (NMF

3 I. Diskriminanzanalse

4 Kanonische Variaten (z.b. McLachlan & Krishnan 1996; Riple 1996 Bekannt auch als Fishers lineare Diskriminanten Ziel: Konstruktion von Richtungen die günstig für Klassifikation sind Nutzung der Klassenlabel Gegeben: Daten i und Zughörigkeit zu g verschiedenen Klassen Problem: Finden von Richtungen im Datenraum die Varianz zwischen Klassen maimieren Varianz innerhalb der Klassen maimieren

5 Kanonische Variaten Mittelwerte innerhalb einer Klasse µ k g 1 Mittelwert aller Klassen: µ = µ Kovarianzmatri zwischen den Klassen: g 1 C= ( µ g 1 k= 1 k µ ( µ k µ Kovarianzmatri innerhalb einer Klasse Σ (hier als gleich angenommen für alle Klassen g k= 1 T k Σ = cov( X = Für Zufallsvektor X {( X E{ X}( X E{ X T } E }

6 Kanonische Variaten Sei n ein Richtungsvektor dann definiert = n T ein Merkmal entlang einer Richtung im Datenraum Merkmalsvarianz (falls E{}=0: Var( = n T E{ T } n Eine optimale Merkmalsrichtung ist gegeben durch die Bedingung: T n Cn Varianz zwischen den Klassen n* = arg sup = T n 0 n Σn Varianz innerhalb der Klasse n Der Vektor n kann beliebig skaliert werden z.b. so dass n T Σn = 1.

7 Kanonische Variaten Optimierungsproblem: minimiere: n T Cn unter der NB n T Σn = 1 Lagrange-Funktion: T T L( n λ = n Cn + λ( n Σn 1 Optimalitätsbedingung: 1 2 L( n λ n = Cn + λσn = 0 Verallgemeinertes Eigenvektorproblem Normales Eigenvektor-Problem falls Σ invertierbar; sonst spezielle numerische Techniken ( MATLAB; Golub & van Loan 1989

8 Kanonische Variaten Nach Bestimmung der besten Richtung Iteration: nächste dazu orthogonale Richtung finden usw. Falls Σ invertierbar ist einfach die grössten Singulärwerte nehmen (korresppondieren zu orthogonalen Richtungen mit grösster Varianz s.o.

Fisher-Gesichter (Belhumeur et al. 1997 Vergleich: Eigen-Gesichter vs.

9 Fisher-Gesichter (Belhumeur et al Vergleich: Eigen-Gesichter vs. Fisher- Gesichter Yale + Harvard Gesichtsdatenbasen Beleuchtungsvariationen verschiedene Gesichtsaudrücke Verdeckungen

10 Fisher-Gesichter (Belhumeur et al Fehler Beleuchtung: normal etrem 1 etrem 2 Klassifikation von Gesichtern Fisher-Gesichter (FG mehr robust gegen Beleuchtungsvariationen

11 Fisher-Gesichter (Belhumeur et al Fehler FG weniger sensitiv gegen Variation des Gesichtsausdruckes

12 Fisher-Gesichter (Belhumeur et al Fisher-Gesicht für Brillenträger FG robust gegen Verdeckungen durch Brille

13 Fisher-Gesichter (Belhumeur et al Fisher-Gesichter nicht abhängig von Zahl der Hauptkomponenten PCA schlecht wenn zu viele Komponenten verwendet werden

14 II. Lernen spärlicher Repräsentationen

15 Approimation durch Basisfunktionen Ziel: Repräsentation von Bildern I( durch Basisfunktionen g k ( Bilder approimiert durch Linearkombination: I( = K k= 1 w g k k ( Gewichte w k werden für jedes Bild neu geschätzt. Basisfindungsproblem: Bestimme die optimalen g k ( so dass Bilder im Mittel gut approimiert werden.

16 Wörterbuch (dictionar Bilder I( sind Zufallsvariable. Die Funktionen g k ( 1 k K definieren ein Wörterbuch (dictionar Ziel: Wörter sollten vollständigen Code liefern und Code mit minimaler Redundanz (d.h. ohne Wiederholungen Annahme: Bilder können durch Kombination weniger Wörter dargestellt werden (Spärlichkeit

17 Spärlichkeit (sparseness Minimale Redundanz: g k orthogonal und erklären maimale Varianz; paarweise dekorrelierte Gewichte: E{w k w l } = E{w k } E{ w l } für k l PCA Nur Statistik 2. Ordnung modellierbar. Nur wenige Gewichte w k 0 spärliche Kodierung Auch Statistik höherer Ordnung modellierbar.

18 Lernalgorithmus Spärlichkeitsmass: Funktion S(w die für grosse w immer langsamer ansteigt Lösungen mit vielen kleinen Gewichten bestraft. Minimierung des Kostenfunktionals: S( w S( w = e w 2 = log(1 + w 2 K 2 K = gk ] I( wk gk ( d( S( wk k= 1 k= 1 V[ w g λ Approimation Spärlichkeit λ bestimmt Trade-off zwischen Spärlichkeit und Appro. Vgl. Regularisierung!!!

19 Lernalgorithmus Die Bilder I( und die Gewichte w k sind Zufallsvariable. Minimierung durch stochastischen Gradientenabstieg: 1. Für jedes Bild Optimierung der Gewichte w k. 2. Gemittelt über viele Bilder Optimierung der Basisfunktionen g k (.

20 Optimierung der Gewichte Annahme: Bild I( konstant Kostenfunktion kompakt geschrieben: Zeitliche Änderung in Richtung des Abfalls von V: mit ( ' 2 1 w Cw b w w S V + = = & = + + = K k k T T T K w S I I g g V ( d( ( ( d( ( ( 2 d( ( ]... [ w g g w g w w d( ( ( I b = g d( ( ( T = g g C

21 Optimierung nach den Basisfunktionen Sei das rekonstruierte Bild. Über die Bilder gemittelte Kostenfunktion: (Langsame zeitliche Änderung in Richtung des Abfalls von <V>: = + = K k k w S I I V 1 2 ( d( ˆ( ( unabhängig von g( ( ˆ( ( 2 ( ( I I w g V g k k k = = & τ = = K k k k w g I 1 ( ˆ ˆ( Mittelwert über Bilder Zeitkonstante

22 Interpretation als Neuronales Netz w k g k ( Iˆ ( I(

Eperimente Natürliche Bilder: Landschaftsaufnahmen 512 512 Piel Hohe Ähnlichkeit der lokalen Bildstatistik

23 Eperimente Natürliche Bilder: Landschaftsaufnahmen Piel Hohe Ähnlichkeit der lokalen Bildstatistik Vorfilterung (pre-whitening Unterfenster Piel Zufällig gewählte Ausschnitte Ca Trainingsbilder

Ortslokalisation Parameter ähnlich kortikalen Neuronen

24 Spärliche Codierung Lokalisierte Filter ( Rezeptive ˆ g k ( Felder Veschiedene Frequenzbänder Verschiedene Ortslokalisation Parameter ähnlich kortikalen Neuronen Simple cells visueller Korte (Olshausen & Field1996 (Daugman 1989

25 PCA PCs geordnet nach Varianz Keine Lokalisierung! Ordnung nach Frequenzbändern (Olshausen & Field1996

26 III. Nichtnegative Matrifaktorisierung (NMF

Lernen von Objektteilen Viele natürliche Objekte bestehen aus Teilen Ziel: unüberwachtes Lernen von Teilen Teile als Wörterbuch (Augen Mund Bilder

27 Lernen von Objektteilen Viele natürliche Objekte bestehen aus Teilen Ziel: unüberwachtes Lernen von Teilen Teile als Wörterbuch (Augen Mund Bilder I( repräsentiert durch Basisfunktionen g k ( K I( = w g ( (s.o. k= 1 Einschränkung: Gewichte nie negativ: w k 0 Analog zu neuronaler Aktivität k k

28 Matrifaktorisierung Gegeben: Datenmatri X = [ 1 L ] mit ij 0 (Helligkeitswerte positiv oder Null Ziel: Faktorisierung der Datenmatri in der Form X = U W d.h. i = U w i Basisbilder / Prototpen Gewichte (Bilder als Überlagerung von Basisbildern

29 Matrifaktorisierung Durch verschiedene NB für U und W ergeben sich verschiedene Lernverfahren: 1. w i Einheitsvektoren Vektorquantisierung 2. Spalten von U orthonormal; Zeilen von W orthogonal PCA 3. Alle Einträge von U und W nichtnegativ Nichtnegative Matrifaktorisierung Keine gegenseitige Kompensation positiver und negativer Terme möglich!

30 Generatives Modell Approimation der Bildmatri X: X ˆ = UW Probabilistisches generatives Modell für die Bilder Xˆ ist eine Zufallsvariable w 1 w L U 1 E{ } = Uw N (Lee & Seung 1999

31 Kostenfunktion Optimales generatives Modell minimiert Abweichung zwischen X und Xˆ Divergenz (unsmmetrische Distanz zwischen X und Xˆ : D( X Xˆ = m n mn log ˆ mn mn mn + ˆ mn Entspricht sog. Kullback-Leibler-Divergenz falls m n = mn ˆ m n mn = 1 (d.h. ij definiert diskrete Verteilung Minimierung unter den Nebenbedingungen u ij w ij 0 Annahme: Xˆ poissonverteilt

32 Lernalgorithmus Iteration mit multiplikativen Updates Abwechselnd U und W optimiert mq umn umn wnq q (UW mq qn wmn wmn uqm q (UW qn Zusätzlicher Normalisierungschritt (sonst unterbestimmt u mn q u u Konvergenz kann bewiesen werden: D( X Xˆ nimmt immer ab es sei denn lokales Minimum ist erreicht. mn qm

Resultate 2429 Gesichtsbilder 19 19 piel 49 Basisbilder U Ca.

33 Resultate 2429 Gesichtsbilder piel 49 Basisbilder U Ca. 500 Iterationen Spärlichkeit bei NMF! Nur NMF liefert lokalisierte Komponenten!!! U (Lee & Seung 1999 w

34 Wichtige Punkte Fisher-Gesichter / Diskriminanzanalse Spärliche neuronale Codierung Lernen von rezeptiven Feldern Nichtnegative Matrifaktorisierung

35 Literatur Belhumeur P.N. Hespanha J. P. & Kriegman D.J (1997 Eigenfaces vs. Fisherfaces: Recognition using class specific linear projection. IEEE Transactions on Pattern Recognition and Machine Intelligence Cherkassk V. Mulier F. (1998. Learning From Data. John-Wile & Sons Inc New York. Duda R.O. Hart P.E. Stork D.G. (2001. Pattern Classification. John-Wile & Sons Inc New York. Forsth D.A. & Ponce J. (2003. Computer Vision: A modern Approach. Prentice-Hall. Upper Saddle River NJ. Golub G. & van Loan C. (1996 Matri Computations. The Johns Hopkins Universit Press Baltimore. Lee D.D & Seung H S. (1999 Learning the parts of objects b non-negative matri factorization. Nature

Ähnliche Dokumente

Eigenfaces vs. Fisherfaces: Recognition Using Class Specific Linear Projection

Eigenfaces vs. Fisherfaces: Recognition Using Class Specific Linear Projection Peter N. Belhumeur, João P. Hespanha, David J. Kriegman IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.