Unüberwachtes Lernen

Ähnliche Dokumente
Principal Component Analysis (PCA)

Nichtlineare Klassifikatoren

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle

1. Referenzpunkt Transformation

Einführung in die Hauptkomponentenanalyse

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr

Mustererkennung. Merkmalsreduktion. R. Neubecker, WS 2016 / Übersicht

Clusteranalyse: Gauß sche Mischmodelle

Klausur zur Vorlesung Analyse mehrdimensionaler Daten, Lösungen WS 2010/2011; 6 Kreditpunkte, 90 min

Klassifikation und Ähnlichkeitssuche

5.Tutorium Multivariate Verfahren

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

k-nächste-nachbarn-schätzung

Multivariate Verfahren

10.2 Linearkombinationen

H. Stichtenoth WS 2005/06

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten

VII Unüberwachte Data-Mining-Verfahren

Übungsblatt

, v 3 = und v 4 =, v 2 = V 1 = { c v 1 c R }.

Multivariate Verteilungen und Copulas

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator

Lineare Algebra und Datenwissenschaften in Ingenieur- und Informatikstudiengängen

Quantenmechanik-Grundlagen Klassisch: Quantenmechanisch:

Lineare Algebra. Mathematik II für Chemiker. Daniel Gerth

Übungen zur Linearen Algebra 1

Inhaltsverzeichnis 1. EINLEITUNG...1

Multivariate Verteilungen

Mathematik für Naturwissenschaftler II SS 2010

Vektoren und Matrizen

5. Geraden und Ebenen im Raum 5.1. Lineare Abhängigkeit und Unabhängigkeit von Vektoren

Training von RBF-Netzen. Rudolf Kruse Neuronale Netze 134

Klausurenkurs zum Staatsexamen (SS 2015): Lineare Algebra und analytische Geometrie 6

Lineare Algebra II 8. Übungsblatt

Lineare Klassifikatoren

Basen von Schnitt und Summe berechnen

5. Aufgabe Seien s, t beliebige Parameter. Unter welcher Bedingung sind die Vektoren s t

Einleitung 2. 1 Koordinatensysteme 2. 2 Lineare Abbildungen 4. 3 Literaturverzeichnis 7

Inhalt. Mathematik für Chemiker II Lineare Algebra. Vorlesung im Sommersemester Kurt Frischmuth. Rostock, April Juli 2015

Mustererkennung. Support Vector Machines. R. Neubecker, WS 2018 / Support Vector Machines

Bayessche Lineare Regression

4 Lineare Abbildungen

Wenn PCA in der Gesichtserkennung eingesetzt wird heißen die Eigenvektoren oft: Eigenfaces

BZQ II: Stochastikpraktikum

12. R n als EUKLIDISCHER VEKTORRAUM

9 Eigenwerte und Eigenvektoren

9 Eigenwerte und Eigenvektoren

Elemente der Analysis II

Klausurenkurs zum Staatsexamen (SS 2016): Lineare Algebra und analytische Geometrie 6

Charakterisierung von 1D Daten

Vektorräume. 1. v + w = w + v (Kommutativität der Vektoraddition)

Hauptkomponentenanalyse. Volker Tresp

1 Multivariate Zufallsvariablen

Mustererkennung und Klassifikation

Hans Delfs. Übungen zu Mathematik III für Medieninformatik

7. Wie lautet die Inverse der Verkettung zweier linearer Abbildungen? 9. Wie kann die Matrixdarstellung einer linearen Abbildung aufgestellt werden?

Studiengang: Semester: WS 09/10. Algebra Serie: 1. Thema: Vektoralgebra

1 Beispiele multivariater Datensätze... 3

Probabilistische Analyse regionaler Klimasimulationen

3. Übungsblatt Aufgaben mit Lösungen

Klassifikation durch direkten Vergleich (Matching)

Geometrie. Bei der Addition von Vektoren erhält man einen Repräsentanten des Summenvektors +, indem man die Repräsentanten von aneinanderfügt:

Abhängigkeitsmaße Seien X 1 und X 2 zwei Zufallsvariablen. Es gibt einige skalare Maße für die Abhängigkeit zwischen X 1 und X 2.

2.3.4 Drehungen in drei Dimensionen

Reelle Zufallsvariablen

DWT 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 234/467 Ernst W. Mayr

Demokurs. Modul Vertiefung der Wirtschaftsmathematik Vertiefung der Statistik

1 Lineare Unabhängigkeit Äquivalente Definition Geometrische Interpretation Vektorräume und Basen 6

Lineare Algebra und Numerische Mathematik für D-BAUG

Anwendung v. symmetrischen Matrizen: Hauptachsentransformation

Statistik II: Klassifikation und Segmentierung

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher

42 Orthogonalität Motivation Definition: Orthogonalität Beispiel

Kapitel 2: Mathematische Grundlagen

Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017

3 Bedingte Erwartungswerte

Mathematische Werkzeuge R. Neubecker, WS 2018 / 2019 Optimierung Lagrange-Funktionen, Karush-Kuhn-Tucker-Bedingungen

Inhalt. 1 Unvollständige Clusteranalyseverfahren 35

Lösungsskizzen zur Klausur Mathematik II

Kapitel 5. Eigenwerte. Josef Leydold Mathematik für VW WS 2017/18 5 Eigenwerte 1 / 42

Skalarprodukt. Das gewöhnliche Skalarprodukt ist für reelle n-tupel folgendermaßen erklärt: Sind. und v := reelle n-tupel, dann ist

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Multivariate Verteilungen. Gerhard Tutz LMU München

T2 Quantenmechanik Lösungen 7

Maschinelles Lernen in der Bioinformatik

Deskriptive Beschreibung linearer Zusammenhänge

Selbstständiges Lernen

Lösungen Serie 5. D-MAVT Lineare Algebra II FS 2018 Prof. Dr. N. Hungerbühler

Fallstudien der mathematischen Modellbildung Teil 3: Quanten-Operationen. 0 i = i 0

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

Ferienkurs Quantenmechanik 2009

9 Lineare Gleichungssysteme

Mathematische Grundlagen für die Vorlesung. Differentialgeometrie

Kapitel 3. Vektorräume. Josef Leydold Mathematik für VW WS 2017/18 3 Vektorräume 1 / 41. : x i R, 1 i n x n

Kapitel 3. Vektorräume. Josef Leydold Mathematik für VW WS 2017/18 3 Vektorräume 1 / 41

Übungen zu Multimedia-Datenbanken Aufgabenblatt 4 - Musterlösungen

5.1 Affine Räume und affine Abbildungen

Lösungen zur Prüfung Lineare Algebra I/II für D-MAVT

Transkript:

Unüberwachtes Lernen Mustererkennung und Klassifikation, Vorlesung No. 12 M. O. Franz 17.01.2008

Übersicht 1 Hauptkomponentenanalyse 2 Nichtlineare Hauptkomponentenanalyse 3 K-Means-Clustering

Übersicht 1 Hauptkomponentenanalyse 2 Nichtlineare Hauptkomponentenanalyse 3 K-Means-Clustering

Unüberwachtes Lernen Bei unüberwachten Lernproblemen ist die Klassenzugehörigkeit der Trainingsbeispiele unbekannt. Anwendungsfälle: Clusteranalyse: Die Daten werden aufgrund bestimmter Kriterien (z.b. räumliche Nähe) in Klassen zusammengefaßt. Dimensionsreduktion: Suche nach niedrigdimensionalen Repräsentationen der Daten zur Interpretation oder für Lernaufgaben.

Hauptkomponentenanalyse In der Hauptkomponentenanalyse wird nach Richtungen in den Daten gesucht, entlang derer die Daten extremale (d.h. maximale oder minimale) Varianz haben. Anwendung: Dimensionsreduktion durch Weglassen der Richtungen mit der kleinsten Varianz. Annahme: die Daten seien zentriert, d.h. der Schwerpunkt m = 1 n liegt am Ursprung. i x i

Varianz entlang einer Raumrichtung Gesucht sind Richtungen mit extremaler Varianz. Eine beliebige Richtung im R d wird durch einen Einheitsvektor q dargestellt, auf die Datenpunkte x projiziert werden: A = x q = q x mit q = q q = 1 Wir nehmen an, daß die Datenpunkte durch eine vektorwertige Zufallsvariable mit Erwartungswert E[x] = 0 erzeugt werden. Damit ist auch die Projektion A auf q eine Zufallsvariable mit Varianz in Richtung q: σ 2 (q) = E[A 2 ] E[A] 2 E[A] = q E[x] = 0 = E[(q x)(x q)] 0 = q E[xx ]q = q Rq mit Korrelationsmatrix R = E[xx ]

Raumrichtungen extremaler Varianz als Eigenwertproblem An Richtungen extremaler Varianz ist die Ableitung von σ 2 (q) = 0, d.h. bei einer infinitesimalen Richtungsänderung δq gilt Mit Hilfe von σ 2 = q Rq ergibt sich σ 2 (q + δq) = σ 2 (q) + O(δq 2 ) σ 2 (q + δq) = (q + δq) R(q + δq) = q Rq + 2(δq) Rq + O(δq 2 ) und σ 2 (q + δq) = σ 2 (q) + 2(δq) Rq Damit beide Gleichungen gültig sind, muß (δq) Rq = 0 sein. Weiterhin gilt q + δq = 1, d.h. (q + δq) (q + δq) = 1 damit muß auch hier (δq) q = 0 sein. Zusammen ergibt sich (δq) Rq + λ(δq) q = 0 bzw. (δq) (Rq λq) = 0 und damit die Eigenwertgleichung Rq = λq mit λ = σ 2 (q)

Hauptkomponenten Die Lösungen der Eigenwertgleichung der Korrelationsmatrix R Rq = λq sind also die Richtungen extremaler Varianz, die Eigenwerte geben die Varianz der Daten entlang dieser Richtungen an. Die Eigenwertgleichung hat i.a. d verschiedene, zueinander orthogonale Richtungen q i als Lösung. Diese Richtungsvektoren werden als neue Basis im R d gewählt. Die Projektionen eines Datenpunktes auf die q i a i = q i x = x q i heißen die Hauptkomponenten von x. Die Darstellung eines Datenpunktes in diesem neuen Koordinatensystem entspricht also einer Rotation, nach der die Koordinatenachsen entlang der Richtungen extremaler Varianz zeigen.

Dimensionsreduktion Prinzip: es werden nur die l Basisvektoren mit der größten Varianz beibehalten, Richtungen kleinerer Varianz werden verworfen. Der resultierende Vektor in R l ist ˆx = l a i q i mit a i = q i x. i=1 Man kann zeigen, daß die so gewählte Basis den kleinsten Rekonstruktionsfehler unter allen Basen von R l hat (s. Haykin, 99). [Haykin 99]

2D-Beispiel [Haykin 99]

Beispiel: Eigengesichter

Übersicht 1 Hauptkomponentenanalyse 2 Nichtlineare Hauptkomponentenanalyse 3 K-Means-Clustering

Hauptkomponentenanalyse auf 3 Clustern

Dimensionsreduktion mit linearen Methoden Die Hauptkomponentenanalyse ist eine lineare Methode. Sie beschreibt Unterräume mit besonders hoher bzw. niedriger Varianz. Die Basisvektoren q i dieser Unterräume sind Linearkombinationen der Trainingsdatenpunkte, d.h. lineare Superpositionen dieser Daten (s. z.b. Eigengesichter). Für Bilder führen solche Repräsentationen oft zu unerwünschten Artefakten (Geisterbilder). Oft befinden sich die Daten auf niedrigdimensionalen Untermannigfaltigkeiten, die keinem Unterraum entsprechen, sondern gekrümmten Hyperflächen. Die Hauptkomponentenanalyse fängt nur paarweise Korrelationen ein, keine komplexeren statistischen Abhängigkeiten. Für solche Probleme müssen nichtlineare Methoden zur Dimensionsreduktion eingesetzt werden.

Nichtlineare Hauptkomponentenanalyse (1) Grundidee: Nichtlineare Transformation der Daten in einen (oft höherdimensionalen) Merkmalsraum. Hier: gleicher Ansatz wie bei nichtlinearer Klassifikation, d.h. wir (1) definieren eine Basis aus m nichtlinearen Funktionen ϕ(x), (2) bilden darüber die Daten nichtlinear in einen erweiterten Merkmalsraum R m ab und machen (3) dort eine Hauptkomponentenanalyse.

Nichtlineare Hauptkomponentenanalyse (2) Analog zur Klassifikation werden die Basisfunktionen in einen erweiterten Merkmalsvektor geschrieben, z.b für eine Basis aus RBFs ϕ i (x) = e x x i 2 2 y = Φ(x) = e x x 1 2 2 e x x 2 2 2. e x xn 2 2 R n ergibt sich dann eine Korrelationsmatrix R = E[Φ(x)Φ(x) ] = 1 n n Φ(x i )Φ(x i ), i=1 deren Eigenwertzerlegung eine nichtlineare Hauptkomponentenanalyse im R n darstellt.

Nichtlineare Hauptkomponentenanalyse auf 3 Clustern

Übersicht 1 Hauptkomponentenanalyse 2 Nichtlineare Hauptkomponentenanalyse 3 K-Means-Clustering

Clustering Situation: Eine Menge von Objekten und ein Ähnlichkeitsmaß zwischen diesen Objekten. Die Objekte seien als Punkte in einem Raum darstellbar, ihre Ähnlichkeiten als Distanzen. Clustern: geg. eine Punktmenge, partitioniere sie so in Cluster, daß sich Punkte im selben Cluster nahe sind, Punkte in verschiedenen Clustern weit auseinanderliegen. Hierarchisches Clustern Zentroidbasiertes Clustern Single-Linkage Clustering Probabilistische generative Modelle...

K-Means-Clustering 1 Initialisierung: geg. Datenpunkte x n, n = 1... N, setze K Prototypen auf Zufallswerte m (0) k 2 Zuweisungsschritt: weise jedem Datenpunkt x n den nächsten Prototyp ˆk n zu, d.h. ˆk n = argmin k x n m k 2 3 Anpassungsschritt: Setze m k auf den Mittelwert der ihm zugewiesenen Datenpunkte m k = n r knx n n r kn mit dem Indikator r kn = 1 wenn k = ˆk n, sonst r kn = 0. 4 Wiederhole Zuweisungs- und Anpassungsschritt, bis sich die Zuordnung nicht mehr ändert.

Beispiel: K-means auf 2D-Daten [McKay 2003]

Problematische Fälle [McKay 2003]

Probleme bei K-Means Ad-hoc-Merkmale Anzahl der Prototypen steht von vornherein fest. Wie soll im Falle von mehreren möglichen Clusterzuteilungen entschieden werden? Warum ist gerade der Mittelwert ein guter Repräsentant für den Cluster? Gibt es bessere Distanzfunktionen? Algorithmische Probleme Nur die Distanz zählt, nicht die Clustergröße. Keine Repräsentation der Clusterform Sog. harte Zuweisung: jeder Punkt trägt nur zu einem Cluster bei und hat dort dasselbe Gewicht.

Soft K-Means 1 Initialisierung: geg. Datenpunkte x n, n = 1... N, setze K Prototypen auf Zufallswerte m (0) k 2 Zuweisungsschritt: Jeder Datenpunkt x n erhält eine weiche Zuweisung zu allen Prototypen über die Indikatorfunktion r kn = exp( β m k x n ) i exp( β m mit r kn = 1 i x n ) β beschreibt die Reichweite der Prototypen. 3 Anpassungsschritt: Setze m k auf den Mittelwert der ihm zugewiesenen Datenpunkte m k = n r knx n n r kn 4 Wiederhole Zuweisungs- und Anpassungsschritt, bis sich die Zuordnung nicht mehr ändert. k

Beispiel: Soft K-Means example auf 2D-Daten [McKay 2003]