Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle

Ähnliche Dokumente
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Clusteranalyse: Gauß sche Mischmodelle

Methoden zur Cluster - Analyse

Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016

4.Tutorium Multivariate Verfahren

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

6. Schätzverfahren für Parameter

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Übungen mit dem Applet

Wahrscheinlichkeitsrechnung und Statistik

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

k-nächste-nachbarn-schätzung

Mathematik für Naturwissenschaften, Teil 2

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Mathematische Grundlagen III

9. Clusterbildung, Klassifikation und Mustererkennung

Was bisher geschah. Definition digitaler Bilder B : pos col Bildanalyse, statistische Merkmale Signale im Orts- und Frequenzraum Bildbearbeitung durch

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester Lösungsblatt 3 Maschinelles Lernen und Klassifikation

J.P.E.G. Standard. J.P.E.G. Eigenschaften. J.P.E.G. System. JPEG Verschlüsselungsschritte. Farbmodell

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher

1 Einleitung. 2 Clustering

Bild-Erkennung & -Interpretation

2.3 Intervallschätzung

Fit for Abi & Study Stochastik

Statistisches Testen

Principal Component Analysis (PCA)

Wahrscheinlichkeitstheorie 2

2.3 Intervallschätzung

Neuronale Netze. Anna Wallner. 15. Mai 2007

Allgemeines zu Tests. Statistische Hypothesentests

Erweiterung eines Verfahrens zur automatisierten Parameteridentifikation eines Fahrzeugmodells

Inhaltliche Planung für die Vorlesung

Numerische Methoden und Algorithmen in der Physik

Bildverarbeitung Herbstsemester. Mustererkennung

Klasse WI06b MLAN2 zweite-klausur 13. Juni 2007

4.1. Nullhypothese, Gegenhypothese und Entscheidung

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation

Einführung in die medizinische Bildverarbeitung WS 12/13

Erwartungswert, Umgebungswahrscheinlichkeiten und die Normalverteilung

Mustererkennung und Klassifikation

Support Vector Machines (SVM)

Signalverarbeitung 2. Volker Stahl - 1 -

Die Familie der χ 2 (n)-verteilungen

Technische Universität

Computergestützte Datenanalyse in der Kern- und Teilchenphysik

Forschungsstatistik I

7.5 Erwartungswert, Varianz

Computer Vision: Kalman Filter

Zufallsvariablen [random variable]

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Statistische Methoden in den Umweltwissenschaften

Signalverarbeitung 2. Volker Stahl - 1 -

Statistics, Data Analysis, and Simulation SS 2017

Das Histogramm ist glockenförmig. Es würde bei mehr als vier Fehlerquellen sich der Glockenform noch besser annähern.

NICHTRESTRINGIERTE OPTIMIERUNG

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

Klassifikation und Ähnlichkeitssuche

Pareto optimale lineare Klassifikation

z Partitionierende Klassifikationsverfahren

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

6.6 Poisson-Verteilung

Bildverarbeitung: Filterung. D. Schlesinger () Bildverarbeitung: Filterung 1 / 17

Verteilungen eindimensionaler stetiger Zufallsvariablen Stetige Verteilungen. Chi-Quadrat-Verteilung Studentverteilung Fisher-Verteilung

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

Die n-dimensionale Normalverteilung

Data Mining - Wiederholung

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Klausur zur Einführung in die Wahrscheinlichkeitstheorie und Statistik

Fallzahlplanung bei unabhängigen Stichproben

Graphische Datenverarbeitung und Bildverarbeitung

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung

Rechnernutzung in der Physik Teil 3 Statistische Methoden der Datenanalyse

Unüberwachtes Lernen: Clusteranalyse und Assoziationsregeln

Kapitel 2. Mittelwerte

Wahrscheinlichkeitsrechnung und Statistik

Klausur zur Vorlesung

Statistische Methoden in den Umweltwissenschaften

1.5 Erwartungswert und Varianz

Textmining Clustering von Dokumenten

7. Grenzwertsätze. Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Programmierkurs Python II

Stichproben Parameterschätzung Konfidenzintervalle:

Dokumenten-Clustering. Norbert Fuhr

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

Einführung in die Induktive Statistik: Testen von Hypothesen

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Statistische Tests für unbekannte Parameter

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells

2 Wiederholung statistischer Grundlagen Schließende Statistik empirischen Information aus Stichprobenrealisation x von X

Forschungsstatistik I

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

1. Was ist eine Wahrscheinlichkeit P(A)?

Proseminar: Web-Performance

Transkript:

Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1

Lernen Überwachtes Lernen Zum Training des Klassifikators steht eine Trainingsstichprobe zur Verfügung, die Klassenzugehörigkeit der einzelnen Merkmalsvektoren ist bekannt Unüberwachtes Lernen Die Klassenzugehörigkeit (in der Trainingsstichprobe) ist unbekannt Die Klassen müssen erst einmal identifiziert werden ("Clustering") Automatisches Clustering Was sind sinnvolle Kriterien, die eine Clusterzugehörigkeit bestimmen? Wie beurteile ich die Qualität einer gefundenen Clustereinteilung? Zitat: "Eine Klasse fasst ähnliche Dinge zusammen"? Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren

Clustering: Grundlegende Probleme Klassengrenzen Überlappende Klassen (im Sinne von: einige Mitglieder der Stichprobe, die eigentlich zu unterschiedlichen Klassen gehören, sind sich trotzdem "sehr ähnlich") kaum lösbares Problem für Clustering Skalenabhängigkeit Skala / Einheit der Merkmalskoordinaten u.u. nicht vergleichbar, keine gleiche Skala für jede Achse des Merkmalsraums Willkür in der Wahl der Skalen Auswirkungen auf Clustering, denn "Ähnlichkeit" = Abstand im Merkmalsraum Clustering: Grundlegende Probleme Merkmals-Skalen Skalierung der Merkmale schlägt sich in Abständen nieder Varianz der gesamten Punktewolke kann aus zufälliger Variation oder aus Klassenzugehörigkeit resultieren x x Abstände werden durch x 1 dominiert x 1 x 1

Clustering: Grundlegende Probleme Klassenzahl Anzahl der Klassen erst einmal unbekannt automatisch bestimmen oder vorgeben? Zu wenige Cluster Klassen werden zusammengefasst Zu viele Cluster Klassen werden in Unterklassen zerrissen Extremfall: Jeder Merkmalspunkt ist seine eigene Klasse Qualitätskriterium notwendig: Wann ist eine Clustereinteilung gut? Übersicht 9 (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren

K-Means-Verfahren: Konzept 10 K-Means Ziel: Summe aller Abstände zu den jeweiligen Clusterzentren minimieren J = alle Cluster l alle x k im Cluster l x k μ l Min! d.h. jeder Merkmalsvektor gehört zum nächstgelegenen Clusterzentrum. Entspricht: Minimale Varianz innerhalb jedes Clusters Gesucht: optimale Clusterzentren μ l Implementierung Vorgabe: Anzahl der Cluster L (!), Startwerte für die Clusterzentren μ l Iterationsschleife: a. Weise jedem Merkmalsvektor x k die Klasse des am nächsten gelegenen Clusterzentrums (wieder neu) zu b. Neue Clusterzentren μ l Mittelwerte alle zugehörigen Merkmalsvektoren x k Cluster l (aus Schritt a.) Mögliche Abbruchbedingung: keine Änderung der Klassenzuordnung oder Clusterzentren bewegen sich kaum noch / nicht mehr K-Means-Verfahren: Konzept 11 Beispiel 5

K-Means-Verfahren: Konzept 1 Probleme / Kritikpunkte Die Anzahl der Cluster muss vorgegeben werden Der K-Means-Algorithmus muss nicht die optimale Lösung finden (lokale Minima der Fehlerfunktion), Abhängigkeit der Lösung von den Startwerten pragmatischer Ausweg: mit verschiedenen Startwerten oft laufen lassen K-Means findet nur konvexe Cluster Jeder Merkmalsvektor wird in jedem Iterationsschritt immer "hart" einem Cluster zugeschlagen die Information über die Nähe (Wahrscheinlichkeit der Zugehörigkeit) zu verschiedenen Clustern wird nicht berücksichtigt K-Means-Verfahren: Variante 1 Variante: "Soft-K-Means" Berücksichtigung / Gewichtung des Abstande aller Punkte zu allen Clusterzentren a) Abstand jedes betrachteten Merkmalsvektors x k zu allen Clusterzentren μ l berechnen b) Abstandsgewicht: je größer Abstand desto kleiner der Gewichtsfaktor r r kl = exp( β x k μ l ) l exp( β x k μ l ) Parameter β: "Steifheit" des Clustering (β = klassisches K-Means) c) Jedes der l Clusterzentren jetzt als gewichteter Mittelwert über alle Merkmalsvektoren μ l neu = 1 k r kl k r kl x k Darüber hinaus noch viele andere Varianten und Abwandlungen von k-means

K-Means-Verfahren: Anwendung 1 Anwendung: Segmentieren als Clusterbildungsaufgabe Segmentieren eines Bildes = zusammengehörige Bildregionen identifizieren = "Klassen" bilden Beispiel Binarisierung eines Grauwertbildes Nur 1 Merkmal = Grauwert Pixel des Bildes = Stichprobe Vorgabe Anzahl Klassen = Übersicht 15 (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren

1 Wahrscheinlichkeiten Annahme: Verteilung der Merkmale wird von Wahrscheinlichkeitsverteilungen bestimmt! Welche Verteilungsform? Welche Parameter? (Passt das tatsächlich zur vorliegenden Stichprobe?) Gängige / naheliegende Annahme: Gaußsche Normalverteilung D.h. Stichprobe wird von mehreren unabhängigen (multivariaten) Gaußverteilungen bestimmt "Gaussian Mixture Model" - GMM Problem der Clusterbildung: Finde die Mittelpunkte und Kovarianzmatrizen der zugrunde gelegten Normalverteilungen, sowie das jeweilige Gewicht (a-priori Wahrscheinlichkeit) 5 1 0 5 9 5 1 0 5 9 1 Formale Beschreibung Wahrscheinlichkeit, dass gegebener Merkmalsvektor x k zur Klasse ω l gehört p x k x k ε ω l = π l N l μ l, K l = π l π N K l exp [ 1 x k μ l t K l 1 x k μ l ] mit π l = P(ω l ) = a-priori Wahrscheinlichkeit der Klasse ω l Fragestellung: Gegeben ist eine Stichprobe x k. Welches GMM θ (Gaussian Mixture Model mit L Klassen mit den Parametern μ l, K l ) passt dazu? Wie hoch ist die Wahrscheinlichkeit P(θ x k ), dass ein bestimmtes GMM θ die Stichprobe repräsentiert? Auswahl des GMM mit der höchsten Gesamtwahrscheinlichkeit

19 Iterations-Algorithmus für GMM Annahme einer bestimmten Anzahl L von Klassen und entsprechende Parameter der Normalverteilungen Startwerte (Option: Startwerte mit K-Means gewinnen) Iterationsschleife a. Für jedes Mitglied x k der Stichprobe: Berechnung der Wahrscheinlichkeit h kl, dass er zur Normalverteilung N l gehört h kl = p( x k x k ε ω l ) l P x k x k ε ω l ) = Wert von N l bei x k Normierung b. Anpassung der Normalverteilungen Neue Mittelwerte μ l = 1 Neue Kov.matrix K = 1 k h kl k h kl k h kl x k k h kl x k μ l x k μ t l Bei Berechnung der emp. Schätzwerte: Wichtung mit Wahrscheinlichkeit h kl Allgemein: Verfahren zur iterative Anpassung der Parameter von Wahrscheinlichkeitsverteilungen an eine gegebene Stichprobe = Expectation-Maximization-Algorithmen 0 GMM @ Matlab Vorgabe: Klassen x 5 1 GMM Ergebnis Klasse 1: P ω 1 =,% μ 1 =..91 K = 0.5 0.9 0.9 0. 0 5 9 x 1 Klasse : P ω 1 =,% μ 1 = 5.01 1. K = 0.1 0.01 0.01 0.00 9

1 GMM @ Matlab Vorgabe: Klassen x 5 1 GMM Ergebnis Klasse 1: P ω 1 =,% μ 1 =..91 K = 0.5 0.9 0.9 0. 0 5 9 x 1 Klasse : P ω 1 =,% μ 1 = 5.01 1. K = 0.1 0.01 0.01 0.00 Endgültige Klassenzugehörigkeit ergibt sich aus p x k x k ε ω l Klassifikation Fazit Unüberwachtes Lernen erfordert als ersten Schritt ein Clustering: Einteilung der unsortierten (Traninings-) Stichprobe in sinnvolle Cluster = Klassen Danach bekanntes Trainieren des gewählten Klassifikators (= überwachtes Lernen) Clustering Zu einem Cluster sollen "ähnliche" Punkte gehören Distanzen im Merkmalsraum Es gibt wenige robuste Verfahren zum automatischen Clustering Kritisch: (Vorgegebene) Anzahl der Klassen Vorsicht: Skalenabhängigkeit Prinzipiell zwei Arten von Verfahren: Reine Nutzung der Stichproben (z.b. K-Means) Modellbasiert, d.h. Annahme einer zugrundeliegenden Wahrscheinlichkeitsverteilung (z.b. GMM) und Anpassung der Parameter an die Stichprobe 10