Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Ähnliche Dokumente
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer Christoph Sawade

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr

Clusteranalyse: Gauß sche Mischmodelle

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle

SBWL Tourismusanalyse und Freizeitmarketing

Bayessche Lineare Regression

Statistische Sprachmodelle

Latente Dirichlet-Allokation

Hidden-Markov-Modelle

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Maschinelles Lernen II

3.2 Maximum-Likelihood-Schätzung

SBWL Tourismusanalyse und Freizeitmarketing

VII Unüberwachte Data-Mining-Verfahren

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Instanzen

Clustering. Herbert Stoyan Stefan Mandl. 18. Dezember 2003

Überblick. Grundkonzepte des Bayes schen Lernens. Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische Regression

Methoden zur Cluster - Analyse

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Thomas Vanck

Überblick. Grundkonzepte des Bayes schen Lernens. Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische Regression

Mathematische Grundlagen III

Vorlesung Wissensentdeckung

Unüberwachtes Lernen

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator

4.Tutorium Multivariate Verfahren

Signalverarbeitung 2. Volker Stahl - 1 -

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse

Generative Modelle. Generative Modelle 1 / 49

Die Maximum-Likelihood-Methode

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr

Mathematische Grundlagen (Bayes sches Lernen)

Fortgeschrittene Ökonometrie: Maximum Likelihood

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

INTELLIGENTE DATENANALYSE IN MATLAB

Frequentisten und Bayesianer. Volker Tresp

Textmining Clustering von Dokumenten

Elementare Wahrscheinlichkeitslehre

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells

Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Maschinelle Sprachverarbeitung: N-Gramm-Modelle

2 Alle Standardabweichungen σ i sind bekannt, bzw. die Kovarianzmatrix der Daten ist bekannt: Minimieren der χ 2 - Funktion.

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

10. Vorlesung. Grundlagen in Statistik. Seite 291. Martin-Luther-Universität Halle/Wittenberg

Lineare Klassifikatoren. Volker Tresp

Clustering. Clustering:

Generative Modelle. Generative Modelle 1 / 49

Active Hidden Markov Models for Information Extraction

Einführung in das Maschinelle Lernen I

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Optimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren Thomas Brox, Fabian Kuhn

Klassifikation von Daten Einleitung

5. Klassifikation. 5.6 Support Vector Maschines (SVM)

k-means als Verfahren zur Clusteranalyse basierend auf Repräsentanten bestimmt ein flaches Clustering

Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017

Vorlesung Digitale Bildverarbeitung Sommersemester 2013

Allgemeine Chemie Computer Praktikum Frühjahrssemester Regressions-Tutorial Lineare und nicht-lineare Regression

LDA-based Document Model for Adhoc-Retrieval

Lineare Methoden zur Klassifizierung

Clustering 2010/06/11 Sebastian Koch 1

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen II: Zusammenfassung

Einige Konzepte aus der Wahrscheinlichkeitstheorie (Wiederh.)

Das Bayes'sche Prinzip

Zufallsvariablen [random variable]

Lineare Regression. Volker Tresp

Inhaltsverzeichnis. 4 Statistik Einleitung Wahrscheinlichkeit Verteilungen Grundbegriffe 98

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

10.5 Maximum-Likelihood Klassifikation (I)

VII Unüberwachte Data-Mining-Verfahren. VII Unüberwachte Data-Mining-Verfahren

Eine zweidimensionale Stichprobe

Statistik und Wahrscheinlichkeitsrechnung

Dokument Klassifikation. Thomas Uhrig: Data-Mining SS10

Algorithmische Methoden zur Netzwerkanalyse

k-nächste-nachbarn-schätzung

J.P.E.G. Standard. J.P.E.G. Eigenschaften. J.P.E.G. System. JPEG Verschlüsselungsschritte. Farbmodell

6 Extremwerte mit Nebenbedingungen: Die Lagrange-Multiplikatoren-Methode

Schätzung von Parametern

Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II. Prof. Dr.

4 Probabilistische Analyse und randomisierte Algorithmen

Data Mining - Wiederholung

Deskriptive Beschreibung linearer Zusammenhänge

Statistische Entscheidungstheorie

Reinforcement Learning

Algorithmen zur Kundensegmentierung

Bayes sches Lernen: Übersicht

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

Musterlösung der Klausur vom 29. Juli 2003

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Zusammenfassung. Niels Landwehr, Uwe Dick, Matthias Bussas

4. Verteilungen von Funktionen von Zufallsvariablen

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

Transkript:

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck

Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz: Gaußsche Mischmodelle Bayesscher Ansatz: Gaußsche Mischmodelle + Priors 2

Clusteranalyse: Was ist Clustern? Wir haben Datenpunkte Z.B. Wir wollen Einteilung der Datenpunkte in Cluster 3

Clusteranalyse: Was ist Clustern? Annahme oft, dass Datenpunkte zu verschiedenen Klassen gehören aber wir sehen keine Klassenlabels! Nicht-überwachtes Lernen: rekonstruiere Klassen ohne Labels 4

Clusteranalyse: Anwendungen Überblick über eine Dokumentenkollektion Z.B. Suchmaschine: Suchwort Kohl Liefert grosse Menge von Dokumenten Helmut Kohl (Politik) Kohl s (US Kaufhaus) Kohl (Gemüse) Idee: zeige dem Nutzer die Cluster, um genauere Auswahl des Themas zu ermöglichen 5

Clusteranalyse: Anwendungen Spam Kampagnen identifizieren Spam-Kampagne: große Menge ähnlicher (aber nicht gleicher) e-mails Eine Kampagne ist ein deutlicher Cluster ähnlicher e- mails Attribute z.b. Worte die im e-mail Text auftauchen 6

Clusteranalyse: Anwendungen Erstellen der Wortklassen für n-gram Klassenmodelle Erinnerung Vorlesung 3: n-gram Klassenmodell Wir sehen uns [Montag Dienstag Mittwoch ] Nachmittag Wortklassen entsprechen Clustern Attribute z.b. Auftreten der Worte in bestimmten Kontexten 7

Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz: Gaußsches Mischmodell Bayesscher Ansatz: Gaußsches Mischmodell + Priors 8

Problemstellung Clustering (Deterministisch) Gegeben Daten Anzahl Gesucht mit vermuteter Cluster Zuweisung der Daten zu Clustern Clusterzentren Andere Attributtypen (binär, nominal) möglich Oft problematisch (woher wissen wir K?) z.b. So dass Abstand zwischen Punkten im selben Cluster klein und der Abstand zwischen Punkten in verschiedenen Clustern groß ist 9

Problemstellung Clustering (Deterministisch) Gegeben Daten Anzahl Gesucht mit vermuteter Cluster Zuweisung der Daten zu Clustern Clusterzentren Andere Attributtypen (binär, nominal) möglich Oft problematisch (woher wissen wir K?) z.b. So dass der quadratische Abstand zum Clusterzentrum minimiert wird: 10

K-Means Algorithmus Gleichzeitiges Min. über und schwierig Iterativer Algorithmus: Abwechselnde Minimierung Starte mit zufälligen Update Expectation Maximization Iteriere bis Konvergenz Konvergenz sicher, weil J immer sinkt aber im Allgemeinen nur lokales Optimum 11

K-Means Algorithmus Expectation Schritt Einfach: ordne jeden Punkt dem ihm nächsten Cluster(zentrum) zu 12

K-Means Algorithmus Maximization Schritt Ableitungen Null setzen 13

K-Means Algorithmus Maximization Schritt 14

K-Means: Beispiel K = 2 15

K-Means: Beispiel K = 2 16

K-Means: Beispiel K = 2 17

K-Means: Beispiel K = 2 18

K-Means: Beispiel K = 2 19

K-Means: Beispiel K = 2 20

K-Means: Beispiel K = 2 21

K-Means: Beispiel K = 2 Kostenfunktion J fällt kontinuierlich Iterationen 22

Kommentare K-Means Einfach zu implementieren Relativ schnell: O(NK) per Iteration Beschleunigung durch Datenstrukturen zur effizienten Berechnung des nächsten Clusterzentrums möglich Nur lokales Optimum garantiert unterschiedliche Startwerte = unterschiedliche Lösungen Nicht probabilistisch Muss Anzahl Cluster vorgeben 23

Probabilistisches Clustern besser Clustern sollte Konfidenz liefern: für einige Datenpunkte können wir keine sichere Entscheidung treffen! Beobachtete Daten Probabilistische Cluster Ursprüngliche Klassen (nicht beobachtet) Clustern Sicher Cluster 3! Cluster 1 oder 2? 24

Vorgegebene Anzahl von Clustern? Woher wissen wir, wie viele Cluster in Daten? Manchmal klar aus der Anwendungsdomäne Oftmals aber auch unklar Anzahl Cluster sollte vom Clustering Algorithmus (soweit möglich) mit bestimmt werden 25

Überblick Problemstellung/Motivation Deterministischer Ansatz: k-means Probabilistischer Ansatz: Gaußsches Mischmodell Bayesscher Ansatz: Gaußsches Mischmodell + Priors 26

Probabilistisches Clustern mit Generativem Modell Idee: Generatives Modell, dass die Daten erzeugt haben könnte Clusterzugehörigkeit ist eine versteckte Variable in diesem Modell Modell hat Parameter (Familie von Modellen) Clustering: Gegeben die Daten Suche Parameter, so dass die Wahrscheinlichkeit dass Modell mit Parametern Daten erzeugt hat: Likelihood 27

Probabilistisches Clustern: Gaußsches Mischmodell Ersetze feste Clusterzuweisungen durch entsprechende Zufallsvariablen Zufallsvariable Clusterzugehörigkeit Generatives probabilistisches Modell Wähle erst einen Cluster Generiere dann Datenpunkt aus Cluster k 28

Probabilistisches Clustern: Gaußsches Mischmodell Verteilung über Cluster: Mischgewichte Gaußverteilung der Daten gegeben Cluster Gaußverteilung Wahrscheinlichkeit, Daten aus Cluster k zu sehen Resultierende Verteilung über z Clusterzentrum Clusterkovarianz Gesamtmodell: 29

Beispiel Gaußsches Mischmodell Gaußsches Mischmodell, K = 3, 500 Datenpunkte gezogen Clusterzentren Mischgewichte Clusterkovarianzen Geben an, wie die Punkte um das Clusterzentrum streuen 30

Multivariate Gaußverteilung Dichtefunktion Mittelwert (Mean) Kovarianz Beispiel D=2 31

Multivariate Gaußverteilung Dichtefunktion Mittelwert (Mean) Kovarianz Kovarianzmatrix beschreibt wie Dichte um den Mittenwert streut 32

Gaußsches Mischmodell: Darstellung als Graphisches Modell Abhängigkeit zwischen Variablen und graphisch darstellbar graphisches Modell Gegeben Daten, haben wir auch N Zufallsvariablen für Clusterzugehörigkeit Plate Notation Beobachtete Variable 33

Problemstellung Gaußsches Mischmodell Clustering (Maximum Likelihood) Gegeben Daten Gesucht Mischgewichte Clusterzentren Clusterkovarianzen So dass (logarithmische) Likelihood maximal: Daraus lassen sich Clusterzugehörigkeiten berechnen 34

Problemstellung Gaußsches Mischmodell Clustering (Maximum Likelihood) Gegeben Daten Gesucht Mischgewichte Clusterzentren Clusterkovarianzen 35

EM Algorithmus für Maximum Likelihood Erinnerung (Vorlesung 4): Expectation-Maximization Algorithmus zur Maximierung der Likelihood Daten bestehen aus X (sichtbar) und Z (versteckt, hier Clusterzugehörigkeit) Idee: Likelihood Maximierung wäre leicht, wenn wir X und Z hätten Werte aller ZV in Modell beobachtet! 36

Erinnerung: EM Algorithmus Aber Z nicht beobachtet! Idee: maximiere Q-Funktion Iteriere Expectation: Maximization: Parameterwert im letzten Schritt Theorem (Konvergenz): Allerdings nur lokales Maximum 37

EM für Gaußsches Mischmodell Likelihood für vollständige Daten X,Z Z ist allerdings unbekannt! 38

EM für Gaußsches Mischmodell Q-Funktion für Gaußsches Mischmodell Q-Funktion = Likelihood, in der die durch ihre Erwartungswerte ( Responsibilities ) ersetzt wurden! (Expectation Schritt) 39

EM für Gaußsches Mischmodell Bayes Regel Expectation Schritt: Berechnung der Responsibilities 40

EM für Gaußsches Mischmodell Maximization Schritt: maximiere in Ergebnis (ohne Beweis): Wir definieren Erwartete Anzahl von Punkten in Cluster k Dann Erwarteter Anteil von Punkten in Cluster k Gewichteter Mittelwert für Cluster k 41

EM für Gaußsches Mischmodell Maximization Schritt: maximiere in Ergebnis (ohne Beweis): Definieren Erwartete Anzahl von Punkten in Cluster k Dann Gewichtete Kovarianz für Cluster k 42

Vergleich mit K-Means EM Zusammenfassung: Starte mit zufälligen Expectation: berechne Responsibilities Maximization: weiche Clusterzugehörigkeiten Weiche Berechnung der neuen Clusterzentren Gaußsches Mischmodell + EM Weicher K- Means 43

Vergleich mit K-Means (formal) Gaußsches Mischmodell mit festen Clusterkovarianzen Expectation: Maximization: Für ε 0 harte Berechnung der neuen Clusterzentren Im Grenzfall ε 0 wird Gaußsches Mischmodell zu K-Means 44

Beispiel Gaußsches Mischmodell Clustering 45

Beispiel Gaußsches Mischmodell Clustering 46

Beispiel Gaußsches Mischmodell Clustering 47

Beispiel Gaußsches Mischmodell Clustering 48

Beispiel Gaußsches Mischmodell Clustering 49

Problem I: Singularitäten EM maximiert Likelihood Problem: Singularität für Likelihood wird unendlich für! Overfitting : Modell zu sehr an Daten angepasst In der Praxis: Während EM diesen Fall detektieren und entsprechende Clusterkomponente neu initialisieren 50

Problem II: Wie bestimmt man Anzahl der Cluster? Likelihood Funktion Je mehr Komponenten wir zulassen, desto größer wird (bis Anzahl Komponenten = N) Modell mit N Clustern nutzlos! Likelihood kann nicht über Anzahl Cluster entscheiden Ebenfalls Overfitting Phänomen 51

Diskussion Gaußsches Mischmodell Probabilistisches Verfahren Singularitäten Anzahl Cluster muss vorgegeben werden Problem ist der Maximum Likelihood Ansatz ML Ansatz erlaubt, Parameter zu sehr an den Datensatz anzupassen (Overfitting) Lösung: Regularisierung durch Prior 52