Clusteranalyse: Gauß sche Mischmodelle
|
|
- Richard Gärtner
- vor 7 Jahren
- Abrufe
Transkript
1 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr
2 Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz: Gaußsche Mischmodelle Bayesscher Ansatz: Gaußsche Mischmodelle + Priors 2
3 Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz: Gaußsche Mischmodelle Bayesscher Ansatz: Gaußsche Mischmodelle + Priors 3
4 Clusteranalyse: Was ist Clustern? Wir haben Datenpunkte Merkmalsvektoren Wir wollen Einteilung der Datenpunkte in Cluster 4
5 Clusteranalyse: Anwendungen Überblick über eine Dokumentenkollektion Z.B. Suchmaschine: Suchwort Kohl Liefert grosse Menge von Dokumenten Helmut Kohl (Politik) Kohl s (US Kaufhaus) Kohl (Gemüse) Idee: zeige dem utzer die Cluster, um genauere Auswahl des Themas zu ermöglichen 5
6 Clusteranalyse: Anwendungen Spam Kampagnen identifizieren Spam-Kampagne: große Menge ähnlicher (aber nicht gleicher) s Eine Kampagne ist ein deutlicher Cluster ähnlicher s 6
7 Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz: Gaußsches Mischmodell Bayesscher Ansatz: Gaußsches Mischmodell + Priors 7
8 Problemstellung Clustering (Deterministisch) Gegeben Daten mit Anzahl vermuteter Cluster Gesucht Zuweisung der Daten zu Clustern 1,,K Clusterzentren Oft problematisch (woher wissen wir K?) x 1 z.b. liegt im 3. Cluster 8
9 Problemstellung Clustering (Deterministisch) Ziel/Optimierungskriterium Punkte in einem Cluster sollen alle ähnlich sein, d.h. geringen Abstand im Merkmalsraum haben Minimiere quadratische Abstand zum Clusterzentrum: K J r x n1 k1 nk Abstand x zu Clusterzentrum n Minimieren in r,..., r und,..., n k 2 1 n 1 K 9
10 K-Means Algorithmus Gleichzeitiges Min. über und schwierig Iterativer Algorithmus: Abwechselnde Minimierung Starte mit zufälligen Update Expectation K Iteriere bis Konvergenz Maximization Konvergenz sicher, weil J immer sinkt aber im Allgemeinen nur lokales Optimum 10
11 K-Means Algorithmus Expectation Schritt Einfach: ordne jeden Punkt dem ihm nächsten Cluster(zentrum) zu 11
12 K-Means Algorithmus Maximization Schritt: Ableitung ull setzen:,..., argmin r x neu neu neu 1 K 1, nk n k..., k n k neu k n n r nk r x nk n Durchschnitt der Punkte, die in den Cluster fallen 2 12
13 K-Means: Beispiel K = 2 13
14 K-Means: Beispiel K = 2 14
15 K-Means: Beispiel K = 2 neu k n n r nk r x nk n 15
16 K-Means: Beispiel K = 2 16
17 K-Means: Beispiel K = 2 neu k n n r nk r x nk n 17
18 K-Means: Beispiel K = 2 18
19 K-Means: Beispiel K = 2 neu k n n r nk r x nk n 19
20 K-Means: Beispiel K = 2 Kostenfunktion J fällt kontinuierlich Iterationen 20
21 Kommentare K-Means J Einfach zu implementieren J Relativ schnell: O(K) per Iteration L ur lokales Optimum garantiert: unterschiedliche Startwerte = unterschiedliche Lösungen L Keine Konfidenz für Clusterzugehörigkeit L Muss Anzahl Cluster vorgeben 21
22 Probabilistisches Clustern besser Clustern sollte Konfidenz liefern: für einige Datenpunkte können wir keine sichere Entscheidung treffen! Probabilistisches Clustern Beobachtete Daten Clustern Probabilistische Cluster Ursprüngliche Klassen (nicht beobachtet) Sicher Cluster 3! Cluster 1 oder 2? 22
23 Überblick Problemstellung/Motivation Deterministischer Ansatz: k-means Probabilistischer Ansatz: Gaußsches Mischmodell Bayesscher Ansatz: Gaußsches Mischmodell + Priors 23
24 Probabilistisches Clustern mit Generativem Modell Idee: Generatives Modell, das die Daten erzeugt haben könnte Modell hat Parametervektor (,, ) Modell (,, ) Generativer Prozess Daten Form der Daten hängt ab von Parametern (,, ) 24
25 Probabilistisches Clustern: Gaußsches Mischmodell Generativer Prozess: Wähle Clusterkomponente k Generiere einen Datenpunkt zu diesem Cluster Zufallsvariablen: Clusterzugehörigkeit z: Kodierung wie bei k-means z1 z2 z... zk z k 1: x in Cluster k 0 :sonst Komponente 2 Komponente 1 Komponente 3 0 z.b. z 0 1 Datenpunkt im 3. Cluster Datenpunkt x 25
26 Probabilistisches Clustern: Gaußsches Mischmodell Clusterkomponente wählen, anschließend Datenpunkt generieren Verteilung über Clusterzugehörigkeit z: multinomial K 1,.. K i i1 Pa ramete r (., ), 1 ur einer der Faktoren ungleich Eins 26
27 Probabilistisches Clustern: Gaußsches Mischmodell Clusterkomponente wählen, anschließend Datenpunkt generieren Verteilung über Datenpunkte gegeben Cluster: Multivariate ormalverteilungen p( x zk 1 ) ( x k, k ) Cluster-spezifische Parameter: K k1 Clusterzentrum, Kovarianzmatrix zk p( x z ) ( x, ) ur einer der Faktoren ungleich Eins k k Parameter: =(,..., ) (Clusterzentren); (,..., ) (Kovarianzmatrizen) 1 K 1 K 27
28 Probabilistisches Clustern: Gaußsches Mischmodell Verteilung der Daten in einem Cluster k Clusterzentrum ormalverteilung p( x z 1) ( x, ) k k k 1 1 exp ( x Z 2 Clusterkovarianz T 1 k ) k ( x k ) Beispiel D=2: Dichte, Samples aus Verteilung ormalisierer Z 2 D/2 1/2 28
29 Probabilistisches Clustern: Gaußsches Mischmodell Interpretation der Parameter, D Parameter ist der Mittelpunkt des Clusters k Kovarianzmatrix k M ( ) DxD beschreibt die Form des Clusters, d.h. wie Dichte um den Mittelwert streut k k 29
30 Beispiel Gaußsches Mischmodell Gesamtmodell: Gaußsches Mischmodell Erzeugt Daten bestehend aus mehreren Clustern Beispiel K = 3, 500 Datenpunkte gezogen Clusterzentren Clusterkovarianzen Geben an, wie die Punkte um das Clusterzentrum streuen 30
31 Probabilistisches Clustern: Gaußsches Mischmodell Wir ziehen Datenpunkte aus dem Gaußschen Mischmodell Graphisches Modell, Parameter explizit (Parameter keine ZV) z1 z2 z3 x1 x2 x 3 z x Plate-otation Parameter koppeln Beobachtungen 31
32 Clustern mit Gaußschem Mischmodell Gauß sches Mischmodell definiert Verteilungen über Datenpunkte (als Überlagerung einzelner Cluster) Form/Lage der Cluster abhängig von Modellparametern Problemstellung in der Praxis: Daten Cluster Anpassen des Modells an Daten = Parameterlernen Inferieren der Clusterzugehörigkeiten gegeben Modell 32
33 Clustern mit Gaußschem Mischmodell (Maximum Likelihood) Parameterlernproblem Gegeben: Daten X { x,..., 1 x } Gesucht: Parameter (,, ) Optimierungskriterium Likelihood: arg max p( X ) arg max p( x ) (i.i.d) n1 arg max p( x, z ) n1 arg max p( z ) p( x z,, ) n1 z n z n n n n n n n Produkt von Summen: schwierig zu optimieren 33
34 Maximum Likelihood: Vollständige Daten Zunächst Vereinfachung: vollständig beobachtete Daten Definiere * Z { z,..., z } (Clus terzugehörigkeiten ) arg max p( X, Z ) arg max p( z ) p( x z,, ) n1 znk arg max ( x, ) n1 k1 K arg max z (log( ) log( ( x, )) 1 n1 k1 K n n n nk k n n n k n k k z nk Produkt von Produkten: leichter zu optimieren (Log!) 34
35 Maximum Likelihood: Vollständige Daten Likelihood Maximierung ist relativ einfach, wenn wir X und Z kennen (geschlossene Lösung) * k k * 1 k znkx k n1 n Anzahl Punkte in Clusterkomponente k 1 )( ) * * * k znk ( xn x k n k k n1 T z, z {0,1} Indikator: x in Cluste r k? k nk nk n n1 35
36 EM Algorithmus Problem: Z nicht beobachtet! Wir müssen schwieriges Problem lösen: * arg max px ( ) Lösung mit dem EM-Algorithmus ( Expectation- Maximization ) 36
37 EM Algorithmus Iteratives Verfahren: bestimme Berechnung von als Argmax der Q-Funktion Beginne mit zufälligem. Iteriere: Expectation: Maximization: Theorem (Konvergenz): t1 1 Allerdings nur lokales Maximum,,, Parameterwert im letzten Schritt 37
38 EM für Gaußsches Mischmodell Q-Funktion für Gaußsches Mischmodell Q(, ) log p( X, Z ) X, t n1 k1 p( Z X, )log p( X, Z ) p( Z X, ) z (log log ( x, )) Z Z Z K K n1 k1 Z t t nk k n k k n1 k 1 p( Z X, ) z (log log z nk K X, t t z X, (log log ( x, )) t nk k (Def. Erwartungswert) ( x nk t k n k k, )) n k k 38
39 EM für Gaußsches Mischmodell Q-Funktion = Likelihood der vollständigen Daten, wobei Indikatoren ersetzt sind durch ihre Erwartungswerte K log p( X, Z ) z (log( ) log( ( x, )) K n1 k1 nk k n k k Q(, ) [ z X, ] (log( ) log( ( x, )) t nk t k n k k n1 k1 "Responsibilities" ( z ) nk 39
40 EM für Gaußsches Mischmodell Expectation Schritt: Berechnung der Responsibilities Inferenz im aktuellen Modell, gegeben X ( z ) : [ z X, ] p( z 1 X, ) nk nk t nk t ( x, ) k n k k K j n j j1 ( x, ) ( ) : Wahrscheinlichkeit, mit der Beispiel n in Cluster k fällt z nk "Weiche" Clusterzugehörigkeit j 40
41 EM für Gaußsches Mischmodell Maximization Schritt: maximiere in Ergebnis: k k 1 k ( znk ) x k n1 n1 Q(, ) log p( X, Z ) X, 1 k ( znk )( xn )( x ) k n k k n t (,, ) Erwarteter Anteil von Punkten in Cluster k Gewichteter Mittelwert für Cluster k T t Gewichtete Kovarianz für Cluster k k ( znk ), n1 Erwartete Anzahl von Punkten in Cluster k 41
42 Zusammenfassung EM EM Zusammenfassung: Starte mit zufälligen Expectation: berechne Responsibilities ( z ) p( z 1 X, ) Maximization: nk nk t Wiederholen bis Konvergenz weiche Clusterzugehörigkeiten Berechnung der neuen Parameter gegeben weiche Clusterzugehörigkeiten Gaußsches Mischmodell + EM Weicher K-Means Weiche Clusterzugehörigkeit, weiche Berechnung Clusterzentren 42
43 Beispiel Gaußsches Mischmodell Clustering 43
44 Beispiel Gaußsches Mischmodell Clustering 44
45 Beispiel Gaußsches Mischmodell Clustering 45
46 Beispiel Gaußsches Mischmodell Clustering 46
47 Beispiel Gaußsches Mischmodell Clustering 47
48 Überblick Problemstellung/Motivation Deterministischer Ansatz: k-means Probabilistischer Ansatz: Gaußsches Mischmodell Bayesscher Ansatz: Gaußsches Mischmodell + Priors 48
49 Problem: Singularitäten EM maximiert Likelihood Problem des Overfittings Insbesondere: Singularität für Likelihood wird unendlich für! Heuristik: Während EM diesen Fall detektieren und entsprechende Clusterkomponente neu initialisieren Bessere Lösung: Regularisierung durch Prior 49
50 Prior Verteilungen für Gaußsches Mischmodell Gaußsches Mischmodell kann durch Prior Verteilungen erweitert werden ZV Prior-Verteilung Erwartung für Parameterwerte (degenerative Fälle unwahrscheinlich) Gesamtverteilung p(,, ) p( ) p(, ) p( ) p( ) p( ) 50
51 MAP Lösung Gaußsches Mischmodell Maximum a posteriori Parameterschätzung: Anpassung des EM Algorithmus: maximiere Entsprechende Änderung im M-Schritt notwendig (keine Details) 51
52 Vorteile von Prior Verteilung Löst das Problem der Singularitäten Prior verhindert den Fall Für geeignete Wahl der Priorverteilung kann die Anzahl der Clusterkomponenten automatisch bestimmt werden: in der MAP Lösung sind einige ull k 52
53 Zusammenfassung Clusterproblem Deterministischer Ansatz: K-Means Schnell, einfach, nicht probabilistisch Probabilistischer Ansatz mit Gaußschem Mischmodell Allgemeiner + eleganter als K-Means Training mit EM Algorithmus Prior-Verteilungen auf Parametern um Overfitting zu vermeiden 53
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz:
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Christoph Sawade/Niels Landwehr/Tobias Scheffer Überblick Problemstellung/Motivation Deterministischer i ti Ansatz:
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer Christoph Sawade
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Christoph Sawade Heute: Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz:
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer
Universität Potsdam Institut für Informati Lehrstuhl Maschinelles Lernen Clusteranalyse Christoph Sawade/iels Landwehr/Tobias Scheffer Überblic Problemstellung/Motivation Deterministischer Ansatz: K-Means
MehrMustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle
Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators
MehrBayessche Lineare Regression
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Baessche Lineare Regression Niels Landwehr Überblick Baessche Lernproblemstellung. Einführendes Beispiel: Münzwurfexperimente.
MehrÜberblick. Grundkonzepte des Bayes schen Lernens. Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische Regression
Überblick Grundkonzepte des Baes schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische Regression Baes sche Vorhersage Münzwürfe Lineare Regression 57 Erinnerung:
MehrSBWL Tourismusanalyse und Freizeitmarketing
SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalyse Achim Zeileis & Thomas Rusch Institute for Statistics and Mathematics
MehrÜberblick. Grundkonzepte des Bayes schen Lernens. Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische Regression
Überblic Grundonepte des Bayes schen Lernens Wahrscheinlichstes Modell gegeben Daten Münwürfe Lineare Regression Logistische Regression Bayes sche Vorhersage Münwürfe Lineare Regression 14 Modell für Münwürfe
MehrÜberblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung
Grundlagen Überblick Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes-Klassifikator
MehrInstitut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Graphische Modelle Christoph Sawade/iels Landwehr/Tobias Scheffer Graphische Modelle: Inferenz Wir haben eine Domäne durch gemeinsame
MehrSBWL Tourismusanalyse und Freizeitmarketing
SBWL Tourismusanalse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalse Achim Zeileis Department of Statistics and Mathematics FleMi
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Bayes sches Lernen Niels Landwehr Überblick Grundkonzepte des Bayes schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe
Mehr3.2 Maximum-Likelihood-Schätzung
291 Die Maximum-Likelihood-Schätzung ist die populärste Methode zur Konstruktion von Punktschätzern bei rein parametrischen Problemstellungen. 292 3.2.1 Schätzkonzept Maximum-Likelihood-Prinzip: Finde
MehrMathematische Grundlagen (Bayes sches Lernen)
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Mathematische Grundlagen (Bayes sches Lernen) Tobias Scheffer Michael Großhans Paul Prasse Uwe Dick Anwendungsbeispiel 1: Diagnostik
MehrMethoden zur Cluster - Analyse
Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics
MehrKlassifikation von Daten Einleitung
Klassifikation von Daten Einleitung Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Klassifikation von Daten Einleitung
MehrLineare Klassifikatoren
Universität Potsdam Institut für Informatik Lehrstuhl Lineare Klassifikatoren Christoph Sawade, Blaine Nelson, Tobias Scheffer Inhalt Klassifikationsproblem Bayes sche Klassenentscheidung Lineare Klassifikator,
MehrVII Unüberwachte Data-Mining-Verfahren
VII Unüberwachte Data-Mining-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizing Maps Institut AIFB, 00. Alle Rechte vorbehalten.
MehrTextmining Clustering von Dokumenten
Textmining Clustering von Dokumenten Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Clustering 1 / 25 Clustering Definition Clustering ist
MehrINTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Instanzen
INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen: Clustern von Instanzen Literatur Chris Bishop: Pattern Recognition and Machine Learning. Jiawei Han und Micheline Kamber: Data Mining Concepts
MehrLatente Dirichlet-Allokation
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Latente Dirichlet-Allokation Tobias Scheffer Peter Haider Paul Prasse Themenmodellierung Themenmodellierung (Topic modeling) liefert
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer Thomas Vanck Statistik & Maschinelles Lernen Statistik: Deskriptive Statistik: Beschreibung (Tabellen,
MehrFortgeschrittene Ökonometrie: Maximum Likelihood
Universität Regensburg, Lehrstuhl für Ökonometrie Sommersemester 202 Fortgeschrittene Ökonometrie: Maximum Likelihood Poissonverteilung Man betrachte die poisson-verteilten Zufallsvariablen y t, t =, 2,...,
MehrDie Maximum-Likelihood-Methode
Vorlesung: Computergestützte Datenauswertung Die Maximum-Likelihood-Methode Günter Quast Fakultät für Physik Institut für Experimentelle Kernphysik SS '17 KIT Die Forschungsuniversität in der Helmholtz-Gemeinschaft
MehrUnüberwachtes Lernen
Unüberwachtes Lernen Mustererkennung und Klassifikation, Vorlesung No. 12 M. O. Franz 17.01.2008 Übersicht 1 Hauptkomponentenanalyse 2 Nichtlineare Hauptkomponentenanalyse 3 K-Means-Clustering Übersicht
MehrDynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38
Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate
MehrHidden-Markov-Modelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hidden-Markov-Modelle Tobias Scheffer Thomas Vanck Hidden-Markov-Modelle: Wozu? Spracherkennung: Akustisches Modell. Geschriebene
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Graphische Modelle iels Landwehr Überblick: Graphische Modelle Graphische Modelle: Werkzeug zur Modellierung einer Domäne mit verschiedenen
MehrGenerative Modelle. Generative Modelle 1 / 49
Generative Modelle Generative Modelle 1 / 49 Die Zielstellung Bisher: Lerne eine unbekannte Zielfunktion approximativ nach Beobachtung zufällig erzeugter Beispiele Jetzt: Finde möglichst viel über die
MehrProbabilistische Graphische Modelle
Probabilistische Graphische Modelle 1 Probabilistische Graphische Modelle Sven Wachsmuth Universität Bielefeld, Technische Fakultät, AG Angewandte Informatik WS 2006/2007 Probabilistische Graphische Modelle
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Christoph Sawade/Niels Landwehr Dominik Lahmann Tobias Scheffer Überblick Hypothesenbewertung, Risikoschätzung
MehrGenerative Modelle. Generative Modelle 1 / 49
Generative Modelle Generative Modelle 1 / 49 Die Zielstellung Bisher: Lerne eine unbekannte Zielfunktion approximativ nach Beobachtung zufällig erzeugter Beispiele Jetzt: Finde möglichst viel über die
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Zusammenfassung. Niels Landwehr, Uwe Dick, Matthias Bussas
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Zusammenfassung Niels Landwehr, Uwe Dick, Matthias Bussas Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer, Tom Vanck, Paul Prasse
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer, Tom Vanck, Paul Prasse Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Termin: Montags,
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen II: Zusammenfassung
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II: Zusammenfassung Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement
MehrMaschinelles Lernen II
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Niels Landwehr Organisation Vorlesung/Übung 4 SWS. Ort: 3.01.2.31. Termin: Vorlesung: Dienstag, 10:00-11:30.
Mehr4.Tutorium Multivariate Verfahren
4.Tutorium Multivariate Verfahren - Clusteranalyse - Hannah Busen: 01.06.2015 und 08.06.2015 Nicole Schüller: 02.06.2015 und 09.06.2015 Institut für Statistik, LMU München 1 / 17 Gliederung 1 Idee der
MehrBayes sches Lernen: Übersicht
Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 10: Naive Bayes (V. 1.0)
MehrÜberblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator
Überblick Grundlagen Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes-Klassifikator
MehrWissensentdeckung in Datenbanken
Wissensentdeckung in Datenbanken Belief Propagation, Strukturlernen Nico Piatkowski und Uwe Ligges 29.06.2017 1 von 13 Überblick Was bisher geschah... Modellklassen Verlustfunktionen Numerische Optimierung
Mehr5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer
MehrINTELLIGENTE DATENANALYSE IN MATLAB
INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen Literatur Chris Bishop: Pattern Recognition i and Machine Learning. Jiaweii Han und Micheline Kamber: Data Mining i Concepts and Techniques. Ulrike
MehrStatistische Sprachmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Statistische Sprachmodelle Tobias Scheffer Thomas Vanck Statistische Sprachmodelle Welche Sätze sind Elemente einer Sprache (durch
MehrClustering. Herbert Stoyan Stefan Mandl. 18. Dezember 2003
Clustering Herbert Stoyan Stefan Mandl 18. Dezember 2003 Einleitung Clustering ist eine wichtige nicht-überwachte Lernmethode Andwenungen Marketing: Finde Gruppen von Kunden mit gleichem Kaufverhalten,
MehrElementare Wahrscheinlichkeitslehre
Elementare Wahrscheinlichkeitslehre Vorlesung Computerlinguistische Techniken Alexander Koller 13. November 2015 CL-Techniken: Ziele Ziel 1: Wie kann man die Struktur sprachlicher Ausdrücke berechnen?
MehrFrequentisten und Bayesianer. Volker Tresp
Frequentisten und Bayesianer Volker Tresp 1 Frequentisten 2 Die W-Verteilung eines Datenmusters Nehmen wir an, dass die wahre Abhängigkeit linear ist, wir jedoch nur verrauschte Daten zur Verfügung haben
MehrLineare Klassifikationsmethoden
Verena Krieg Fakultät für Mathematik und Wirtschaftswissenschaften 08. Mai 2007 Inhaltsverzeichnis 1. Einführung 2. Lineare Regression 3. Lineare Diskriminanzanalyse 4. Logistische Regression 4.1 Berechnung
MehrMusterlösung der Klausur vom 29. Juli 2003
Statistik für Bioinformatiker SoSe 2003 Rainer Spang Musterlösung der Klausur vom 29. Juli 2003 Aufgabe 1. 10 Definieren Sie die folgenden statistischen Begriffe in einem Satz oder in einer Formel: 1.
Mehr2 Alle Standardabweichungen σ i sind bekannt, bzw. die Kovarianzmatrix der Daten ist bekannt: Minimieren der χ 2 - Funktion.
2 Alle Standardabweichungen σ i sind bekannt, bzw. die Kovarianzmatrix der Daten ist bekannt: Minimieren der χ 2 - Funktion. 2.1 Allgemeine Behandlung Definition der χ 2 -Funktion. Hier definieren wir
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Graphische Modelle Christoph Sawade/iels Landwehr/Tobias Scheffer Graphische Modelle Modellierung einer Domäne mit verschiedenen
Mehr5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene
MehrDatenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität
Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte
MehrLineare Klassifikatoren. Volker Tresp
Lineare Klassifikatoren Volker Tresp 1 Einführung Lineare Klassifikatoren trennen Klassen durch eine lineare Hyperebene (genauer: affine Menge) In hochdimensionalen Problemen trennt schon eine lineare
MehrVarianzkomponentenschätzung
Qualitas AG Varianzkomponentenschätzung Peter von Rohr Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 2 / 23 Multiple Lineare Regression Annahmen Modell y = Xb + e Varianz der Fehler
MehrSemester-Fahrplan 1 / 17
Semester-Fahrplan 1 / 17 Hydroinformatik I Einführung in die Hydrologische Modellierung Bayes sches Netz Olaf Kolditz *Helmholtz Centre for Environmental Research UFZ 1 Technische Universität Dresden TUDD
MehrSchätzung von Parametern
Schätzung von Parametern Schätzung von Parametern Quantitative Wissenschaft: Messung von Parametern Gemessene Werte weichen durch (statistische und systematische) Messfehler vom wahren Wert des Parameters
MehrAnpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood
Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood KARLSRUHER INSTITUT FÜR TECHNOLOGIE (KIT) 0 KIT 06.01.2012 Universität des Fabian Landes Hoffmann Baden-Württemberg und nationales Forschungszentrum
MehrModellierung von Baumeffekten Modellierung von Baumeffekten mit Methoden der räumlichen Statistik
mit Methoden der räumlichen Statistik Motivation Einzelbaumeffekte wie Streu- und Feinwurzelausbreitung sind von großer Bedeutung für die Walddynamik, insbesondere wenn Wechselwirkungen/Interaktionen zwischen
MehrHidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014
idden Markov Models Vorlesung omputerlinguistische Techniken Alexander Koller 8. Dezember 04 n-gramm-modelle Ein n-gramm ist ein n-tupel von Wörtern. -Gramme heißen auch Unigramme; -Gramme Bigramme; -Gramme
Mehri =1 i =2 i =3 x i y i 4 0 1
Aufgabe (5+5=0 Punkte) (a) Bei einem Minigolfturnier traten 6 Spieler gegeneinander an. Die Anzahlen der von ihnen über das gesamte Turnier hinweg benötigten Schläge betrugen x = 24, x 2 = 27, x = 2, x
MehrGibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells
Gibbs sampling Sebastian Pado October 30, 2012 1 Bayessche Vorhersage Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Uns interessiert P (y X), wobei wir über das Modell marginalisieren
MehrBayes sches Lernen: Übersicht
Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.
Mehr10. Vorlesung. Grundlagen in Statistik. Seite 291. Martin-Luther-Universität Halle/Wittenberg
. Vorlesung Grundlagen in Statistik Seite 29 Beispiel Gegeben: Termhäufigkeiten von Dokumenten Problemstellung der Sprachmodellierung Was sagen die Termhäufigkeiten über die Wahrscheinlichkeit eines Dokuments
MehrVorlesung Wissensentdeckung
Vorlesung Wissensentdeckung Klassifikation und Regression: nächste Nachbarn Katharina Morik, Uwe Ligges 14.05.2013 1 von 24 Gliederung Funktionsapproximation 1 Funktionsapproximation Likelihood 2 Kreuzvalidierung
MehrDie Datenmatrix für Überwachtes Lernen
Die Datenmatrix für Überwachtes Lernen X j j-te Eingangsvariable X = (X 0,..., X M 1 ) T Vektor von Eingangsvariablen M Anzahl der Eingangsvariablen N Anzahl der Datenpunkte Y Ausgangsvariable x i = (x
MehrDas Bayes'sche Prinzip
Das Bayes'sche Prinzip Olivia Gradenwitz Patrik Kneubühler Seminar über Bayes Statistik FS8 26. Februar 28 1 Bayes'sches statistisches Modell 1.1 Statistische Probleme und statistische Modelle In diesem
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr
Universität Potsdam Institut für Informatik ehrstuhl Maschinelles ernen Modellevaluierung Niels andwehr ernen und Vorhersage Klassifikation, Regression: ernproblem Eingabe: Trainingsdaten Ausgabe: Modell
MehrSyntaktische und Statistische Mustererkennung. Bernhard Jung
Syntaktische und Statistische Mustererkennung VO 1.0 840.040 (UE 1.0 840.041) Bernhard Jung bernhard@jung.name http://bernhard.jung.name/vussme/ 1 Rückblick Nicht lineare Entscheidungsfunktionen SVM, Kernel
MehrBayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg
Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl KI) Bayes-Netze (1) 1 / 22 Gliederung 1 Unsicheres Wissen 2 Schließen
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Graphische Modelle iels Landwehr Überblick Graphische Modelle: Synta und Semantik Graphische Modelle im Maschinellen Lernen Eakte
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Graphische Modelle iels Landwehr Überblick Graphische Modelle: Synta und Semantik Graphische Modelle im Maschinellen Lernen Eakte
MehrÜberblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung
Grundlagen Überblick Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes- Entscheidungsfunktionen
MehrLineare Regression. Volker Tresp
Lineare Regression Volker Tresp 1 Die Lernmaschine: Das lineare Modell / ADALINE Wie beim Perzeptron wird zunächst die Aktivierungsfunktion gewichtete Summe der Eingangsgrößen x i berechnet zu h i = M
MehrClustering. Clustering:
Clustering Clustering: Gruppierung und Einteilung einer Datenmenge nach ähnlichen Merkmalen Unüberwachte Klassifizierung (Neuronale Netze- Terminologie) Distanzkriterium: Ein Datenvektor ist zu anderen
MehrSeminar in Statistik - FS Nonparametric Bayes. Handout verfasst von. Ivo Francioni und Philippe Muller
Seminar in Statistik - FS 2008 Nonparametric Bayes Handout verfasst von Ivo Francioni und Philippe Muller Zürich, 17. März 2008 1 EINLEITUNG 1 1 Einleitung Bis jetzt haben wir in der Bayes schen Statistik
MehrMathematische Werkzeuge R. Neubecker, WS 2016 / 2017
Mustererkennung Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017 Optimierung: Lagrange-Funktionen, Karush-Kuhn-Tucker-Bedingungen Optimierungsprobleme Optimierung Suche nach dem Maximum oder Minimum
Mehrx p 2 (x )dx, Hinweis: es ist nicht erforderlich, zu integrieren!
Aufgabe T- Gegeben seien zwei normalverteilte Zufallsvariablen X N(µ, σ) 2 und X 2 N(µ 2, σ2) 2 mit pdf p (x) bzw. p 2 (x). Bestimmen Sie x (als Funktion der µ i, σ i, sodass x p (x )dx = + x p 2 (x )dx,
MehrVorlesung: Statistik II für Wirtschaftswissenschaft
Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation
MehrStatistische Entscheidungstheorie
KAPITEL 6 Statistische Entscheidungstheorie 6.1. Verlustfunktion, Risiko, Minimax Schätzer Es sei (, A, (P θ ) θ ) ein statistisches Modell. Das heißt, ist die Menge aller möglichen Stichproben, A ist
MehrGrundlagen zu neuronalen Netzen. Kristina Tesch
Grundlagen zu neuronalen Netzen Kristina Tesch 03.05.2018 Gliederung 1. Funktionsprinzip von neuronalen Netzen 2. Das XOR-Beispiel 3. Training des neuronalen Netzes 4. Weitere Aspekte Kristina Tesch Grundlagen
MehrFrequentistische Statistik und Bayessche Statistik. Volker Tresp
Frequentistische Statistik und Bayessche Statistik Volker Tresp 1 Frequentistische Statistik 2 Herangehensweise Die Naturwissenschaft versucht es, der Natur Gesetzmäßigkeiten zu entringen: F = ma Gesetze
MehrOptimal-trennende Hyperebenen und die Support Vector Machine. Volker Tresp
Optimal-trennende Hyperebenen und die Support Vector Machine Volker Tresp 1 (Vapnik s) Optimal-trennende Hyperebenen (Optimal Separating Hyperplanes) Wir betrachten wieder einen linearen Klassifikator
MehrAndere Methoden zur Klassikation und Objekterkennung
Andere Methoden zur Klassikation und Objekterkennung Heike Zierau 05. Juni 2007 1. Einführung 2. Prototypmethoden K-means Clustering Gaussian Mixture Gaussian Mixture vs. K-means Clustering 3. nächste-nachbarn
MehrStatistische Sprachmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Statistische Sprachmodelle obias Scheffer Paul Prasse Michael Großhans Uwe Dick Statistische Sprachmodelle Welche Sätze sind Elemente
MehrFakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II. Prof. Dr.
Statistik II Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen Statistik II 2. Parameterschätzung: 2.1 Grundbegriffe; 2.2 Maximum-Likelihood-Methode;
MehrProbabilistische Analyse regionaler Klimasimulationen
Probabilistische Analyse regionaler Klimasimulationen Christian Schölzel und Andreas Hense Meteorologisches Institut der Universität Bonn Fachgespräch Ableitung von regionalen Klimaszenarien aus Multi-Modell-Ensembles,
MehrBehandelte Themen. 0. Motivation : Lernen in Statistik und Biologie. 1. Überblick über statistische Datenmodellierungs-Verfahren
Behandelte Theen 0. otivation : Lernen in Statistik und Biologie. Überblick über statistische Datenodellierungs-Verfahren. Das lineare odell Regression 3. Perceptron und ultilagen-perceptron Funktionsapproiation
Mehr... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern
Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern
MehrSignalverarbeitung 2. Volker Stahl - 1 -
- 1 - Überblick Bessere Modelle, die nicht nur den Mittelwert von Referenzvektoren sondern auch deren Varianz berücksichtigen Weniger Fehlklassifikationen Mahalanobis Abstand Besseres Abstandsmaß basierend
MehrDatenpunkte sollen in Cluster aufgeteilt werden, so dass jeder Datenpunkt in genau einem Cluster enthalten ist
4. Clusteranalyse Inhalt 4.1 Clustering mit Repräsentanten 4.2 Evaluation 4.3 Hierarchisches Clustering 4.4 Dichtebasiertes Clustering 4.5 Graphbasiertes Clustering 2 y Motivation Datenpunkte sollen in
MehrStatistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung 11. Vorlesung Jochen Köhler 10.05.011 1 Inhalt der heutigen Vorlesung Zusammenfassung Parameterschätzung Übersicht über Schätzung und Modellbildung Modellevaluation
Mehr