SBWL Tourismusanalyse und Freizeitmarketing

Ähnliche Dokumente
SBWL Tourismusanalyse und Freizeitmarketing

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr

Clusteranalyse: Gauß sche Mischmodelle

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Varianzkomponentenschätzung

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer Christoph Sawade

Vorlesung Wissensentdeckung

3.2 Maximum-Likelihood-Schätzung

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer

Vorlesung 13a. Schätzen von Parametern. Teil 2

Lineare Regression. Kapitel Regressionsgerade

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

Vorlesung 12a. Schätzen von Parametern. Teil 2

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Fortgeschrittene Ökonometrie: Maximum Likelihood

Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II. Prof. Dr.

Clustering. Herbert Stoyan Stefan Mandl. 18. Dezember 2003

5 Allgemeine Verfahren zum Testen von Hypothesen

Seminar zur Energiewirtschaft:

Lineare Klassifikationsmethoden

Willkommen zur Vorlesung Statistik (Master)

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

SBWL Tourismusanalyse und Freizeitmarketing

Inhalt. I Einführung. Kapitel 1 Konzept des Buches Kapitel 2 Messen in der Psychologie... 27

Kap. 2: Generalisierte lineare Modelle (GLMs) Lineare und generalisierte lineare Modelle Schätzung und Inferenz in GLMs Literatur

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

i =1 i =2 i =3 x i y i 4 0 1

Bayessche Lineare Regression

Statistik und Wahrscheinlichkeitsrechnung

Kategorielle Zielgrössen

10.5 Maximum-Likelihood Klassifikation (I)

Vorlesung: Statistik II für Wirtschaftswissenschaft

Einführung in die Maximum Likelihood Methodik

Teil IX. Verteilungen an Daten anpassen ( Maximum-Likelihood-Schätzung. fitten ) Woche 7: Maximum-Likelihood-Schätzung. Lernziele

Statistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

6. Statistische Schätzung von ARIMA Modellen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer

Hidden-Markov-Modelle

1 Diskriminanzanalyse

Strukturgleichungsmodellierung

4.Tutorium Multivariate Verfahren

Musterlösung der Klausur vom 29. Juli 2003

Lösungen zur Prüfung Angewandte Statistische Methoden in den Nutzierwissenschaften FS 2016

Das Bayes'sche Prinzip

Formelsammlung zur Vorlesung: Einführung in die Bayes-Statistik

VII Unüberwachte Data-Mining-Verfahren

Multivariate Verfahren

Bayesianische Modellwahl. Helga Wagner Bayes Statistik WS 2010/11 161

Multivariate Statistische Methoden

Nachholklausur zur Vorlesung Schätzen und Testen I. 04. April Bitte ausfüllen und unterschreiben!!!

EFME Aufsätze ( Wörter) Der Aufbau von Entscheidungsbäumen...1

Vorlesung: Lineare Modelle

ML-Schätzung. Likelihood Quotienten-Test. Zusammenhang Reparametrisierung und Modell unter linearer Restriktion. Es gilt: β = Bγ + d (3.

Lösung Übungsblatt 5

Multivariate Statistische Methoden und ihre Anwendung

SBWL Tourismusanalyse und Freizeitmarketing

Statistik und Wahrscheinlichkeitsrechnung

Nicht-kontinuierliche abhängige Variablen: Das generalisierte lineare Modell und die Parameterschätzung via Maximum Likelihood

Stochastik Praktikum Lineare Modelle

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

Poisson Regression & Verallgemeinerte lineare Modelle

Stochastik Praktikum Parametrische Schätztheorie

Grundidee. χ 2 Tests. Ausgangspunkt: Klasseneinteilung der Beobachtungen in k Klassen. Grundidee. Annahme: Einfache Zufallsstichprobe (X 1,..., X n ).

Multivariate Statistik

Statistics, Data Analysis, and Simulation SS 2017

Bayesianische FDR (Teil 1)

k-means Clustern in R

Die Regressionsanalyse

Lineare Klassifikatoren. Volker Tresp

Statistische Sprachmodelle

Wahrscheinlichkeitsrechnung und Statistik

Maximum-Likelihood Schätzung. VL Forschungsmethoden

Logit-Analyse mit ordinalen und nominalen abhängigen Variablen

Lineare Regression II

Numerische Methoden und Algorithmen in der Physik

Generative Modelle. Generative Modelle 1 / 49

Clustering. Clustering:

Signalverarbeitung 2. Volker Stahl - 1 -

4.2 Methoden um Tests zu finden: Likelihood Quotienten Tests (LRT) Falls X 1,..., X n iid aus f(x θ), so gilt für die Likelihood Funktion

Logistische Regression I. Odds, Logits, Odds Ratios, Log Odds Ratios

1 Gemischte Lineare Modelle

1 Beispiele multivariater Datensätze... 3

Bachelorarbeit. Vergleich verschiedener Verfahren zur Datenimputation

Lineare Modelle in R: Zweiweg-Varianzanalyse und Kovarianzanalyse

Statistik I für Betriebswirte Vorlesung 14

Statistik II. IV. Hypothesentests. Martin Huber

Simultane Mehrgleichungssysteme: Parameterschätzung

Analyse eines zweistufigen, regionalen Clusteralgorithmus am Beispiel der Verbundenen Wohngebäudeversicherung

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher

Verallgemeinerte lineare Modelle in R

Frequentisten und Bayesianer. Volker Tresp

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

Multivariate Verfahren

Statistische Entscheidungstheorie

Maximum-Likelihood Schätzung

Nachklausur Mathematik für Biologen WS 08/09

Transkript:

SBWL Tourismusanalyse und Freizeitmarketing Vertiefungskurs 4: Multivariate Verfahren 2 Teil 3: Mischmodelle / Modellgestützte Clusteranalyse Achim Zeileis & Thomas Rusch Institute for Statistics and Mathematics FlexMix

Inhalt Mischmodelle Idee Latent Class Regression EM-Algorithmus Beispiel Institute for Statistics and Mathematics FlexMix 3-1

Idee Bisher: Hierarchisches Clustern: Explorative Einteilung in Gruppen basierend auf Distanzen von Objekten und Clustern, k-means: Einteilung in Gruppen basierend auf einer einfachen Zielfunktion (Fehlerquadratsumme). Jetzt: Modell-basiertes Clustern Dabei werden die Daten in Gruppen eingeteilt, wobei in jeder Gruppe ein Modell mit einer Likelihood unterstellt wird, die dann maximiert werden soll. Institute for Statistics and Mathematics FlexMix 3-2

Idee Beispiel: Es gibt k Cluster, wobei die Beobachtungen innerhalb eines Clusters eine multivariate Normalverteilung haben. Die Mittelwerte und Kovarianzmatrizen unterscheiden sich dann zwischen den Clustern. Hier spricht man von modell-basiertem Clustern. Institute for Statistics and Mathematics FlexMix 3-3

Latent Class Regression Beispiel: Es gibt k Cluster, wobei für die Beobachtungen innerhalb eines Clusters ein GLM angepaßt wird. Die Cluster- oder Klassenzugehörigkeit ist dabei unbekannt (oder unbeobachtet oder latent). Dieses Verfahren nennt man daher latent class regression oder auch GLIMMIX Modell. Institute for Statistics and Mathematics FlexMix 3-4

Latent Class Regression y 0 10 20 30 40 50 0 2 4 6 8 10 x Institute for Statistics and Mathematics FlexMix 3-5

Latent Class Regression y 0 10 20 30 40 50 0 2 4 6 8 10 x Institute for Statistics and Mathematics FlexMix 3-6

Latent Class Regression Wäre die Einteilung in Klassen bekannt und schon in einem Faktor f kodiert, dann wäre dies ein ganz einfaches lineares Modell (Kovarianzanalyse), das mit lm geschätzt werden kann: lm(y ~ f * (x + I(x^2))) Dieses Modell entspricht dann zwei quadratischen Kurven, die in den durch f definierten Klassen angepaßt werden. Institute for Statistics and Mathematics FlexMix 3-7

Problem: Die Klasseneinteilung ist unbekannt und muß aus den Daten gelernt werden. Lösung: Gegeben ein in k Klassen angepaßtes Regressionsmodell wird jede Beobachtung der Klasse zugeordnet, zu deren Regressionsgerade es besser paßt. Institute for Statistics and Mathematics FlexMix 3-8

Damit ergibt sich folgender Schätzalgorithmus: 1. Beginne mit einer Einteilung der Beobachtungen in k Cluster. 2. Passe in jedem Cluster ein Regressionsmodell an. 3. Ordne jede Beobachtung dem Cluster zu, zu dessen Regressionsgerade sie am nächsten liegt. 4. Wiederhole 2. und 3. bis sich die Cluster nicht mehr ändern. Dieser erzeugt eine harte Partition, wobei jede Beobachtung nur zu genau einem Cluster gehören kann (f = 1 oder f = 0). Institute for Statistics and Mathematics FlexMix 3-9

In der Regel schätzt man mit Mischmodellen aber weiche Partitionen, die Variable f gibt dabei dann die Wahrscheinlichkeit an, daß eine Beobachtung zu der einer bestimmten Klasse gehört. 1. Initialisiere die Wahrscheinlichkeiten der Clusterzugehörigkeiten. 2. Gegeben die Gewichtung durch die Wahrscheinlichkeiten, passe k gewichtete Regressionsmodelle an. 3. Berechne für jede Beobachtung die a posteriori- Wahrscheinlichkeit der Zughörigkeit zu Cluster j. 4. Wiederhole 2. und 3. bis die Veränderung der Gesamtlikelihood des Modells unter eine Gewisse schranke fällt. Institute for Statistics and Mathematics FlexMix 3-10

Dies ist eine Anwendung des EM-Algorithmus. Dieser ist weniger ein konkreter Algorithmus als eine generelle Strategie zur Schätzung von Modellen mit unbeobachteten/latenten Variablen. Er trägt seinen Namen, da sich immer Erwartungsbildung (hier: über a posteriori Wahrscheinlichkeiten, Schritt 3.) Maximierung (hier: der gewichteten Likelihood, Schritt 2.) im Modell abwechseln. Institute for Statistics and Mathematics FlexMix 3-11

Allgemein kann in einem Mischmodell die Dichtefunktion geschrieben werden als h(y x, π, θ) = k π j f(y x, θ j ) j=1 also als Mischung von j Clustern, wobei π j die a priori- Wahrscheinlichkeit für Klasse j ist und f(y x, θ j ) die Dichte für die Beobachtungen in dieser Klasse. In einem normalverteilten GLM wäre f die Dichte der Normalverteilung und θ j der Vektor der Regressionskoeffizienten. Institute for Statistics and Mathematics FlexMix 3-12

Die a priori-wahrscheinlichkeiten müssen sich zu 1 addieren, d.h. π j 0, k π j = 1 j=1 Und damit kann dann die a posteriori-wahrscheinlichkeit, daß eine bestimmte Beobachtung aus Cluster i stammt, formuliert werden als P(i x, y, π, θ) = π if(y x, θ i ) j π jf(y x, θ j ) Institute for Statistics and Mathematics FlexMix 3-13

Gegeben n Beobachtungen {(y 1, x 1 ),...,(x n, y n )} ist dann die Likelihood der Parameter π und θ: n n k log L(π, θ) = log h(y i x i, π, θ) = log π j f(y i x i, θ j ) i=1 Diese muß nun bzgl. der Parameter maximiert werden. In der Regel ist dies nicht analytisch möglich und auch numerisch schwierig. i=1 j=1 Deshalb wird die Optimierung in zwei Teile zerlegt E-Schritt: Schätzung von π gegeben θ, M-Schritt: Schätzung von θ gegeben π, und dann iteriert. Institute for Statistics and Mathematics FlexMix 3-14

E-Schritt: Berechne a posteriori Wahrscheinlichkeit, daß Beobachtung i aus Cluster j ist: ˆp ij = P(j x i, y i, ˆπ, ˆθ) und mittele dann für die Klassenwahrscheinlichkeiten: n ˆπ j = 1 n i=1 ˆp ij Institute for Statistics and Mathematics FlexMix 3-15

M-Schritt: Führe eine gewichtete ML-Schätzung separat für jede Komponente durch. Der Schätzer ˆθ j wird dann als Maximalstelle von ermittelt. max θ j n i=1 ˆp ij log f(y i x i, θ j ) Institute for Statistics and Mathematics FlexMix 3-16

y 0 10 20 30 40 50 0 2 4 6 8 10 x Institute for Statistics and Mathematics FlexMix 3-17

y 0 10 20 30 40 50 0 2 4 6 8 10 x Institute for Statistics and Mathematics FlexMix 3-18

y 0 10 20 30 40 50 0 2 4 6 8 10 x Institute for Statistics and Mathematics FlexMix 3-19

y 0 10 20 30 40 50 0 2 4 6 8 10 x Institute for Statistics and Mathematics FlexMix 3-20

y 0 10 20 30 40 50 0 2 4 6 8 10 x Institute for Statistics and Mathematics FlexMix 3-21

y 0 10 20 30 40 50 0 2 4 6 8 10 x Institute for Statistics and Mathematics FlexMix 3-22

Beispiel Beispiel: Behandlung eines epileptischen Patienten über 140 Tage hinweg. Mit zunehmender Dauer der Betreuung nimmt die Anzahl der epileptischen Anfälle ab. Dieser Effekt kann durch Injektionen von Gamma-Globulin ab dem 28. Tag noch verstärkt werden. Ein Mischmodell ist deshalb nötig, weil es salopp gesprochen gute und schlechte Tage des Patienten gibt. Institute for Statistics and Mathematics FlexMix 3-23

Beispiel Seizures/Hours 0 2 4 6 8 Baseline Treatment 0 20 40 60 80 100 120 140 Day Institute for Statistics and Mathematics FlexMix 3-24

Beispiel Seizures/Hours 0 2 4 6 8 Baseline Treatment 0 20 40 60 80 100 120 140 Day Institute for Statistics and Mathematics FlexMix 3-25

Beispiel Seizures/Hours 0 2 4 6 8 Baseline Treatment 0 20 40 60 80 100 120 140 Day Institute for Statistics and Mathematics FlexMix 3-26

Tutorium Mischmodelle in R (FlexMix.pdf ) Institute for Statistics and Mathematics FlexMix 3-27