5.Tutorium Generalisierte Regression

Ähnliche Dokumente
2.Tutorium Generalisierte Regression

Seminar zur Energiewirtschaft:

Statistische Modellierung Merkblatt

Ordinale abhängige Variablen. Einführung Regressionsmodelle für ordinale Variablen Empirisches Beispiel Ausblick

Empirische Analysen mit dem SOEP

Logistische Regression in SAS

Zusammenhangsanalyse in Kontingenztabellen

Kapitel 4: Binäre Regression

Logistische Regression

Bivariate Analyseverfahren

Logit-Analyse mit ordinalen und nominalen abhängigen Variablen

Logistische Regression

Logistische Regression I. Odds, Logits, Odds Ratios, Log Odds Ratios

Generalisierte Regression

Von Kernkraftwerken zu Space Shuttles

Bachelorarbeit. Vergleich verschiedener Verfahren zur Datenimputation

Mathematische und statistische Methoden I

6.0 Logistische Regression. 6 Logistische Regression. 6.1 Das binäre Modell. 6 Logistische Regression

Wahrscheinlichkeitsrechnung und Statistik

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Kategorielle Daten. Seminar für Statistik Markus Kalisch

Willkommen zur Vorlesung Statistik (Master)

Übung zur Logistischen Regression Juli 2011

Fortgeschrittene Statistik Logistische Regression

Regressionsmodelle für diskrete Zielgrößen und korrelierte Beobachtungen. Oliver Kuß*; Uwe Hasenbein**;

Komplexe Analyse von Wahldaten am Beispiel der Wahlen in Deutschland zwischen 1924 und 1933

Vorlesung: Statistik II für Wirtschaftswissenschaft

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

ML-Schätzung. Likelihood Quotienten-Test. Zusammenhang Reparametrisierung und Modell unter linearer Restriktion. Es gilt: β = Bγ + d (3.

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

Dr. Matthias Rudolf: M3 Multivariate Statistik Vorlesung LogRA. Folie Nr. 1

Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik. Regression. Einfache lineare Regression

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume

5.Tutorium Multivariate Verfahren

Multiple Regressionsanalyse - Kurzabriss

Zusammenhänge zwischen metrischen Merkmalen

Kategoriale abhängige Variablen:

Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik. 7. Februar 2008

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression II

2-Stichprobentest für Anteilswerte

Maximum-Likelihood Schätzung

Poisson Regression. Verallgemeinerte Lineare Modelle (GLMs)

Semiparametrische Multinomiale Logit-Modelle zur Markenwahl-Analyse

Lineare Klassifikatoren. Volker Tresp

Eine und zwei kategorielle Variablen

1 Binäre Regression (I)

Statistische Inferenz bei ROC Kurven. Notation. Man unterscheidet:

5. Stichproben und Statistiken

3. Multinomiale Modelle

Polytome logistische Regression: Auswertung einer Fall-Kontroll-Studie

Gemischte Modelle zur Schätzung geoadditiver Regressionsmodelle

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr

Stochastik Praktikum Markov Chain Monte Carlo Methoden

Logistische Regression (in SPSS)

FRAGESTUNDE WS 2016/17 QM 2. Dr. Christian Schwarz 1

Wahrscheinlichkeitsfunktion. Binomialverteilung. Binomialverteilung. Wahrscheinlichkeitshistogramme

Logistische Regression

Zeitreihenanalyse. Zerlegung von Zeitreihen Saisonindex, saisonbereinigte Zeitreihe Trend und zyklische Komponente Prognose Autokorrelation

Unterlagen zu Fisher s Exact Test, Vergleich von Anteilswerten und logistischer Regression. Robin Ristl. Wintersemester 2012/13

Relative Survival Modelle neue Ansätze II

Arbeitslosigkeit, berufliche Qualifikation und Gesundheit

Mathematik für Biologen

Diagnose und Prognose: Kurzfassung 4

Neuere Ansätze zur Auswahl von Prädiktionsmodellen. Von Veronika Huber

Kap. 2: Generalisierte lineare Modelle (GLMs) Lineare und generalisierte lineare Modelle Schätzung und Inferenz in GLMs Literatur

Statistische Datenanalyse

Binäre Auswahlmodelle (Logit, Probit,...)

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Entscheidungsbaumverfahren

Verkehrsmittelwahl. Simultanes Verfahren. Verkehrs. verteilung Zielwahl. Verkehrs erzeugung. verteilung. Ziel j. V ij. Start i.

Binäre abhängige Variablen

John Komlos Bernd Süssmuth. Empirische Ökonomie. Eine Einführung in Methoden und Anwendungen. 4y Springer

1 Einführung Ökonometrie... 1

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Beeinflusst die Arbeitslosenquote die (Wieder )Eingliederung in das Erwerbsleben nach medizinischer Rehabilitation?

6. Probabilistische Retrievalmodelle. Norbert Fuhr

Die Regressionsanalyse

Probeklausur für die Abschlussklausur Statistik II

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik...

Wahrscheinlichkeitsrechnung und Statistik

SPEZIALGEBIETE: ÖKONOMETRIE

Statistik I für Statistiker, Mathematiker und Informatiker Lösungen zu Blatt 6 Gerhard Tutz, Jan Ulbricht WS 05/06.

4 Statistik der Extremwertverteilungen

Logistische Regression mit Messwiederholungen: Anwendung von PROC GENMOD in SAS

Nachholklausur zur Vorlesung Schätzen und Testen I. 04. April Bitte ausfüllen und unterschreiben!!!

Kendall s Tau. Betrachte Paare von Beobachtungen (x i, y i ) und (x j, y j ) Ein Paar heißt:

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

2.1 Gemeinsame-, Rand- und bedingte Verteilungen

Transkript:

5.Tutorium Generalisierte Regression - Multinomiales/Kummulatives Logit-Modell - Cynthia Huber: 09.12.2014 und 16.12.2014 Michael Hanselmann: 18.12.2014 Institut für Statistik, LMU München 1 / 16

Gliederung 1 Multinomialverteilung 2 Multinomiales Logit-Modell 3 Kummulatives Logit-Modell 4 Mehrkategoriale Modelle mit R 2 / 16

Multinomialverteilung Gliederung 1 Multinomialverteilung 2 Multinomiales Logit-Modell 3 Kummulatives Logit-Modell 4 Mehrkategoriale Modelle mit R 3 / 16

Multinomialverteilung Multinomialverteilung mit Redundanzen: s = 1,..., k: i = 1,..., n: m s : π s : Y M(n, π T = (π 1,..., π k )) P(y T = (m 1,..., m k )) = n! m 1!... m k! πm 1 1... π m k k Index für Kategorien Index für Beobachtungen Anzahl der Beobachtungen in Kategorie s Wahrscheinlichkeit für Kategorie s 4 / 16

Multinomialverteilung Multinomialverteilung ohne Redundanzen Sei Kategorie k Referenzkategorie: k π s = 1 π k = 1 π 1... π k 1=q s=1 k m s = n m k = n m 1... m k 1=q s=1 s : 0 π s 1 m s {1,..., n} P(y T n! = (m 1,..., m k )) = m 1!... (n m 1... m q )! π m 1 1... (1 π 1... π q ) (n m 1... m q) 5 / 16

Multinomiales Logit-Modell Gliederung 1 Multinomialverteilung 2 Multinomiales Logit-Modell 3 Kummulatives Logit-Modell 4 Mehrkategoriale Modelle mit R 6 / 16

Multinomiales Logit-Modell Multinomiale Zielgrößen bisher: Betrachtung des Logit-Modells für binäre Zielgrößen: ( ) P(yi = 1 x i ) log = x T i β P(y i = k = 2 x i ) jetzt: Betrachtung des Logit-Modells für multinomialverteilte Zielgrößen, d.h. y i {1,..., k} 7 / 16

Multinomiales Logit-Modell Link-und Responsefunktion {}}{ Multinomiales Logit-Modell für r = 1,..., k 1: log ( ) P(yi = r x i ) = x T i β P(y i = k x i ) r q bzw. P(y i = r x) = exp{x T i β r } 1 + k 1 s=1 exp{xt i β s } 8 / 16

Multinomiales Logit-Modell Link-und Responsefunktion Außerdem gilt: x T i β k = log ( ) P(yi = k x i ) = log(1) = 0 P(y i = k x i ) und somit P(y i = k x i ) = 0 {}}{ exp{ x T i β k } 1 + k 1 s=1 exp{xt i β s } = 1 1 + k 1 s=1 exp{xt i β s } 9 / 16

Multinomiales Logit-Modell Interpretation Beachte: Kategorie k ist Referenzkategorie! Interpretation über die logarithimierten Chancen wie beim binären Logit-Modell, jedoch jetzt immer im Bezug auf die Referenzkategorie k. Betrachte: log ( P(y=r xi ) P(y=k x i ) ) = log ( πr π k ) = x T i β r Steigt x j um eine Einheit, so ändert sich die logarithmierte Chance von Y=r zu Y=k um β rj (Effekt von der j-ten Einflussgröße aus der r-ten Kategorie). Steigt x j um eine Einheit, so ändert sich die Chance von Y=r zu Y=k um exp(β rj ) 10 / 16

Kummulatives Logit-Modell Gliederung 1 Multinomialverteilung 2 Multinomiales Logit-Modell 3 Kummulatives Logit-Modell 4 Mehrkategoriale Modelle mit R 11 / 16

Kummulatives Logit-Modell Problemstellung Betrachte wieder eine Zielgröße Y {1,..., k}, jedoch nun ist Y ordinalskaliert, d.h. die Kategorien lassen sich ordnen. Bisheriges multinomiales Modell ist anwendbar, nutzt jedoch die ordinale Struktur der Daten nicht aus kummulatives Modell! Allgemeine Modellformulierung: P(Y r x i ) = F (γ 0r + x T i γ) 12 / 16

Kummulatives Logit-Modell Logistische Verteilungsfunktion Nimmt man für F die logistische Verteilungsfunktion an, so erhält man folgendes Modell: P(y r x i ) = exp{γ 0r + x T i γ} 1 + exp{γ 0r + x T i γ} bzw. ( ) P(y r xi ) log = γ 0r + x T i γ P(y > r x i ) }{{} kummulierte Logits 13 / 16

Kummulatives Logit-Modell Besonderheit des Modells Betrachtet man zwei Populationen x 1 und x 2 (z.b. jung und alt), so gilt: P(Y r x 1 )/P(Y > r x 1 ) P(Y r x 2 )/P(Y > r x 2 ) = exp(γ 0r + x T 1 γ) exp(γ 0r + x T 2 γ) = exp((xt 1 x T 2 )γ) das Odds-Ratio ist unabhängig von Kategorie r Proportional Odds Model Interpretation: Die Chancenverhältnisse sind unabhängig von der betrachteten Schwelle r und nur proportional zum Unterschied von x 1 und x 2 14 / 16

Mehrkategoriale Modelle mit R Gliederung 1 Multinomialverteilung 2 Multinomiales Logit-Modell 3 Kummulatives Logit-Modell 4 Mehrkategoriale Modelle mit R 15 / 16

Mehrkategoriale Modelle mit R Nützliche R-Funktionen multinom() aus Paket "nnet" multinomiales Logit-Modell mit beobachtungsspezifischem Prädiktor η ir = x T i β r polr() aus Library "MASS" proportional odds logistic regression Fit ordinaler Logit-Modelle (per Default) Fit ordinaler Probit-Modelle bei Angabe des Arguments method = "probit" 16 / 16