Statistische Modellierung Merkblatt

Größe: px

Ab Seite anzeigen:

Download "Statistische Modellierung Merkblatt"

Achim Neumann
vor 7 Jahren
Abrufe

1 Inhaltsverzeichnis Statistische Modellierung Merkblatt Welches Modell nimmt man wann?... 1 Logit:... 2 Probit:... 2 Poisson:...2 Loglinear:... 2 multinomiales Logit:... 2 Ordinales Logit (PROC LOGISTIC - effekt):...2 Ordinales Probit (PROC PROBIT - dummy):...3 Loglineares Modell (PROC CATMOD)...3 Effekt- oder Dummy-Codierung?...4 PROC LOGISTIC/PROBIT... 4 PROC GENMOD... 4 PROC CATMOD...5 Multinomiales Logit mit PROC LOGISTIC... 5 LOGIT mit PROC PROBIT ausrechnen... 5 Output... 5 Overdispersion/Skalenparameter...5 Wahrscheinlichkeiten in SAS ausrechnen... 6 Devianz...6 Likelihood-Ratio-Test (-verteilt)... 7 F-Test, wenn der Skalenparametergesch ä tzt wurde... 7 Residual-Analyse...7 Graphische Modelle...7 Effekt- & Dummy-Codierung... 7 Dummy-Codierung... 7 Effekt-Codierung...8 Offset-Variable...8 Welches Modell nimmt man wann? wenn y metrisch lineares Modell (irgendwelche Zahlen) wenn y 0/1-Variable (binär) Logit-Modell (einfach zu interpretieren -> e (...) wenn y 0/1-Variable (binär) Probit-Modell (Standardnormalverteilung) wenn y die Häufigkeit ist, mit der ein Ereignis in einem Zeitraum auftritt Poisson-Modell (mit proc genmod) y mehrkategorial & nominal skaliert multinomiales Logit, wenn Ausprägungen von Y > 2 y mehrkategorial & ordinal skaliert ordinales Logit y und alle Kovariaten kategorial loginlineares Modell (proc catmod)

2 Logit: Probit: Poisson: E [ y ] ln =X ' 1 E [Y ] 1 E[ y ] = X ' ln E [ y ] =X ' Loglinear: ln ij = X ' - erwartete Zellhäufigkeiten multinomiales Logit: (k-1) Logits werden geschätzt ln P y=1 X P =k X = X ' P y=2 X 1, ln P =k X =X ' 2 allgemein: exp X ' P y=r X = k 1 1 exp X ' letzte Kategorie: n=1 1 P y=k X = k 1 1 exp X ' n=1 P y=k 1 X ln = X ' P=k X k 1 oder wenn alle vorherigen Werte ausgerechnet wurden: P y=k X =1 P y=1 X P y=2 X P y=k 1 X Ordinales Logit (PROC LOGISTIC - effekt): ln P y 1 P 1 = 1 X ' ln P y 2 P 2 = 2 X ' ln P y 3 P 3 = 3 X ' ln P y k =1 X ' P k P y=1 X = exp 1 X ' 1 exp 1 X ' X'β ist bei allen Ausprägungen gleich. es werden (k-1) Konstanten geschätzt und die k-te Konstante ist 1 beim Schätzen mit proc logistic muss man nichts weiter angeben!

3 Test Proportional Odds: H 0 : alle β i sind gleich Globale Nullhypothese: H 0 : alle β i sind 0 Ordinales Probit (PROC PROBIT - dummy): P y k X =P y k P y k X =P X ' k P y k X =P k X ' P y k X = k X ' letzte Kategorie ausrechnen: P y=k X =1 P y 3 X bei SAS ist 1 =0 Loglineares Modell (PROC CATMOD) Alle Variablen sind kategorial. - ln ij = 0 i A j B ij AB Interpretation: Koeffizienten im Output positiv: dann kann man sagen, dass die jeweilige Kombination häufig auftritt. Koeffizienten im Output negativ: dann kann man sagen, dass die jeweilige Kombination nicht so häufig auftritt.

4 SAS MERKBLATT Effekt- oder Dummy-Codierung? proc logistic: Effekt-Codierung proc catmod: Effekt-Codierung proc genmod: Dummy-Codierung proc probit: Dummy-Codierung PROC LOGISTIC/PROBIT proc logistic/probit data=a.datensatz; class w x y z; model y = w x z; run; Darauf achten, was modelliert wird! P Y =1 P Y =0 oder P Y =0 P Y =1 bzw. was ist Y = 1, Y = 0? PROC GENMOD proc genmod <Data = a.datensatz>; class <alle kategorialen Variablen>; model y = x w z... /dist=normal link=identity; run; Logit: /dist=binomial link=logit; Probit: /dist=binomial link=probit; Poisson: /dist=poisson link=log; Linear: /dist=normal link=identity;

5 PROC CATMOD proc catmod <data=a.datensatz>; model B*E*F = _RESPONSE_; loglin B E F; loglin B E F; loglin B E B F; run; quit; Multinomiales Logit mit PROC LOGISTIC proc logistic <data=a.datensatz>; class...; model y = w x z /link=glogit; run; LOGIT mit PROC PROBIT ausrechnen proc probit <data=a.datensatz>; class...; model y = x /dist=logistic; run; Output proc xxx...;...; output out=a.datensatz p=pred; output out=a.datensatz p=pred STDRESCHI=reschi; nur bei genmod!! run; quit; Overdispersion/Skalenparameter model... /scale=pearson;

6 Overdispersion liegt vor, wenn die Daten mehr streuen als durch das Modell erklärt werden kann. Eigentlich nur relevant bei Poisson-Verteilung. wenn < 1 Underdispersion wenn = 1 keine wenn > 1 Overdispersion Im SAS-Output wird ausgewiesen. Man muss also die Zahl aus dem Output noch quadrieren! Durch den Skalen-Parameter werden die Standard-Fehler größer. Wahrscheinlichkeiten in SAS ausrechnen wkt = cdf ('CHISQUARE', Stelle, Freiheitsgrade) wkt = cdf ('NORMAL', Stelle, Erwartungswert, Varianz) wkt = cdf ('F', Stelle, p 1 p 0, n p 1 ) p-wert = 1 cdf (...) wkt = cdf (...) Devianz Die Devianz ist ein Maß für die Güte des Modells. Formel zur Berechnung: D=2 l y ; y l µ ; y y = saturiertes Modell, µ = kleineres Modell Hohe p-werte erwünscht. (kleine p-werte verwerfen die Nullhypothese) Man kann sie nur benutzen, wenn man ausschließlich kategoriale Variablen hat!

7 Likelihood-Ratio-Test ( 2 -verteilt) 2 Möglichkeiten: entweder man vergleicht mit dem saturierten Modell, oder man vergleicht 2 unterschiedliche Modelle miteinander LR=2 loglhood saturiert loglhood geschätzt H 0 : Modell passt H 1 : Modell passt nicht Hohe p-werte erwünscht. (kleine p-werte verwerfen die Nullhypothese) F-Test, wenn der Skalenparameter geschätzt wurde F= Dkl D gr p 1 p 0 Residual-Analyse zum überprüfen ob das Modell passt. Kleine Residuen => Modell passt! nur möglich bei proc genmod! Graphische Modelle bedeutet unabhängig bedeutet gegeben Effekt- & Dummy-Codierung Dummy-Codierung Dummyvariablen erzeugen -> für jedes Merkmal eine eigene Variable => aber eine (die Referenzkategorie) wird nicht ins Modell aufgenommen

8 Effekt-Codierung Referenzkategorie wird keine eigene Variable im Modell, es gibt immer eine Variable zu wenig. Diese wird berechnet durch p 1 p = i i=0 Beispiel: lagegut= Offset-Variable (die negative Summe der anderen Koeffizienten) 1 lage=2 gute Wohnlage 1 lage=1 Referenzkategorie 0 sonst Wenn man in einem Modell eine Rate als abhängige Variable hat, dann gilt: y ln months = X ' - Problem: die Rate ist dann nicht mehr so verteilt, wie Y! Lösung: ln y ln months =X ' ln y = X ' ln months Offset ist eine Variable, deren Koeffizient gleich 1 ist. Der Koeffizient wird nicht geschätzt.

Ähnliche Dokumente

5.Tutorium Generalisierte Regression

5.Tutorium Generalisierte Regression - Multinomiales/Kummulatives Logit-Modell - Cynthia Huber: 09.12.2014 und 16.12.2014 Michael Hanselmann: 18.12.2014 Institut für Statistik, LMU München 1 / 16 Gliederung