iid N(0, σ 2 ), b i, ε ij unabhängig i, j

Ähnliche Dokumente
> library(nlme) > fit <- lme(y ~ 1, random = ~1 id, data = sim.y.long) > summary(fit)

Mixed Effects Models: Wachstumskurven

Verallgemeinerte lineare Modelle. Promotion. Promotion. Methoden empirischer Sozialforschung. 1 binäre und mehrere metrische und kategoriale Variablen

Statistics, Data Analysis, and Simulation SS 2015

Multiple Regression III

Lean Body Mass [kg] Estimate Std. Error t value Pr(> t ) (Intercept) ??? lbm <2e-16 ***

Auswertung und Lösung

Kovarianzanalyse. Truthahngewicht. Truthahngewicht. Methoden empirischer Sozialforschung. 1 metrische und mehrere metrische und kategoriale Variablen

Musterlösung zu Serie 2

# Befehl für den Lilliefors-Test

Einführung II. Kontext und Mehr-Ebenen-Datensätze. Wiederholung Statistische Mehr-Ebenen-Modelle Politisches Vertrauen in Europa Fazit/Ausblick

Mixed Models. Jonathan Harrington. library(ez) library(lme4) library(multcomp) source(file.path(pfadu, "phoc.txt"))

CIM2004 Übung 7: Permutationstest, Bootstrap & Jackknife

FRAGESTUNDE WS 2016/17 QM 2. Dr. Christian Schwarz 1

Lösung - Übungsblatt 10

7. Lösung weitere Übungsaufgaben Statistik II WiSe 2017/2018

6. Tutoriumsserie Statistik II

Aufgaben zu Kapitel 9

Verallgemeinerte lineare Modelle in R

Introduction FEM, 1D-Example

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

Introduction FEM, 1D-Example

Wiederholung. Seminar für Statistik

Syntax. Ausgabe *Ü12. *1. corr it25 with alter li_re kontakt.

Lineare Modelle in R: Zweiweg-Varianzanalyse und Kovarianzanalyse

Aufgabe 35 mit R (Ökonometrie SS 2014 an der UdS)

VO Biostatistik im WS 2006/2007

Logistische Regression

Aufgabensammlung (Nicht-MC-Aufgaben) Klausur Ökonometrie SS 2018

Beispiel: Multiples Modell/Omitted Variable Bias I

Biostatistik 101 Korrelation - Regressionsanalysen

11. weitere Übungsaufgaben Statistik II WiSe 2017/2018

Lineare Regression in R, Teil 1

Aufgabensammlung (Nicht-MC-Aufgaben) Klausur Ökonometrie SS ( = 57 Punkte)

Wirtschaftswissenschaftliches Prüfungsamt

Konfidenz-, Prognoseintervalle und Hypothesentests IV im multiplen linearen Regressionsmodell mit heteroskedastischen Störgrößen

Teil XIII. Multiple lineare Regression. Woche 11: Multiple lineare Regression. Zusammenfassung Einfache lineare Regression.

Biometrische und Ökonometrische Methoden II Lösungen 1

Biostatistik 101 Korrelation - Regressionsanalysen

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?

1 Analyse von Kontigenztafeln: Das loglineare Modell

Analyse 1 Tierkreiszeichen (korrigiert für Bounces).docx Seite 1 von 7. Tierkreiszeichen * Crosstabulation

Aufgabensammlung (Nicht-MC-Aufgaben) Klausur Ökonometrie WS 2017/18. ( = 58 Punkte)

Varianzkomponentenschätzung

Metrische und kategoriale Merkmale

Vergleich von Gruppen I

8 Allgemeine Modelle & Robuste Regression

Priorities (time independent and time dependent) Different service times of different classes at Type-1 nodes -

Bayesian Networks. Syntax Semantics Parametrized Distributions Inference in Bayesian Networks. Exact Inference. Approximate Inference

Schriftliche Prüfung (2 Stunden)

Dr. M. Kalisch. Statistik (für Biol./Pharm. Wiss.) Winter Musterlösung

Lineare Regression 1 Seminar für Statistik

Pflege Deine Vorurteile! A statistician is a person who draws a mathematically precise line from an unwarranted assumption to a foregone conclusion.

Übungsblatt 6. Analysis 1, HS14

Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am Autor: Ludwig Bothmann

1 Gliederung Zeitreihenökonometrie. Angewandte Ökonometrie (Folien) Zeitreihenökonometrie Universität Basel, FS 09. Dr. Sylvia Kaufmann.

Statistische Methoden der Lebensverlaufsforschung. Prof. Dr. Johannes Giesecke Humboldt-Universität zu Berlin Institut für Sozialwissenschaften

Pobeklausur: Einführung in die Ökonometrie. 1. (20 Punkte) Wir betrachten 2 (in den Koeffizienten) lineare Modelle mit folgenden Variablen:

y t = 30, 2. Benutzen Sie die Beobachtungen bis einschließlich 2002, um den Koeffizientenvektor β mit der KQ-Methode zu schätzen.

Teekonsum in den USA (in 1000 Tonnen), Nimmt den Wert 1 an für alle Perioden, Durchschnittlicher Preis des Tees in Periode t (in Tausend $/Tonne).

Final Exam. Friday June 4, 2008, 12:30, Magnus-HS

Stochastik Praktikum Testtheorie

Statistik II für Betriebswirte Vorlesung 11

Beispiel: Multiples Modell/Omitted Variable Bias I

9.1 Einleitung. Statistik. Qualitative 2-Weg Daten. Bsp: UCB Admissions. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

Übungsklausur Lineare Modelle. Prof. Dr. H. Toutenburg

Generalised linear mixed models (GLMM) und die logistische Regression

Labor Demand. Anastasiya Shamshur

Number of Maximal Partial Clones

Statistik II für Betriebswirte Vorlesung 5

6 Nichtstationarität und Kointegration

COMPARISON of SMART HBA1C Analyser against Central Laboratory Analysis November 2008 K.Danzmayer

Kindern mit Leukämie in Deutschland,

ETH Zürich Statistik II (BIOL, HST) Lösungen zur Serie 9-01

Statistik-Quiz Wintersemester

Seeking for n! Derivatives

Aufgabensammlung (Nicht-MC-Aufgaben) Klausur Ökonometrie WS 2014/15. ( = 57 Punkte)

Statistisches Testen

1. Erklären Sie den Unterschied zwischen einem einseitigen und zweiseitigen Hypothesentest.

Fragen zum zweiten Teil der Vorlesung

Lineare Regressionen mit R (Ökonometrie SS 2014 an der UdS)

FEM Isoparametric Concept

Anwendung von Multi-Level Moderation in Worst Performance Analysen

Lineare Regression 2: Gute Vorhersagen

Vorlesung: Statistik II für Wirtschaftswissenschaft

Finite Difference Method (FDM)

Analyse 2: Hypothesentests

Schriftliche Prüfung (2 Stunden)

Strukturgleichungsmodellierung

Introduction to Python. Introduction. First Steps in Python. pseudo random numbers. May 2016

Statistik II für Betriebswirte Vorlesung 8

ANalysis Of VAriance (ANOVA) 2/2

14.3 Das Einstichprobenproblem in R

FEM Isoparametric Concept

4 Longitudinaldaten und Repeated Measurements

x t2 y t = 160, y = 8, y y = 3400 t=1

Lineare Modelle in R: Klassische lineare Regression

4. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

Parametric Spectral Estimation

Transkript:

Aufgabe 2 Betrachten Sie erneut den Datensatz zum Blutdruck. Als Signifikanzniveau wird in dieser Aufgabe α = 5% verwendet. (a) Fitten Sie folgendes Modell in R, wobei gender i = 0, falls Person i weiblich und gender i = 1 falls Person i männlich ist. SBD ij = β 1 I(gender i = 0) + β 2 I(gender i = 1) + β 3 dosis ij I(gender i = 0)+ β 4 dosis ij I(gender i = 1) + b i + ε ij, b i iid N(0, τ 2 ), ε ij iid N(0, σ 2 ), b i, ε ij unabhängig i, j (b) Testen Sie die Hypothesen H 0 : β 3 = β 4 = 0 und H 0 : β 3 = β 4. Was bedeuten diese Hypothesen inhaltlich? (c) Testen Sie ob die zufälligen Intercepts im Modell enthalten sein sollen. Formulieren Sie dazu die Nullhypothese und führen Sie den Test approximativ und exakt (mit der Funktion exactrlrt() aus dem R-Paket RLRsim) durch. (d) Fitten Sie ein Modell, das zusätzlich für jede Person eine zufällige Steigung enthält, wobei zufälliger Intercept und zufällige Steigung korreliert sein können. Führen Sie einen approximativen Test durch, ob die zufällige Steigung im Modell enthalten sein soll. (e) Berechnen Sie das konditionale AIC (caic) für das Modell aus (a) und (d). Welches Modell wird laut caic bevorzugt? Hinweis: Funktion caic() aus dem R-Paket caic4. (f) Zusatzaufgabe: Führen Sie den Test für die zufällige Steigung mit der Funktion exactrlrt() durch. Beachten Sie, dass Random Intercepts und Slopes unabhängig sein müssen, damit exactrlrt() angewendet werden kann. Lösung 2 (a) # create dummy-variables -> makes testing easier blutdruck$genderfemaledosis <- 0 blutdruck$genderfemaledosis[blutdruck$gender==0] <- (blutdruck$dosis)[blutdruck$gender==0] blutdruck$gendermaledosis <- 0 blutdruck$gendermaledosis[blutdruck$gender==1] <- (blutdruck$dosis)[blutdruck$gender==1] # treat gender as factor blutdruck$gender <- factor(blutdruck$gender) # Model with random intercept and different slope for male and female fm1 <- lme(sbd ~ -1 + gender + genderfemaledosis + gendermaledosis, random=~1 ID, data=blutdruck) summary(fm1) 3

Linear mixed-effects model fit by REML Data: blutdruck AIC BIC loglik 1160.889 1179.912-574.4445 Random effects: Formula: ~1 ID (Intercept) Residual StdDev: 5.179378 4.88174 Fixed effects: SBD ~ -1 + gender + genderfemaledosis + gendermaledosis Value Std.Error DF t-value p-value gender0 153.81288 1.5857629 28 96.99614 0 gender1 151.22683 1.5857629 28 95.36534 0 genderfemaledosis -0.15363 0.0094787 149-16.20803 0 gendermaledosis -0.17898 0.0094787 149-18.88289 0 Correlation: gendr0 gendr1 gndrfd gender1 0.000 genderfemaledosis -0.428 0.000 gendermaledosis 0.000-0.428 0.000 Standardized Within-Group Residuals: Min Q1 Med Q3 Max -2.1531996-0.5242295-0.1017439 0.4420274 3.4061271 Number of Observations: 180 Number of Groups: 30 (b) H 0 : β 3 = β 4 = 0: Dosis hat keinen Einfluss unabhängig vom Geschlecht H 0 : β 3 = β 4 : Effekt der Dosis ist für beide Geschlechter gleich Verwende Wald-Test weil LQ-Test nicht möglich (Likelihoods wegen REML-Schätzung nicht vergleichbar) Alternativ LRT mit Modellen, die via ML geschätzt wurden ###### (2b) # Calculate the p-value of the Wald-test for dosis-effects hatbeta <- fixef(fm1)[3:4] tw <- hatbeta %*% solve(vcov(fm1)[3:4,3:4]) %*% hatbeta 1 - pchisq(tw, df=2) 4

[,1] [1,] 0 # EXTRA: using anova() on one model gives F-test of effects for single variables # see?anova.lme anova(fm1) numdf dendf F-value p-value gender 2 28 9630.638 <.0001 genderfemaledosis 1 149 262.700 <.0001 gendermaledosis 1 149 356.563 <.0001 ### do a likelihood-ratio test (LRT), models have to be fitted using ML fm1ml1 <- lme(sbd ~ -1 + gender + genderfemaledosis + gendermaledosis, random=~1 ID, data=blutdruck, method="ml") fm1ml0 <- lme(sbd ~ -1 + gender, random=~1 ID, data=blutdruck, method="ml") # LRT for models fitted by ML anova(fm1ml0, fm1ml1) Model df AIC BIC loglik Test L.Ratio p-value fm1ml0 1 4 1393.804 1406.576-692.9020 fm1ml1 2 6 1150.961 1170.119-569.4807 1 vs 2 246.8428 <.0001 ## or LRT by hand tlqt <- 2*fm1ML1$logLik - 2*fm1ML0$logLik 1 - pchisq(tlqt, df=2) [1] 0 ### try LQT for models fitted with REML fm1reml0 <- lme(sbd ~ -1 + gender, random=~1 ID, data=blutdruck, method="reml") anova(fm1, fm1reml0) ## gives a warning, as it ist not meaningful! Model df AIC BIC loglik Test L.Ratio p-value fm1 1 6 1160.889 1179.912-574.4445 fm1reml0 2 4 1388.759 1401.486-690.3797 1 vs 2 231.8702 <.0001 #### use package pbkrtest, for F-test and for parametric bootstrap library(pbkrtest) 5

### (1) use F-test with approximated df # An approximate F-test based on the Kenward-Roger approach. #?KRmodcomp ## you have to fit the models using lmer to use KRmodcomp() library(lme4) fm1lmer <- lmer(sbd ~ -1 + gender + genderfemaledosis + gendermaledosis + (1 ID), data=blutdruck) fm0lmer <- lmer(sbd ~ -1 + gender + (1 ID), data=blutdruck) # F-test with approximated df, based on Kenward-Roger approximation KRmodcomp(fm1lmer, fm0lmer) F-test with Kenward-Roger approximation; computing time: 0.31 sec. large : SBD ~ -1 + gender + genderfemaledosis + gendermaledosis + (1 ID) small : SBD ~ -1 + gender + (1 ID) stat ndf ddf F.scaling p.value Ftest 309.63 2.00 148.00 1 < 2.2e-16 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ### (2) use parametric bootstrap methods # (takes about 1 minute) PBmodcomp(fm1lmer, fm0lmer) Parametric bootstrap test; time: 24.39 sec; samples: 1000 extremes: 0; large : SBD ~ -1 + gender + genderfemaledosis + gendermaledosis + (1 ID) small : SBD ~ -1 + gender + (1 ID) stat df p.value LRT 246.86 2 < 2.2e-16 *** PBtest 246.86 0.000999 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 # Calculate the p-value of the Wald-test for the second hypothesis L <- t(c(1,-1)) # matrix with one row hatbeta <- fixef(fm1)[3:4] 6

tw2 <- t(hatbeta)%*%t(l) %*% solve(l%*%vcov(fm1)[3:4,3:4]%*%t(l)) %*% L%*%hatbeta 1 - pchisq(tw2, df=2) [,1] [1,] 0.1671753 # do not reject H0 on 5% level (c) Test auf Varianzkomponenten des Random Intercepts H 0 : var(b 0i ) = τ 2 = 0 Exakter Test mit RLRsim Approximation unter H 0 : T LQT a 0.5 χ 2 q + 0.5χ 2 q 1 library(rlrsim) #?exactrlrt # it is enough to specify m, as only one variance component is tested exactrlrt(m = fm1) simulated finite sample distribution of RLRT. (p-value based on 10000 simulated values) data: RLRT = 71.08, p-value < 2.2e-16 ### Test statistic to approximate p-values # model under H0 fm1fix <- lm(sbd ~ -1 + gender + genderfemaledosis + gendermaledosis, data=blutdruck) # approximate likelihood-ratio test T_RLRTc <- 2 * loglik(fm1, REML = TRUE)[1] - 2 * loglik(fm1fix, REML = TRUE)[1] # approximate p-value with mixture of chi^2 distributions, q = 1 0.5 *(1-pchisq(T_RLRTc, 1)) + 0.5 *(1-pchisq(T_RLRTc, 0)) [1] 0 7

(d) wieder Approximation über Mischverteilung jetzt q = 2, da sowohl slope als auch Kovarianz zwischen Intercept und Slope auf 0 getestet werden # Model with random intercept (m0, model under H0) fm1 <- lme(sbd ~ -1 + gender + genderfemaledosis + gendermaledosis, random = ~ 1 ID, data = blutdruck) summary(fm1) Linear mixed-effects model fit by REML Data: blutdruck AIC BIC loglik 1160.889 1179.912-574.4445 Random effects: Formula: ~1 ID (Intercept) Residual StdDev: 5.179378 4.88174 Fixed effects: SBD ~ -1 + gender + genderfemaledosis + gendermaledosis Value Std.Error DF t-value p-value gender0 153.81288 1.5857629 28 96.99614 0 gender1 151.22683 1.5857629 28 95.36534 0 genderfemaledosis -0.15363 0.0094787 149-16.20803 0 gendermaledosis -0.17898 0.0094787 149-18.88289 0 Correlation: gendr0 gendr1 gndrfd gender1 0.000 genderfemaledosis -0.428 0.000 gendermaledosis 0.000-0.428 0.000 Standardized Within-Group Residuals: Min Q1 Med Q3 Max -2.1531996-0.5242295-0.1017439 0.4420274 3.4061271 Number of Observations: 180 Number of Groups: 30 # Model with random intercept and random slope (ma, model under alternative) fm2 <- lme(sbd ~ -1 + gender + genderfemaledosis + gendermaledosis, random = ~1 + dosis ID, data = blutdruck) summary(fm2) 8

Linear mixed-effects model fit by REML Data: blutdruck AIC BIC loglik 960.547 985.9109-472.2735 Random effects: Formula: ~1 + dosis ID Structure: General positive-definite, Log-Cholesky parametrization StdDev Corr (Intercept) 0.17578119 (Intr) dosis 0.07395999 0.939 Residual 2.35185842 Fixed effects: SBD ~ -1 + gender + genderfemaledosis + gendermaledosis Value Std.Error DF t-value p-value gender0 153.81288 0.4130630 28 372.3715 0 gender1 151.22683 0.4130630 28 366.1108 0 genderfemaledosis -0.15363 0.0196348 149-7.8244 0 gendermaledosis -0.17898 0.0196348 149-9.1157 0 Correlation: gendr0 gendr1 gndrfd gender1 0.000 genderfemaledosis -0.084 0.000 gendermaledosis 0.000-0.084 0.000 Standardized Within-Group Residuals: Min Q1 Med Q3 Max -2.1340429-0.6465530-0.0215929 0.6304812 2.5156456 Number of Observations: 180 Number of Groups: 30 # Test statistic to approximate p-values T_RLRTd <- 2 * loglik(fm2, REML = TRUE)[1] - 2 * loglik(fm1, REML = TRUE)[1] 0.5 *(1-pchisq(T_RLRTd, 2)) + 0.5 *(1-pchisq(T_RLRTd, 1)) [1] 0 9

(e) Modellvergleich bei Modellen mit verschiedenen Random Effects auch über das konditionale AIC möglich (caic). library(lme4) fm1lmer <- lmer(sbd ~ -1 + gender + genderfemaledosis + gendermaledosis + (1 ID), data=blutdruck) fm2lmer <- lmer(sbd ~ -1 + gender + genderfemaledosis + gendermaledosis + (1 + dosis ID), data=blutdruck) # compute the caic library(caic4) #?caic c1 <- caic(fm1lmer) c2 <- caic(fm2lmer) ## preferred model is the one with the minimum AIC value c1$caic [1] 1112.552 c2$caic [1] 858.7664 (f) ## create groupeddata-object blutdruck2 <- groupeddata(sbd ~ dosis ID, data = blutdruck, labels = list(x = "Dosis", y = "Systolischer Blutdruck"), units = list(x = "[mg]", y = "[mmhg]")) # Model with random intercept and random slope (ma, model under alternative) # random intercept and slope are independent! fm2s <- lme(sbd ~ -1 + gender + genderfemaledosis + gendermaledosis, random=pddiag(~dosis), data=blutdruck2) summary(fm2s) Linear mixed-effects model fit by REML Data: blutdruck2 AIC BIC loglik 958.8087 981.0021-472.4044 10

Random effects: Formula: ~dosis ID Structure: Diagonal (Intercept) dosis Residual StdDev: 0.369784 0.07529139 2.342923 Fixed effects: SBD ~ -1 + gender + genderfemaledosis + gendermaledosis Value Std.Error DF t-value p-value gender0 153.81288 0.4199985 28 366.2225 0 gender1 151.22683 0.4199985 28 360.0652 0 genderfemaledosis -0.15363 0.0199653 149-7.6949 0 gendermaledosis -0.17898 0.0199653 149-8.9648 0 Correlation: gendr0 gendr1 gndrfd gender1 0.000 genderfemaledosis -0.177 0.000 gendermaledosis 0.000-0.177 0.000 Standardized Within-Group Residuals: Min Q1 Med Q3 Max -2.19730706-0.63848623-0.06270077 0.65784472 2.49701433 Number of Observations: 180 Number of Groups: 30 # Model with random slopes only # (m, model containig only the random effect to be tested) fm3s <- lme(sbd ~ -1 + gender + genderfemaledosis + gendermaledosis, random=~-1+dosis ID, data=blutdruck2) summary(fm3s) Linear mixed-effects model fit by REML Data: blutdruck2 AIC BIC loglik 956.8441 975.867-472.422 Random effects: Formula: ~-1 + dosis ID dosis Residual StdDev: 0.07542387 2.354575 11

Fixed effects: SBD ~ -1 + gender + genderfemaledosis + gendermaledosis Value Std.Error DF t-value p-value gender0 153.81288 0.4110362 28 374.2077 0 gender1 151.22683 0.4110362 28 367.9161 0 genderfemaledosis -0.15363 0.0200038 149-7.6801 0 gendermaledosis -0.17898 0.0200038 149-8.9475 0 Correlation: gendr0 gendr1 gndrfd gender1 0.000 genderfemaledosis -0.182 0.000 gendermaledosis 0.000-0.182 0.000 Standardized Within-Group Residuals: Min Q1 Med Q3 Max -2.21468937-0.65074389-0.06219758 0.62989176 2.53727162 Number of Observations: 180 Number of Groups: 30 # Calcuate test on the random slopes # simulate asymptotic p-value exactrlrt(m = fm3s, ma = fm2s, m0 =fm1) simulated finite sample distribution of RLRT. (p-value based on 10000 simulated values) data: RLRT = 204.08, p-value < 2.2e-16 # and approximated T_RLRTs <- 2 * loglik(fm2s, REML = TRUE)[1] - 2 * loglik(fm1, REML = TRUE)[1] # approximate p-value with mixture of chi^2 distributions, q=1 0.5 *(1-pchisq(T_RLRTs, 1)) + 0.5 *(1-pchisq(T_RLRTs, 0)) [1] 0 12