CIM2004 Übung 7: Permutationstest, Bootstrap & Jackknife

Größe: px

Ab Seite anzeigen:

Download "CIM2004 Übung 7: Permutationstest, Bootstrap & Jackknife"

Ralf Sternberg
vor 5 Jahren
Abrufe

1 CIM2004 Übung 7: Permutationstest, Bootstrap & Jackknife Michael Höhle Lösung 24. Juni Permutationstest Bilirubin ist ein Zerlegungsprodukt von Haemoglobin. Falls die Leber durch Rückbildung gestört ist, die Zusammenstellung von Haemoglobin erhöht ist oder die Gallenblase zerstört ist können zu große Mengen von Bilirubin im Blut angehäuft werden was als Gelbsucht observiert werden kann. Die folgenden Daten (entnommen aus (Jørgensen, 1993)) enthalten Messungen der Konzentration von Bilirubin (mg/dl) drei männlicher Patienten. Person Konzentration (mg/dl) In dieser Aufgabe benutzen wir die F-Statistik um einen (randomisierten) Permutationstest für Daten eines Faktors mit mehr als 2 Klassen vorzunehmen. Teil 1 Benutzen Sie die Daten in bilirubin.txt von der Homepage um einen deskriptiven der logaritmierten Konzentrationen für jeden Patient zu erstellen. Hinweis: Ein mögliche Lösung ist die boxplot Funktion. Teil 2 Benutzen Sie die Funktion lm in R um ein Regressionsmodel der Form log Y ij = β i, mit i = 1, 2, 3 und j = 1,..., n i (1) anzupassen. Benutzen Sie einen F-Test um die Hypothese β 1 = β 2 = β 3 zu testen. Speichern Sie den Wert der F-Statistik als Fval. Wird die Hypothese akzeptiert? 1

2 Teil 3 Schreiben Sie eine Funktion permtest() die eine Permutation der Daten innerhalb der drei Personen generiert, danach das Modell aus Formel (1) anpaßt und zuletzt für die permutierten Daten den Wert der F-Statistik für den Test β 1 = β 2 = β 3 zurückgibt. Teil 4 Erstellen Sie einen randomisierten Permutationstest indem Sie die permtest Funktion benutzen um eine Stichprobe der Größe 999 für die F-Statistik zu ziehen. Berechnen Sie den den p Wert von Fval in dieser Stichprobe. 1.1 Lösung Teil 1 Der Boxplot zeigt, dass Individuum 3 sich von den anderen durch eine höhere Konzentration unterscheidet p1 p2 p3 Teil 2 Call: lm(formula = log(meas) ~ pers, data = bilirubin) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-10 *** persp persp * --- Signif. codes: 0 `***' `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 2

3 Residual standard error: on 26 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: 3.67 on 2 and 26 DF, p-value: F-Statistic for data: p-value: Teil 3 R-Funktion im Code. p-value of the Randomization test: Histogram of Fvals Frequency Fvals Der p Wert is so gut wie der gleiche als bei dem klassischen linearen Modell. 2 Bootstrap und Jackknife für den Median In dieser Aufgabe werden Überlebenszeiten von Mäusen (entnommen aus (Efron and Tibshirani, 1993)) mittels Bootstrap und Jackknife analysiert. Die Kontrolgruppe eines klinischen Versuches hatte folgende Überlebenszeiten in Tagen. x = (10, 27, 31, 40, 46, 50, 52, 104, 146) Teil 1 Berechnen Sie den Median x Med der Daten. Teil 2 Schreiben Sie eine R-Funktion mit Kopfzeile jackknife.se(x) die Ihnen den Jackknife Schätzer ŝe jack für den Standardfehler von x Med berechnet. Das Programm jackknife.r kann dabei als Vorlage dienen. Hinweis: Wenn Ihre Funktion funktioniert können sie das Gleiche auch mittels der jackknife Funktion der Bibliothek bootstrap berechnen. 3

4 Teil 3 Schreiben Sie eine R-Funktion bootstrap.se(data,n) die Ihnen den Bootstrap Schätzer für x Med durch n Replikationen der Daten berechnet. Berechnen Sie ŝe boot für n = 10 i, i = 2, 3, 4, 5 und vergleichen Sie die Resultate mit ŝe jack. Teil 4 Die Überlebenszeiten der Mäuse, die behandelt wurden, waren y = (94, 197, 16, 38, 99, 141, 23) Berechnen Sie den Standardfehler für den Unterschied der Medianen von x und y. Würden Sie konkludieren, dass die Behandlung der Mäuse einen Effekt hat? 2.1 Lösung Teil 1 The median is: 46 Teil 2 Manual Jackknife: Jacknife from Bootstrap lib: Teil 3 Bootstrap Manual: Bootstrap from Bootstrap lib: Man sieht, dass der Jackknife schätzer die Varianz unterschätzt. Dies hängt damit zusammen, dass der Median eine nicht sehr glatte Funktion ist und der Jackknife schätzer deswegen nicht sehr gut ist weil auch nur immer ein Datenpunkt sich ändert. Der Bootstrap Schätzer ist hier besser denn die Daten sind jedes mal sehr viel unterschiedlicher als beim Jackknife. Teil 4 [1] "Difference in Median relative to Std. Err" [1] Weil die Difference der Mediane 48 nur mal der Standardabweichung entspricht bedeutet dies dass der Effekt dehr Behandlung unbedeutent ist. Dies könnte auch getestet werden. 3 Bootstrap Konfidenzintervall Es seien X N(10, 1), Y N(25, 2) und Z Bin(1, 0.3) und W die Mischverteilung gegeben durch W X, Y, Z = ZX + (1 Z)Y. 4

5 Teil 1 Simulieren Sie 1000 Werte von W und plotten Sie das Histogramm der Werte. Basierend auf der Assymptotik des Stichprobendurchschnitts W berechnen Sie ein 95% Konfidenzintervall für den Stichprobendurchschnitt der 1000 Werte. Teil 2 Erstellen Sie ein 95% Bootstrap-Konfidenzintervall. Teil 3 Wiederholen Sie die Analyse für eine Stichprobe der Größe 30 für W. 3.1 Lösung Teil 1 Siehe Funktion rw im Code. Teil 2 [1] "CI based on asymptotics" [1] Histogram of w Frequency w Teil 3 [1] "Bootstrap based CI" 2.5% 97.5% Man sieht dass die Asymptotic relativt gut greift obwohl die Verteilung nicht sehr standard ist. Teil 4 Bei einer kleinen sample ist der Unterschied zwischen Asymptotik und Bootstrap Intervall doch sehr deutlich. [1] "CI based on asymptotics" [1] [1] "Boostrap Confidence Interval" 5

6 2.5% 97.5% Literatur Efron, B. and Tibshirani, R. (1993). An Introduction to the Bootstrap. Chapman and Hall. Jørgensen, B. (1993). The Theory of Linear Models. Chapman and Hall. 6

Ähnliche Dokumente

Prognoseintervalle für y 0 gegeben x 0

10 Lineare Regression Punkt- und Intervallprognosen 10.5 Prognoseintervalle für y 0 gegeben x 0 Intervallprognosen für y 0 zur Vertrauenswahrscheinlichkeit 1 α erhält man also analog zu den Intervallprognosen