Klausur Datenanalyse und Statistik (WS 2015/16)

Klausur Datenanalyse und Statistik (WS 2015/16) Matrikelnummer: Fachrichtung: Aufgabe: 1 2 3 4 5 6 Pkt. mgl. 8 7 8 12 5 14 54 Pkt erreicht: ZP Unter der folgenden Nummer finden Sie Ihr Ergebnis später im Internet: D S 1 6 2 Schreiben Sie sich die Nummer bitte jetzt auf! Diese Klausur wird nur dann als Prüfung gewertet, wenn Sie im Prüfungsamt angemeldet sind. Ansonsten werden die Ergebnisse nur für einen Schein gewertet. Lesen Sie die Aufgaben genau durch. Nehmen Sie für diese Klausur grundsätzlich ein α-niveau von 5% an. Aufgabe 1: Daten In dieser Klausur analysieren wir einen Datensatz mit dem die Wirksamkeit eines neuen biologisch erzeugten Düngemittels (HypNitron) für Tomaten untersucht werden soll. Dazu wurden über Deutschland verteilt gleich große Testanbauflächen für Tomaten in die Studie aufgenommen. An jeder Testfläche wurde der Bodentyp (Variable boden) gemäß einer Bodenklassifizierung der Gärtnervereinigung erfaßt. Diese Bodenklassifizierung umfaßt 23 aus Gärtnerischer Sicht unterschiedliche Bodenklassen. Weiterhin wurde die Konzentration des organisch verfügbaren Stickstoffs dreimal im Jahr gemessen: Nv, vor der Düngung, Nn, 4 Wochen nach der Düngung und Nh im Herbst nach der Ernte. Für jede Testfläche (Testflächen ID in Variable testflaeche) wurde eine Münze geworfen, ob mit HypNitron oder einem ähnlich aussehnden aber wirkungslosem Scheinpräparat gedüngt werden soll. Ob HyNitron verwendet wurde ist in der Variable used zu finden. Die Gesamternte an reifen Tomaten auf der Anbaufläche wurde in der Variable tomaten aufgenommen. > load("hypnitron.rdata") > options(max.print=160,show.signif.stars=false) > HN[1:10,] testflaeche tomaten used boden Nv Nn Nh 1 TF1 0.5676717 yes 8 0.08305349 1.5445788 1.0963216 2 TF2 0.1705543 no 15 0.69330236 0.6450991 1.0051958 3 TF3 1.2258663 yes 20 1.06698278 1.5871259 1.2179252 4 TF4 4.7929282 no 3 2.50026554 2.5567288 1.3035285 1

5 TF5 0.1222428 no 6 0.47878035 0.6209686 0.9647428 6 TF6 0.2397978 no 5 0.48926208 0.5295862 1.0235399 7 TF7 0.1698765 yes 10 0.51739748 1.3929723 1.1194077 8 TF8 3.7219002 no 16 3.35392882 3.4836909 1.0082022 9 TF9 11.0751556 yes 3 2.34887516 3.5287200 1.1624755 10 TF10 0.4043179 yes 14 0.63917702 2.1679097 0.8627096 (1) Kommentieren sie die Repräsentativität der Daten und geben Sie die Grundgesamtheit an.(2) Eignen sich die Daten um für ganz Deutschland gültige Aussagen zu machen? warum? (1) Eignen sich die Daten, um die Wirksamkeit von HypNitron für die Grundgesamtheit der Testflächen nachzuweisen? Warum? (1) (2) Welches Skalenniveau haben diese Daten? (4) tomaten: used: boden: testflaeche: 2

Aufgabe 2: Methoden auswählen Welche statistische Methodik sollte man wählen, um... (1)... die Anteile der Bodentypen graphisch darzustellen. (1) (2)... um festzustellen, ob Bindungen in der Variable tomaten die Verwendung nichtparametrischer Tests erschweren würde. (1) (3)... um die Variable Nv mit Methoden für das reelle Skalennivau optimal untersuchen zu können? (1) (4)... um die Abhängigkeit der Stickstoffkonzetration Nn vom Düngereinsatz used zu visualisieren? (1) (5)... um nachzuweisen, dass die Stickstoffkonzentration Nv nicht normalverteilt ist? (1) (6)... um die Abhängigkeit der Stickstoffkonzentrationen vor und nach der Düngung, so darzustellen, dass der Unterschied zwischen gedüngten und ungedüngten Flächen sichtbar wird? (2) 3

> par(mfrow=c(1,4)) > barplot(table(hn$used),main="a") > boxplot(tomaten~used,data=hn,main="b") > stripchart(nn,data=hn,pch=20,method="stack",main="c") > boxplot(nv~used,data=hn,main="d") A B C D 0 20 40 60 80 100 0 10 20 30 40 50 0 1 2 3 4 no yes no yes 0 1 2 3 4 5 no yes Abbildung 1: Graphiken zum Datensatz Aufgabe 3: Graphiken In Abbildung 1 finden sie eine Reihe graphischer Darstellung der Daten. (1) Abbildung A: Wie heißt diese Graphik? (1) Geben Sie eine Schlussfolgerung aus dieser Graphik wieder? (1) (2) Abbildung B: Wie heißt diese Graphik? (1) Geben Sie eine für die weitere Analyse relevante Schlussfolgerung aus dieser Graphik wieder? (1) (3) Abbildung C: Wie heißt diese Graphik? (1) 4

Geben Sie eine für die weitere Analyse relevante Schlussfolgerung aus dieser Graphik wieder? (1) (4) Abbildung D: Wie heißt diese Graphik? (1) Geben Sie eine für die weitere Analyse relevante Schlussfolgerung aus dieser Graphik wieder? (1) Aufgabe 4: Voranalyse der Stickstoffkonzentration in verschiedenen Bodentypen Um Manipulation auszuschließen, soll zunächst untersucht werden, ob sich die gedüngten und ungedüngten Flächen schon vor der Düngung in ihrer mittleren Stickstoffkonzentration unterschieden hatten. (1) Was folgern Sie aus den folgenden Tests? (1) > shapiro.test(hn$nv[hn$used=="yes"]) Shapiro-Wilk normality test data: HN$Nv[HN$used == "yes"] W = 0.9051, p-value = 6.335e-07 > shapiro.test(hn$nv[hn$used=="no"]) Shapiro-Wilk normality test data: HN$Nv[HN$used == "no"] W = 0.8485, p-value = 6.384e-08 Mit welchem Wert haben sie die beiden p-werte verglichen?(1) 5

(2) Beschreiben Sie die Testsituation bezüglich all ihrer Merkmale. (3) (3) Welchen Test würden Sie für diese Fragestellung empfehlen? (1) (4) Was sind die Voraussetzungen dieses Tests?(2) (5) Sind diese Voraussetzungen erfüllt? Woher wissen Sie das? (2) (6) Der p-wert dieses Tests ist 0.49613. Was folgern Sie daraus? Warum?(2) 6

Aufgabe 5: Kategorielle Daten Wir wollen untersuchen, ob der Düngereinsatz und der Bodentyp zusammenhängen. (1) Mit welcher statistischen Graphic ließe sich eine eventuell Vorhande abhängigkeit von Düngereinsatz used und Bodentyp boden besonders gut visualisieren? (1) (2) Was ist die folgende Darstellung?(1) > table(hn$used,hn$boden) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 no 2 4 3 5 7 6 2 2 5 3 5 2 4 4 2 8 1 4 0 3 2 6 6 yes 5 4 6 4 3 3 5 6 6 2 10 7 10 5 2 5 3 3 3 9 3 6 4 (3) Interpretieren sie das folgende Testergebnis und kommentieren sie eventuelle Probleme bei der Anwendbarkeit des Tests in der vorliegenden Situation.(3) > chisq.test(table(hn$used,hn$boden)) Pearson's Chi-squared test data: table(hn$used, HN$boden) X-squared = 20.6197, df = 22, p-value = 0.5443 Aufgabe 6: Lineares Modell Wir wollen nun die Wirksamkeit des Düngers zur Erhöhung der Tomatenernte und die Abhängigkeit der Wirkung von den Stickstoffkonzentrationen und Bodentyp mittels linearer Modelle untersuchen. Diagnostische Graphiken zu einem der Modelle finden Sie in Abbildung 2. 7

> xanova <- function(mod) { + print(anova(mod)) + cat("r^2=",var(predict(mod))/var(predict(mod)+resid(mod)),"\n") + } > xanova(mod01<-lm(log(tomaten)~boden,data=hn)) boden 22 161.17 7.3258 5.6548 8.722e-12 Residuals 177 229.30 1.2955 R^2= 0.4127524 > xanova(mod02<-lm(log(tomaten)~log(nv),data=hn)) log(nv) 1 122.19 122.189 90.18 < 2.2e-16 Residuals 198 268.28 1.355 R^2= 0.312929 > xanova(mod03<-lm(log(tomaten)~boden+log(nv),data=hn)) boden 22 161.167 7.3258 5.8034 4.055e-12 log(nv) 1 7.133 7.1328 5.6505 0.01852 Residuals 176 222.169 1.2623 R^2= 0.4310197 > xanova(mod04<-lm(log(tomaten)~log(nv)+used,data=hn)) log(nv) 1 122.189 122.189 96.948 < 2.2e-16 used 1 19.988 19.988 15.859 9.595e-05 Residuals 197 248.291 1.260 R^2= 0.3641195 > xanova(mod05<-lm(log(tomaten)~used+log(nv),data=hn)) 8

used 1 24.90 24.90 19.756 1.467e-05 log(nv) 1 117.28 117.28 93.051 < 2.2e-16 Residuals 197 248.29 1.26 R^2= 0.3641195 > xanova(mod06<-lm(log(tomaten)~boden+used,data=hn)) boden 22 161.167 7.3258 5.9466 1.874e-12 used 1 12.483 12.4831 10.1330 0.001722 Residuals 176 216.818 1.2319 R^2= 0.4447219 > xanova(mod07<-lm(log(tomaten)~log(nv)+boden+used,data=hn)) log(nv) 1 122.189 122.189 102.2855 < 2.2e-16 boden 22 46.111 2.096 1.7545 0.024760 used 1 13.116 13.116 10.9797 0.001119 Residuals 175 209.053 1.195 R^2= 0.4646105 > xanova(mod08<-lm(log(tomaten)~log(nv)+used+boden,data=hn)) log(nv) 1 122.189 122.189 102.285 < 2.2e-16 used 1 19.988 19.988 16.732 6.556e-05 boden 22 39.239 1.784 1.493 0.08123 Residuals 175 209.053 1.195 R^2= 0.4646105 > xanova(mod09<-lm(log(tomaten)~used+boden+log(nv),data=hn)) used 1 24.900 24.8997 20.8438 9.362e-06 boden 22 148.750 6.7614 5.6600 9.187e-12 log(nv) 1 7.766 7.7659 6.5009 0.01164 9

Residuals 175 209.053 1.1946 R^2= 0.4646105 > xanova(mod10<-lm(log(tomaten)~log(nv)*used,data=hn)) log(nv) 1 122.189 122.189 99.6726 < 2.2e-16 used 1 19.988 19.988 16.3049 7.733e-05 log(nv):used 1 8.014 8.014 6.5376 0.01132 Residuals 196 240.277 1.226 R^2= 0.3846447 > xanova(mod11<-lm(log(tomaten)~boden*used,data=hn)) boden 22 161.167 7.3258 5.9766 4.371e-12 used 1 12.483 12.4831 10.1842 0.001715 boden:used 21 26.830 1.2776 1.0423 0.416901 Residuals 155 189.989 1.2257 R^2= 0.5134333 (1) Begründen Sie, warum Modell mod04 dem Modell mod03 vorzusiehen ist. (2) (2) Begründen Sie, warum Modell mod04 dem Modell mod10 vorzusiehen ist. (2) (3) Begründen Sie, warum Modell mod05 dem Modell mod07 vorzusiehen ist. (2) 10

> par(mfrow=c(2,2)) > mod <- mod04 > plot(predict(mod),resid(mod)) > plot(predict(mod),influence(mod)$hat) > plot(predict(mod),cooks.distance(mod)) > qqnorm(resid(mod)) > coef(mod) (Intercept) log(nv) usedyes -0.0229709 0.8346997 0.6392778 2 1 0 1 2 3 1 0 1 2 3 predict(mod) resid(mod) 2 1 0 1 2 0.01 0.03 0.05 predict(mod) influence(mod)$hat 2 1 0 1 2 0.00 0.04 predict(mod) cooks.distance(mod) 3 2 1 0 1 2 3 3 1 0 1 2 3 Normal Q Q Plot Theoretical Quantiles Sample Quantiles Abbildung 2: Diagnostics for model mod04 11

(4) Welches Modell würden Sie anhand der durchgeführten Tests auswählen? Warum? (2) (5) Kommentieren Sie Anhand der Graphiken in Abbildung 2, ob und wenn ja welche Schwierigkeiten mit den Voraussetzungen zu Modell mod04 vorliegen.(2) (6) Welche Tomatenmenge pro Referenzfläche würden Sie anhand des Models mod04 für einen Standort mit Bodentyp 1 und Stickstoffkonzentration Nv= 1 bei Einsatz des Düngers vorhersagen. Schreiben Sie eine Formel in der Zahlen aus Angaben und Ausgaben eingehen (nicht ausrechnen!!!).(2) > coef(mod04) (Intercept) log(nv) usedyes -0.0229709 0.8346997 0.6392778 (7) Kommentieren Sie das Ergebnis der Studie in allgemeinverständlichen Begriffen. Erhöht der HypNitron die Ernte? Ist die Wirksamkeit von Bodeneigenschaften abhängig? Wenn ja wie? (2) 12