Klausur Datenanalyse und Statistik (WS 2015/16)

Ähnliche Dokumente
2.Übung Stochastik und Statistik WS09/10 (Boogaart, Jansen)

5. Übung Datenanalyse und Statistik WS07/08 (Boogaart, Jansen)

Klausur Stochastik und Statistik (WS 2007/08) Matrikelnummer: Fachrichtung: Unter der folgenden Nummer finden Sie Ihr Ergebnis später im Internet: 8 A

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Tutorial: Vergleich von Anteilen

7. Lösungen weitere Übungsaufgaben Statistik für Ingenieure WiSe 16/17

a <- c("w","e") # Alle elementaren Datentypen können zusammengefasst werden a # Der Umgang mit den Vektoren hängt nicht vom Datentyp ab

Ferienkurse Mathematik Sommersemester 2009

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:

Übung 4 im Fach "Biometrie / Q1"

6. Tutoriumsserie Statistik II

Verallgemeinerte lineare Modelle. Promotion. Promotion. Methoden empirischer Sozialforschung. 1 binäre und mehrere metrische und kategoriale Variablen

Schweizer Statistiktage, Aarau, 18. Nov. 2004

Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1

> read.table("d:\\reifen.txt",header=t) > Reifen

Teilklausur des Moduls Kurs 42221: Vertiefung der Statistik

W-Rechnung und Statistik für Ingenieure Übung 13

Statistik II. Statistische Tests. Statistik II

Klausur Stochastik und Statistik (WS 2008/09)

Name Vorname Matrikelnummer Unterschrift

Klausur zu Biometrische und Ökonometrische Methoden und Ökologische Statistik

Tutorial: Homogenitätstest

Sommersemester Marktforschung

Klausur Statistik 2 RE Statistik für Soziologen Do,

Statistik Klausur Wintersemester 2013/2014 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

SoSe 2015 Klausur zur LV 36654: Einführung in 28. Juli 2015 die Methoden empirischer Forschung. Name: Studiengang: B.A. M.A.

11. Übungsblatt zur Vorlesung Ökonometrie SS 2014

Teil: lineare Regression

Statistik-Klausur A WS 2009/10

Klausur Statistik I Dr. Andreas Voß Wintersemester 2005/06

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

Statistik-Klausur E WS 2009/10

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Skalenniveaus =,!=, >, <, +, -

Häufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche

Wolf falsch eingeschätzt und deshalb falsche Werbemaßnahmen ergriffen.

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10

Hinweis: Es sind 4 aus 6 Aufgaben zu bearbeiten. Werden mehr als 4 Aufgaben bearbeitet, werden nur die ersten vier Aufgaben gewertet.

5. Kolmogorov-Smirnov-Test und χ 2 -Anpassungstest

Statistik Klausur Wintersemester 2013/2014 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Mathematik für Biologen

Statistik Vorlesung 8 (Lineare Modelle)

Klassifikation von Signifikanztests

Aufgaben zu Kapitel 8

Kovarianzanalyse. Truthahngewicht. Truthahngewicht. Methoden empirischer Sozialforschung. 1 metrische und mehrere metrische und kategoriale Variablen

Statistische Methoden in den Umweltwissenschaften

Einfaktorielle Varianzanalyse

11. weitere Übungsaufgaben Statistik II WiSe 2017/2018

6. Übung Stochastik und Statistik WS09/10 (Boogaart, Jansen)

Multiple Regression III

Klausur Statistik Lösungshinweise

Nachklausur zur Vorlesung. Statistik für Studierende der Biologie

Zeigen Sie mittles vollständiger Induktion, dass für jede natürliche Zahl n 1 gilt: n (2k 1) = n 2.

Statistische Tests (Signifikanztests)

Überblick über die Tests

Impressum. Verteiler. Datum 25. Juli Bericht-Nr Verfasst von VAN, JZU, ANM. Basler & Hofmann West AG Ingenieure, Planer und Berater

Schriftliche Prüfung (90 Minuten)

Tutorial:Unabhängigkeitstest

Musterlösung. Modulklausur Multivariate Verfahren

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

Diagnostik von Regressionsmodellen (1)

Datenanalyse und Statistik

Musterlösung. Kind Blume (beredet) Blume (nicht beredet)

Klassifikation von Signifikanztests

Stickstoffdüngung mit Ackerbohnenschrot zu Kartoffeln

Tutorial: Rangkorrelation

Statistik II (Sozialwissenschaften)

ANGEWANDTE STATISTIK II Prüfungstermin Name:

Datenanalyse und Statistik

Vergleich von Gruppen I

Statistik. Jan Müller

Schriftliche Prüfung (90 Minuten)

13. Übungswoche. Kapitel 12: Varianzanalyse (Fortsetzung)

Datenanalyse und Statistik

Schriftliche Prüfung (2 Stunden)

Klassifikation von Signifikanztests

Aufgabensammlung (Nicht-MC-Aufgaben) Klausur Ökonometrie WS 2014/15. ( = 57 Punkte)

Statistische Datenanalyse mit R, Korrelation und Regression. Dr. Andrea Denecke Leibniz Universität IT-Services

Biomathematik für Mediziner, Klausur WS 2000/2001 Seite 1

Statistik II. Version A. 1. Klausur Sommersemester 2011 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Lean Body Mass [kg] Estimate Std. Error t value Pr(> t ) (Intercept) ??? lbm <2e-16 ***

Statistik-Klausur A WS 2010/11

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Klausur Statistik I. Dr. Andreas Voß Wintersemester 2005/06

Analytische Statistik: Varianzanpassungstest, Varianzhomogenitätstest. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09

Übung 2 im Fach "Biometrie / Q1"

6. weitere Übungsaufgaben Statistik für Ingenieure WiSe 16/17

Vorname: Nachname: Matrikel-Nr.: Klausur Statistik

Prüfungsklausur zur Stochastik (LMG)/ Elementare Wahrscheinlichkeitstheorie und Statistik

Aufgabensammlung (Nicht-MC-Aufgaben) Klausur Ökonometrie WS 2017/18. ( = 58 Punkte)

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Mathematik für Wirtschaftswissenschaftler II (Analysis) 1. Klausur Sommersemester

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Auswertung und Lösung

Statistik-Klausur vom

Blockkurs Geowissenschaftliches Modellieren Modul Statistik 1

Tutorial: Regression Output von R

Aufgabensammlung (Nicht-MC-Aufgaben) Klausur Ökonometrie SS 2018

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Transkript:

Klausur Datenanalyse und Statistik (WS 2015/16) Matrikelnummer: Fachrichtung: Aufgabe: 1 2 3 4 5 6 Pkt. mgl. 8 7 8 12 5 14 54 Pkt erreicht: ZP Unter der folgenden Nummer finden Sie Ihr Ergebnis später im Internet: D S 1 6 2 Schreiben Sie sich die Nummer bitte jetzt auf! Diese Klausur wird nur dann als Prüfung gewertet, wenn Sie im Prüfungsamt angemeldet sind. Ansonsten werden die Ergebnisse nur für einen Schein gewertet. Lesen Sie die Aufgaben genau durch. Nehmen Sie für diese Klausur grundsätzlich ein α-niveau von 5% an. Aufgabe 1: Daten In dieser Klausur analysieren wir einen Datensatz mit dem die Wirksamkeit eines neuen biologisch erzeugten Düngemittels (HypNitron) für Tomaten untersucht werden soll. Dazu wurden über Deutschland verteilt gleich große Testanbauflächen für Tomaten in die Studie aufgenommen. An jeder Testfläche wurde der Bodentyp (Variable boden) gemäß einer Bodenklassifizierung der Gärtnervereinigung erfaßt. Diese Bodenklassifizierung umfaßt 23 aus Gärtnerischer Sicht unterschiedliche Bodenklassen. Weiterhin wurde die Konzentration des organisch verfügbaren Stickstoffs dreimal im Jahr gemessen: Nv, vor der Düngung, Nn, 4 Wochen nach der Düngung und Nh im Herbst nach der Ernte. Für jede Testfläche (Testflächen ID in Variable testflaeche) wurde eine Münze geworfen, ob mit HypNitron oder einem ähnlich aussehnden aber wirkungslosem Scheinpräparat gedüngt werden soll. Ob HyNitron verwendet wurde ist in der Variable used zu finden. Die Gesamternte an reifen Tomaten auf der Anbaufläche wurde in der Variable tomaten aufgenommen. > load("hypnitron.rdata") > options(max.print=160,show.signif.stars=false) > HN[1:10,] testflaeche tomaten used boden Nv Nn Nh 1 TF1 0.5676717 yes 8 0.08305349 1.5445788 1.0963216 2 TF2 0.1705543 no 15 0.69330236 0.6450991 1.0051958 3 TF3 1.2258663 yes 20 1.06698278 1.5871259 1.2179252 4 TF4 4.7929282 no 3 2.50026554 2.5567288 1.3035285 1

5 TF5 0.1222428 no 6 0.47878035 0.6209686 0.9647428 6 TF6 0.2397978 no 5 0.48926208 0.5295862 1.0235399 7 TF7 0.1698765 yes 10 0.51739748 1.3929723 1.1194077 8 TF8 3.7219002 no 16 3.35392882 3.4836909 1.0082022 9 TF9 11.0751556 yes 3 2.34887516 3.5287200 1.1624755 10 TF10 0.4043179 yes 14 0.63917702 2.1679097 0.8627096 (1) Kommentieren sie die Repräsentativität der Daten und geben Sie die Grundgesamtheit an.(2) Eignen sich die Daten um für ganz Deutschland gültige Aussagen zu machen? warum? (1) Eignen sich die Daten, um die Wirksamkeit von HypNitron für die Grundgesamtheit der Testflächen nachzuweisen? Warum? (1) (2) Welches Skalenniveau haben diese Daten? (4) tomaten: used: boden: testflaeche: 2

Aufgabe 2: Methoden auswählen Welche statistische Methodik sollte man wählen, um... (1)... die Anteile der Bodentypen graphisch darzustellen. (1) (2)... um festzustellen, ob Bindungen in der Variable tomaten die Verwendung nichtparametrischer Tests erschweren würde. (1) (3)... um die Variable Nv mit Methoden für das reelle Skalennivau optimal untersuchen zu können? (1) (4)... um die Abhängigkeit der Stickstoffkonzetration Nn vom Düngereinsatz used zu visualisieren? (1) (5)... um nachzuweisen, dass die Stickstoffkonzentration Nv nicht normalverteilt ist? (1) (6)... um die Abhängigkeit der Stickstoffkonzentrationen vor und nach der Düngung, so darzustellen, dass der Unterschied zwischen gedüngten und ungedüngten Flächen sichtbar wird? (2) 3

> par(mfrow=c(1,4)) > barplot(table(hn$used),main="a") > boxplot(tomaten~used,data=hn,main="b") > stripchart(nn,data=hn,pch=20,method="stack",main="c") > boxplot(nv~used,data=hn,main="d") A B C D 0 20 40 60 80 100 0 10 20 30 40 50 0 1 2 3 4 no yes no yes 0 1 2 3 4 5 no yes Abbildung 1: Graphiken zum Datensatz Aufgabe 3: Graphiken In Abbildung 1 finden sie eine Reihe graphischer Darstellung der Daten. (1) Abbildung A: Wie heißt diese Graphik? (1) Geben Sie eine Schlussfolgerung aus dieser Graphik wieder? (1) (2) Abbildung B: Wie heißt diese Graphik? (1) Geben Sie eine für die weitere Analyse relevante Schlussfolgerung aus dieser Graphik wieder? (1) (3) Abbildung C: Wie heißt diese Graphik? (1) 4

Geben Sie eine für die weitere Analyse relevante Schlussfolgerung aus dieser Graphik wieder? (1) (4) Abbildung D: Wie heißt diese Graphik? (1) Geben Sie eine für die weitere Analyse relevante Schlussfolgerung aus dieser Graphik wieder? (1) Aufgabe 4: Voranalyse der Stickstoffkonzentration in verschiedenen Bodentypen Um Manipulation auszuschließen, soll zunächst untersucht werden, ob sich die gedüngten und ungedüngten Flächen schon vor der Düngung in ihrer mittleren Stickstoffkonzentration unterschieden hatten. (1) Was folgern Sie aus den folgenden Tests? (1) > shapiro.test(hn$nv[hn$used=="yes"]) Shapiro-Wilk normality test data: HN$Nv[HN$used == "yes"] W = 0.9051, p-value = 6.335e-07 > shapiro.test(hn$nv[hn$used=="no"]) Shapiro-Wilk normality test data: HN$Nv[HN$used == "no"] W = 0.8485, p-value = 6.384e-08 Mit welchem Wert haben sie die beiden p-werte verglichen?(1) 5

(2) Beschreiben Sie die Testsituation bezüglich all ihrer Merkmale. (3) (3) Welchen Test würden Sie für diese Fragestellung empfehlen? (1) (4) Was sind die Voraussetzungen dieses Tests?(2) (5) Sind diese Voraussetzungen erfüllt? Woher wissen Sie das? (2) (6) Der p-wert dieses Tests ist 0.49613. Was folgern Sie daraus? Warum?(2) 6

Aufgabe 5: Kategorielle Daten Wir wollen untersuchen, ob der Düngereinsatz und der Bodentyp zusammenhängen. (1) Mit welcher statistischen Graphic ließe sich eine eventuell Vorhande abhängigkeit von Düngereinsatz used und Bodentyp boden besonders gut visualisieren? (1) (2) Was ist die folgende Darstellung?(1) > table(hn$used,hn$boden) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 no 2 4 3 5 7 6 2 2 5 3 5 2 4 4 2 8 1 4 0 3 2 6 6 yes 5 4 6 4 3 3 5 6 6 2 10 7 10 5 2 5 3 3 3 9 3 6 4 (3) Interpretieren sie das folgende Testergebnis und kommentieren sie eventuelle Probleme bei der Anwendbarkeit des Tests in der vorliegenden Situation.(3) > chisq.test(table(hn$used,hn$boden)) Pearson's Chi-squared test data: table(hn$used, HN$boden) X-squared = 20.6197, df = 22, p-value = 0.5443 Aufgabe 6: Lineares Modell Wir wollen nun die Wirksamkeit des Düngers zur Erhöhung der Tomatenernte und die Abhängigkeit der Wirkung von den Stickstoffkonzentrationen und Bodentyp mittels linearer Modelle untersuchen. Diagnostische Graphiken zu einem der Modelle finden Sie in Abbildung 2. 7

> xanova <- function(mod) { + print(anova(mod)) + cat("r^2=",var(predict(mod))/var(predict(mod)+resid(mod)),"\n") + } > xanova(mod01<-lm(log(tomaten)~boden,data=hn)) boden 22 161.17 7.3258 5.6548 8.722e-12 Residuals 177 229.30 1.2955 R^2= 0.4127524 > xanova(mod02<-lm(log(tomaten)~log(nv),data=hn)) log(nv) 1 122.19 122.189 90.18 < 2.2e-16 Residuals 198 268.28 1.355 R^2= 0.312929 > xanova(mod03<-lm(log(tomaten)~boden+log(nv),data=hn)) boden 22 161.167 7.3258 5.8034 4.055e-12 log(nv) 1 7.133 7.1328 5.6505 0.01852 Residuals 176 222.169 1.2623 R^2= 0.4310197 > xanova(mod04<-lm(log(tomaten)~log(nv)+used,data=hn)) log(nv) 1 122.189 122.189 96.948 < 2.2e-16 used 1 19.988 19.988 15.859 9.595e-05 Residuals 197 248.291 1.260 R^2= 0.3641195 > xanova(mod05<-lm(log(tomaten)~used+log(nv),data=hn)) 8

used 1 24.90 24.90 19.756 1.467e-05 log(nv) 1 117.28 117.28 93.051 < 2.2e-16 Residuals 197 248.29 1.26 R^2= 0.3641195 > xanova(mod06<-lm(log(tomaten)~boden+used,data=hn)) boden 22 161.167 7.3258 5.9466 1.874e-12 used 1 12.483 12.4831 10.1330 0.001722 Residuals 176 216.818 1.2319 R^2= 0.4447219 > xanova(mod07<-lm(log(tomaten)~log(nv)+boden+used,data=hn)) log(nv) 1 122.189 122.189 102.2855 < 2.2e-16 boden 22 46.111 2.096 1.7545 0.024760 used 1 13.116 13.116 10.9797 0.001119 Residuals 175 209.053 1.195 R^2= 0.4646105 > xanova(mod08<-lm(log(tomaten)~log(nv)+used+boden,data=hn)) log(nv) 1 122.189 122.189 102.285 < 2.2e-16 used 1 19.988 19.988 16.732 6.556e-05 boden 22 39.239 1.784 1.493 0.08123 Residuals 175 209.053 1.195 R^2= 0.4646105 > xanova(mod09<-lm(log(tomaten)~used+boden+log(nv),data=hn)) used 1 24.900 24.8997 20.8438 9.362e-06 boden 22 148.750 6.7614 5.6600 9.187e-12 log(nv) 1 7.766 7.7659 6.5009 0.01164 9

Residuals 175 209.053 1.1946 R^2= 0.4646105 > xanova(mod10<-lm(log(tomaten)~log(nv)*used,data=hn)) log(nv) 1 122.189 122.189 99.6726 < 2.2e-16 used 1 19.988 19.988 16.3049 7.733e-05 log(nv):used 1 8.014 8.014 6.5376 0.01132 Residuals 196 240.277 1.226 R^2= 0.3846447 > xanova(mod11<-lm(log(tomaten)~boden*used,data=hn)) boden 22 161.167 7.3258 5.9766 4.371e-12 used 1 12.483 12.4831 10.1842 0.001715 boden:used 21 26.830 1.2776 1.0423 0.416901 Residuals 155 189.989 1.2257 R^2= 0.5134333 (1) Begründen Sie, warum Modell mod04 dem Modell mod03 vorzusiehen ist. (2) (2) Begründen Sie, warum Modell mod04 dem Modell mod10 vorzusiehen ist. (2) (3) Begründen Sie, warum Modell mod05 dem Modell mod07 vorzusiehen ist. (2) 10

> par(mfrow=c(2,2)) > mod <- mod04 > plot(predict(mod),resid(mod)) > plot(predict(mod),influence(mod)$hat) > plot(predict(mod),cooks.distance(mod)) > qqnorm(resid(mod)) > coef(mod) (Intercept) log(nv) usedyes -0.0229709 0.8346997 0.6392778 2 1 0 1 2 3 1 0 1 2 3 predict(mod) resid(mod) 2 1 0 1 2 0.01 0.03 0.05 predict(mod) influence(mod)$hat 2 1 0 1 2 0.00 0.04 predict(mod) cooks.distance(mod) 3 2 1 0 1 2 3 3 1 0 1 2 3 Normal Q Q Plot Theoretical Quantiles Sample Quantiles Abbildung 2: Diagnostics for model mod04 11

(4) Welches Modell würden Sie anhand der durchgeführten Tests auswählen? Warum? (2) (5) Kommentieren Sie Anhand der Graphiken in Abbildung 2, ob und wenn ja welche Schwierigkeiten mit den Voraussetzungen zu Modell mod04 vorliegen.(2) (6) Welche Tomatenmenge pro Referenzfläche würden Sie anhand des Models mod04 für einen Standort mit Bodentyp 1 und Stickstoffkonzentration Nv= 1 bei Einsatz des Düngers vorhersagen. Schreiben Sie eine Formel in der Zahlen aus Angaben und Ausgaben eingehen (nicht ausrechnen!!!).(2) > coef(mod04) (Intercept) log(nv) usedyes -0.0229709 0.8346997 0.6392778 (7) Kommentieren Sie das Ergebnis der Studie in allgemeinverständlichen Begriffen. Erhöht der HypNitron die Ernte? Ist die Wirksamkeit von Bodeneigenschaften abhängig? Wenn ja wie? (2) 12