Programmieren in R - Lösungen zum Kapitel Data Analysis Christoph Rust Oktober 2018

Größe: px

Ab Seite anzeigen:

Download "Programmieren in R - Lösungen zum Kapitel Data Analysis Christoph Rust Oktober 2018"

Christel Schumacher
vor 5 Jahren
Abrufe

1 Programmieren in R - Lösungen zum Kapitel Data Analysis Christoph Rust Oktober 2018 Vorbemerkungen: Diese Datei wurde mit R Markdown (www) erstellt. Die Quelldatei lässt sich unter (www) herunterladen. Öffnet man diese in RStudio und und klickt auf knit bzw. drückt Strg + Shift + k, so wird dieses Dokument in das jeweilige Format (Word-Datei, PDF und HTML u.a.) kompiliert. Die zugehörige R-Script-Datei ist unter (www) zu finden. Aufgabe D1 Verwenden Sie den Datensatz CPS1985 aus dem AER Paket: a) Erstellen Sie nun ein Histogram der logarithmierten Löhne. library(aer) Loading required package: car Loading required package: cardata Loading required package: lmtest Loading required package: zoo Attaching package: 'zoo' The following objects are masked from 'package:base': as.date, as.date.numeric Loading required package: sandwich Loading required package: survival data(cps1985) attach(cps1985) <- log(wage) hist(, freq=false) 1

2 Histogram of b) Erweitern Sie dieses um die Dichtefunktion einer normalverteilten Zufallsvariable, welche Mittelwert und Varianz der logarithmierten Löhne aufweist. erweitere die ylims, damit die NV-Dichte oben nicht abgeschnitten wird hist(, freq = FALSE, ylim = c(0,0.8)) Möglichkeit 1: x- und y-werte berechnen und dann lines() anwenden xx <- seq(range()[1], range()[2], length.out = 100) yy <- dnorm(xx, mean= mean(), sd = sd() ) lines(x = xx, y = yy, col = "red", lty = 2, lwd = 8) Möglichkeit 2: eigene Funktion definieren und curve(, add=true) anwenden adjnorm <- function(x) dnorm(x, mean = mean(), sd = sd()) curve(adjnorm, lwd = 2, add=true, col="blue" ) 2

3 Histogram of c) Zeichnen Sie den Mittelwert als gestrichelte Linie ein. hist(, freq = FALSE,ylim = c(0,0.8)) xx <- seq(range()[1], range()[2], length.out = 100) yy <- dnorm(xx, mean= mean(), sd = sd() ) lines(x = xx, y = yy, col = "red") abline(v=mean(), col = "blue", lwd=3, lty = 2) 3

4 Histogram of d) Zeichnen Sie mit einem Polygon die 25% Quantile ein. hist(, freq = FALSE,ylim = c(0,0.8)) xx <- seq(range()[1], range()[2], length.out = 100) yy <- dnorm(xx, mean= mean(), sd = sd() ) lines(x = xx, y = yy, col = "red") q25 <- qnorm(p=0.25, mean(), sd = sd()) xx <- c(seq(min(), q25, by=0.1)) yy <- dnorm(xx, mean= mean(), sd = sd() ) polygon(x = c(xx,q25), y = c(yy,0), col = "grey" ) 4

5 Histogram of Aufgabe D2 Überfliegen Sie den Aufsatz Incentives Work: Getting Teachers to Come to School von Duflo et al. a) Beschreiben Sie kurz das Experiment, das hier durchgeführt wurde. Antwort: In der Studie wird mit einem Experiment überprüft, ob Überwachung und finanzielle Anreize die Abwesenheitszeiten von Lehrern und damit den Lernerfolg beeinflussen. b) Schauen Sie sich dann die Daten an -> Incentives Work Data\ Die folgenden Datensätze sind ausreichend: TreatmentSchools, Posttest Laden Sie die Daten in R und schauen Sie sie an. Versuchen Sie hierbei den Stata Datensatz (Endung.dta) mit Hilfe der read_dta Funktion aus dem haven Package zu laden. if (!require(haven)) install.packages("haven") ; library(haven) Loading required package: haven TreatmentSchools <- read_dta(" Posttest <- read_dta(" str(posttest) Classes 'tbl_df', 'tbl' and 'data.frame': 2896 obs. of 9 variables: $ schid : num attr(*, "label")= chr "School ID" $ childno : num attr(*, "label")= chr "Child Number" $ post_math_v : num attr(*, "label")= chr "Verbal Posttest Math Score" 5

6 $ post_lang_v : num attr(*, "label")= chr "Verbal Posttest Language Score" $ post_total_v: num attr(*, "label")= chr "Verbal Posttest Total Score" $ post_math_w : num NA NA NA NA attr(*, "label")= chr "Written Posttest Math Score" $ post_lang_w : num 2.45 NA NA NA NA attr(*, "label")= chr "Written Posttest Language Score" $ post_total_w: num 3.34 NA NA NA NA attr(*, "label")= chr "Written Posttest Total Score" $ post_writ : num attr(*, "label")= chr "Did student take written test or verbal test? Written=1, Verbal=0" str(treatmentschools) Classes 'tbl_df', 'tbl' and 'data.frame': 60 obs. of 1 variable: $ schid: num attr(*, "label")= chr "School ID in Treatment "..- attr(*, "format.stata")= chr "%8.0g" c) Erstellen Sie im Datensatz Posttest eine Variable treat, die den Wert TRUE annimmt für Schüler, deren School-ID (Variable schid) im Datensatz TreatmentSchools auftaucht. Verwenden Sie den Operator %in% Beispiel: a <- 1:10 a[1:10 %in% c(2,3)] Posttest$treat <- Posttest$schid %in% TreatmentSchools$schid d) Erzeugen Sie eine Teilstichprobe des Datensatzes, der die Schüler mit schriftlichem Test enthält (post_writ==1) subsample <- subset(posttest, post_writ ==1) e) Vergleichen Sie die mittleren Testergebnisse (Variable post_total_w) von Treatment- und Nicht- Treatment-Schülern. tapply(posttest$post_total_w, Posttest$treat, mean, na.rm = TRUE) FALSE TRUE f) Führen Sie einen t-test der folgenden Nullhypothese durch: Treatment- und Nicht-Treatment-Schüler sind im Mittel gleich gut with( Posttest, t.test(post_total_w ~ treat), alternative = "two-sided") Welch Two Sample t-test data: post_total_w by treat t = , df = , p-value = 9.633e-06 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval:

7 sample estimates: mean in group FALSE mean in group TRUE Es zeigt sich eindeutig eine bessere Leistung bei den Treatment-Schülern! Kurze Anmerkung zu der Funktion with(): wenn man einen Datensatz nicht attachen will, aber dennoch in einer Anwendung nicht jedes Mal explizit die Variable im Datensatz indizieren möchte, lassen sich die Variablen innerhalb der Funktion with() kurzzeitig sichtbar machen. 7

Ähnliche Dokumente

Lösungen der Aufgaben zum Kapitel Data Analysis *

Lösungen der Aufgaben zum Kapitel Data Analysis * Christoph Rust October 11, 2017 * Dieses Dokument wurde mit Sweave unter R-Studio erstellt. Das zur Erstellung benutzte Skript kann unter http:// www.uni-regensburg.de/wirtschaftswissenschaften/vwl-tschernig/medien/programmieren-mit-r/sol_data_analysis.zip.