Statistische Datenanalyse mit R, Statistische Tests. Dr. Andrea Denecke Leibniz Universität IT-Services

Transkript

1 Statistische Datenanalyse mit R, Statistische Tests Dr. Andrea Denecke Leibniz Universität IT-Services

2 Testdatensätze In R kann man auf viele Testdatensätze zurückgreifen: Die Eingabe von try(data(package = datasets ))zeigt die im Paket datasets verfügbaren Datensätze mit kurzer Beschreibung, Zugriff erfolgt über data(name), weitere Informationen über help(name). Auch in weiteren Paketen gibt es eine Reihe an Testdatensätzen, z. B. im Paket car. Zugriff erfolgt wie oben beschrieben.

3 Statistische Tests Mittelwertvergleiche: Eine Fragestellung kann z.b. sein: Unterscheidet sich Gruppe A zu Gruppe B hinsichtlich des Merkmals C? Bevor ich einen statistischen Test anwenden kann, müssen einige Dinge geklärt werden: Ist die Fragestellung zweiseitig ( Unterscheiden sich A und B? ) oder einseitig ( Hat A höhere Werte als B? oder Hat A niedrigere Werte als B? ) Sind die Werte von C kategorial (z.b. ja, nein Antworten), ordinal (z.b. Schulnoten) oder metrisch (z.b. Körpergröße). Wenn metrisch: normalverteilt oder nicht normalverteilt? Haben die Gruppen A und B homogene Varianzen?

4 Mittelwertvergleiche Eine metrische Variable normal verteilt Ein-Stichproben T-test t.test() nicht normal verteilt Wilcoxon Test wilcox.test() Zwei metrische Variablen Korrelationsanalyse s. später Regressionsanalyse s. später Gepaarte Stichproben normal verteilt t.test() nicht normal verteilt wilcox.test() Metrische und kategoriale Variablen (unabhängige Stichproben) Verteilung Varianzen 2 Kategorien >2 Kategorien normal homogen T-test ANOVA nicht homog. Welch t-test nicht normal Wilcoxon test Kruskal-Wallis

5 Metrische Variablen Variablen auf Normalverteilung untersuchen: - visuelle Inspektion, z.b. durch Q-Q-plots, Boxplots (qqplot(), boxplot()) - Shapiro-Wilk test shapiro.test() wobei ein p-wert < 0.05 Hinweis auf eine Abweichung von der Normalverteilung ist - Unterschiede zwischen dem Mittelwert und dem Median der Variable weisen auf Abweichungen von der Normalverteilung hin ebenso wie Werte 0 der Kurtosis (Steilheit) und der Schiefe. (skewness(), kurtosis(), beide package e1071) - für Stichproben < 10 sollte generell keine Normalverteilung angenommen werden Variablen auf Varianzhomogenität untersuchen: - Visuelle Inspektion (boxplot()) - Levene Test (levenetest() - Bartlett Test für >2 Variablen (bartlett.test() Generell zeigt ein p-wert < 0.05 Varianzheterogenität an, teilweise wird 0.2 als Signifikanzgrenze empfohlen.

6 Ein-Stichproben T-Test Die Datei Rohre beinhaltet eine Stichprobe der Durchmesser einer Rohrlieferung. Der Zulieferer hat einen mittleren Durchmesser von 10cm zugesichert. Dies soll geprüft werden. Ist die Variable normal verteilt? Visuelle Inspektion (z.b. Boxplot, boxplot(rohre$diam)) und Shapiro-Wilk-Test ( shapiro.test(rohre$diam)) deuten nicht auf eine Abweichung von der Normalverteilung hin (p=0.2). Man würde also den parametrischen Ein-Stichproben T-Test anwenden zur Überprüfung der Hypothese.

7 Ein-Stichproben T-Test Der Befehl für den Test lautet: t.test(rohre$diam,mu=10, alternative = t ) Der p-wert von zeigt keine signifikante Abweichung der Stichprobe von dem vorgegebenen Durchmesser von 10cm an, also hat der Zulieferer seine Zusage gehalten (bzw. es kann ihm nichts Gegenteiliges bewiesen werden). Der Befehl für den entsprechenden nicht-parametrischen Test lautet: wilcox.test(rohre$diam, mu=10, alternative= t ) Beachten: im Prinzip sinnvoller wäre es, eine Grenze für die Abweichungen festzulegen, da man z.b. nur Rohre mit einem Durchmesser von z.b. 9,8 10,2 cm noch zusammenstecken kann und der Rest Schrott ist, also den Zulieferer auf diese Weise verpflichten muss, die Abweichungen klein zu halten.

8 Gepaarte Stichproben Der Testdatensatz Burt (package car ) enthält IQ-Werte von Zwillingen, einer wuchs bei den leiblichen Eltern auf (IQbio), der andere bei Zieheltern (IQfoster). Unterscheiden sich die beiden Gruppen hinsichtlich des IQ-Wertes? Die Werte scheinen normalverteilt und varianzhomogen zu sein, daher könnte man den T-Test für gepaarte Stichproben anwenden, man wählt zweiseitig, da man keine Vermutung hat, welche der Gruppen einen höheren IQ besitzt. Der p-wert von 0,902 zeigt, dass man keine Unterschiede im IQ zwischen den Gruppen feststellen kann, die Aufzucht durch fremde Eltern also keinen Einfluss auf den IQ hat. Die Befehle lauten: t.test(burt$iqbio, Burt$IQfoster, alternative= t, paired=true) bzw. nichtparametrisch wilcox.test(burt$iqbio, Burt$IQfoster,alternative= t, paired=true)

9 Unabhängige Stichproben Der Testdatensatz ToothGrowth enthält Daten zum Zahnwachstum bei Meerschweinchen bei drei unterschiedlichen Vitamin C Dosen und zwei Darreichungsformen. Zuerst soll untersucht werden, ob die Darreichungsform (Orangensaft oder Ascorbinsäure) des Vitamin C einen Einfluss auf das Zahnwachstum hat. Sind die len -Werte der beiden supp -Gruppen normalverteilt und varianzhomogen? Visuelle Inspektion über Boxplot: OJ zeigt schon eine recht schiefe Verteilung, VJ sieht relativ normalverteilt aus. Die Varianzen sehen relativ homogen aus. Bestätigung über Tests: Beachten: Um den Shapiro-Wilk-Test nach der Darreichungsform zu gruppieren, muss man den Befehl tapply(toothgrowth$len,toothgrowth$supp, shapiro.test) verwenden.

10 Unabhängige Stichproben Das Ergebnis des Shapiro-Wilk-Tests bestätigt unsere Beobachtung: p-wert OJ , VJ Beim Levene-Test levenetest(len ~ supp, data=toothgrowth)) bestätigt sich mit einem p-wert von auch unsere Beobachtung, dass die Varianzen als homogen angesehen werden können. Wir würden also auf einen nicht-parametrischen Test zurück greifen (da OJ nicht normalverteilt ist), in diesem Fall den Wilcoxon-Test für unabhängige Stichproben: wilcox.test(toothgrowth$len ~ ToothGrowth$supp, alternative="two.sided") Der p-wert von zeigt, dass keine signifikanten Unterschiede in der Zahnlänge bei den unterschiedlichen Darreichungsformen festgestellt werden können.

11 Unabhängige Stichproben Als nächstes würden wir gerne bei diesem Datensatz den Einfluss der Vitamin C-Dosis (dose) auf die Zahnlänge untersuchen. Auch hier untersuchen wir, ob die einzelnen Werte normalverteilt sind: boxplot(toothgrowth$len ~ ToothGrowth$dose) Die Boxen sehen halbwegs normalverteilt und varianzhomogen aus, der Shapiro-Wilk Test ( tapply(toothgrowth$len,toothgrowth$dose, shapiro.test)) zeigt auch keine Einwände gegen die Annahme der Normalverteilung (p-werte 0,25, 0,16 und 0,90). Beim Levene-Test (Überprüfung Varianzhomogenität) levenetest(toothgrowth$len ~ ToothGrowth$dose) erhalten wir allerdings eine Fehlermeldung!

12 Unabhängige Stichproben str(toothgrowth) zeigt, dass die Variable dose vom Typ numeric ist, supp hingegen factor. Der Levene-Test verlangt als Gruppierungsvariable einen Factor, also müssen wir die Variable abändern: ToothGrowth$doseF <- as.factor(toothgrowth$dose) Es wurde also im Datensatz eine neue Variable dosef angelegt mit den gleichen Werten, die aber als factor klassifiziert werden. Dann ergibt der Levene-Test levenetest(toothgrowth$len ~ ToothGrowth$doseF) einen p-wert von 0,53, Varianzhomogenität kann also angenommen werden.

13 Unabhängige Stichproben Man würde also einen parametrischen Test wählen, um Unterschiede zwischen den Gruppen heraus zu finden, da es mehr als zwei Gruppen sind, wählt man die ANOVA (nicht-parametrisch: Kruskal-Wallis): summary(aov(toothgrowth$len ~ ToothGrowth$doseF) Dieser Test ergibt einen p-wert von 1.23e-14, es liegen also signifikante Unterschiede zwischen den Gruppen vor. Wo genau diese Unterschiede liegen, kann man mit einem Post-Hoc Test nach Tukey untersuchen: TukeyHSD(aov(ToothGrowth$len ~ ToothGrowth$doseF)) Für alle drei Einzelvergleiche liegt der p-wert deutlich unter (hier 0.5/3 -> Bonferronisierung), es liegen also signifikante Unterschiede zwischen allen drei Gruppen vor.

14 Übung Öffnen Sie den Testdatensatz LakeHuron Welche Variablen enthält dieser Datensatz? Welche Fallzahl? Erzeugen Sie eine Grafik für die Häufigkeitsverteilung von x (Histogramm) Erzeugen Sie ein Liniendiagramm um die Entwicklung über die Jahre zu verfolgen

15 Lösung I Welche Variablen enthält dieser Datensatz? Welche Fallzahl? Der Datensatz LakeHuron besteht nur aus einer Variable, die als Time-Series von 1875 bis 1972 angelegt ist, also 98 Fälle beinhaltet (str(lakehuron)). Erzeugen Sie eine Grafik für die Häufigkeitsverteilung hist(lakehuron)

16 Lösung II Erzeugen Sie ein Liniendiagramm um die Entwicklung über die Jahre zu verfolgen. Eine Besonderheit der Daten/Variable ist, dass sie eine time series ist (str(lakehuron)). Es sind intern also schon die Jahreszahlen hinterlegt. Über die Eingabe von plot(lakehuron) würde man schon die gewünschte Grafik erhalten.

17 Mehr Übung Wir befinden uns im Jahr In 1889 wurde eine Fabrik errichtet an einem der Zuflüsse von Lake Huron. Beweisen Sie, dass die Einrichtung dieser Fabrik einen negativen Effekt auf den Wasserstand von Lake Huron hatte. Hierzu muss man zuerst die time series in einen Datensatz umwandeln: LakeHuronD <- as.data.frame(lakehuron) Dann die Jahreszahlen als Variable hinzu fügen: LakeHuronD$year <- 1875:1972 Danach benötigt man einen Teildatensatz, der nur die Daten von 1872 bis 1920 enthält

18 Mehr Übung 1. Anlegung eines neuen Datensatzes LakeHuron1920 LakeHuron1920 <- subset(lakehurond, year<=1920) 2. Erzeugen Sie eine neue Variable industry mit 1 = ohne Fabrik (vor 1889) 2 = mit Fabrik (von 1889 an) LakeHuron1920$industry <- recode (LakeHuron1920$year, 1875:1888 = 1; 1889:1920 = 2 ) 3. Anschauen der Variablen: liegt Normalverteilung und Varianzhomogenität vor?

19 Mehr Übung boxplot(lakehuron1920$x ~LakeHuron1920$industry) Der Boxplot zeigt relativ normalverteilte und varianzhomogene Daten. Bestätigung über Tests: Shapiro-Wilk Test: tapply(lakehuron1920$x, LakeHuron1920$industry, shapiro.test) Die p-werte liegen bei 0.89 und 0.29, es spricht also nichts gegen die Annahme der Normalverteilung. Levene Test levenetest(lakehuron1920$x ~ LakeHuron1920$industry) Ergebnis: p-wert ist 0.85, also keine statistische Differenz zwischen Varianzen feststellbar

20 Mehr Übung 4. Führen Sie einen t-test durch, um den Wasserstand vor und nach der Errichtung der Fabrik zu vergleichen. t.test(lakehuron1920$x~lakehuron1920$industry, alternative= greater, var.equal=true) Ergebnis: der p-wert für diesen Test ist 9.949e-12 Die Wasserstände von 1889 bis 1920 von Lake Huron zeigen eine signifikante Reduktion verglichen mit den Wasserständen von 1875 bis 1888 (p<0.01), mit der Errichtung der Fabrik sind die Wasserstände signifikant gesunken.