Hypothesentests mit R Ashkan Taassob Andreas Reisch 21.04.09 1



Ähnliche Dokumente
14.3 Das Einstichprobenproblem in R

W-Rechnung und Statistik für Ingenieure Übung 13

> read.table("d:\\reifen.txt",header=t) > Reifen

Fragestellungen. Ist das Gewicht von Männern und Frauen signifikant unterschiedlich? (2-sample test)

Biostatistik. Lösung

Jonathan Harrington. Die t-verteilung

Teil XI. Hypothesentests für zwei Stichproben. Woche 9: Hypothesentests für zwei Stichproben. Lernziele. Beispiel: Monoaminooxidase und Schizophrenie

# Befehl für den Lilliefors-Test

Statistik für Ingenieure Vorlesung 12

Teil VIII Hypothesentests für zwei Stichproben

Teil X. Hypothesentests für eine Stichprobe. Woche 8: Hypothesentests für eine Stichprobe. Lernziele. Statistische Hypothesentests

Teil VII Hypothesentests für eine Stichprobe

Analytische Statistik: Varianzanpassungstest, Varianzhomogenitätstest. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09

Eine Einführung in R: Statistische Tests

Statistisches Testen

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests

Überblick über die Tests

Aufgabe Σ erreichbare Punkte

Güteanalyse. Nochmal zur Erinnerung: Hypothesentest. Binominalverteilung für n=20 und p=0,5. Münzwurf-Beispiel genauer

R-WORKSHOP II. Inferenzstatistik. Johannes Pfeffer

Statistische Auswertung der Daten von Blatt 13

Vergleich zweier Stichproben

Metrische und kategoriale Merkmale

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test

Statistik und Wahrscheinlichkeitstheorie UE EDV Übung mit GNU R

Lösungen zur Hausaufgabe Statistik für Hydrologen 2016

Fragestellungen. Ist das Gewicht von Männern und Frauen signifiant unterschiedlich? (2-sample test)

Wahrscheinlichkeitsrechnung und Statistik für Biologen 5. Der zwei-stichproben-t-test. und der Wilcoxon-Test

Dipl.-Volksw. Markus Pullen Wintersemester 2012/13

Ein metrisches Merkmal

1 Ausgangssituation und Versuchsziel

Biostatistik, Sommer 2017

Statistik mit R, Sitzung am

Eine Einführung in R: Statistische Tests

Wahrscheinlichkeitsrechnung und Statistik für Biologen 5. Der zwei-stichproben-t-test. und der Wilcoxon-Test

Stochastik Praktikum Testtheorie

Statistik für Ingenieure Vorlesung 11

6. Übung (Hypothesenprüfung und einfache Tests)

Mehrere metrische Merkmale

Technische Universität München Zentrum Mathematik Sommersemester Juli 2005 Arbeitszeit 60 Minuten

Biostatistik, WS 2017/18 Der zwei-stichproben-t-test

(Repeated-measures ANOVA) path = "Verzeichnis wo Sie anova1 gespeichert haben" attach(paste(path, "anova1", sep="/"))

das Kleingedruckte...

Klausur Stochastik und Statistik (WS 2008/09)

Übung zur Vorlesung Statistik I WS Übungsblatt 9

Wiederholungsklausur Wirtschaftsmathematik Lösungshinweise

Wahrscheinlichkeitsrechnung und Statistik für Biologen 4. Der t-test

Blockpraktikum zur Statistik mit R

Statistik für Ingenieure Vorlesung 13

Gesamtcholesterin Region A Region B <170 (optimal) 80 >=170 (Risiko)

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Wahrscheinlichkeitsrechnung und Statistik für Biologen 4. Der t-test

Gesamtcholesterin Region A Region B <170 (optimal) 80 >=170 (Risiko)

Biostatistik, WS 2017/18 Der t-test

Analyse 2: Hypothesentests

Datenanalyse mit R. Wintersemester 2017/18. Seminar 1: Benutzeroberflächen und einfache Analysen. Matthias Rudolf Diana Vogel

Biostatistik, WS 2013/2014 Wilcoxons Rangsummen-Test

Erwin Grüner

Beurteilung von Analysenwerten im Hinblick auf eine Grenzwertüberschreitung

Vorlesung: Statistik II für Wirtschaftswissenschaft

Prüfen von Mittelwertsunterschieden: t-test

Wahrscheinlichkeitsrechnung und Statistik für Biologen 4. Der t-test

Wahrscheinlichkeitsrechnung und Statistik für Biologen 5. Der zwei-stichproben-t-test. und der Wilcoxon-Test

Wahrscheinlichkeitsrechnung und Statistik für Biologen 4. Der t-test

Übung zur Vorlesung Statistik I WS Übungsblatt 10

9. Übung (Analyse von qualitativen Daten)

1. Nennen Sie den für das Merkmal X geeigneten Skalentyp und begründen Sie Ihre Antwort.

Ausgangssituation und Versuchsziel

Prüfungstermin aus Angewandter Statistik (WS 2012/13) Name:

Vergleich von Gruppen I

Proportions Tests. Proportions Test können in zwei Fällen benutzt werden. Vergleich von beobachteten vs. erwarteten Proportionen

Varianzanalyse mit Messwiederholungen (Repeated- measures (ANOVA) BiFe noch einmal datasets.zip laden

Biostatistik, Sommer Nichtparametrische Statistik: Mediantest, Rangsummentest, χ 2 -Test. Prof. Dr. Achim Klenke.

Statistik-Quiz Wintersemester

Klausur zu Methoden der Statistik II (mit Kurzlösung) Wintersemester 2009/2010. Aufgabe 1

3. Das Wachstum X einer Kultur (Gewicht in mg) wird in Abhängigkeit von 2 Nährlösungen A und B gemessen. Es ergaben sich die folgenden Messwerte:

Die Varianzanalyse. Analysis of Variance (ANOVA) Jonathan Harrington

Klausur zu Methoden der Statistik II (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

ANGEWANDTE STATISTIK II Prüfungstermin Name:

Wahrscheinlichkeitsrechnung und Statistik für Biologen 5. Der zwei-stichproben-t-test. und der Wilcoxon-Test

Programmieren in R - Lösungen zum Kapitel Data Analysis Christoph Rust Oktober 2018

Lösungen der Aufgaben zum Kapitel Data Analysis *

Biostatistik 101 Korrelation - Regressionsanalysen

1. Erklären Sie den Unterschied zwischen einem einseitigen und zweiseitigen Hypothesentest.

Varianzanalyse mit Messwiederholungen. (Repeated-measures (M)ANOVA)

Aufgabe 1. Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. S. Rässler

Vergleich von Parametern zweier Stichproben

Wichtige Befehle in R zur Datenanalyse Ergänzende Unterlagen zur Vorlesung Prof. Dr. Oliver Gansser

Ich bestätige, dass ich obige Hinweise zur Kenntnis genommen habe und sie befolgen werde.

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg

Verallgemeinerte lineare Modelle. Promotion. Promotion. Methoden empirischer Sozialforschung. 1 binäre und mehrere metrische und kategoriale Variablen

Blockpraktikum zur Statistik mit R

Good Data don't need statistics. Biostatistik 101. Statistathon. Carl Herrmann DKFZ B080 & IPMB Uni Heidelberg

t-tests Lösung: b) und c)

a) Wie hoch ist die Wahrscheinlichkeit, dass Vokale vorkommen, die länger als 140 ms sind?

Transkript:

Hypothesentests mit R Ashkan Taassob Andreas Reisch 21.04.09 1

Inhalt Programmiersprache R Syntax Umgang mit Dateien Tests t Test F Test Wilcoxon Test 2 Test Zusammenfassung 2

Programmiersprache R Programmiersprache und Umgebung Entworfen für statistische Datenanalyse und Grafik Open Source Software unter GPL Für Linux, MacOS X und Windows http://www.r project.org Projektseite http://cran.r project.org/ Download 3

Besonderheiten der Syntax Einfache Ausdrücke > 1 + 6 * 2 [1] 13 #ein Kommentar > log(-1) [1] NaN # Nicht definiert (Not a Number) Zuweisung > a <- 7 #Objekt a wird 7 zugeordnet Hilfe >?sin #Hilfe zu einer Funktion, hier zu Sinus > help.search(keyword= test ) #Suche nach Schlüsselwort > help.start() #Hilfe im Webbrowser >?help #Hilfe zur Hilfe 4

Umgang mit Dateien Workspace laden und speichern # Workspace speichern > save(list = ls(), file= ''filename.rdata'') # Workspace laden > load(file = ''filename.rdata'') History laden und speichern # History speichern > savehistory(file= ''history.rdata'') # History laden > loadhistory(file = ''history.rdata'') Daten laden >data <- read.table(file = ''data.txt, header=t, sep =''\t'', dec = '','' ) 5

t Test Vergleich zweier Mittlelwerte Vorraussetzung für die Daten Annähernd Gaußverteilt Varianzhomogenität Unabhängigkeit intervallskaliert Syntax t.test(x, y=null, alternative = c( two.sided, less, greater ), mu=0, var.equal=f, paired=f, conf.level=95) 6

t Test Semantik t.test(x, y=null, alternative = c( two.sided, less, greater ), mu=0, var.equal=f, paired=f, conf.level=95) x Stichprobe 1 y Stichprobe 2 alternative einseitiger oder zweiseitiger Test mu µ var.equal Varianzen homogen oder nicht paired gepaarter t-test 7

t Test Beispiel: Einstichprobentest H 0 : x = H 1 : x #Zufallswerte, Standardnormalverteilt > x1 = rnorm(mean = 0, sd = 1, n = 10) > x1 [1] -1.4624-0.4583 0.5029-0.6427-0.3628-0.2130 [7] -3.2480 1.6832 0.2771-0.7519 > t.test(x=x1, mu=0.1, alternative= two.sided ) 8

t Test Ergebnis One Sample t-test data: x1 t = -1.1443, df = 9, p-value = 0.2820 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: -1.3920788 0.4568435 sample estimates: mean of x -0.4676177 =0.05 p keine Signifikanz 9

t Test Beispiel: Zweistichprobentest H 0 : x = y H 1 : x y #Zufallswerte, Standardnormalverteilt > y1 = rnorm(mean = 0.5, sd = 1, n = 10) > y1 [1] 1.0699-0.6466 1.0490 0.4807 0.5642 1.8898 [7] 1.6685 0.7894 0.6783 2.4047 > t.test(x=x1, y=y1, alternative= two.sided,var.equal = T) 10

t Test Ergebnis Two Sample t-test data: x1 and y1 t = -2.9874, df = 18, p-value = 0.007899 alt. hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -2.4909382-0.4339622 sample estimates: mean of x mean of y -0.4676177 0.9948325 =0.05 p H 0 wird verworfen, H 1 angenommen 11

t Test Beispiel: Zweistichprobentest, einseitig H 0 : x y H 1 : x y #Zufallswerte, Standardnormalverteilt > y2 = rnorm(mean = 0.1, sd = 1, n = 10) > y2 [1] -1.6642 2.0578 2.3809-0.2895 0.2736 1.0133 [7] 1.4841 0.7538-0.7064 0.3912 > t.test(x=x1, y=y2, alternative= less,var.equal = T) 12

t Test Ergebnis Two Sample t-test data: x1 and y2 t = -1.8248, df = 18, p-value = 0.04233 alt. hypothesis: true difference in means is less than 0 95 percent confidence interval: -Inf -0.0515943 sample estimates: mean of x mean of y -0.4676177 0.5694897 =0.05 p H 0 wird verworfen, H 1 angenommen 13

t Test Beispiel: Gepaarter t Test Baum 1 2 3 4 5 6 7 8 Jahr X 36,0 31,5 34,0 32,5 35,0 31,5 31,0 35,5 Jahr Y 34,0 35,5 33,5 36,0 39,0 35,0 33,0 39,5 Erträge von Kirschbäumen in [kg] in zwei Jahren H 0 : x y H 1 : x y > jahrx <- c(36, 31.5, 34, 32.5, 35, 31.5, 31, 35.5) > jahry <- c(34, 35.5, 33.5, 36, 39, 35, 33, 39.5) > t.test(x=jahrx, y=jahry, var.equal=t, paired=t, alternative= less ) 14

t Test Ergebnis Paired t-test data: jahrx and jahry t = -2.8084, df = 7, p-value = 0.01310 alt. hypothesis: true difference in means is less than 0 95 percent confidence interval: -Inf -0.7524743 sample estimates: mean of the differences -2.3125 =0.05 p H 0 wird verworfen, H 1 angenommen Im Jahr Y gab es signifikant mehr Ertrag! 15

F Test Vergleich zweier Varianzen Vorraussetzungen für die Daten Annähernd Gaußverteilt Unabhängig Intervallskaliert Test auf Heterogenität der Varianzen! H 0 : x 2 = y 2 H 1 : x 2 y 2 16

F Test R Syntax > var.test(x, y, ratio = 1, alternative = c("two.sided", "less", "greater"), conf.level = 0.95,...) Beispiel: Baum 1 2 3 4 5 6 7 8 Jahr X 36,0 31,5 34,0 32,5 35,0 31,5 31,0 35,5 Jahr Y 34,0 35,5 33,5 36,0 39,0 35,0 33,0 39,5 Erträge von Kirschbäumen in [kg] in zwei Jahren 17

F Test Zweiseitiger Test auf Ungleichheit > var.test(x=jahrx, y=jahry, alternative= two.sided ) F test to compare two variances data: jahrx and jahry F = 0.6804, num df = 7, denom df = 7, p-value = 0.624 alt. hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.1362180 3.3985195 sample estimates: ratio of variances 0.6803966 =0.05 p H 0 wird angenommen 18 Die Varianzen sind nicht signifikant heterogen!

F Test F Test ist kein Homogentest Betrachtung von Boxplots sinnvoll vergleiche Boxlänge > boxplot(jahrx, jahry) Whiskerslänge Falls gleich => Daten annähernd homogen 19

Wilcoxon Test für Paardifferenzen Fragestellung: Sind die Mediane zweier verbundener Stichproben signifikant unterschiedlich? Vorraussetzungen Verteilung gleicher Form Verbundene Daten Intervallskalierung der Daten 20

Wilcoxon Test für Paardifferenzen Beispiel: Klausur 1 2 3 4 5 6 7 8 9 10 Lehrer A 67 43 94 72 30 69 33 79 58 48 Lehrer B 60 41 93 77 22 69 35 65 62 45 Lehrer A und B bewerten jeweils 10 Klausuren R Syntax > wilcox.test(x=lehrera,y=lehrerb, alternative="two.sided", paired=t,exact=0) Wilcoxon signed rank test with continuity correction V = 31.5, p-value = 0.3135 alt. hypothesis: true location shift is not equal to 0 21

2 Test (Chi 2) Fragestellungen Weichen beobachtete Häufigkeiten von erwarteten Häufigkeiten einer Verteilung signifikant ab? Beispiel: Münze wird 1000 mal geworfen,davon 450 Kopf Frage: Ist die Münze fair? > chisq.test(x=c(450,550),p=c(0.5,0.5))... X-squared = 10, df = 1, p-value = 0.001565 =0.05 p => Münze nicht fair, da sign. Abweichung 22

Zusammenfassung Übersicht über alle Tests > # Vergleich eines theoret. Mittelwerts mit einer Stichporben > t.test(x=.., y=.., var.euqal=t,paired=f) > # t-test - Vergleich des Mittelwerts von zwei Stichporben > t.test(x=.., y=.., var.euqal=t,paired=t) > #F-Test - Vergleich auf Varianzheterogenität > var.test(x=..., y=.., ) > #Wilcoxon Test - Rangtest (nicht paramet.), Mediane > wilcox.test(x=lehrera, y=lehrerb, paired=t,exact=0) >#Chi-2 Test beobachtete vs. theoret. Häufig. >chisq.test(x=...,p=...) 23