Statistisches Testen Universität Duisburg-Essen, Fak. 4, FG Instrumentelle Analytik 7. Juni 2007
Statistisches Testen Inhaltsverzeichnis Schätzverfahren und Testverfahren sind Anwendungen der Stichprobentheorie. Bei den Testverfahren wird die mit der Stichprobe gewonnene Information dazu verwendet, eine Entscheidung über eine Hypothese zu treffen. Hypothesen sind Annahmen hier über die Verteilung oder einzelne Parameter der Verteilung eines Merkmals in einer Grundgesamtheit.
Einstichproben-t-Test (I) t-tests beruhen auf der Annahme, dass die Daten aus der Normalverteilung N(µ, σ 2 ) stammen. Wir wollen die Nullhypothese µ = µ 0 testen. Wir können die Parameter µ, σ und den Standardfehler des Mittelwertes (SEM = σ/ n) durch den empirischen Mittelwert x, die Standardabweichung s und den empirischen SEM = s/ n schätzen. Es wird t = x µ 0 SEM berechnet und überprüft ob dieser t-wert innerhalb eines Annahmebereiches liegt, außerhalb dessen t mit einer Wahrscheinlichkeit fällt, die einem spezifizierten Signifikanzniveau α (z.b. 5%) entspricht.
Einstichproben-t-Test (II) Wenn t aus dem Annahmbereich herausfällt, dann wird die Nullhypothese verworfen (auf dem gewählten Signifikanzniveau). Alternativ (und gleichbedeutend damit) kann man den p-wert berechnen, der die Wahrscheinlichkeit beschreibt, mit der ein t-wert erhalten wird, der so groß oder größer wie der beobachtete t-wert ist. Man verwirft die Nullhypothese wenn der p-wert kleiner als das Signifikanzniveau α ist. Der Annahmebereich entspricht einem zweiseitigen (oder einseitigen) Konfidenzintervall um µ 0.
Einstichproben-t-Test (III) Tägliche Energieaufnahme in kj von 11 Frauen > daily.intake <- c(5260,5470,5640,6180,6390,6515, + 6805,7515,7515,8230,8770) Untersuchen Sie ob die Energieaufnahme von 11 Frauen von einem empfohlenen Wert von 7725 kj systematisch abweicht! Wenn man davon ausgeht, dass die Daten von einer Normalverteilung stammen, geht es darum zu testen, ob die Verteilung möglicherweise einen Mittelwert von µ = 7725 besitzt.
Einstichproben-t-Test (IV) Tägliche Energieaufnahme in kj von 11 Frauen > t.test(daily.intake,mu=7725) One Sample t-test data: daily.intake t = -2.8208, df = 10, p-value = 0.01814 alternative hypothesis: true mean is not equal to 7725 95 percent confidence interval: 5986.348 7520.925 sample estimates: mean of x 6753.636
f Einstichproben-t-Test (V) Tägliche Energieaufnahme in kj von 11 Frauen Vertrauensbereich und Irrtumswahrscheinlichkeit α 0.0 0.1 0.2 0.3 0.4 x µ 0 α 2 α 2 5000 5500 6000 6500 7000 7500 8000 8500 x
f Einstichproben-t-Test (VI) Tägliche Energieaufnahme in kj von 11 Frauen Annahmebereich und Signifikanzniveau α, Fehler 1. Art 0.0 0.1 0.2 0.3 0.4 x µ 0 α 2 α 2 5000 6000 7000 8000 9000 x
f Einstichproben-t-Test (VII) Tägliche Energieaufnahme in kj von 11 Frauen p-wert 0.0 0.1 0.2 0.3 0.4 x µ 0 p 2 p 2 5000 6000 7000 8000 9000 x
f Einstichproben-t-Test (VIII) Tägliche Energieaufnahme in kj von 11 Frauen Fehler 2. Art β, Macht=1-β 0.0 0.1 0.2 0.3 0.4 1 β Die Wahrscheinlichkeit, dass man eine falsche Nullhypothese ablehnt, nennt man die Macht (power) des Tests. µ β µ 0 α 2 α 2 5000 6000 7000 8000 9000 x
f Einstichproben-t-Test (IX) Tägliche Energieaufnahme in kj von 11 Frauen Fehler 2. Art β, Macht=1-β 0.0 0.1 0.2 0.3 0.4 1 β µ β µ 0 α 2 α 2 5000 6000 7000 8000 9000 x >power.t.test(delta=mean1-mean, sd=sd(daily.intake), type="one.sample",n=n) One-sample t test power calc. n = 11 delta = 971.3636 sd = 1142.123 sig.level = 0.05 power = 0.7201677 alternative = two.sided
Zweistichproben-t-Test (I) Die Daten stammen aus zwei Gruppen x 11,..., x 1n1 und x 21,..., x 2n2, bei denen wir davon ausgehen, dass sie aus den Normalverteilungen N(µ 1, σ 2 ) und N(µ 2, σ 2 ) gezogen wurden und man möchte die Nullhypothese µ 1 = µ 2 testen. Man kann dann t = x 2 x 1 berechnen, wobei der Standardfehler der SEDM Differenz der Mittelwerte SEDM = SEM1 2 + SEM 2 2 ist.
Zweistichproben-t-Test (II) Vergleich des Energieverbrauchs zwischen schlanken und adipösen Frauen > data(energy) > attach(energy) > energy expend stature 1 9.21 obese 2 7.53 lean 3 7.48 lean 4 8.08 lean... 22 8.11 lean
Zweistichproben-t-Test (III) Vergleich des Energieverbrauchs zwischen schlanken und adipösen Frauen > t.test(expend~stature,var.equal=t) Two Sample t-test data: expend explained by stature t = -3.9456, df = 20, p-value = 0.000799 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -3.411451-1.051796 sample estimates: mean in group lean mean in group obese 8.066154 10.297778
Zweistichproben-t-Test (IV) Vergleich des Energieverbrauchs zwischen schlanken und adipösen Frauen Das Konfidenzintervall [-3.411451-1.051796] bezieht sich auf die Differenz der Mittelwerte und enthält nicht 0, was in Übereinstimmung mit dem p-wert=0.000799 ist und einen signifikanten Unterschied auf dem 5% Signifikanzniveau anzeigt.
Der gepaarte t-test (I) Gepaarte t-tests werden durchgeführt, wenn man zwei Messreihen mit der gleichen experimentellen Einheit durchführt. Die Theorie beruht im Wesentlichen auf der Bildung von Differenzen, wodurch man das Problem auf einen Einstichproben-t-Test reduziert. Beachten Sie jedoch, dass implizit davon ausgegangen wird, dass solche Differenzen eine Verteilung haben, die unabhängig vom Ausprägungsgrad der untersuchten Eigenschaft ist.
Der gepaarte t-test (II) Vergleich der prä- and postmenstruellen Energieaufnahme einer Gruppe von Frauen > data(intake);attach(intake) > intake pre post 1 5260 3910 2 5470 4220... 11 8770 7335 > post-pre [1] -1350-1250 -1755-1020 -745-1835 -1540-1540 -725-1330 -1435
Der gepaarte t-test (III) Vergleich der prä- and postmenstruellen Energieaufnahme einer Gruppe von Frauen: Bland-Altmann Plot difference 3000 2000 1000 0 1000 2000 3000 Bland Altmann Plot > average <- (pre + post)/2 > difference <- post-pre > plot(average,difference, ylim=c(-3000,3000),col=2, cex=2,lwd=2) > text(6000,2000, labels="bland-altmann Plot",cex=2) 4500 5000 5500 6000 6500 7000 7500 8000 average
Der gepaarte t-test (IV) Vergleich der prä- and postmenstruellen Energieaufnahme einer Gruppe von Frauen > t.test(pre, post, paired=true) Paired t-test data: pre and post t = 11.9414, df = 10, p-value = 3.059e-07 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 1074.072 1566.838 sample estimates: mean of the differences 1320.455