Marcel Dettling Institut für Datenanalyse und Prozessdesign Zürcher Hochschule für Angewandte Wissenschaften marcel.dettling@zhaw.ch http://stat.ethz.ch/~dettling Winterthur, 24. Mai 2017 1
Ausblick Wir werden noch die folgenden Tests diskutieren: t-test für einen Erwartungswert Dient dazu, den Mittelwert einer Stichprobe mit einem Sollwert 0 zu vergleichen. Die Testgrösse lautet: X 0 T n ˆ X Unter H hat eine t-verteilung mit n 1 Freiheitsgraden 0 T 2-Stichproben-Tests Hier wird nicht mehr eine Stichprobe gegen einen Sollwert verglichen, sondern es wird bei zwei Stichproben geprüft, ob Anteil / Anzahl / Mittelwert identisch sind. 0 2
t-test für einen Erwartungswert 0 Ein schmerzstillendes Medikament soll im Schnitt spätestens nach 120 Sekunden Erleichterung bringen. Die tatsächliche Zeit schwankt jedoch von Patient zu Patient. Anzahl 0 1 2 3 4 5 Histogramm 50 100 150 Zeit in Sekunden Datenlage: n 30 Patienten Sollwert 0 120s Mittelwert ˆ x 100.65s Standardabweichung ˆ 40.41s X 3
t-verteilung Wenn wir nun nicht mit der "wahren" Standardabweichung X normalisieren können, und uns stattdessen mit ihrer geschätzten, empirischen Variante ˆ X behelfen müssen, so gilt: X Z n ~ N(0,1) X X T n ~ t ˆ X ( n1) Durch das Einfügen der Schätzung ˆ X entsteht eine zusätzliche Quelle der Variabilität, weshalb T eine etwas breitere Verteilung als Z hat. Es handelt sich um eine sogenannte t-verteilung mit ( n 1) Freiheitsgraden. 4
t-verteilung Normal- und t-verteilungen dnorm(x) 0.0 0.1 0.2 0.3 0.4 N(0,1) t10 t5 t3 t2-4 -2 0 2 4 x 5
Kochrezept für den t-test H 0 1) Nullhypothese : Problem formulieren 2) Alternativhypothese H A : welche Abweichung ist gesucht? 3) Testgrösse T wählen und Verteilung unter H 0 bestimmen 4) Verwerfungs-/Annahmebereich bestimmen: ca.[ 2,2] 5) Realisierten Wert T t ablesen/bestimmen 6) p-wert berechnen: p Wert 2 P( T t ) 7) mit p-wert oder V/A-Bereich Testentscheidung treffen siehe Wandtafel 6
Vertrauensintervall für : Ziel ˆ Der Schätzer für die Zeit bis zur Wirkung ist eine Zufallsvariable. Grund: wenn neue bzw. weitere Messungen hinzugefügt würden, so ergäbe sich ein anderer Mittelwert x. Ziel: (beide sind äquivalent ) X Angeben, welche Werte plausibel sind für den unbekannten Erwartungswert. Denn das Resultat von x 100.65 hat ja auf einer weiteren Stichprobe nicht bestand. Wir möchten die Schätzung mit Genauigkeitsangabe versehen. Dieses Intervall ist um x zentriert, seine Breite bemisst sich an Variabilität und Stichprobengrösse. x 100.65 7
Vertrauensintervall für via Dualität Intuitive Idee: Das 95% -Vertrauensintervall soll alle Werte enthalten, die auf dem 95% -Niveau mit den Daten vereinbar sind. Dies sind z.b. alle Nullhypothesen, für welche der zugehörige t-test mit Irrtumsw keit 5%, gegeben die vorliegenden Beobachtungen, nicht verworfen wird. Zur expliziten Bestimmung des Vertrauensintervalls könnte man auf Ausprobieren zurückgreifen. Das ist aber mühsam, mit Mathematik geht es viel eleganter... H 0 8
Formel & Herleitung Das 95%-Vertrauensintervall für den Erwartungswert lautet: x qt 0.975;( n1) ˆ X n Herleitung: siehe Wandtafel... Wir betrachten einige Szenarien. Wenn alle anderen Parameter identisch bleiben, aber - die Stichprobe grösser wird: VI wird kürzer! - die Streuung der Einzelwerte grösser ist: VI wird länger! - wir mehr Sicherheit (höheres Niveau) wollen: VI wird länger! 9
Vertrauensintervall für Beispiel: Meinungsumfrage vor einer Abstimmung Das Schätzen eines Anteils p durch pˆ X / n, die relative Häufigkeit an Erfolgen/Zustimmung/... ist ein sehr häufig auftretendes Anwendungsproblem. Klar ist, dass die Schätzung ˆp nicht exakt ist, d.h. von den ausgewählten Personen/Exemplaren/... abhängt. Wenn neue und/oder weitere Messungen durchgeführt werden, so wird sich eine andere Schätzung ˆp ergeben. p Ziel: Bestimmung eines Vertrauensintervalls für den wahren/tatsächlichen Anteil p in der Grundgesamtheit. 10
Vertrauensintervall für : Berechnung Das 95%-Vertrauensintervall für p enthält alle Nullhypothesen H, für welche der Binomial-Test mit 5% 0: p p0 Irrtumsw keit nicht verworfen wird. Die Grösse dieses Bereichs hängt von der Anzahl Beobachtungen n und dem Anteil pˆ x/ n ab. Eine exakte, explizite Formel kann man nicht angeben. Entweder benützt man die Funktion binom.test() in R. Oder, falls npˆ(1 pˆ) 10 auch die Näherungsformel: pˆ qnorm 0.975;(0,1) pˆ(1 pˆ) n p 11
Warum ist das VI falsch? 12
Vergleich von 2 Stichproben In der Praxis ist es eher selten, dass ein Test gegen einen vorgegebenen Sollwert durchgeführt werden kann. Wenn, dann ist dieser Wert meist aus einer Stichprobe geschätzt. In diesem Fall vergleicht man aber zwei Stichproben, und nicht eine Stichprobe gegen einen Sollwert. Weil somit beide Grössen eine Unsicherheit aufweisen, muss man diese beim Testen berücksichtigen. Wir besprechend 2-Stichproben-Tests für: - zwei Anteile ˆp 1 und ˆp 2 - zwei Mittelwerte 1 ˆ und ˆ 2 13
Beispiel: Weisse Weihnachten Gab es früher öfter weiss Weihnachten? 1961-1990: 39 von 90 Tagen mit Schnee 1991-2010: 16 von 60 Tagen mit Schnee 14
Beispiel: Hipparions Datenlage Hipparion Africanum: Hipparion Lybicum: n 39, ˆ 25.9, ˆ A A mm A 2.2mm n 38, ˆ 28.4 mm, ˆ 4.3mm L L A 15
Ad-Hoc Test via VI-Überlapp Frage: Überlappen sich die beiden VIs? Testantwort: Falls sich die beiden VIs nicht überlappen, so ist der Unterschied zwischen p1/ 1 und p2 / 2 statistisch signifikant. Falls sich die beiden VIs überlappen, ist hingegen keine Aussage möglich. Es ist immer noch möglich, dass ein genauerer Test die Nullhypothese p p bzw. verwirft. 1 2 1 2 Durchführen des Tests für die 2 Beispiele 16
2-Stichproben-Binomial-Test Vergleich von 2 Proportionen (d.h. Anteilen und p ): Wir testen die Nullhypothese H, bzw. 0: p1 p2 p1 p2 0 Falls npˆ ˆ 1 1(1 p1) und npˆ 2 2(1 pˆ2) beide 5, so können wir die folgende Teststatistik benützen: T ( pˆ pˆ ) 2 1 2 2 2 ~ 1 pˆ(1 pˆ) 1 1 n n 1 2 p1 2 prop.test() in R Es gibt andere, ähnliche Teststatistiken, welche wir hier wegen der fehlenden Implementation in R jedoch nicht besprechen. 17
2-Stichproben-t-Test Vergleich von 2 Mittelwerten und : 1 2 Wir testen die Nullhypothese H, bzw. 0: 1 2 12 0 unter der Annahme, dass die Streuung in den beiden Stichproben unbekannt aber identisch ist, d.h. Dazu benützen wir die folgende Teststatistik: X 1 X2 T ~ t, wobei ( n1n22) 1 1 sp n n 1 2 1 2 ( n 1) s ( n 1) s n n 2 2 2 1 1 2 2 1 2 die gepoolte Schätzung der Standardabweichung ist. s p 18