Teil VII Hypothesentests für eine Stichprobe

Woche 7: Hypothesentests für eine Stichprobe Teil VII Hypothesentests für eine Stichprobe WBL 15/17, 15.06.2015 Alain Hauser <alain.hauser@bfh.ch> Berner Fachhochschule, Technik und Informatik Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 2 / 35 Lernziele Statistische Hypothesentests Sie können...... einen der folgenden Tests durchführen: Binomialtest, z-test, t-test, Vorzeichentest, Wilcoon-Test... einen zu einem bestimmten Datensatz passenden Test auswählen... einen p-wert berechnen und seine Bedeutung erläutern... den Zielkonflikt zwischen zwischen Fehler 1. und 2. Art erläutern... die 6 Schritte für statistische Testverfahren auf Teststatistiken mit bekannter Verteilung übertragen. Vorlesung basiert auf Kapitel 3.2.2, 3.2.3, 4.7 des Skripts Ziel: testen, ob eine Hypothese (formuliert als probabilistisches Modell) mit einem gegebenen Datensatz vereinbar ist Es liegt in der Natur der Sache, dass es i.d.r. unmöglich ist, mit Sicherheit zu sagen, ob ein Modell richtig oder falsch ist (d.h., ob es die Daten erzeugt hat oder nicht) Wir können aber feststellen, ob es plausibel oder unplausibel ist, dass Daten von einem bestimmten Modell erzeugt wurden. Mit Hilfe statistischer Hypothesentests können wir unplausible Modelle bzw. Hypothesen verwerfen Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 3 / 35 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 4 / 35

Beispiel: Fehlsichtigkeit I Tests für Zähldaten Behauptung: WBL-AbsolventInnen sind im Schnitt weniger fehlsichtig als der Rest der Bevölkerung (im WBL wird der klare Blick geschult! ) Als fehlsichtig gilt, wer Brillen oder Kontaktlinsen trägt. Anteil Fehlsichtiger an der Gesamtbevölkerung: π 0 = 63.1% (Daten für Deutschland; Brand eins, 2011) Stichprobe aufnehmen: n zufällig ausgewählte WBL-AbsolventInnen nach ihrer Fehlsichtigkeit befragen Ergebnis (Beispiel): von n = 60 befragten Personen tragen = 35 Brille oder Kontaktlinsen Intuitive Fragestellung bei Hypothesentests: Wie wahrscheinlich ist es, durch puren Zufall eine Stichprobe zu erhalten, die mindestens so etrem ist wie die tatsächlich beobachtete? Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 5 / 35 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 6 / 35 Beispiel: Fehlsichtigkeit II Grundprinzip hinter statistischen Hypothesentests Was bedeutet durch puren Zufall und mindestens so etrem wie die eigene Stichprobe? Nullhypothese: WBL-AbsolventInnen sind im Schnitt genau so fehlsichtig wie der Rest der Bevölkerung Alternativhypothese: WBL-AbsolventInnen sind im Schnitt weniger fehlsichtig als der Rest der Bevölkerung Fragestellung beim Hypothesentest: wie wahrscheinlich ist es unter der Nullhypothese, unter 60 befragten Personen 35 oder weniger fehlsichtige zu finden? k 32 33 34 35 36 37 P[X k] 0.077 0.122 0.184 0.262 0.354 0.457 Ausgangspunkt: Behauptung, die man beweisen möchte. Aussage, neue Erkenntnis, die bisheriges Überraschende Wissen erweitert, neues Modell. Nullhypothese formulieren: einfacheres Modell basierend auf bisherigem Kenntnisstand Zeigen, dass gemessene Daten unter dem einfacheren Modell (Nullhypothese) sehr wahrscheinlich sind Allgemeines Vorgehen kann als Ablauf in 6 Schritten beschrieben werden Erstes Beispiel: Binomialtest Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 7 / 35 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 8 / 35

Der Binomialtest in 6 Schritten Der Binomialtest in 6 Schritten 1. Modell: X : Anzahl fehlsichtige WBL-AbsolventInnen; X Bin(n, π), n = 60 bekannt 2. Nullhypothese: H 0 : π = π 0 = 0.631 Alternativhypothese: H A : π < π 0 3. Teststatistik: X = 35 4. Signifikanzniveau wählen: z.b. α = 5% 5. Verwerfungsbereich K: Wertebereich der Teststatistik, der unter der Nullhypothese unwahrscheinlich ist; quantitativ so gewählt, dass P[X K] α unter H 0 Hier: K = [0, c] mit c so, dass P H0 [X c] α; mit Hilfe von R finden wir die grösste Zahl c mit P H0 [X c] α: c = 31 6. Testentscheid: H 0 wird verworfen, falls X K, andernfalls wird H 0 beibehalten. Hier: X = 35, K = [0, 31]; X / K, daher wird H 0 beibehalten p() 0.00 0.04 0.08 F() 0.0 0.4 0.8 Bin(n, 0.631) 0 10 20 30 40 50 60 0 10 20 30 40 50 60 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 9 / 35 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 10 / 35 Fehler 1. und 2. Art Beispiel: Macht eines Binomialtests Wahrheit H 0 Entscheidung H A H 0 richtig negativ Fehler 1. Art H A Fehler 2. Art richtig positiv Zurück zum Beispiel der Fehlsichtigkeit: Wie gross ist die Macht des Binomialtests, falls der wahre Anteil fehlsichtiger WBL-AbsolventInnen π = 0.5 beträgt? Signifikanzniveau α: W keit eines Fehlers 1. Art, d.h. des Verwerfens gegeben dass H 0 wahr ist Macht 1 β: β: W keit eines Fehlers 2. Art, d.h. des Beibehaltens gegeben dass H 0 falsch ist Macht 1 β: W keit, eine Abweichung von der Nullhypothese festzustellen Wenn wir die W keit für Fehler 1. Art verringern, erhöhen wir die W keit für Fehler 2. Art. Höhere Signifikanz bedingt geringere Macht. Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 11 / 35 P π=0.5 [X c = 31] = 0.651 Wie gross ist die Macht des Binomialtests, falls der wahre Anteil fehlsichtiger WBL-AbsolventInnen π = 0.4 beträgt? P π=0.4 [X c = 31] = 0.975 Wie können wir die Macht des Tests erhöhen? Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 12 / 35

p-wert Definition (p-wert) Der p-wert ist das kleinste Signifikanzniveau α, für welches wir eine Nullhypothese für einen gegebenen Datensatz verwerfen. Definition (p-wert: alternative Definition) Der p-wert ist die W keit unter der Nullhypothese, einen mindestens so etremen Wert der Teststatistik zu erhalten, wie ihn die Stichprobe liefert. Im Beispiel Fehlsichtigkeit : p = P H0 [X ] = 0.262. p-wert kann als Ersatz für Verwerfungsbereich dienen. Testentscheid (Schritt 6) kann nämlich auch so formuliert werden: H 0 wird verworfen, falls p < α, andernfalls beibehalten. Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 13 / 35 Hypothesentest mit Normalapproimation Zur Erinnerung (Teil V): falls nπ 0 > 5 und n(1 π 0 ) > 5, darf man die kumulative Verteilungsfunktion einer Binomialverteilung durch die einer Normalverteilung approimieren: X N (nπ 0, nπ 0 (1 π 0 )) Für grosse Stichproben können wir einen Binomialtest durch einen z-test ersetzen: 1. Modell: X : Anzahl fehlsichtige WBL-AbsolventInnen; X N (nπ 0, nπ 0 (1 π 0 )) 2. Nullhypothese: H 0 : π = π 0 = 0.631 Alternativhypothese: H A : π < π 0 X nπ 0 3. Teststatistik: Z = nπ0 (1 π 0 ) = 0.765 Verteilung von Z unter H 0 : Z N (0, 1) 4. Signifikanzniveau wählen: z.b. α = 5% Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 14 / 35 Hypothesentest mit Normalapproimation (z-test) Normalappro. 5. Verwerfungsbereich K = (, c] mit c so dass P H0 [Z c] = α: c = Φ 1 (α) = Φ 1 (1 α) = 1.645 6. Testentscheid: H 0 wird verworfen, falls Z K, andernfalls beibehalten. Hier: Z = 0.765, K = (, 1.645]; Z / K, daher wird H 0 beibehalten p-werte für Binomialtest: p = 0.262 für z-test: p = 0.222 p() 0.00 0.04 0.08 F() 0.0 0.4 0.8 0 10 20 30 40 50 60 0 10 20 30 40 50 60 Tests für Messdaten Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 15 / 35 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 16 / 35

Beispiel: Effekt von Koffein auf Durchblutung Gepaarter (oder Ein-Stichproben-) t-test Studie: beeinflusst Kaffeekonsum Durchblutung bei Bewegung? Ärzte haben Durchblutung des Herzmuskels ( myocarcial blood flow, MBF) von 8 Personen beim Velofahren gemessen, vor (Y i ) und nach (Z i ) Kaffeekonsum (i = 1,..., 8) Zeigen die Daten eine systematische Differenz der Durchblutung vor und nach Kaffeekonsum? MBF 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 Baseline Caffeine Wir betrachten Differenzen X i = Z i Y i, i = 1, 2,..., n = 8. 1. Modell: X 1,..., X n i.i.d N (µ, σ 2 ), mit unbekanntem σ 2 2. Nullhypothese: H 0 : µ = µ 0 = 0 Alternativhypothese: H A : µ µ 0 n(x µ0 ) 3. Teststatistik: T = = s beob. Mittel erw. Mittel Standardfehler Verteilung von T unter H 0 : t-verteilung mit n 1 Freiheitsgraden 4. Signifikanzniveau wählen: z.b. α = 5% (Quelle: Namdar et al. (2006)) Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 17 / 35 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 18 / 35 t-verteilung Gepaarter (oder Ein-Stichproben-) t-test (Forts.) Notation: T t m Verteilung durch Freiheitsgrade m charakterisiert Verteilung gleicht mehr und mehr der Normalverteilung für grosse m t m,α bezeichnet α-quantil Wegen der Symmetrie gilt t m,α = t m,1 α R-Funktion zum Berechnen der Quantile: qt f() 0.0 0.1 0.2 0.3 0.4 m = 1 m = 2 m = 5 m = 3 2 1 0 1 2 3 5. Verwerfungsbereich K = (, t n 1,1 α 2 ] [t n 1,1 α 2, ) = (, 2.365] [2.365, ) 6. Testentscheid: H 0 wird verworfen, falls T K, andernfalls beibehalten. Hier: T = 5.188 K, daher wird H 0 verworfen. p-wert: p = 0.00127 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 19 / 35 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 20 / 35

Voraussetzungen des t-tests prüfen Vertauensintervall Zur Erinnerung: Modell X 1,..., X n i.i.d N (µ, σ 2 ), mit unbekanntem σ 2 Empirische Quantile 1.5 1.0 0.5 Q Q Plot 2.0 1.5 1.0 0.5 Theoretische Quantile Definition (Vertrauensintervall) Das Vertrauensintervall I für den Parameter µ zum Konfidenzniveau 1 α ist die Menge aller Parameterwerte, die mit der Stichprobe vereinbar sind im Sinne eines statistischen Tests (d.h. nicht zur Verwerfung der zugehörigen Nullhypothese führen). Formal: I = {µ 0 Nullhypothese H 0 : µ = µ 0 wird nicht verworfen} Hier formal für t-test bzw. Erwartungswert µ; analoge Definitionen eistieren für andere Tests und Parameter. Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 21 / 35 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 22 / 35 Vertauensintervall für µ R-Funktion t.test I Form des Vertrauensintervalls hängt von Alternativhypothese ab: [ ] s H A : s µ µ 0 I = t n 1,1 α/2, + t n n 1,1 α/2 n = [ 1.680, 0.628] ( ] s H A : µ < µ 0 I =, + t n 1,1 α n = (, 0.732] [ ) s H A : µ > µ 0 I = t n 1,1 α, n = [ 1.575, ) > bloodflow <- read.table("../daten/bloodflow.csv", header = TRUE, sep = ",") > t.test(bloodflow$caffeine, bloodflow$baseline, paired = TRUE, alternative = "two.sided", conf.level = 0.95) Paired t-test data: bloodflow$caffeine and bloodflow$baseline t = -5.1878, df = 7, p-value = 0.00127 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -1.6796357-0.6278643 sample estimates: mean of the differences -1.15375 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 23 / 35 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 24 / 35

R-Funktion t.test II Vorzeichentest > t.test(bloodflow$caffeine, bloodflow$baseline, paired = TRUE, alternative = "less", conf.level = 0.95) Paired t-test data: bloodflow$caffeine and bloodflow$baseline t = -5.1878, df = 7, p-value = 0.000635 alternative hypothesis: true difference in means is less than 0 95 percent confidence interval: -Inf -0.7324011 sample estimates: mean of the differences -1.15375 Durchblutungs-Beispiel: wir betrachten Differenzen X i = Z i Y i, i = 1, 2,..., n = 8; Ziel: prüfen, ob Differenzen im Mittel signifikant unterschiedlich von (oder unter) 0 sind. Annahme für t-test: X i s normalverteilt Was tun, wenn diese Annahme nicht erfüllt ist? Alternative: Vorzeichentest Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 25 / 35 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 26 / 35 Vorzeichentest Vorzeichentest Betrachte Differenzen X i = Z i Y i, i = 1, 2,..., n = 8. 1. Modell: X 1,..., X n i.i.d. mit beliebiger Verteilung mit Median m 2. Nullhypothese: H 0 : m = m 0 = 0 Alternativhypothese: H A : m m 0 3. Teststatistik: V = #{i X i > m 0 }: Anzahl Werte (Differenzen), die grösser als m 0 sind. Verteilung von V unter H 0 : V Bin(n, 0.5) 4. Signifikanzniveau wählen: z.b. α = 5% 5. Verwerfungsbereich: K = [0, c] [n c, n] so, dass P H0 [V K] α. Es gilt P H0 [V K] = 2P H0 [V c]. Werte für c = 0, 1, 2, 3: > 2*pbinom(0:3, n, 0.5) [1] 0.0078125 0.0703125 0.2890625 0.7265625 Daher nehmen wir c = 0 (kleiner Datensatz!) 6. Testentscheid: H 0 wird verworfen, falls V K, andernfalls beibehalten. Hier: V = 0 K, daher wird H 0 verworfen p-wert: p = 0.00781 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 27 / 35 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 28 / 35

Zweiseitiger Vorzeichentest in R Einseitiger Vorzeichentest in R Ist V berechnet, kann man die Funktion binom.test benutzen: > V <- sum(bloodflow$caffeine > bloodflow$baseline) > binom.test(v, n, p = 0.5, alternative = "two.sided", conf.level = 0.95) Eact binomial test data: V and n number of successes = 0, number of trials = 8, p-value = 0.007812 alternative hypothesis: true probability of success is not equal to 0.5 95 percent confidence interval: 0.0000000 0.3694166 sample estimates: probability of success 0 > V <- sum(bloodflow$caffeine > bloodflow$baseline) > binom.test(v, n, p = 0.5, alternative = "less", conf.level = 0.95) Eact binomial test data: V and n number of successes = 0, number of trials = 8, p-value = 0.003906 alternative hypothesis: true probability of success is less than 0.5 95 percent confidence interval: 0.000000 0.312344 sample estimates: probability of success 0 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 29 / 35 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 30 / 35 Wilcoon-Test Wilcoon-Test in R Weitere Alternative zum t-test: Wilcoon-Test. Modell für Datensatz: X 1,..., X n i.i.d. mit beliebiger Verteilung, die symmetrisch um den Median m ist (Hinweis: bei symmetrischer Verteilung gilt Median = Erwartungswert) Genaue Berechnung der Teststatistik lassen wir aus; Verteilung ist so kompliziert, dass sie nur mit Software berechnet werden kann Zweiseitiger Test: > wilco.test(bloodflow$caffeine, bloodflow$baseline, paired = TRUE, eact = TRUE, alternative = "two.sided", conf.level = 0.95) Wilcoon signed rank test data: bloodflow$caffeine and bloodflow$baseline V = 0, p-value = 0.007813 alternative hypothesis: true location shift is not equal to 0 Einseitiger Test: > wilco.test(bloodflow$caffeine, bloodflow$baseline, paired = TRUE, eact = TRUE, alternative = "less", conf.level = 0.95) Wilcoon signed rank test data: bloodflow$caffeine and bloodflow$baseline V = 0, p-value = 0.003906 alternative hypothesis: true location shift is less than 0 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 31 / 35 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 32 / 35

Überblick: verschiedene Tests und p-werte für Durchblutungs-Datensatz Vergleich: parametrische und nicht-parametrische Tests für eine Stichprobe Test p-wert, 2-seitig p-wert, 1-seitig t-test 0.00127 0.00063 Vorzeichentest 0.00781 0.00391 Wilcoon-Test 0.00781 0.00391 Parametrischer Test Annahmen über Verteilungsfamilie der Daten Beispiele: z-test, t-test Beschränkt anwendbar Höhere Macht als nicht-parametrische Tests Nicht-parametrischer Test Keine Annahme über Verteilungsfamilie der Daten Beispiele: Vorzeichentest, Wilcoon-Test Breiter anwendbar Kleinere Macht als parametrische Tests Wahl eines Tests Verwenden Sie wenn möglich parametrische Tests, wenn nötig nicht-parametrische Tests. Welche Probleme ergeben sich bei kleinen Datensätzen? Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 33 / 35 Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 34 / 35 Literatur Brand eins. Die Welt in Zahlen 2011. 2011. Mehdi Namdar, Pascal Koepfli, Renate Grathwohl, Patrick T Siegrist, Michael Klainguti, Tiziano Schepis, Raphael Delaloye, Christophe A Wyss, Samuel P Fleischmann, Oliver Gaemperli, et al. Caffeine decreases eercise-induced myocardial flow reserve. Journal of the American College of Cardiology, 47(2): 405 410, 2006. Berner Fachhochschule Haute école spécialisée bernoise Bern University of Applied Sciences 35 / 35