Neyman-Pearson. - Schulen statistischer Inferenz - Christian Schnell. betreut von Dr. Marco Cattaneo

Transkript

1 Neyman-Pearson - Schulen statistischer Inferenz - Christian Schnell betreut von Dr. Marco Cattaneo Seminar für methodologische und historische Grundlagen des Wahrscheinlichkeitsbegriffs und der statistischen Inferenz Institut für Statistik Ludwig-Maximilians-Universität München 11. März 2013 Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

2 Gliederung 1 Einleitung John Arbuthnot als Vorreiter des statistischen Tests 2 Neyman-Pearson Schule 2.1 Konstellation zwischen den wichtigsten Wissenschaftlern 2.2 Hypothesentest (mit Alternative) 2.3 P-Wert kontra festes α-niveau 2.4 Gütefunktion und Power eines Tests 2.5 Neyman-Pearson Lemma 2.6 Induktives Verhalten versus induktives Schließen 3 Schluss 3.1 Kritik an der klassischen Testtheorie in der Praxis 3.2 Zusammenfassung Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

3 1 Einleitung John Arbuthnot als Vorreiter des statistischen Tests 1 Einleitung John Arbuthnot als Vorreiter des statistischen Tests 2 Neyman-Pearson Schule 3 Schluss Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

4 1 Einleitung John Arbuthnot als Vorreiter des statistischen Tests Abbildung: Schotte John Arbuthnot ( d1735) und ein Ausschnitt der 82 Jahre der Londoner Geburtenstatistik Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

5 1 Einleitung John Arbuthnot als Vorreiter des statistischen Tests Arbuthnot in der Geschichte des Wahrscheinlichkeitsbegriffs Huygens ( d1695): Zusammenfassung seiner Erkenntnisse über Wahrscheinlichkeitsrechnung Van Rekeningh in Spelen van Geluck (1657) Arbuthnot ( d1735) : Übersetzung auf Englisch mit eigenen Anmerkungen anonym unter dem Titel Of the Laws of Chance (1692) Veröffentlichung seiner Arbeit An argument for Divine Providence (1710) Verwendung des Begriffs Value of Expectation (nach Huygens) Bernoulli ( d1705) : Danach Veröffentlichung von Ars Conjectandi (1713) Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

6 1 Einleitung John Arbuthnot als Vorreiter des statistischen Tests Arbuthnots Herangehensweise Ansatz: Überwiegen in einem Jahr Jungen- oder Mädchengeburten? Beweisführung: Annahme: zunächst Gleichverteilung der Geschlechter bei der Geburt Berechnung wie bei einem Münzwurf ( zweiseitiger Würfel ) Erwartungswert : in einem Jahr werden mehr Jungen geboren ˆ= 1 2 Wiederhole 82 mal: in jedem Jahr werden mehr Jungen geboren ˆ= ( 1 2 )82 Schlussfolgerung: Annahme einer Gleichverteilung ist nicht gerechtfertigt! Arbuthnot: göttliche Fügung ist bewiesen. Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

7 1 Einleitung John Arbuthnot als Vorreiter des statistischen Tests Aus der heutigen Sichtweise Bemerkenswert: Erweiterung einer logischen Schlussweise zu einer statistischen Schlussweise Gegenteil dessen, was nachgewiesen werden soll als Nullhypothese: Die Wahrscheinlichkeit, dass ein neugeborenes Kind ein Junge bzw. ein Mädchen ist liegt jeweils bei 50%. Durch mathematische Überlegungen folgt der Schluss: Die Wahrscheinlichkeit, dass ein neugeborenes Kind ein Junge ist liegt bei über 50% und ist somit größer als die Wahrscheinlichkeit, dass ein neugeborenes Kind ein Mädchen ist. Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

8 2.1 Konstellation zwischen den wichtigsten Wissenschaftlern 1 Einleitung 2 Neyman-Pearson Schule 2.1 Konstellation zwischen den wichtigsten Wissenschaftlern 2.2 Hypothesentest (mit Alternative) 2.3 P-Wert kontra festes α-niveau 2.4 Gütefunktion und Power eines Tests 2.5 Neyman-Pearson Lemma 2.6 Induktives Verhalten versus induktives Schließen 3 Schluss Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

9 2.1 Konstellation zwischen den wichtigsten Wissenschaftlern Karl Pearson ( d1936) und d in England Ronald Aylmer Fisher ( d1962) in England d in Australien Jerzy Neyman ( d1981) in Moldawien d in USA/Kalifornien Egon Sharpe Pearson ( d1980) und d in England Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

10 2.1 Konstellation zwischen den wichtigsten Wissenschaftlern Anfänge des Konflikts Karl Pearson: Fisher: Mitbegründer und Lektor des Magazins Biometrika (ab 1901) Professur für Eugenik am University College in London (ab 1913) Gründung: Department of Applied Statistics Statistische Errungenschaften: Korrelations-/Kontingenzkoeffizient, χ 2 -Test Stellenangebot am Institut von Pearson (1919) Forschungsarbeiten: Maximum-Likelihood, t-test, Fisher-Test, Suffizienz, Varianzanalyse und Versuchsplanung Karl Pearson blockierte Veröffentlichungen von Fisher in der Biometrika aufgrund von inhaltlichen Uneinigkeiten bei der Auswertung von Stichproben Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

11 2.1 Konstellation zwischen den wichtigsten Wissenschaftlern Verschärfung des Konflikts Egon Sharpe Pearson: Ab 1924 am Institut und ab 1933 Institutsleitung gemeinsam mit Fisher Weiterhin Blockierung von Fisher in der Biometrika als Lektor Intensive Zusammenarbeit mit Neyman von 1928 bis Anstellung von Neyman am Institut von 1934 bis In dieser Zeit Veröffentlichung von solch grundlegenden Papers wie z.b.: On the Use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference (1928) On the Problem of the Most Efficient Tests of Statistical Hypotheses (1933) Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

12 2.1 Konstellation zwischen den wichtigsten Wissenschaftlern Höhepunkt des Konflikts (zwischen Neyman und Fisher) Vorwurf an Fisher: Unsaubere Beweisführung und umständliche Formulierungen Neyman über Fishers Nullhypothesentest: im mathematischen Sinne schlechter als nutzlos Vorwurf an Neyman: Beschränkt sich auf mathematische Denkweise Fisher über Neyman: Neyman verstehe nichts von Statistik und hat keinen Bezug zu Naturwissenschaften Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

13 2.2 Hypothesentest (mit Alternative) 1 Einleitung 2 Neyman-Pearson Schule 2.1 Konstellation zwischen den wichtigsten Wissenschaftlern 2.2 Hypothesentest (mit Alternative) 2.3 P-Wert kontra festes α-niveau 2.4 Gütefunktion und Power eines Tests 2.5 Neyman-Pearson Lemma 2.6 Induktives Verhalten versus induktives Schließen 3 Schluss Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

14 2.2 Hypothesentest (mit Alternative) Nullhypothese in Fishers Signifikanztest Aufwendige Berechnung der Verteilungstabellen beim t-test (1908) Festlegung des Signifikanzniveaus auf 1% und 5% durch Fisher (1925) anwenderfreundliche Verwendung des Signifikanztests von Fisher Benennung einer Nullhypothese: Unterscheidet sich die tatsächliche Verteilung einer Stichprobe von einer hypothetischen Verteilung? Allgemeine Vorgehensweise: Nullhypothese ohne bedeutenden Effekt Ziel ist die Verwerfung der Nullhypothese Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

15 2.2 Hypothesentest (mit Alternative) Alternativhypothese durch Neyman-Pearson Weiterentwicklung der Ideen von Fisher (Ende 1920er) Betrachtung von Hypothesenpaaren (mit konkreter Alternativhypothese): H 0 : θ Θ 0 gegen H 1 : θ Θ 1 Disjunkte Parameterräume Θ 0 und Θ 1 können sich zu Θ ergänzen Einfachstes Szenario: H 0 und H 1 durch einzelne Parameterwerte repräsentiert einfache Hypothesen vs. zusammengesetzte Hypothesen Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

16 2.2 Hypothesentest (mit Alternative) Mögliche Testentscheidungen H 0 beibehalten H 0 verwerfen richtige Schlussfolgerung falsche Schlussfolgerung H 0 trifft zu Spezifität Fehler 1. Art (Wahrscheinlichkeit 1 α) (auch α-fehler) falsche Schlussfolgerung richtige Schlussfolgerung H 1 trifft zu Fehler 2. Art Power (auch β-fehler) (Wahrscheinlichkeit 1 β) P(Fehler 1. Art) = P(H 0 verwerfen H 0 trifft zu) = α P(Fehler 2. Art) = P(H 0 beibehalten H 1 trifft zu) = 1 P(H 0 verwerfen H 1 trifft zu) = β Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

17 2.3 P-Wert kontra festes α-niveau 1 Einleitung 2 Neyman-Pearson Schule 2.1 Konstellation zwischen den wichtigsten Wissenschaftlern 2.2 Hypothesentest (mit Alternative) 2.3 P-Wert kontra festes α-niveau 2.4 Gütefunktion und Power eines Tests 2.5 Neyman-Pearson Lemma 2.6 Induktives Verhalten versus induktives Schließen 3 Schluss Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

18 2.3 P-Wert kontra festes α-niveau Fishers p-wert Mögliche Annahme: kleine Werte sprechen gegen Nullhypothese p-wert als Maß der Evidenz gegen Nullhypothese: p = F (x) = P(X x) Kumulierung der Wahrscheinlichkeit aller möglichen Beobachtungen kleiner oder gleich der eigentlichen Beobachtung x Je kleiner der p-wert, desto weniger plausibel ist es, dass die beobachteten Werte für die Nullhypothese sprechen. Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

19 2.3 P-Wert kontra festes α-niveau Beispiel: Geschlechterverhältnis bei der Geburt Gleichverteilungsannahme unter H 0 : Erwarte bei 1000 Geburten ein Verhältnis von 500 Jungen zu 500 Mädchen Beobachtung: Verhältnis 950 zu 50 (Jungen (J) zu Mädchen (M)) p-wert unter H 0 : p = P(M = 0) + P(M = 1) P(M = m) mit der tatsächlichen Beobachtung m = 50 Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

20 2.3 P-Wert kontra festes α-niveau α-niveau nach Neyman-Pearson Annahme: kleine Werte sprechen gegen Nullhypothese Zusätzlich: Standardnormalverteilte Prüfgröße Z mit α-quantil z α Ablehnbereich der Nullhypothese: P H0 (Z z α ) = α z α entspricht dem kritischen Wert und wird durch α bestimmt Kontrolle des Ablehnbereichs durch α Umso größer α gewählt wird, desto weniger wahrscheinlich spricht eine beobachtete Prüfgröße für die Nullhypothese. Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

21 2.3 P-Wert kontra festes α-niveau Vergleich von p-wert und α-niveau Fisher: H 0 wird abgelehnt, falls p-wert kleiner als α-niveau (z.b. 5%) Neyman-Pearson: H 0 wird abgelehnt, falls der Prüfgrößenwert in den kritischen Bereich C fällt Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

22 2.3 P-Wert kontra festes α-niveau Bestimmung des Signifikanzniveaus 1 Fisher (1935): Lege Signifikanzniveau im Sinne einer Konvention fest vor der Durchführung des Tests 2 Fisher (1956): Berechne exaktes Signifikanzniveau aus den Daten (p-wert) nach der Durchführung des Tests 3 Neyman-Pearson: Lege α und β fest nach Kosten-Nutzen Analyse eines möglichen Fehlers 1. oder 2. Art vor der Durchführung des Tests Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

23 2.3 P-Wert kontra festes α-niveau Motivation für Kosten-Nutzen Analyse Beispiel: H 0 : Angeklagter ist schuldig vs. H 1 : Angeklagter ist unschuldig Fehler 1. Art (α): Angeklagte wird freigesprochen, obwohl er schuldig ist. Fehler 2. Art (β): Angeklagte wird verurteilt, obwohl er unschuldig ist. Wichtig: Konsequenzen einer Fehleinschätzung 1 Fehler 1. Art: Gefahr für die Gesellschaft durch Beschuldigten 2 Fehler 2. Art: Art der Bestrafung (z.b. Todesstrafe oder Gefängnisstrafe) Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

24 2.3 P-Wert kontra festes α-niveau Interpretation von Signifikanz Aussage bezieht sich auf Szenario, in dem die Nullhypothese Gültigkeit hat Wahrscheinlichkeit der Beobachtungen unter der Annahme: H 0 trifft zu Die beobachteten Werte sind so klein/groß, dass es (extrem) unwahrscheinlich ist (z.b. 5%), dass sie noch unter H 0 vorkommen. Keine Aussage über die Wahrscheinlichkeit von Hypothesen möglich Nur im Rahmen der Bayes-Inferenz Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

25 2.4 Gütefunktion und Power eines Tests 1 Einleitung 2 Neyman-Pearson Schule 2.1 Konstellation zwischen den wichtigsten Wissenschaftlern 2.2 Hypothesentest (mit Alternative) 2.3 P-Wert kontra festes α-niveau 2.4 Gütefunktion und Power eines Tests 2.5 Neyman-Pearson Lemma 2.6 Induktives Verhalten versus induktives Schließen 3 Schluss Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

26 2.4 Gütefunktion und Power eines Tests Zusammensetzung einer Gütefunktion g φ (θ) = P(H 0 verwerfen θ) α, falls θ Θ 0 1 g φ (θ) = 1 P(H 0 verwerfen θ) = β, falls θ Θ 1 Testproblem einseitiger Gaußtest: H 0 : µ µ 0 gegen H 1 : µ > µ 0 Gütefunktion g φ (µ) = 1 Φ(z 1 α µ µ 0 σ n) eines einseitigen Gaußtests Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

27 2.4 Gütefunktion und Power eines Tests Eigenschaften einer Gütefunktion Beachte: Ein Test ist besser als ein anderer Test, wenn er im Bereich der Alternative eine größere Power besitzt tatsächlich existierende Effekte werden öfter entdeckt 1 Für Werte aus H 1 heißt die Gütefunktion Power eines Tests. 2 Für Werte aus H 0 ist die Gütefunktion kleiner gleich α. 3 Für wachsendes Stichprobenumfang n wird die Power eines Tests größer, d.h. die Gütefunktion wird steiler.. Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

28 2.4 Gütefunktion und Power eines Tests Gütefunktion bei verschiedenen Stichprobenumfängen Abbildung: Gütefunktion g φ (µ) = 1 Φ(z 1 α µ µ 0 σ n) für verschiedene Stichprobenumfänge n = 10 ( ), n = 20 (- - -) und n = 50 ( ) und konstantem σ Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

29 2.4 Gütefunktion und Power eines Tests Eigenschaften einer Gütefunktion 1 Für Werte aus H 1 heißt die Gütefunktion Power eines Tests. 2 Für Werte aus H 0 ist die Gütefunktion kleiner gleich α. 3 Für wachsenden Stichprobenumfang n wird die Power eines Tests größer, d.h. die Gütefunktion wird steiler. 4 Für wachsendes α wird die Power eines Tests größer.. Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

30 2.4 Gütefunktion und Power eines Tests Gütefunktion bei verschiedenen Signifikanzniveaus Abbildung: Gütefunktion g φ (µ) = 1 Φ(z 1 α µ µ 0 σ n) für verschiedene Signifikanzniveaus α = 0, 01 ( ), α = 0, 05 (- - -) und α = 0, 1 ( ) und konstantem σ Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

31 2.4 Gütefunktion und Power eines Tests Eigenschaften einer Gütefunktion 1 Für Werte aus H 1 heißt die Gütefunktion Power eines Tests. 2 Für Werte aus H 0 ist die Gütefunktion kleiner gleich α. 3 Für wachsenden Stichprobenumfang n wird die Power eines Tests größer, d.h. die Gütefunktion wird steiler. 4 Für wachsendes α wird die Power eines Tests größer. 5 Für eine wachsende Abweichung zwischen Werten aus H 1 und H 0 wird die Power eines Tests größer. Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

32 2.4 Gütefunktion und Power eines Tests Power bei wachsender Abweichung zwischen Werten aus H 1 und H 0 Abbildung: Vergleich α- und β-fehler Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

33 2.5 Neyman-Pearson Lemma 1 Einleitung 2 Neyman-Pearson Schule 2.1 Konstellation zwischen den wichtigsten Wissenschaftlern 2.2 Hypothesentest (mit Alternative) 2.3 P-Wert kontra festes α-niveau 2.4 Gütefunktion und Power eines Tests 2.5 Neyman-Pearson Lemma 2.6 Induktives Verhalten versus induktives Schließen 3 Schluss Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

34 2.5 Neyman-Pearson Lemma Wann ist ein Test optimal? 1 Vergleichbarkeit nur für ein bestimmtes Testproblem 2 Zusätzlich gleiches und festes α-niveau fest vorgegeben Wahrscheinlichkeit des Fehlers 1. Art: d.h. für θ Θ 0 ist P(H 0 verwerfen θ) = α fest 3 Test besitzt gleichzeitig minimalst mögliches β Minimierung des Fehlers 2. Art: d.h. für θ Θ 1 wird 1 P(H 0 verwerfen θ) = β minimiert Test hat größtmögliche Power (1 β) und ist somit optimal im Vergleich zu allen anderen Tests unter den beschriebenen Voraussetzungen. Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

35 2.5 Neyman-Pearson Lemma Der Likelihood-Quotienten-Test (1/2) Betrachtung eines einfachen Testproblems (θ 0 θ 1 ): H 0 : θ = θ 0 gegen H 1 : θ = θ 1 Likelihood-Quotient: Dichte ist für H 0 gleich f 0 (x) und für H 1 gleich f 1 (x) Λ(x) = f 1(x) f 0 (x) Relatives Maß für bzw. gegen die Nullhypothese Für besten Test wähle kritischen Wert k α für Einhaltung des α-niveaus: H 0 ablehnen Λ(x) > k α Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

36 2.5 Neyman-Pearson Lemma Der Likelihood-Quotienten-Test (2/2) Theoretisches Problem: α-niveau wird bei diskreter Wahrscheinlichkeitsverteilung nicht immer ausgeschöpft Notwendigkeit einer Randomisierung Testfunktion im diskreten Fall: 1, falls f 1 (x) > k α f 0 (x) Λ(x) > k α φ (x) = γ α, falls f 1 (x) = k α f 0 (x) Λ(x) = k α 0, falls f 1 (x) < k α f 0 (x) Λ(x) < k α Testfunktion im stetigen Fall: { φ 1, falls f1 (x) > k (x) = α f 0 (x) Λ(x) > k α 0, sonst. Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

37 2.5 Neyman-Pearson Lemma Das Lemma 1 Optimalität: Für jedes k α und γ α hat der Test φ maximale Power unter allen Tests, deren Niveau höchstens gleich dem α-niveau von φ ist. 2 Existenz: Zu vorgegebenem α [0, 1] existieren Konstanten k α und γ α, so dass der LQ-Test φ mit diesem k α und γ α = γ α für alle x exakt das Niveau α besitzt. Es existieren k α und γ α, so dass α-niveau für φ voll ausgeschöpft wird 3 Eindeutigkeit: Falls ein Test φ mit Niveau α maximale Power (= kleinsten Fehler 2. Art) unter allen anderen Tests mit Niveau α besitzt, dann ist φ ein LQ-Test. Optimaler Test ist Likelihood-Quotienten-Test Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

38 2.6 Induktives Verhalten versus induktives Schließen 1 Einleitung 2 Neyman-Pearson Schule 2.1 Konstellation zwischen den wichtigsten Wissenschaftlern 2.2 Hypothesentest (mit Alternative) 2.3 P-Wert kontra festes α-niveau 2.4 Gütefunktion und Power eines Tests 2.5 Neyman-Pearson Lemma 2.6 Induktives Verhalten versus induktives Schließen 3 Schluss Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

39 2.6 Induktives Verhalten versus induktives Schließen Allgemeine Interpretation eines Tests Zentraler Streitpunkt: Unterscheidung zwischen induktivem Verhalten (Neyman-Pearson) und induktivem Schließen (Fisher) Fisher: Erlangen konkreter Erkenntnisse durch signifikante Ergebnisse konkrete Aussagen, wie Alle Schwäne sind weiß! kognitivistische Herangehensweise Neyman-Pearson: Verhaltensempfehlung durch signifikante Ergebnisse Verhalten besteht darin Nullhypothese zu verwerfen oder nicht dezisionistische Herangehensweise Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

40 3 Schluss 3.1 Kritik an der klassischen Testtheorie in der Praxis 1 Einleitung 2 Neyman-Pearson Schule 3 Schluss 3.1 Kritik an der klassischen Testtheorie in der Praxis 3.2 Zusammenfassung Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

41 3 Schluss 3.1 Kritik an der klassischen Testtheorie in der Praxis Häufige Vorgehensweise in der Praxis 1 Benennung einer Null- und einer Alternativhypothese (nach Neyman-Pearson) 2 Berechnung eines exakten p-wertes (nach Fisher); meist automatisiert durch Programme 3 Nachträgliche Kennzeichnung des p-wertes mit Sternen z.b. * bei p < 0, 05, ** bei p < 0, 01 und *** bei p < 0, 001 Problematik: keine Kontrolle des Fehlers 1. Art über α Gefahr: Anpassung des α-niveaus nach der Berechnung des p-werts Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

42 3 Schluss 3.1 Kritik an der klassischen Testtheorie in der Praxis Allgemeine Kritik Verwendung der Nullhypothese als Strohmann Ritualisierte Anwendung von Signifikanztests signifikante Ergebnisse sind notwendig, um beachtet zu werden Stupide Verwendung von Signifikanztests auf Kosten von geeigneteren Methoden 2 2 Siehe hierfür z.b.: Loftus, G. R. (1993). A picture is worth a thousand p values: On the irrelevance of hypothesis testing in the microcomputer age, Behavior Research Methods 25(2): Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

43 3 Schluss 3.2 Zusammenfassung 1 Einleitung 2 Neyman-Pearson Schule 3 Schluss 3.1 Kritik an der klassischen Testtheorie in der Praxis 3.2 Zusammenfassung Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

44 3 Schluss 3.2 Zusammenfassung Die wichtigsten Aspekte im Überblick (1/2) Konflikt zwischen Neyman-Pearson und Fisher hat das heutige Verständnis der Statistik maßgeblich beeinflusst Unterscheidung zwischen Signifikanztest nach Fisher und Hypothesentest nach Neyman-Pearson Benennung einer konkreten Alternativhypothese durch Neyman-Pearson ermöglicht: 1 Bestimmung des β-fehlers 2 Betrachtung einer Gütefunktion 3 Vergleich von Tests über die Power (1 β) 4 Konstruktion eines optimalen Tests über das Neyman-Pearson Lemma Fisher lehnt Benennung einer konkreten Alternativhypothese ab Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

45 3 Schluss 3.2 Zusammenfassung Die wichtigsten Aspekte im Überblick (2/2) Ein optimaler Test hat bei gleichem Testproblem maximale Power im Vergleich zu jedem anderen α-niveau Test Induktives Verhalten (Neyman-Pearson) versus induktives Schließen (Fisher) Fisher: Erlangen konkreter Erkenntnisse durch signifikante Ergebnisse Neyman-Pearson: Verhaltensempfehlung durch signifikante Ergebnisse Heutzutage: inkonsistente Vermischung der Ideen von Fisher und Neyman-Pearson bei der Verwendung von Signifikanztests Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

46 Anhang Empfohlene Literatur und Einstiegsfrage Abschlussdiskussion Empfohlene Literatur Zusätzlich zu den zitierten und genannten Veröffentlichung von Neyman und E. S. Pearson im Vorbereitungsmaterial: 1 Lehmann, E. (1993). The Fisher, Neyman-Pearson theories of testing hypotheses: One theory or two?, Journal of the American Statistical Association 88(424): Saint-Mont, U. (2011). Statistik im Forschungsprozess: Eine Philosophie der Statistik als Baustein einer integrativen Wissenschaftstheorie, Physica-Verlag HD. Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

47 Anhang Einstiegsfrage Abschlussdiskussion Abschlussdiskussion Wie ist eure Vorgehensweise bei der Durchführung eines Signifikanztests? Achtet ihr auf eine Kosten-Nutzen Abwägung nach Neyman-Pearson oder ist für euch grundsätzlich der p-wert von Bedeutung? Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

48 Anhang Neyman-Pearson Lemma Beweis der Optimalität (1/2) Sei φ bester Test und φ beliebiger anderer Test mit gleichem α-niveau. E θ0 [φ (X )] = α ˆ= Wahrscheinlichkeit H 0 zu verwerfen, falls θ Θ 0 E θ1 [φ (X )] = 1 β ˆ= Wahrscheinlichkeit H 0 zu verwerfen, falls θ Θ 1 Für Optimalität von φ gilt es zu zeigen: E θ1 [φ(x )] E θ1 [φ (X )] Betrachte hierfür Hilfsfunktion U(x): U(x) = [φ (x)f 1 (x) φ (x)k α f 0 (x)] [φ(x)f 1 (x) φ(x)k α f 0 (x)] = (φ (x) φ(x))(f 1 (x) k α f 0 (x)) Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

49 Anhang Neyman-Pearson Lemma Beweis der Optimalität (2/2) Da U(x) 0 für alle x, gilt somit: 0 = = U(x) dx (φ (x) φ(x))(f 1(x) k αf 0(x)) dx ( φ (x)f 1(x) dx φ(x)f 1(x) dx + k α φ(x)f 0(x) dx ) φ (x)f 0(x) dx = E θ1 [φ (X )] E θ1 [φ(x )] + k α(e θ0 [φ(x )] E θ0 [φ (X )]) }{{} 0, da E θ0 [φ(x )] E θ0 [φ (X )] E θ1 [φ (X )] E θ1 [φ(x )], d.h. die Power von φ ist größer oder zumindest genauso groß wie die Power von φ. Hinweis: E θ0 [φ (X )] = + φ (x)f 0(x) dx Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

50 Anhang Zentrale Eigenschaften eines Inferenzkonzepts frequentistisch vs. nicht-frequentistisch 1 frequentistisch: Güte einer Schlussfolgerung basiert darauf, wie häufig diese im Durchschnitt zu einer wahren Aussage führt (bei Anwendung auf viele verschiedene Beobachtungen). klassische Inferenz 2 nicht-frequentistisch: Güte einer Schlussfolgerung basiert darauf, wie plausibel diese ist (in Hinblick auf die vorliegende Beobachtung). Bayes-Inferenz Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

51 Anhang Zentrale Eigenschaften eines Inferenzkonzepts kognitivistisch vs. dezisionistisch 1 kognitivistisch: Schlussfolgerung als konkrete Erkenntnis klassische Inferenz und Bayes-Inferenz 2 dezisionistisch: Schlussfolgerung dient dem Treffen von Entscheidungen entscheidungstheoretische Inferenz Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

52 Anhang Zentrale Eigenschaften eines Inferenzkonzepts objektivistisch vs. subjektivistisch 1 objektivistisch: Nur Verwendung von objektiven Informationen aus den Beobachtungen klassische Inferenz 2 subjektivistisch: Zusätzlich subjektive Annahmen wie z.b. das a priori Wissen Bayes-Inferenz Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

53 Anhang Herleitung Konfidenzintervall zweiseitiger Gauß-Test Seien X 1,..., X n ZV mit X i N(µ, σ 2 ) bei E(X i ) = µ, V(X i ) = σ 2 und n 30, wobei σ 2 bekannt ist. Für µ = µ 0 ist: X σ N(µ 0, n ) Z = X µ 0 σ n N(0, 1) Betrachte: H 0 : µ = µ 0 gegen H 1 : µ µ 0 Die Nullhypothese H 0 ist beizubehalten falls: z = x µ 0 z 1 α/2 µ 0 x + z 1 α/2 x µ0 n z 1 α/2 x µ 0 z 1 α/2 σ σ n σ n und x µ 0 z 1 α/2 σ n σ n und µ 0 x z 1 α/2 Daraus lässt sich folgendes (1 α)-konfidenzintervall für µ bestimmen: [ ] σ σ x z 1 α/2, x + z 1 α/2 n n σ n Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54

54 Anhang Herleitung Gütefunktion einseitiger Gaußtest Seien X 1,..., X n ZV mit X i N(µ, σ 2 ) bei E(X i ) = µ, V(X i ) = σ 2 und n 30, wobei σ 2 bekannt ist. Für µ = µ 0 ist: X σ N(µ 0, n ) Z = X µ 0 σ n N(0, 1) Betrachte: H 0 : µ µ 0 gegen H 1 : µ > µ 0 ( ) X µ0 g φ (µ) = P(H 0 verwerfen µ) = P n > z1 α µ σ ( ) X µ0 + µ µ = P n > z1 α µ σ ( ) X µ µ µ 0 = P n + n > z1 α µ σ σ ( X µ = P n > z1 α µ ) µ0 n µ = 1 Φ(z 1 α µ µ0 n) σ σ σ Da mit µ als wahren Parameter X µ σ n N(0, 1) gilt. Graphische Darstellung der Gütefunktion ist nur in Abhängigkeit von α und n und als Funktion von µ möglich. Neyman-Pearson Schule Institut für Statistik, LMU München 11. März / 54