Testen von Hypothesen

Elke Warmuth Humboldt-Universität zu Berlin Sommersemster 2010 1 / 46

2 / 46

1 Testen von Hypothesen 3 / 46

Signifikant, signifikant, signifikant,... 4 / 46

Signifikant, signifikant, signifikant,... 5 / 46

Wikipedia, die freie Enzyklopädie: Statistische Signifikanz: In der Statistik heißen Unterschiede oder Zusammenhänge signifikant, wenn die Wahrscheinlichkeit gering ist, dass sie durch Zufall zustande gekommen sind. 6 / 46

Signifikant auf dem Niveau α Es sei 0 < α < 1. Im Rahmen eines Modells mit der Wahrscheinlichkeitsverteilung P ist eine Abweichung k einer Zufallsgröße X von ihrem Erwartungswert E(X ) eine signifikante Abweichung auf dem Signifikanzniveau α, wenn gilt P( X E(X ) k) α Signifikant an sich gibt es nicht! Standardwerte für Signifikanzniveaus: 0, 05; 0, 02; 0, 01 Je nach Problemstellung: Abweichung nach oben, Abweichung nach unten, Abweichung dem Betrage nach 7 / 46

erste Kernidee: signifikant bezieht sich auf eine Abweichung im Rahmen eines Modells. erster Schritt: Verständnis für Größenordnungen von Abweichungen bei zufälligen Vorgängen zweiter Schritt: kσ-bereiche letzter Schritt: Signifikanztest 8 / 46

Zufällige Schwankungen erfassen Voraussetzung für Testverständnis Erfahrungen sammeln, z.b. durch Simulation Schwankungen in Modellen untersuchen Größenordnungen von Wahrscheinlichkeiten schätzen 9 / 46

Der Anteil der A-Wähler in einer großen Wählerpopulation sei 0,3. Wie viele A-Wähler erwarten Sie a) in einer zufälligen Stichprobe vom Umfang 30 aus dieser Population, b) in einer zufälligen Stichprobe vom Umfang 300 aus dieser Population? Geben Sie jeweils ein möglichst kleines symmetrisches Intervall um den Erwartungswert an, das mindestens 95% Sicherheit besitzt. 10 / 46

Modellierung zu a): X Anzahl der A-Wähler in der Stichprobe Modell: X B(30; 0, 3), E(X ) = 9, Var(X ) = 6, 3, σ X 2, 5 P(4 X 14) 0, 97 Länge 10 und σ X E(X ) 28% 11 / 46

Im Rahmen des Modells B(30; 0, 3) gilt 1 P(4 X 14) = 1 P( X E(X ) 5) = P( X E(X ) 6) 0, 03 6 ist eine signifikante Abweichung vom Erwartungswert auf dem Signifikanzniveau 0,03. 12 / 46

Modellierung zu b): Y Anzahl der A-Wähler in der Stichprobe Modell: Y B(300; 0, 3), E(Y ) = 90, Var(Y ) = 63, σ X 8 P(74 Y 106) 0, 96 Länge 32 und σ Y E(Y ) 18% 13 / 46

Im Rahmen des Modells B(300; 0, 3) gilt 1 P(74 Y 106) = 1 P( X E(X ) 16) = P( X E(X ) 17) 0, 04 17 ist eine signifikante Abweichung vom Erwartungswert auf dem Signifikanzniveau 0,04. 14 / 46

Insbesondere bei kleinen Stichproben neigt man dazu, die Schwankungen zu unterschätzen. Die Standardabweichung np(1 p) wächst mit wachsendem n, aber der Quotient geht gegen 0. σ X E(X ) 15 / 46

Wahrscheinlichkeiten schätzen Stelle durch eine Überschlagsrechnung fest, welche der vorgeschlagenen Antworten zu den folgenden Fragen am besten paßt. Eine faire Münze wird 10-mal (100-mal bzw. 1000-mal) geworfen. Die Wahrscheinlichkeit, daß genau die Hälfte Köpfe sind, ist ungefähr 25%, 10%, 5% oder 1%? Quelle: H. Dinges, H. Rost: Prinzipien der Stochastik. Stuttgart: Teubner, 1982 Schätzen eine wichtige, aber im Mathematikunterricht oft vernachlässigte Fähigkeit Aufgabenformat herausfordernd, ähnlich Känguru-Aufgaben Es muss nicht immer ein Anwendungskontext sein. 16 / 46

A n Ereignis Genau n 2 Wappen bei n Würfen, p n = P(A n ). Die Wahrscheinlichkeiten p n fallen mit wachsender Anzahl der Würfe gegen 0. n = 10: Bei Gleichverteilung hätte jede Anzahl die Wahrscheinlichkeit 1 11. Die Binomialverteilung B(10; 0, 5) hat bei 5 ein deutliches Maximum, folglich P(A 10 ) 0, 25. n = 100: Das 1 σ-intervall [45; 55] hat rund 68% Wahrscheinlichkeit. Das sind durchschnittlich mehr als 6% pro Wert. Also hat der wahrscheinlichste Wert rund 10% Wahrscheinlichkeit. 17 / 46

n = 1000: Es ist σ = 250 16. Das 1 σ-intervall [234; 266] hat rund 68% Wahrscheinlichkeit. Das sind durchschnittlich mehr als 2% pro Wert. Also passt 5% oder 1% Wahrscheinlichkeit. Stirlingsche Formel liefert P(S 2n = n) 1 π n S 2n Anzahl der Erfolge in einer Bernoulli-Kette der Länge 2n mit Erfolgswahrscheinlichkeit 0,5 P(S 1000 = 500) 1 π 500 0, 025 18 / 46

zweite Kernidee: Verbindung von Modellebene und Sachebene durch Interpretationen von Wahrscheinlichkeit A. N. Kolmogorow in 2 Das Verhältnis zur Erfahrungswelt: Den Ereignissen A werden Wahrscheinlichkeiten P(A) zugeordnet mit folgenden Eigenschaften: I. Man kann praktisch sicher sein, dass bei einer großen Anzahl von Wiederholungen des Vorgangs die relative Häufigkeit von A sich nur wenig von P(A) unterscheiden wird. II. Wenn P(A) sehr klein ist, dann kann man praktisch sicher sein, dass A bei einmaliger Beobachtung des Vorgangs nicht eintreten wird. 19 / 46

I. nennt man Empirisches Gesetz der großen Zahlen: Viele reale Erscheinungen weisen statistische Regelmäßigkeit auf, Erfahrungstatsache nicht beweisbar II. ist Hintergrund für statistische Schlüsse: Es ist etwas eingetreten, das im zugrunde liegenden Modell (unter der zugrunde liegenden Hypothese) eine sehr kleine Wahrscheinlichkeit hat. Daran glaube ich nicht, also verwerfe ich das Modell (die Hypothese). 20 / 46

H: p = 0, 5, A: p 0, 5 dritte Kernidee: Hypothese und Alternative beschreiben konkurrierende Modelle (plausible) Testgröße: Anzahl X der Erfolge bei 20 Versuchen. Unter H (im Modell H) gilt E(X ) = 20 0, 5 = 10 Gegen H und für A sprechen große Abweichungen der beobachteten Erfolgsanzahl von 10. Wie viele? 21 / 46

Unter H sind Abweichungen vom Erwartungswert von 5 oder mehr sehr unwahrscheinlich (Wahrscheinlichkeit 0,04) 22 / 46

Brücke zur Erfahrungswelt (Kolmogorow): Wenn P(A) in einem Modell sehr klein ist, dann kann man praktisch sicher sein, dass A bei einmaliger Beobachtung des Vorgangs nicht eintreten wird. Entscheidungsregel: Wenn X 10 5 beobachtet wird, lehne H ab. Wenn X 10 < 5 beobachtet wird, behalte H bei. K = { X 10 5} heißt kritischer Bereich oder Verwerfungsbereich des Tests. Eigenschaft dieser Entscheidungsregel: Ist H das richtige Modell, dann lehnen wir die Hypothese H mit einer Wahrscheinlichkeit von 0,04 fälschlicherweise ab. Fehler 1. Art 23 / 46

Signifikanztest Ein Signifikanztest zum Signifikanzniveau α, 0 < α < 1, ist eine Entscheidungsregel, bei der die Wahrscheinlichkeit des Fehlers 1. Art höchstens α beträgt. K{ X 10 5} beschreibt einen Signifikanztest zum Signifikanzniveau α 0, 04, denn bei p = 0, 5 (unter H) gilt P( X 10 5) = 0, 04 α. Testen heißt also zunächst: eine Testgröße auf signifikante Abweichungen im Rahmen des durch H gegebenen Modells zu untersuchen. Das Signifikanzniveau wird vorher benannt. Der kritische Bereich richtet sich nach der Alternative A. 24 / 46

In der Statistik heißen Unterschiede oder Zusammenhänge signifikant, wenn die Wahrscheinlichkeit gering ist, dass sie durch Zufall zustande gekommen sind. Im Modell B(20; 0, 5) ist die Wahrscheinlichkeit, dass durch Zufall mehr als 14 oder weniger als 6 Erfolge eintreten, sehr gering (0,04). Diese Abweichung vom Erwartungswert (um mindestens 5) ist auch signifikant auf dem Signifikanzniveau 0,05, weil 0, 04 < 0, 05 ist. 25 / 46

K = { X 10 5} beschreibt keinen Signifikanztest zum Signifikanzniveau α = 0, 01. Für einen solchen Test müsste die Abweichung vom Erwartungswert größer sein. Testen heißt auch: Die Konsequenzen der Entscheidung untersuchen. Fehler 2.Art: H fälschlicherweise beibehalten. Das heißt, ein Modell mit p 0, 5 ist richtig, aber zufällig ist die beobachtete Abweichung kleiner als 5. 26 / 46

Was ist, wenn z.b. p = 0, 7 das richtige Modell ist? Unter A mit p = 0, 7 gilt X B(20; 0, 7). P( X 10 5) = 0, 42 und P( X 10 < 5) = 0, 58. 27 / 46

Wenn p = 0, 7 gilt, dann entscheiden wir uns mit Wahrscheinlichkeit 0,42 richtig und begehen mit Wahrscheinlichkeit 0,58 einen Fehler, indem wir H beibehalten. Fehler 2. Art: H beibehalten, obwohl A richtig. Wahrscheinlichkeiten für Fehler 1. und 2. Art verhalten sich gegenläufig. Man kann nicht beide gleichzeitig kontrollieren. Fehler 1. Art einhalten und Fehler 2. Art dann minimieren. 28 / 46

29 / 46

Konsequenzen der Entscheidungsregel auf einen Blick β(p) = P (p) (K) Ablehnungswahrscheinlichkeit von H in Abhängigkeit von der Erfolgswahrscheinlichkeit p. Das ist keine bedingte Wahrscheinlichkeit. Funktionale Betrachtung. α = 0, 04 n = 20 : K = { X 10 5} β(p) = P (p) ( X 10 5) n = 100 : K = { X 10 11} β(p) = P (p) ( X 10 11) 30 / 46

31 / 46

Zusammenfassung zum Testen von Hypothesen Aufgabe der beurteilenden Statistik Wahrscheinlichkeitstheorie stellt Modelle für reale Vorgänge bereit Gesucht sind Entscheidungen über Modellparameter (z. B. p in B(n, p)), Unabhängigkeit, Modelltyp (z. B. N(µ, σ 2 )),... Hypothesen beschreiben konkurrierende Modelle Entscheidung für oder gegen ein Modell auf der Grundlage zufallsabhängiger Daten Fehler prinizipiell nicht ausgeschlossen 32 / 46

Ablehnungsbereich abhängig von Alternative, Problem: geeignete Testgröße Es gibt kein wahr oder falsch, keine sicheren Aussagen Ablehnung von H bedeutet nicht, dass H falsch ist Beibehalten von H bedeutet nicht, dass H richtig ist. Asymmetrie von H und A H beschreibt oft den gesicherten, konservativen Standpunkt, das etablierte Modell A beschreibt z.b. die Forschungshypothese P(H ist falsch) hat in unserer Sicht keinen Sinn. 33 / 46

Was bedeutet es, wenn eine Hypothese H auf dem Signifikanzniveau α abgelehnt wird? Die Testgröße ist in einen Bereich gefallen, dessen Wahrscheinlichkeit unter H höchstens α beträgt. Das durch H gegebene Modell bietet keine gute Erklärung für das beobachtete Ereignis. Es bedeutet nicht P(H ist falsch) α. 34 / 46

Was bedeutet es, wenn eine Hypothese H auf dem Signifikanzniveau α beibehalten wird? Die beobachteten Daten sind mit dem durch H gegebenen Modell verträglich, sie bieten keinen hinreichenden Anlass, H zu verwerfen. Es bedeutet nicht P(H ist richtig) 1 α. Wenn man H möglichst selten ablehnen will, wähle man ein sehr kleines α. Wenn man signifikante Ergebnisse melden will, wähle man ein großes α. Das beobachtete Signifikanzniveau: Die unter H berechnete Wahrscheinlichkeit für ein mindestens so extremes Ergebnis wie das beobachtete. 35 / 46

Unter 1728 Personen, die in verschiedenen Krankenhäusern wegen eines Magengeschwürs behandelt wurden, hatten 679 Blutgruppe 0; in der betreffenden Bevölkerungsgruppe ist Blutgruppe 0 mit einem Anteil von 36,5% vertreten. Ist die Abweichung signifikant? Quelle: Heinz Klaus Strick. Einführung in die Beurteilende Statistik. Braunschweig: Schroedel, 2008, S. 88. signifikant dem Niveau α = 0, 05 Modellbildung: Sei p die Wahrscheinlichkeit, dass ein zufällig ausgewählter Erkrankter die Blutgruppe 0 hat. Sei X die Anzahl der Menschen mit Blutgruppe 0 unter n Erkrankten. Annahme: X B(n, p) 36 / 46

Unter 1728 Personen, die in verschiedenen Krankenhäusern wegen eines Magengeschwürs behandelt wurden, hatten 679 Blutgruppe 0; in der betreffenden Bevölkerungsgruppe ist Blutgruppe 0 mit einem Anteil von 36,5% vertreten. Beobachtet: h n (0) = 0, 393. Ist die Abweichung signifikant? Hypothesen sind vor der Stichprobenentnahme zu formulieren. H: p = 0, 365 gegen A: p 0, 365. Unter H: X B(1728, p), E(X ) = 1728 0, 365 631, Var(X ) = 1728 0, 365 0, 635 20 Was spricht gegen H und für A? Große Abweichungen vom unter H erwarteten Wert! Also K = { X 631 k} 37 / 46

Signifikanzniveau legt 2σ-Intervall nahe: unter H: [631 40; 631 + 40] = [591; 671] wegen α = 0, 05 wählen wir K = {X 591 oder X 671} beobachteter Wert 679 liegt im Ablehnungsbereich von H, also lehnen wir H auf dem Signifikanzniveau 0,05 ab. Es liegt bei diesem Niveau eine signifikante Abweichung vor. Sie wäre nicht signifikant bei α = 0, 01. Warum? Beobachtetes Signifikanzniveau: Abweichung 679 631 = 48. Wie groß ist unter H eine solche oder noch größere Abweichung: P( X 631 48) 0, 02 Die beobachtete Abweichung wäre signifikant auf jedem Signifikanzniveau α 0, 02. 38 / 46

Klassenarbeit im Multiple-Choice-Format 20 Fragen, je drei Antworten, genau eine richtig Ab wie vielen richtigen Antworten soll man eine 4 bekommen? Simulationen: Wir würfeln die Antworten. Auswertung der Simulationen Was müsste bei einem, der nicht nur rät, anders sein als bei einem Rater? Wann würde ich das Modell p = 1 3 verwerfen? Vorschläge? X Anzahl der Erfolge (richtigen Antworten) Annahmen: unabhängige Fragen konstante Erfolgswahrscheinlichkeit p 39 / 46

Modellverteilung B(20, 1 3 ) und Häufigkeitsverteilungen bei 30 Simulationen. 40 / 46

Modellverteilung B(20, 1 3 ) und Häufigkeitsverteilungen bei 30 Simulationen. 41 / 46

Testszenarium 1: H: p = 1 3 gegen A: p > 1 3 Standpunkt: Der Schüler muss mich überzeugen, dass er nicht nur rät, also K = {X k}, k noch zu bestimmen Fehler 1. Art: H ablehnen, obwohl richtig, d.h. Lehrer gibt 4, obwohl Schüler nur rät. Das will dieser Lehrer natürlich möglichst selten tun, deshalb P ( 1 )(X k) α 3 Fixieren α = 0, 05. Es folgt k = 11, d.h. mindestens 11 richtige Antworten für Note 4. P ( 1 )(X 11) 0, 04 3 42 / 46

Fehler 2. Art: H beibehalten, obwohl falsch, d.h. Lehrer gibt 5, obwohl Schüler etwas weiß. : β(p) = P (p) (X 11) = 1 P (p) (X 10) β(0, 6) = 0, 76, Wahrscheinlichkeit für Fehler 2. Art bei Erfolgswahrscheinlichkeit p = 0, 6 beträgt also 0,24. 43 / 46

Testszenarium 2: H: p > 1 3 gegen A: p 1 3 Standpunkt: Der Schüler muss mich überzeugen, dass er nichts weiß, also K = {X k}, k noch zu bestimmen. Fehler 1. Art: H ablehnen, obwohl richtig, d.h. Lehrer gibt 5, obwohl Schüler etwas weiß. Das will dieser Lehrer natürlich möglichst selten tun, deshalb P (p) (X k) α für alle p > 1 3 44 / 46

Hypothese und Alternative zusammengesetzt Es reicht, die Signifikanzbedingung für p = 1 3 zu erfüllen. Fixieren α = 0, 06. Es folgt k = 3, d.h. mindestens 4 richtige Antworten für Note 4. 45 / 46

: β(p) = P (p) (X 3) β(0, 2) = 0, 41, Wahrscheinlichkeit für Fehler 2. Art bei Erfolgswahrscheinlichkeit p = 0, 2 beträgt also 0,59. Vorsicht mit Multiple-Choice-Tests. 46 / 46