Statistische Tests Übersicht

Statistische Tests Übersicht Diskrete Stetige 1. Einführung und Übersicht 2. Das Einstichprobenproblem 3. Vergleich zweier unabhängiger Gruppen (unverbundene Stichproben) 4. Vergleich zweier abhängiger Gruppen (verbundene Stichproben) 5. Vergleich mehrerer unabhängiger Gruppen (einfache analyse) 6. Vergleich mehrerer abhängiger Gruppen (einfaches Blockexperiment) 7. Weitere analysemodelle 8. Anpassungstests 9. Nichtparametrische Tests 275 / 330

Statistische Tests Einführung und Übersicht Diskrete Stetige Sei X ein Merkmal (eine Zufallsvariable), F X (x) = P(X x) = P θ (X x) = F X,θ (x) θ: Parametervektor Beispiel: θ = (µ, σ 2 ) µ: von X σ 2 : von X X 1, X 2,..., X n Beobachtungen von X µ 1 n n i=1 X i = X σ 2 1 n n 1 i=1 (X i X) 2 = s 2 D.h. die unbekannten Parameter werden geschätzt. 276 / 330

Statistische Tests: Einführung Diskrete Stetige Problem Schätzungen können sehr schlecht ausfallen! I.a. vertritt der Fachexperte gewisse Hypothesen bzgl. der (unbekannten) Parameterwerte! Diese Hypothesen werden verworfen, wenn die erhaltenen Schätzwerte (z.b. X, s 2 ) mit ihnen nicht in Einklang stehen. 277 / 330

Statistische Tests: Einführung Eine verwandte Problemstellung Diskrete Stetige Elektronischer Großhandel: TV-Geräte Händler sagt: Ausschußquote p 1% (p = 0.01) Käufer wäre einverstanden, prüft aber N Geräte! Davon: N f fehlerhaft, N f - Teststatistik N f N Zwei Fehler möglich 100% 1% Ablehnung a) Zufällig N f zu groß! p < 0.01 Käufer lehnt ab b) Zufällig N f zu klein! p groß, p 0.01 Käufer kauft 278 / 330

Statistische Tests: Einführung Risiken - Fehler Risiko des Händlers Käufer lehnt gute Ware ab (weil N f zufällig zu groß) Diskrete Stetige 279 / 330

Statistische Tests: Einführung Risiken - Fehler Diskrete Stetige Risiko des Händlers Käufer lehnt gute Ware ab (weil N f zufällig zu groß) Risiko des Käufers Käufer kauft schlechte Ware (weil N f zufällig zu klein) 279 / 330

Statistische Tests: Einführung Risiken - Fehler Diskrete Stetige Risiko des Händlers Käufer lehnt gute Ware ab (weil N f zufällig zu groß) Risiko des Käufers Käufer kauft schlechte Ware (weil N f zufällig zu klein) Risiken sollen quantifiziert werden: a) P( Nicht kaufen p 1%) b) P( Kaufen p > 1%) Beide Risiken nicht gleichzeitig zu minimieren. 279 / 330

Statistische Tests: Einführung Risiken - Fehler Diskrete Stetige Risiko des Händlers Käufer lehnt gute Ware ab (weil N f zufällig zu groß) Risiko des Käufers Käufer kauft schlechte Ware (weil N f zufällig zu klein) Risiken sollen quantifiziert werden: a) P( Nicht kaufen p 1%) b) P( Kaufen p > 1%) Beide Risiken nicht gleichzeitig zu minimieren. Lösung: P( Nicht kaufen p 1%) = α vorgeben P( Kaufen p > 1%) minimieren (oder es versuchen) 279 / 330

Hypothesentest Beispiel: Einstichproben-Lagetest Diskrete Stetige Sei µ ein Lageparameter, z.b. der. Sei µ 0 ein vorgegebener Wert. Nullhypothese und Alternativhypothese a) H 0 : µ µ 0 H A : µ > µ 0 b) H 0 : µ µ 0 H A : µ < µ 0 c) H 0 : µ = µ 0 H A : µ µ 0 280 / 330

Hypothesentest Beispiel: Einstichproben-Lagetest Diskrete Stetige Sei µ ein Lageparameter, z.b. der. Sei µ 0 ein vorgegebener Wert. Nullhypothese und Alternativhypothese a) H 0 : µ µ 0 H A : µ > µ 0 b) H 0 : µ µ 0 H A : µ < µ 0 c) H 0 : µ = µ 0 H A : µ µ 0 Teststatistik T(X 1,..., X n ) = X µ 0 s T heißt auch Testgröße, Prüfgröße, Stichprobenfunktion. n 280 / 330

Hypothesentest Allgemein Diskrete Stetige Die Entscheidung für H A oder für H 0 wird anhand einer Teststatistik T = T(x 1,..., x n ) gefällt. Liegt der Wert von T in einem vorher bestimmten Bereich K, dem sogen. Ablehnungsbereich oder kritischen Bereich, dann wird H 0 abgelehnt, anderenfalls wird H 0 nicht abgelehnt. T K H 0 ablehnen, Entscheidung für H A T K H 0 nicht ablehnen, Entscheidung für H 0. 281 / 330

Hypothesentest Annahme- und Ablehnungsbereich Diskrete Stetige a) H 0 : µ µ 0 H A : µ > µ 0 große Werte von T sprechen für H A. Annahmebereich Krit.Bereich... t krit b) H 0 µ µ 0 H A : µ < µ 0 kleine Werte von T sprechen für H A. Krit.B. Annahmebereich... t krit c) H 0 : µ = µ 0 H A : µ µ 0 große Werte von T sprechen für H A. Annahmebereich.... t krit t krit 282 / 330

Hypothesentest Fehler 1. Art, Fehler 2. Art Fehler 1.Art Entscheidung für H A obwohl H 0 richtig ist. Diskrete Stetige 283 / 330

Hypothesentest Fehler 1. Art, Fehler 2. Art Fehler 1.Art Entscheidung für H A obwohl H 0 richtig ist. Fehler 2.Art Entscheidung für H 0 obwohl H A richtig ist Diskrete Stetige 283 / 330

Hypothesentest Fehler 1. Art, Fehler 2. Art Diskrete Stetige Fehler 1.Art Entscheidung für H A obwohl H 0 richtig ist. Fehler 2.Art Entscheidung für H 0 obwohl H A richtig ist Entscheidung Entscheidung für H 0 für H A H 0 richtig richtig, Sicher- Fehler 1. Art heitswkt. 1 α Fehlerwkt. α. H A richtig Fehler 2.Art richtig, Fehlerwkt. 1-β Güte β 283 / 330

Hypothesentest Fehler 1. Art, Fehler 2. Art Diskrete Stetige Fehler 1.Art Entscheidung für H A obwohl H 0 richtig ist. Fehler 2.Art Entscheidung für H 0 obwohl H A richtig ist Entscheidung Entscheidung für H 0 für H A H 0 richtig richtig, Sicher- Fehler 1. Art heitswkt. 1 α Fehlerwkt. α. H A richtig Fehler 2.Art richtig, Fehlerwkt. 1-β Güte β Entscheidung für H 0 heißt nicht notwendig, dass H 0 richtig ist. 283 / 330

Hypothesentest Fehler 1. Art, Fehler 2. Art Diskrete Stetige α und (1 β) können nicht gleichzeitig minimiert werden. Man gibt α vor (z.b. α = 0.05), d.h. man behält α unter Kontrolle und versucht die Teststatistik so zu definieren, daß β maximal wird. β (und manchmal auch α) hängen von wahren (i.a. unbekannten) Parametern ab. Signifikanzniveau α = sup θ Θ0 β(θ). Θ 0 : Nullhypothesenraum, also z.b. die Menge {µ : µ µ 0 } oder {µ : µ = µ 0 }. 284 / 330

Gütefunktion Diskrete Stetige Gütefunktion β = β(θ) = β(µ) = P µ (T K) K heißt Ablehnungsbereich oder Kritischer Bereich. Beispiel: t-test β(µ) = P(T K) K: kritischer Bereich = P(T > t 1 α,n 1 µ, σ 2 ) = 1 CDF( T, t 1 α,n 1, n 1, nc) nc = n µ µ 0 : Nichtzentralitätsparameter σ t 1 α,n 1 : kritischer Wert K = [t 1 α,n 1, ): kritischer Bereich. 286 / 330

Gütefunktion Einseitiger Test Diskrete Stetige 288 / 330

Gütefunktion Einseitiger Test Zweiseitiger Test Diskrete Stetige 288 / 330

Gütefunktion Diskrete Stetige Einseitiger Test Test_Guete_t.sas Zweiseitiger Test Test_Guete_t2.sas 288 / 330

Gütefunktion Diskrete Stetige Ideal: Unter H 0 : Güte 0 (d.h. Fehler 1. Art =0) Unter H A : Güte 1 (d.h. Fehler 2. Art =0) Das ist aber nicht möglich! Ziel: Test mit möglichst großer Gütefunktion (unter H A ). Wir schlagen natürlich nur solche sinnvollen Tests vor. 289 / 330

Lagetests (bei Normalverteilungsannahme) Einstichprobenproblem H 0 : µ µ 0 H A : µ > µ 0 H 0 : µ µ 0 H A : µ < µ 0 H 0 : µ = µ 0 H A : µ µ 0 Diskrete Stetige 290 / 330

Lagetests (bei Normalverteilungsannahme) Einstichprobenproblem H 0 : µ µ 0 H A : µ > µ 0 H 0 : µ µ 0 H A : µ < µ 0 H 0 : µ = µ 0 H A : µ µ 0 Einstichproben t-test PROC UNIVARIATE PROC TTEST Diskrete Stetige 290 / 330

Lagetests (bei Normalverteilungsannahme) Diskrete Stetige Einstichprobenproblem H 0 : µ µ 0 H A : µ > µ 0 H 0 : µ µ 0 H A : µ < µ 0 H 0 : µ = µ 0 H A : µ µ 0 Zweistichprobenproblem H 0 : µ 1 µ 2 H A : µ 1 > µ 2 H 0 : µ 1 µ 2 H A : µ 1 < µ 2 H 0 : µ 1 = µ 2 H A : µ 1 µ 2 Einstichproben t-test PROC UNIVARIATE PROC TTEST 290 / 330

Lagetests (bei Normalverteilungsannahme) Diskrete Stetige Einstichprobenproblem H 0 : µ µ 0 H A : µ > µ 0 H 0 : µ µ 0 H A : µ < µ 0 H 0 : µ = µ 0 H A : µ µ 0 Zweistichprobenproblem H 0 : µ 1 µ 2 H A : µ 1 > µ 2 H 0 : µ 1 µ 2 H A : µ 1 < µ 2 H 0 : µ 1 = µ 2 H A : µ 1 µ 2 Einstichproben t-test PROC UNIVARIATE PROC TTEST Einstichproben t-test (verbundene Stichproben) t-test (unverbundene Stichproben) PROC UNIVARIATE PROC TTEST 290 / 330

Lage- und Skalentests (bei Normalverteilungsannahme) c-stichprobenproblem H 0 : µ 1 =... = µ c H A : (i, j) : µ i µ j einfache analyse PROC ANOVA, PROC GLM Andere Alternativen sind: µ 1... µ c µ 1... µ c Diskrete Stetige 291 / 330

Lage- und Skalentests (bei Normalverteilungsannahme) Diskrete Stetige c-stichprobenproblem H 0 : µ 1 =... = µ c H A : (i, j) : µ i µ j einfache analyse PROC ANOVA, PROC GLM Andere Alternativen sind: µ 1... µ c µ 1... µ c Skalentest Zwei unverbundene Stichproben H 0 : σ 2 1 = σ 2 2 H A : σ 2 1 σ 2 2 PROC TTEST (bei Normalverteilung) 291 / 330

p-werte Diskrete Stetige bisher: H 0 abgelehnt oder H 0 beibehalten wenig informativ. Wir könnten uns auch bei jedem α fragen, ob H 0 abgelehnt wird oder nicht. Wenn der Test bei Signifikanzniveau α ablehnt, wird er das auch für α > α tun. Es gibt also ein kleinstes α, bei dem der Test H 0 ablehnt. Der p-wert ist das kleinste α, bei dem wir H 0 ablehnen können. Test_t_p_value 293 / 330

p-wert T: (zufällige) Teststatistik, t: beobachtete Teststatistik Diskrete Stetige Zweiseitige Alternative: µ µ 0 p-wert = P 0 ( T > t ) Einseitige Alternative: µ < µ 0 p-wert = P 0 (T < t) Einseitige Alternative: µ > µ 0 p-wert = P 0 (T > t) Der p-wert heißt auch Überschreitungswahrscheinlichkeit. 294 / 330

p-wert Illustration Einseitiger Test Diskrete Stetige 295 / 330

p-wert Illustration Einseitiger Test Zweiseitiger Test Diskrete Stetige 295 / 330

p-wert Illustration Einseitiger Test Zweiseitiger Test Diskrete Stetige Fäche unter der Dichte rechts der schwarzen Linie: 0.05 0.025 Fäche unter der Dichte rechts der roten Linie: p-wert halber p-wert links entsprechend. 295 / 330

Bewertung von p-werten Der p-wert ist also, grob, ein Maß für den Grad dafür, dass die Nullhypothese nicht zutrifft. (vorsichtige) Interpretation p-wert Grad des Nicht-Zutreffens von H 0 < 0.01 sehr streng gegen H 0 0.01... 0.05 streng gegen H 0 0.05... 0.1 schwach gegen H 0 > 0.1 wenig oder gar nichts gegen H 0 Diskrete Stetige 296 / 330

Bewertung von p-werten Diskrete Stetige Der p-wert ist also, grob, ein Maß für den Grad dafür, dass die Nullhypothese nicht zutrifft. (vorsichtige) Interpretation p-wert Grad des Nicht-Zutreffens von H 0 < 0.01 sehr streng gegen H 0 0.01... 0.05 streng gegen H 0 0.05... 0.1 schwach gegen H 0 > 0.1 wenig oder gar nichts gegen H 0 Warnung: Ein großer p-wert heisst noch lange nicht, dass H 0 zutrifft. H 0 kann zutreffen, Der große p-wert kann aber auch daran liegen, dass der Test niedrige Güte hat! 296 / 330

p-wert und kritischer Wert Diskrete Stetige Einseitiger Test, t krit = t 1 α t t krit p-wert α = H 0 angenommen, t > t krit p-wert < α = H 0 abgelehnt. Zweiseitiger Test, t krit = t 1 α/2 t t krit p-wert α = H 0 angenommen, t > t krit p-wert < α = H 0 abgelehnt. Ausgabe bei SAS Wenn nicht anders vermerkt: zweiseitige p-werte. 297 / 330