1 1. Einleitung Dateneingabe und Transformation Wahrscheinlichkeitsrechnung Beschreibende Statistik Statistische Tests

Transkript

1 1 1. Einleitung 2 2. Dateneingabe und Transformation 3 3. Wahrscheinlichkeitsrechnung 4 4. Beschreibende Statistik 5 5. Statistische Tests 6 6. Multivariate Verfahren W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 271 / 566

2 Statistische Tests: Einführung und Übersicht Einstichprobenproblem Vergleich zweier abhängiger Gruppen Vergleich zweier unabhängiger Gruppen Vergleich von k unabhängigen Gruppen Vergleich k verbundener Stichproben Weitere Varianzanalyse-Modelle Anpassungstests Nichtparametrische Tests W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 272 / 566

3 5. Statistische Tests 5.1 Einführung und Übersicht Tests Einführung Sei X ein Merkmal (eine Zufallsvariable), F X (x) = P(X x) = P θ (X x) = F X,θ (x) θ: Parametervektor Beispiel: θ = (µ, σ 2 ) µ: Erwartungswert von X σ 2 : Varianz von X X 1, X 2,..., X n Beobachtungen von X µ 1 n n i=1 X i = X σ 2 1 n n 1 i=1 (X i X) 2 = s 2 D.h. die unbekannten Parameter werden geschätzt. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 273 / 566

4 Einführung Statistische Tests: Einführung Problem Schätzungen können sehr schlecht ausfallen! I.a. vertritt der Fachexperte gewisse Hypothesen bzgl. der (unbekannten) Parameterwerte! Diese Hypothesen werden verworfen, wenn die erhaltenen Schätzwerte (z.b. X, s 2 ) mit ihnen nicht in Einklang stehen. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 274 / 566

5 Einführung Statistische Tests: Einführung Eine verwandte Problemstellung Elektronischer Großhandel: TV-Geräte Händler sagt: Ausschußquote p 1% (p = 0.01) Käufer wäre einverstanden, prüft aber N Geräte! Davon: N f fehlerhaft, N f - Teststatistik N f N 100% 1% Ablehnung Zwei Fehler möglich a) Zufällig N f zu groß! p < 0.01 Käufer lehnt ab b) Zufällig N f zu klein! p groß, p 0.01 Käufer kauft W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 275 / 566

6 Einführung Statistische Tests: Einführung Risiken - Fehler Risiko des Händlers Käufer lehnt gute Ware ab (weil N f zufällig zu groß) Risiko des Käufers Käufer kauft schlechte Ware (weil N f zufällig zu klein) Risiken sollen quantifiziert werden: a) P( Nicht kaufen p 1%) b) P( Kaufen p > 1%) Beide Risiken nicht gleichzeitig zu minimieren. Lösung: P( Nicht kaufen p 1%) = α vorgeben P( Kaufen p > 1%) minimieren (oder es versuchen) W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 276 / 566

7 Hypothesentest Beispiel: Einstichproben-Lagetest Tests Einführung Sei µ ein Lageparameter, z.b. der Erwartungswert. Sei µ 0 ein vorgegebener Wert. Nullhypothese und Alternativhypothese a) H 0 : µ µ 0 H A : µ > µ 0 b) H 0 : µ µ 0 H A : µ < µ 0 c) H 0 : µ = µ 0 H A : µ µ 0 Teststatistik T(X 1,..., X n ) = X µ 0 s n T heißt auch Testgröße, Prüfgröße, Stichprobenfunktion. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 277 / 566

8 Hypothesentest Allgemein Tests Einführung Die Entscheidung für H A oder für H 0 wird anhand einer Teststatistik T = T(x 1,..., x n ) gefällt. Liegt der Wert von T in einem vorher bestimmten Bereich K, dem sogen. Ablehnungsbereich oder kritischen Bereich, dann wird H 0 abgelehnt, anderenfalls wird H 0 nicht abgelehnt. T K H 0 ablehnen, Entscheidung für H A T K H 0 nicht ablehnen, Entscheidung für H 0. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 278 / 566

9 Hypothesentest Annahme- und Ablehnungsbereich Tests Einführung a) H 0 : µ µ 0 H A : µ > µ 0 große Werte von T sprechen für H A. Annahmebereich Krit.Bereich... t krit b) H 0 µ µ 0 H A : µ < µ 0 kleine Werte von T sprechen für H A. Krit.B. Annahmebereich... t krit c) H 0 : µ = µ 0 H A : µ µ 0 große Werte von T sprechen für H A. Annahmebereich.... t krit t krit W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 279 / 566

10 Hypothesentest Fehler 1. Art, Fehler 2. Art Tests Einführung Fehler 1.Art Entscheidung für H A obwohl H 0 richtig ist. Fehler 2.Art Entscheidung für H 0 obwohl H A richtig ist Entscheidung Entscheidung für H 0 für H A H 0 richtig richtig, Sicher- Fehler 1. Art heitswkt. 1 α Fehlerwkt. α. H A richtig Fehler 2.Art richtig, Fehlerwkt. 1-β Güte β Entscheidung für H 0 heißt nicht notwendig, dass H 0 richtig ist. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 280 / 566

11 Hypothesentest Fehler 1. Art, Fehler 2. Art Tests Einführung α und (1 β) können nicht gleichzeitig minimiert werden. Man gibt α vor (z.b. α = 0.05), d.h. man behält α unter Kontrolle und versucht die Teststatistik so zu definieren, daß β maximal wird. β (und manchmal auch α) hängen von wahren (i.a. unbekannten) Parametern ab. Signifikanzniveau α = sup θ Θ0 β(θ). Θ 0 : Nullhypothesenraum, also z.b. die Menge {µ : µ µ 0 } oder {µ : µ = µ 0 }. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 281 / 566

12 Gütefunktion Tests Einführung Gütefunktion β = β(θ) = β(µ) = P µ (T K) K heißt Ablehnungsbereich oder Kritischer Bereich. Beispiel: t-test β(µ) = P(T K) K: kritischer Bereich = P(T > t 1 α,n 1 µ, σ 2 ) = 1 CDF( T, t 1 α,n 1, n 1, nc) nc = n µ µ 0 : Nichtzentralitätsparameter σ t 1 α,n 1 : kritischer Wert K = [t 1 α,n 1, ): kritischer Bereich. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 283 / 566

13 Gütefunktion Tests Einführung Einseitiger Test Zweiseitiger Test Test_Guete_t.sas Test_Guete_t2.sas W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 285 / 566

14 Gütefunktion Tests Einführung Ideal: Unter H 0 : Güte 0 (d.h. Fehler 1. Art =0) Unter H A : Güte 1 (d.h. Fehler 2. Art =0) Das ist aber nicht möglich! Ziel: Test mit möglichst großer Gütefunktion (unter H A ). Wir schlagen natürlich nur solche sinnvollen Tests vor. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 286 / 566

15 Lagetests (bei Normalverteilungsannahme) Tests Einführung Einstichprobenproblem H 0 : µ µ 0 H A : µ > µ 0 H 0 : µ µ 0 H A : µ < µ 0 H 0 : µ = µ 0 H A : µ µ 0 Zweistichprobenproblem H 0 : µ 1 µ 2 H A : µ 1 > µ 2 H 0 : µ 1 µ 2 H A : µ 1 < µ 2 H 0 : µ 1 = µ 2 H A : µ 1 µ 2 Einstichproben t-test PROC UNIVARIATE PROC TTEST Einstichproben t-test (verbundene Stichproben) t-test (unverbundene Stichproben) PROC UNIVARIATE PROC TTEST W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 287 / 566

16 Lage- und Skalentests (bei Normalverteilungsannahme) Einführung c-stichprobenproblem H 0 : µ 1 =... = µ c H A : (i, j) : µ i µ j einfache Varianzanalyse PROC ANOVA, PROC GLM Andere Alternativen sind: µ 1... µ c µ 1... µ c Skalentest Zwei unverbundene Stichproben H 0 : σ 2 1 = σ 2 2 H A : σ 2 1 σ 2 2 PROC TTEST (bei Normalverteilung) W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 288 / 566

17 p-werte Tests Einführung bisher: H 0 abgelehnt oder H 0 beibehalten wenig informativ. Wir könnten uns auch bei jedem α fragen, ob H 0 abgelehnt wird oder nicht. Wenn der Test bei Signifikanzniveau α ablehnt, wird er das auch für α > α tun. Es gibt also ein kleinstes α, bei dem der Test H 0 ablehnt. Der p-wert ist das kleinste α, bei dem wir H 0 ablehnen können. Test_t_p_value W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 290 / 566

18 Einführung p-wert T: (zufällige) Teststatistik, t: beobachtete Teststatistik Zweiseitige Alternative: µ µ 0 p-wert = P 0 ( T > t ) Einseitige Alternative: µ < µ 0 p-wert = P 0 (T < t) Einseitige Alternative: µ > µ 0 p-wert = P 0 (T > t) Der p-wert heißt auch Überschreitungswahrscheinlichkeit. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 291 / 566

19 p-wert Illustration Tests Einführung Einseitiger Test Zweiseitiger Test Fäche unter der Dichte rechts der schwarzen Linie: Fäche unter der Dichte rechts der roten Linie: p-wert halber p-wert links entsprechend. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 292 / 566

20 Einführung Bewertung von p-werten Der p-wert ist also, grob, ein Maß für den Grad dafür, dass die Nullhypothese nicht zutrifft. (vorsichtige) Interpretation p-wert Grad des Nicht-Zutreffens von H 0 < 0.01 sehr streng gegen H streng gegen H schwach gegen H 0 > 0.1 wenig oder gar nichts gegen H 0 Warnung: Ein großer p-wert heisst noch lange nicht, dass H 0 zutrifft. H 0 kann zutreffen, Der große p-wert kann aber auch daran liegen, dass der Test niedrige Güte hat! W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 293 / 566

21 Einführung p-wert und kritischer Wert Einseitiger Test, t krit = t 1 α t t krit p-wert α = H 0 angenommen, t > t krit p-wert < α = H 0 abgelehnt. Zweiseitiger Test, t krit = t 1 α/2 t t krit p-wert α = H 0 angenommen, t > t krit p-wert < α = H 0 abgelehnt. Ausgabe bei SAS Wenn nicht anders vermerkt: zweiseitige p-werte. Der p-wert ist nicht die Wahrscheinlichkeit, dass H 0 zurifft P(H 0 Daten) p-wert. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 294 / 566

22 5.2 Einstichprobenproblem Einstichprobenproblem Nulhypothese Alternative a) H 0 : µ µ 0 H A : µ > µ 0 b) H 0 : µ µ 0 H A : µ < µ 0 c) H 0 : µ = µ 0 H A : µ µ 0 Teststatistik T(X 1,..., X n ) = X µ 0 s Durchführung des Tests mit PROC UNIVARIATE MU0=µ 0 ; PROC TTEST H0=µ 0 n oder Student W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 295 / 566

23 Einstichprobenproblem Beispiel: Banknoten Test_t1_Banknote.sas Einstichprobenproblem µ 0 gr p-wert Pr> t > α = 0.05 nosign 2 < < α = 0.05 sign > α = 0.05 nosign < α = 0.05 sign. Das sind also zweiseitge p-werte (Alternative c)). Was machen wir bei Alternative a) oder b)? s.u. vorgegeben: Fehler 1.Art α (Signifikanzniveau) (üblich ist α = 0.05 oder α = 0.01) d.h. P µ0 ( T > t krit ) = α. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 297 / 566

24 Einstichprobenproblem Verteilung der Teststatistik T Nehmen wir in unserem Beispiel an, die Beobachtungen X i N(µ 0, σ 2 ),, i = 1,...,n sind normal und unabhängig, dann hat die (zufällige) Teststatistik T eine t-verteilung (Student s t), T = n(x µ0 ) s N(0, 1) 1 n 1 χ2 n 1 =: t n 1 (t-verteilung mit n 1 Freiheitsgraden) und t krit = t 1 α 2,n 1 ist (1 α ) - Quantil einer t-verteilung mit n 1 Freiheitsgraden. 2 W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 298 / 566

25 Einstichprobenproblem Dichtefunktion einer t-verteilung mit ν(= n 1) Freiheitsgraden (FG) f tν (x) = Γ( ν+1 2 ) ν π Γ( ν 2 x2 ν+1 (1 + ) ν ) 2 PDF( T, x, ν) Test_t_Dichte.sas W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 300 / 566

26 Einstichprobenproblem t-test Einstichprobenproblem a) H 0 : µ µ 0 H A : µ > µ 0 große Werte von T = X µ 0 s n indizieren Gültigkeit von H A. b) H 0 : µ µ 0 H A : µ < µ 0 kleine Werte von T indizieren H A c) H 0 : µ = µ 0 H A : µ µ 0 T groß indiziert Gültigkeit von H A. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 301 / 566

27 Hypothesentest Annahme- und Ablehnungsbereich Tests Einstichprobenproblem a) H 0 : µ µ 0 H A : µ > µ 0 große Werte von T sprechen für H A. Annahmebereich Krit.Bereich... t krit b) H 0 µ µ 0 H A : µ < µ 0 kleine Werte von T sprechen für H A. Krit.B. Annahmebereich... t krit c) H 0 : µ = µ 0 H A : µ µ 0 große Werte von T sprechen für H A. Annahmebereich.... t krit t krit W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 302 / 566

28 Hypothesentest Sei jetzt t eine Realisierung von T. Tests Einstichprobenproblem Zweiseitige Alternative H A : µ µ 0 Wenn t > t krit = t 1 α 2,n 1 so H 0 abgelehnt. Wenn t t krit = t 1 α 2,n 1 so H 0 nicht abgel. Abl. Annahme Ablehnung t krit 0 t t krit Einseitige Alternative H A : µ > µ 0 Wenn t > t krit = t 1 α,n 1 so H 0 abgelehnt. Wenn t t krit = t 1 α,n 1 so H 0 nicht abgel. Annahme Ablehnung t t krit Einseitige Alternative: H A : µ < µ 0 Wenn t < t krit = t α,n 1 so H 0 abgelehnt. Wenn t t krit = t α,n 1 so H 0 nicht abgel. Ablehnung Annahme t krit 0 t W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 303 / 566

29 Einstichprobenproblem p-werte bei einseitigen Alternativen Erinnerung: Der zweiseitige p-wert ist: P( T > t). P( T > t) = P((T > t) ( T > t)) = P((T > t) (T < t)) = 2 P(T > t), t > 0 P(T > t) = P(T < t) = 1 P(T t) = 1 1 P( T > t), t 0 2 (Die Verteilung von T ist stetig und symmetrisch.) W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 304 / 566

30 Einstichprobenproblem p-werte bei einseitigen Alternativen Fall a) H 0 : µ µ 0 H a : µ > µ 0 { 1 P( T > t), falls t > 0 2 p-wert = P(T > t) = 1 1 P( T > t), falls t 0 2 Ablehnung von H 0 falls P(T > t) < α. Die p-werte von SAS sind zweiseitig, sie sind also (wenn t > 0) durch 2 zu dividieren (wenn t 0 wird H 0 ohnehin nicht abgelehnt) W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 305 / 566

31 Einstichprobenproblem p-werte bei einseitigen Alternativen Fall b) H 0 : µ µ 0 H a : µ < µ 0 { 1 P( T > t ), falls t 0 2 p-wert = P(T < t) = 1 1 P( T > t), falls t > 0 2 Ablehnung von H 0 falls P(T < t) < α also wenn t < 0 so SAS-p-Wert durch 2 teilen! Im Fall der zweiseitigen Alternative (c) ist der p-wert P( T > t) genau das was SAS ausgibt, wir brauchen also nichts zu ändern. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 306 / 566

32 Einstichprobenproblem Zusammenfassung Einstichprobenproblem (1) Teststatistik T = n X µ 0 Realisierung t S X = 1 n i X i, S 2 = 1 n 1 i (X i X) 2 Zweiseitige Alternative, H 0 : µ = µ 0 H A : µ µ 0 t > t krit H 0 ablehnen p-value < α H 0 ablehnen Pr > t < α H 0 ablehnen W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 307 / 566

33 Einstichprobenproblem Zusammenfassung Einstichprobenproblem (2) Einseitige Alternative, H 0 : µ µ 0 H A : µ > µ 0 t > 0 und p-value 2 < α H 0 ablehnen Einseitige Alternative, H 0 : µ µ 0 H a : µ < µ 0 t < 0 und p-value 2 < α H 0 ablehnen W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 308 / 566

34 Konfidenzbereiche am Beispiel des t-tests Tests Einstichprobenproblem X N(µ, σ 2 ) n X µ t S n 1 wenn µ der wahre (Lokations-) Parameter ist. P( t 1 α 2,n 1 n X µ t 1 α 2 }{{ s,n 1 ) = 1 α } ( ) Die Ungleichungenen sind äuqivalent zu ( ) s t 1 α n 2,n 1 X µ s t 1 α n 2,n 1 X s n t 1 α 2,n 1 µ X + s n t 1 α 2,n 1 X + s n t 1 α 2,n 1 µ X s n t 1 α 2,n 1 X s n t 1 α 2,n 1 µ X + s n t 1 α 2,n 1 W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 309 / 566

35 Konfidenzbereiche Tests Einstichprobenproblem (1 α) Konfidenzintervall für den (unbekannten) Parameter µ [ s X t 1 α n 2,n 1, X + s ] t 1 α n 2,n 1 PROC TTEST ALPHA=Wert PROC UNIVARIATE ALPHA=Wert CIBASIC ALPHA: Konfidenzniveau (=Signifikanzniveau) CIBASIC: Konfidenzintervalle für µ, σ 2, σ basierend auf Normalverteilung CIPCTLDF: verteilungsfreie Konfidenzintervalle (basierend auf empirischen Quantilen) W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 311 / 566

36 Konfidenzbereiche Beispiel Tests Einstichprobenproblem Test_t1_Banknote Konfidenzintervalle für den Lageparameter µ = E laenge : echt gefälscht α = α = α = nichtparam. KI (für Median) PROC TTEST ALPHA=Wert PROC UNIVARIATE ALPHA=Wert CIBASIC CIPCTLDF W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 313 / 566

37 Einstichprobenproblem Konfidenzintervalle für σ 2 X N(µ, σ 2 ) (n 1) S2 σ 2 χ2 n 1 Dichte einer χ 2 ν-verteilung { 1 x ν/2 1 falls x 0 2 f χ 2 ν (x) = ν/2 Γ( ν 2 )e x/2 0 sonst. Test_Chi2_Dichte W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 315 / 566

38 Einstichprobenproblem Konfidenzintervall für σ 2 auflösen nach σ 2 : P ( χ 2 α/2,n 1 (n 1) S2 σ ) 2 χ2 1 α/2,n 1 = 1 α 1 α = P ( χ 2 S2 α/2,n 1 (n 1) σ ) 2 χ2 1 α/2,n 1 = P ( 1 σ 2 χ 2 1 α/2,n 1 (n 1)S 1 ) 2 χ 2 α/2,n 1 = P ( (n 1)S 2 χ 2 1 α/2,n 1 σ 2 (n 1)S2) χ 2 α/2,n 1 W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 316 / 566

39 Einstichprobenproblem Konfidenzintervall für σ 2 Konfidenzintervall (Vertrauensintervall) für den (unbekannten) Parameter σ 2 [ ] (n 1)s 2 (n 1)s2, χ 2 1 α/2,n 1 χ 2 α/2,n 1 PROC TTEST PROC UNIVARIATE ALPHA CIBASIC CIPCTLDF W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 318 / 566

40 Vergleich zweier abhängiger Gruppen 5.3 Vergleich zweier abhängiger Gruppen (verbundene Stichproben) H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 H 0 : µ 1 µ 2 H 1 : µ 1 < µ 2 H 0 : µ 1 µ 2 H 1 : µ 1 > µ 2 - Gewicht einer Person zu den Zeitpunkten t 1, t 2. - Banknoten (oben- unten, links - rechts) - Patient nimmt Medikament 1 und 2 - Kreuz- und selbstbefruchtete Pflanzen Test_t2_Banknote Test_t2_Darwin W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 320 / 566

41 Vergleich zweier abhängiger Gruppen Folgende Möglichkeiten: a) Transformation Z := X 1 X 2 und testen auf µ = 0 PROC UNIVARIATE; VAR Z; RUN; oder PROC TTEST H0=0; VAR Z; RUN; b) Mit der Prozedur TTEST: PROC TTEST; PAIRED X1*X2; RUN; W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 322 / 566

42 Vergleich zweier unabhängiger Gruppen 5.4 Vergleich zweier unabhängiger Gruppen (unverbundene Stichproben) H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 H 0 : µ 1 < µ 2 H 1 : µ 1 µ 2 H 0 : µ 1 > µ 2 H 1 : µ 1 µ 2 - Tibetische Schädel (Sikkim - Kham) - Wasserhärte (Nord - Süd) - Klinikaufenthalt (Klinik1 - Klinik2) - Banknoten (echt - gefälscht) Test_t2_Tibetan Test_t2_Heroin Test_t2_Banknote W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 324 / 566

43 Vergleich zweier unabhängiger Gruppen Vergleich zweier unabhängiger Gruppen X 1 N(µ 1, σ1 2 ), X 2 N(µ 2, σ2 2 ) Fall 1: Varianzen σ1 2, σ2 2 sind gleich Fall 2: Varianzen σ1 2, σ2 2 sind verschieden Fall 1: T = X 1 X 2 W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 325 / 566

44 Vergleich zweier unabhängiger Gruppen Vergleich zweier unabhängiger Gruppen X 1 N(µ 1, σ 2 1 ), X 2 N(µ 2, σ 2 2 ) Fall 1: Varianzen σ1 2, σ2 2 sind gleich Fall 2: Varianzen σ1 2, σ2 2 sind verschieden Fall 1: T = 1 n + 1 m n, m: Umfänge Stichprobe 1 und 2 S 2 1 = 1 n 1 n i=1 X 1 X 2 (n 1)S 2 1 +(m 1)S2 2 n+m 2 (X 1i X 1 ) 2 S 2 2 = 1 m 1 m (X 2i X 2 ) 2 i=1 W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 326 / 566

45 Erläuterung des Quotienten T Vergleich zweier unabhängiger Gruppen X 1 N(µ 1, σ 2 ), X 2 N(µ 2, σ 2 ) X 1 N(µ 1, σ 2 1 n ), X 2 N(µ 2, σ 2 1 m ) (n 1) S 2 σ 2 1 χ2 n 1, (n 1) S 2 σ 2 2 χ2 m 1 X 1 X 2 N(µ 1 µ 2, σ 2 ( 1 n + 1 m )) ( ) 1 (n 1) S 2 σ (m 1) S2 2 χ 2 n+m 2 unter H 0 (µ 1 = µ 2 ). T t n+m 2 W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 327 / 566

46 Vergleich zweier unabhängiger Gruppen Vergleich zweier unabhängiger Gruppen T ist eine Zufallsgröße! Werte von T werden mit gewissen Wktn. angenommen! Die Wkt. dafür, daß T sehr große Werte annimmt (wenn H 0 richtig ist) ist also sehr klein. Sei jetzt t eine Realisierung von T (also der Wert, der bei Ausrechnen anhand der gegebenen Daten entsteht). Wenn jetzt t sehr groß, t K (krit. Bereich) (aber die Wkt. dafür ist sehr klein, wenn H 0 richtig ist) H 0 ablehnen. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 328 / 566

47 Vergleich zweier unabhängiger Gruppen Vergleich zweier unabhängiger Gruppen ungleiche Varianzen Fall 2: Varianzen ungleich T = X 1 X 2 S1 2 n + S2 2 m T t ν approximativ. Die Zahl ν der Freiheitsgrade wird auch approximativ berechnet. (Welch-Test, 1937) SAS bietet Tests für beide Varianten an. Satterthwaite-Approximation (1946). PROC TTEST; CLASS Klassifikationsvariable; VAR auszuwertende Variable(n); RUN; W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 329 / 566

48 Vergleich zweier unabhängiger Gruppen Vergleich zweier unabhängiger Gruppen Welchen Test soll man nehmen? - Aus Vorinformation ist vielleicht bekannt, ob man gleiche Varianzen annehmen kann. - Man kann einen Test auf gleiche Varianzen vorschalten Problem: 2 stufiger Test Wird das Signifikanzniveau eingehalten?? W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 330 / 566

49 Vergleich zweier unabhängiger Gruppen Test auf Gleichheit der Varianzen Voraussetzung: Normalverteilung H 0 : σ 2 1 = σ2 2 H 1 : σ 2 1 σ2 2 F = S2 1 S 2 2 F n 1,m 1 (Fisher-) F- Verteilung mit (n 1, m 1) Freiheitsgraden. F ist Quotient zweier unabhängiger χ 2 -verteilter Zufallsgrößen. H 0 ablehnen, falls s 2 1 s 2 2 < F α 2,n 1,m 1 oder s 2 1 s 2 2 > F 1 α 2,n 1,m 1 W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 331 / 566

50 Vergleich zweier unabhängiger Gruppen Test auf Gleichheit der Varianzen F-Test F α 2,n 1,m 1 = 1 F 1 α 2,m 1,n 1 (beachten: Freiheitsgrade vertauschen sich) H 0 ablehnen, falls s 2 1 s 2 2 s 2 2 s 2 1 < 1 oder F 1 α 2,m 1,n 1 > F 1 α 2,m 1,n 1 oder s 2 1 s 2 2 s 2 1 s 2 2 > F 1 α 2,n 1,m 1 > F 1 α 2,n 1,m 1 W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 332 / 566

51 Vergleich zweier unabhängiger Gruppen Test auf Gleichheit der Varianzen F-Test, prakt. Durchführung s 2 M := max(s 2 1, s2 2 ) s2 m := min(s 2 1, s2 2 ) n M, n m : die entsprechenden Stichprobenumfänge H 0 ablehnen, falls s 2 M s 2 m Formulierung mit p-werten H 0 ablehnen, falls > F 1 α 2,n M 1,n m 1. W nm 1,n m 1 F nm 1,n m 1 P(W nm 1,n m 1 > s2 M ) < α s 2 m 2 W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 334 / 566

52 Vergleich zweier unabhängiger Gruppen Zweistichprobenproblem Output der Prozedur TTEST Konfidenzintervalle für µ 1, µ 2 und für µ 1 µ 2 Für die ersten beiden siehe Abschnitt 5.2 Konfidenzintervalle für µ = µ 1 µ 2 bekommt man analog zum Einstichprobenfall, hier wird die Zweistichproben-t-Teststatistik genommen (die für gleiche Varianzen) und die entsprechenden Ungleichungen umgeformt. Tabelle der durchgeführten t-tests - für gleiche Varianzen (pooled) - für ungleiche Varianzen (Satterthwaite) F-Test zum Vergleich der Varianzen (bitte ignorieren) W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 335 / 566

53 Vergleich zweier unabhängiger Gruppen Ein- und Zweistichprobenproblem Anmerkungen (1) Der F-Test (zum Skalenvergleich) ist sehr empfindlich gegenüber Abweichungen von der Normalverteilungsannahme mit größter Vorsicht genießen. Der Einstichproben- t-test ist nicht robust! Der Zweistichproben t-test ist etwas robuster als der t-test im Einstichprobenproblem Ausreißer können extremen Einfluß haben (ÜA). Wenn Gleichheit der Varianzen unklar t-test mit ungleichen Varianzen nehmen. (ist bei gleichen Varianzen nur ganz wenig weniger effizient) W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 336 / 566

54 Vergleich zweier unabhängiger Gruppen Ein- und Zweistichprobenproblem Anmerkungen (2) Besser nicht auf das Ergebnis des F-Tests verlassen. (Problematik: 2-Stufentest, Nicht-Robustheit). Es gibt robustere Skalentests Levene Test und Brown-Forsythe Test. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 338 / 566

55 Vergleich zweier unabhängiger Gruppen Test auf Gleichheit der Varianzen Levene-Test Bilden die Werte X j := X j X Y j := Y j Y Skalenunterschiede in (X, Y) spiegeln sich jetzt in Lageunterschieden in (X, Y ) wieder. Mit den neuen Beobachtungen wird jetzt ein t-test durchgeführt. Die t-verteilung gilt nur approximativ. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 339 / 566

56 Vergleich zweier unabhängiger Gruppen Test auf Gleichheit der Varianzen Brown-Forsythe Test Analog zum Levene-Test, nur hier bilden wir die Werte X j := X j med i X i Y j := Y j med i Y i Beide Tests sind (einigermaßen) robust gegen Abweichungen von der Normalverteilung. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 341 / 566

57 Vergleich zweier unabhängiger Gruppen Test auf Gleichheit der Varianzen Syntax PROC ANOVA; CLASS Klasse; MODEL var=klasse; MEANS Klasse / HOVTEST=Levene (TYPE=ABS); MEANS Klasse / HOVTEST=BF; RUN; Test_t2_Banknote W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 343 / 566

58 Varianzanalyse Vergleich von k unabhängigen Gruppen (einfaktorielle, einfache Varianzanalyse) A: Faktor (Gruppenvariable) mit k Stufen (Faktorstufen) Modell Y ij = µ + α i + ǫ ij, i = 1...k, j = 1...n i µ: Gesamterwartungswert α i : Effekt der i-ten Stufe von A ǫ ij : Fehler, ǫ ij (0, σ 2 ) Y ij : j-te Beobachtung der i-ten Faktorstufe k i=1 α i = 0 Parametrisierungsbedingung W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 344 / 566

59 Einfache Varianzanalyse Varianzanalyse H 0 : α 1 = α 2 =... = α k H 1 : α i α l (für ein i l) Im Fall k = 2 führt dieses Testproblem auf das Zweistichprobenproblem ( t-test). Output der Maschinen gleich? Klausurergebnisse unterschiedlich? Mageninhalt der Eidechsen gleich? Cortisolgehalt unterschiedlich? ANOVA_Maschinen Varianzanalyse_Modelle\PI12erg GLM_Eidechsen GLM_Cortisol W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 346 / 566

60 Varianzanalyse Tests Varianzanalyse Varianzanalyse macht eine Streuungszerlegung: Gesamt- = Varianz zwischen + Varianz innerhalb varianz den Faktorstufen der Faktorstufen SST = SSB + SSW (SSE) (Total) (Between) (Within) (Error) N = Y i = 1 n i Y ij, n i j=1 k i=1 n i Y = 1 N i,j Y i,j W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 347 / 566

61 Einfache Varianzanalyse Varianzanalyse Satz: Es gilt wobei SSB + SSW = SST SSB = SSW = SST = k n i (Y i Y) 2 (Between) i=1 k n i (Y ij Y i ) 2 (Within) i=1 j=1 k n i (Y ij Y) 2. (Total) i=1 j=1 W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 348 / 566

62 Einfache Varianzanalyse Varianzanalyse Satz: SSB + SSW = SST Beweis: SSB = i n i Y 2 i 2 N Y 2 + Y 2 N SSB + SSW = SSW = i,j Yij 2 2 n i Y 2 i + i i n i Y 2 i = i,j = i,j Yij 2 + n i Y 2 i N Y 2 n i Y 2 i i i Yij 2 N Y2 = (Y ij Y) 2 = SST j i W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 349 / 566

63 Varianzanalyse Tests Varianzanalyse PROC ANOVA; CLASS A; /*A: Faktor */ MODEL var=a; MEANS A / HOVTEST=Levene (TYPE=ABS); oder HOVTEST=BF; MEANS OUT=SAS-Ausgabedatei; RUN; oder: PROC GLM anstelle von PROC ANOVA; und weiter wie oben. ANOVA: schneller GLM: zusätzliche Auswertungen möglich, z.b. Ausgabe der Residuen HOVTEST: Test auf Varianzhomogenität W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 350 / 566

64 Einfache Varianzanalyse Varianzanalyse Dependent Variable: Y Source DF Sum of Mean F-value Pr > F Squares Squares MSB MODEL k-1 SSB(M) MSB p-wert MSE ERROR N-k SSW(E) MSE Total N-1 SST MSB = SSB k 1, SSW MSE = N k H 0 : α 1 = = α k H 1 : (i, j) : α i α j W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 351 / 566

65 Einfache Varianzanalyse H 0 wird getestet mit F = MSB MSE Varianzanalyse = Mittlere Var. zwischen d. Gruppen Mittlere Var. innerhalb d. Gruppen = N k k 1 SSB SSW = N k k 1 F groß, F > F 1 α,k 1,N k H 0 abgelehnt SST SSW SSW Bestimmtheitsmaß R 2 := SSB SST SSW = = 1 SSW SST SST SST Der Anteil der Varianz, der durch das Modell bestimmt wird, heißt Bestimmtheitsmaß W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 352 / 566

66 Einfache Varianzanalyse Offenbar: 0 R 2 1. Varianzanalyse F = MSB MSE = N k k 1 SSB SST SST SSW = N k k 1 R 2 1 R 2 R 2 0 = F 0 R 2 1 = F. Schätzung der Modellstandardabweichung σ RootMSE = 1 MSE = Variationskoeffizient CV = 100 RootMSE Y N k SSE W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 353 / 566

67 Varianzanalyse Einfache Varianzanalyse Anmerkungen Der F-Test in der Varianzanalyse ist (einigermaßen) robust gegenüber Abweichungen von der Normalverteilungsannahme Wenn man die Prozedur GLM verwendet, dann kann man die sogen. Residuen ˆǫ ij = Y ij ˆα i ˆµ abspeichern (Option RESIDUAL im OUTPUT-Statement) und auf Normalität testen. (PROC UNIVARIATE NORMAL) W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 354 / 566

68 Varianzanalyse Varianzanalyse F-Test verlangt auch Varianzhomogenität Daten balanziert (gleiche Stichprobenumfänge) Abweichungen nicht so schwerwiegend. Wenn die Varianzen verschieden sind, kann die Welch-Modifikation verwendet werden: MEANS Var/WELCH; W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 355 / 566

69 Varianzanalyse Einfache Varianzanalyse Test auf Varianzhomogenität H 0 : σ 2 1 = σ2 2 =... = σ2 k H 1 : (i, l) : σ 2 i σ 2 l Levene Test (1960) HOVTEST= LEVENE im MEANS-Statement Z ij = Y ij Y i. Brown-Forsythe-Test (1974) HOVTEST = BF Z ij = Y ij medy i W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 356 / 566

70 Einfache Varianzanalyse Test auf Varianzhomogenität (2) Varianzanalyse Mit diesen neuen ZV wird eine Varianzanalyse durchgeführt. W = 1 k 1 1 N k ni (Z i. Z ) 2 i,j (Z ij Z i.) 2 F k 1,N k. GLM_Cortisol W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 358 / 566

71 Varianzanalyse Geometrische Veranschaulichung zur Varaianzanalyse Y = (Y 11,..., Y knk ) Dimension N Ŷ = (Y 1,...,Y }{{} 1,...,Y k,...,y k ) }{{} n 1 mal n 2 mal Y = (Y,...,Y }{{} ), SST Y = 1 N i,j Y ij Y Y SSE... 0 γ SSB Ŷ Y SSB + SSW = SST R 2 = cos 2 γ Ŷ Y 2 + Y Ŷ 2 = Y Y 2 W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 359 / 566

72 Varianzanalyse Multiple Vergleiche Problemstellung: H 0 abgelehnt, aber zwischen welchen Faktorstufen liegt der Unterschied? Idee: Alle Paarvergleiche machen. Problem: Wenn wir das Signifikanzniveau α(= 0.05) so lassen, wird das Testniveau nicht eingehalten! Veranschaulichung: Bei 20 gleichzeitigen Tests können wir 20 α = 1 Ablehnung erwarten, auch wenn H 0 richtig ist. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 360 / 566

73 Multiple Vergleiche Lösungsmöglichkeiten Tests Varianzanalyse Option BON im MEANS Statement Signifikanzniveau für die gleichzeitigen Tests herabsetzen auf α nom ( 2), k bei k = 4 wäre das etwa αnom ( 4 2) = Begründung: Bonferroni-Ungleichung. Option TUKEY im MEANS Statement Bilden die Y j und die Spannweite dazu w = max i,j Y i Y j Dazu kommt noch die empirische Standardabweichung s. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 361 / 566

74 Multiple Vergleiche Lösungsmöglichkeiten Tests Varianzanalyse Option TUKEY im MEANS Statement tmax = w s die sogenannnte studentisierte Spannweite. Diese hat (wenn die Y i N ) eine (dem SAS-Programmierer) wohlbekannte Verteilung, und entsprechende Quantile und kritische Werte. Damit erhalten wir simultane Konfidenzintervalle für alle Paardifferenzen µ i µ j. Liegt 0 nicht darin, so wird H 0,ij : µ i = µ j abgelehnt zugunsten von H A,ij : µ i µ j. Bem.: Es gibt eine Fülle weiterer Varianten. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 362 / 566

75 Vergleich k verbundener Stichproben 5.6 Vergleich k verbundener Stichproben 2-faktorielle Varianzanalyse Modell: i = 1,...,a, j = 1,...,b. Y ij = µ + α i + β j + ǫ ij, ǫ ij (0, σ 2 ) Das Modell ist überparametrisiert, Bedingung: a i=1 α i = 0, b j=1 β j = 0. Folgene Hypothesen sind zu testen: H 0a : α 1 = = α a = 0 gegen H 1a : (i 1, i 2 ) : α i1 α i2 H 0b : β 1 = = β b = 0 gegen H 1a : (j 1, j 2 ) : β j1 β j2 GLM_Synchro GLM_Cache (eine Beobachtung je Zelle) W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 364 / 566

76 2-faktorielle Varianzanalyse Vergleich k verbundener Stichproben 1 a b Y.. = Y ij arith. Mittel aller Beob. a b i=1 j=1 Y i. = 1 b Y ij Mittel der i-ten Stufe von A b j=1 Y.j = 1 a Y ij Mittel der j-ten Stufe von B a i=1 a b SSA := b (Y i. Y.. ) 2 SSB := a (Y.j Y.. ) 2 SSE := SST := i=1 a i=1 a b (Y ij Y i. Y.j + Y.. ) 2 j=1 i=1 j=1 b (Y ij Y.. ) 2 j=1 W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 365 / 566

77 2-faktorielle Varianzanalyse Quadratsummenzerlegung Vergleich k verbundener Stichproben Dependent Variable: Y Source DF Sum Mean F-value Pr > F Squ. Squ. p-value A a-1 SSA MSA MSA MSE H 1a H 1b MSB B b-1 SSB MSB MSE Model a+b-2 SSM MSM MSM H MSE 1 Error (a-1)(b-1) SSE MSE Total a b - 1 SST SSM = SSA + SSB MSA = MSM = SSA (a 1) SSA + SSB a + b 2 SST = SSA + SSB + SSE MSB = SSB (b 1) SSE MSE = (a 1)(b 1) W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 366 / 566

78 2-faktorielle Varianzanalyse Tests H 0a gegen H 1a : F 1 = MSA MSE H 0b gegen H 1b : F 2 = MSB MSE Vergleich k verbundener Stichproben = mittl. Var. zwischen Stufen von A mittl. Var. innerhalb d. Gruppen F 1 F a 1,(a 1)(b 1) = mittl. Var. zwischen Stufen von B mittl. Var. innerhalb d. Gruppen F 2 F b 1,(a 1)(b 1) große Werte von F führen zur Ablehnung! F 1 F 2 > F 1 α,a 1,(a 1)(b 1) Ablehnung von H 0a > F 1 α,b 1,(a 1)(b 1) Ablehnung von H 0b W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 367 / 566

79 2-faktorielle Varianzanalyse Tests Vergleich k verbundener Stichproben H 0 : α 1 = α a = 0 und β 1 = β a = 0 gegen H 1 : (i 1, i 2 ): α i1 α i2 (j 1, j 2 ): β j1 β j2. F = MSModell MSE = SSA + SSB SSE (a 1)(b 1) a + b 2 MSModell = SSModell a + b 2 SSModell = SSA + SSB. H 0 ablehnen, falls F > F 1 α,a+b 2,(a 1)(b 1). W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 368 / 566

80 Vergleich k verbundener Stichproben Zweifaktorielle Varianzanalyse PROC GLM; CLASS A B; /*die beiden Faktoren*/ MODEL Y = A B; RUN; Output Balanzierter Fall: Variante I und III identisch Unbalanzierter Fall: Typ III-Summen sind vorzuziehen, da der entsprechende Test unabhängig von den Stichprobenumfängen ist. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 369 / 566

81 Vergleich k verbundener Stichproben 5.7 Weitere Varianzanalyse-Modelle Mehrere Beobachtungen pro Kombination der Faktoren A und B SAS-Prozedur ändert sich nicht! Output ändert sich gegebenenfalls a) balanzierter Fall eindeutig b) unbalanzierter Fall Es gibt verschiedene Möglichkeiten die Fehlerquadratsummen zu zerlegen. SAS bietet die Varianten an 3 Forscher graben eine Reihe von Schädeln in 3 verschiedenen Schichten aus. Gemessen wird die Nasenlänge.? Forschereffekt, Schichteneffekt W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 370 / 566

82 Vergleich k verbundener Stichproben Weitere Varianzanalyse-Modelle Mehrere Beobachtungen pro Kombination der Faktoren A und B Klinische Untersuchung in mehreren Zentren Ein Medikament zur Gewichtsreduktion soll getestet werden. 1: Medikament 0: Placebo 1-6: Zentren Modell: Y ijk = µ + α i + β j + ǫ ijk, ǫ ijk N(0, σ 2 ) Es interessiert nur das Medikament, nicht das Zentrum: H 0 : α 0 = α 1 H 1 : α 0 < α 1 W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 371 / 566

83 Vergleich k verbundener Stichproben Weitere Varianzanalyse-Modelle PROC GLM; CLASS Medik Zentrum; /*die beiden Faktoren*/ MODEL Y = Medik Zentrum; RUN; (dieselbe Prozedur wie oben) GLM_Drugeffect Zum Output: wie bisher. Balanzierter Fall: Variante I und III identisch. Unbalanzierter Fall: Typ III-Summen zu bevorzugen, da der entsprechende Test unabhängig von den Stichprobenumfängen ist. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 373 / 566

84 Vergleich k verbundener Stichproben Weitere Varianzanalyse-Modelle Wechselwirkungen ins Modell mit aufnehmen Y ijk = α + α i + β j + γ ij + ǫ ijk (+Reparametrisierungsbedingungen) geht nur, wenn für jede Faktorstufenkombination mehrere Beobachtungen vorliegen. PROC GLM; CLASS A B; /*die beiden Faktoren*/ MODEL Y = A B A*B; RUN; GLM_Insekten W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 375 / 566

85 Vergleich k verbundener Stichproben Weitere Varianzanalyse-Modelle Modell mit Wechselwirkungen Folgene Hypothesen sind zu testen: H 0a : α 1 = = α a = 0 gegen H 1a : (i 1, i 2 ) : α i1 α i2 H 0b : β 1 = = β b = 0 gegen H 1a : (j 1, j 2 ) : β j1 β j2 H 0c : γ 11 = = γ a b = 0 gegen H 1c : (j 1, j 2 ) : γ j1,j 2 0 W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 376 / 566

86 Vergleich k verbundener Stichproben Weitere Varianzanalyse-Modelle Faktoren (Effekte, Faktorstufen) sind zufällig hier ist Schätzung der Varianzkomponenten interessant und evtl. ein Hypothesentest Preisrichter seien zufällig ausgewählt. Die Frage ist, ob die Variabilität in den Scores an den Preisrichtern liegt? Y ij = µ + A }{{} i +b j + ǫ ij zufällig A i (0, σ 2 P) ǫ ij (0, σ 2 ) W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 377 / 566

87 Vergleich k verbundener Stichproben Varianzkomponentenschätzung PROC VARCOMP METHOD=Type1; CLASS Preisrichter Wettkaempfer; MODEL Score = Preisricher; RUN; GLM_syncro_zufaelligeEffekte METHOD=Type1: Auf den Quadratsummen beruhende Varianzschätzungen Annahme: A i, B j und ǫ ij unabhängig. var(y ij ) = var(a i ) + var(b j ) + var(ǫ ij ) Output: Schätzungen für die Varianzkomponenten. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 379 / 566

88 Vergleich k verbundener Stichproben Weitere Varianzanalyse-Modelle 7.4 Mehr als 2 Faktoren Frequenzspektren - höherfaktorielle VA Gemessen wird die Amplitude bei 35 verschiedenen Frequenzen, 4 Füllungen, 3 Richtungen, jede Messung wird 5 mal wiederholt.? Füllungs-, Richtungseffekt, Wiederholungseffekt? Frequenzeffekt? 4 Faktoren. PROC GLM; CLASS A B C D; MODEL Y = A B C D; RUN; /Beratung/Vogt/Glaeser1 W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 381 / 566

89 Vergleich k verbundener Stichproben Weitere Varianzanalyse-Modelle 7.5 Hierarchische Modelle Die Faktoren liegen in hierarch. Ordnung vor. A A1 A2 A3 A4 B11 B12 B13 B21 B22 B23 B31 B32 B33 B41 B42 B43 (mit zufäll. Effekten) Kalzium-Gehalt verschiedener Pflanzen und von verschiedenen Blättern 4 Pflanzen werden zufällig ausgewählt 3 Blätter davon 2 Stichproben zu 100mg von jedem Blatt Frage: Gibt es zwischen Pflanzen oder zwischen Blättern unterschiedliche CA-Konzentrationen? W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 382 / 566

90 Vergleich k verbundener Stichproben Weitere Varianzanalyse-Modelle Hierarchische Modelle (2) Modell Y ijk = µ + A i + B ij + ǫ ijk A i N(0, σa) 2 B ij N(0, σb 2) ǫ ijk N(0, σ 2 ) hier: n=2 a=4 b=3 vary ijk = vara i + varb ij + varǫ ijk = σ 2 a + σ 2 b + σ 2 H 0a : σ 2 a = 0 H 0b : σ 2 b = 0 GLM_hierarch W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 384 / 566

91 Vergleich k verbundener Stichproben Weitere Varianzanalyse-Modelle Hierarchische Modelle (3) PROC GLM; CLASS A B; MODEL Y = A B(A); hierarch. Struktur* RANDOM A B(A); Faktoren sind zufaellig* RUN; PROC VARCOMP; CLASS A B; MODEL Y=A B(A); RUN; W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 386 / 566

92 Anpassungstests 5.8 Anpassungstests 8.1 Einführung empirische Verteilungsfunktion 8.2 EDF-Anpassungstests Kolmogorov-Smirnov-Test Anderson-Darling-Test Cramer-von Mises-Test 8.3 Anpassungstest auf Normalverteilung - Shapiro-Wilk-Test 8.4. Anpassungstests auf weitere Verteilungen W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 387 / 566

93 Anpassungstests Einführung Tests Anpassungstests Problem Klassische Test- und Schätzverfahren sind oft konzipiert unter der Normalverteilungsannahme. Frage Gilt sie überhaupt? W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 388 / 566

94 Anpassungstests Gilt die Normalverteilung? (1) Hampel, 1980, Biometr. Journal Eine Zeitlang glaubte (fast) jeder an das normale Fehlergesetz, die Mathematiker, weil sie es für ein empirisches Faktum hielten, und die Anwender, weil sie es für ein mathematisches Gesetz hielten. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 389 / 566

95 Anpassungstests Gilt die Normalverteilung? (2) Geary 1947, Biometrika Normality is a myth; there never was, and never will be, a normal distribution. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 390 / 566

96 Anpassungstests Tests Anpassungstests (X 1,...,X n ) iid., X i F, F unbekannt. Anpassungstest auf eine spezifizierte Verteilung: H 0 : F = F 0 gegen H 1 : F F 0. I.A. hängt F von unbekannten Parametern ab. Anpassungstest auf eine Normalverteilung: H 0 : F(x) = Φ ( x µ ) σ H 1 : F(x) Φ ( x µ ) σ (µ, σ unbekannt) µ, σ, σ > 0 (Φ: Verteilungsfunktion der Standardnormal.). W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 391 / 566

97 Anpassungstests Tests Anpassungstests Gewicht von Hühnern Abmessungen von Banknoten, oben (echt, falsch) W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 392 / 566

98 Anpassungstests Auf der empirischen Verteilungsfunktion beruhende Tests Empirische Verteilungsfunktion Seien X 1,..., X n unabh. Beobachtungen, X (1)... X (n) die geordneten Beob. Die Funktion 0 x < X (1) i F n (x) = X n (i) x < X (i+1) i = 1...n 1 X (n) x heißt empirische Verteilungsfunktion. Satz v. Glivento-Cantelli: F n (x) F(x). (Hauptsatz der math. Statistik genannt) EDF.sas EDF_2.sas W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 394 / 566

99 Anpassungstests Anpassungstests Auf der empirischen Verteilungsfunktion beruhende Tests Kolmogorov-Smirnov-Test D = sup F n (x) F 0 (x) x Anderson-Darling-Test (F n (x) F 0 (x)) 2 A-sq = n F 0 (x)(1 F 0 (x)) df 0(x) Cramer-von Mises-Test W-sq = n ( Fn (x) F 0 (x) ) 2 df0 (x) W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 395 / 566

100 Anpassungstests Anpassungstests auf Normalverteilung Auf der empirischen Verteilungsfunktion beruhende Tests hier: F 0 (x) = Φ ( x ˆµ ), ˆσ ˆµ = X = 1 n X i, n i=1 ˆσ 2 = s 2 1 n = (X i X) 2 n 1 D D n (Kolmogorov-Verteilung) approx. lim P 0(D < x ) = 1 2 ( 1) k e 2k2 x 2 n n (Kolmogorov, 1933). W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 397 / 566 i=1 k=1

101 Anpassungstests Anpassungstests auf Normalverteilung Auf der empirischen Verteilungsfunktion beruhende Tests Modifikationen für endliche Stichproben (zur Info.) D: D ( n / n) A sq: A-sq ( /n /n 2 ) W-sq: W-sq ( /n) Große Werte von D, A-sq und W-sq führen jeweils zur Ablehnung von H 0. p-werte werden vom Programm berechnet. Test_GoF_Banknote.sas Test_GoFDarwin.sas aufg24.sas W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 399 / 566

102 Anpassungstests Shapiro-Wilk-Test Vorbemerkungen: Tests Anpassungstests X i N(µ, σ 2 ), Y i = X i µ σ i = 1,...,n. Geordnete Beobachtungen: Die Erwartungswerte N(0, 1) X (1)... X (n) Y (1)... Y (n). m i := E(Y (i) ) n! = (i 1)!(n i)! sind bekannt (und vertafelt). tφ i 1 (t)(1 Φ(t)) n i φ(t)dt W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 400 / 566

103 Shapiro-Wilk-Test Tests Anpassungstests Approximation (Blom, 1958) m i m i = Φ 1( i n ) EX (i) X (i) = µ + σm i = µ + σm i + ǫ i einfaches lineares Regressionsmodell mit Parametern µ, σ. Eǫ i = 0, aber die ǫ i sind nicht unabhängig. V := cov(y (i), Y (j) ), m := (m 1,...,m n ) X := (X (1),...,X (n) ). W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 401 / 566

104 Anpassungstests Verallgemeinerter Kleinster Quadrat-Schätzer von σ: ˆσ = m V 1 X m V 1 m wird verglichen mit der gewöhnlichen Standardabweichung s, s 2 = 1 n 1 n (X i X) 2. i=1 W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 402 / 566

105 Anpassungstests Anpassungstests Shapiro-Wilk-Statistik W = ˆσ 2 s 2 (n 1) (m V 1 m) 2 m V 2 m = (h X) 2 n i=1 (X i X) 2 h h wobei h = m V 1 (bekannt, vertafelt). Wegen h i = 0 folgt: W ist Quadrat des (empir.) Korrelationskoeffizienten von h und X: ( n i=1 (X i X)(h i h) ) 2 W = n i=1 (X i X) 2 n i=1 (h i h) 2, W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 404 / 566

106 Anpassungstests ( n i=1 (X i X)(h i h) ) 2 W = n i=1 (X i X) 2 n i=1 (h i h) 2, Offenbar: 0 W 1. W 1 indiziert, dass h = m V 1 ( 2m ): ein Vielfaches von X ist. D.h. die Punkte (m i, X (i) ) liegen etwa auf einer Geraden, was Normalverteilung indiziert. H 0 wird ablehnt, falls W < W α (n). Test_GoF_Shapiro_Wilk.sas W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 406 / 566

107 Anpassungstests Shapiro-Wilk Test Scores des 1 Wettkämpfers (5 Preisrichter) 31.2, 31.2, 31.4, 32.0, 33.1 Mit der Prozedur UNIVARIATE erhalten wir s = und mit der Prozedur GPLOT (Option REGEQN) ˆσ = im Regressionsmodell Y i = µ + σm i + ǫ i Für die Shapiro-Wilk Statistik bekommen wir (c: Normierungsfaktor) W = ˆσ2 s 2 c = W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 407 / 566

108 Anpassungstests Shapiro-Wilk Test Approximative Dichtefunktion von W (unter H 0 ) ( n i=1 (X i X)(h i h) ) 2 W = n i=1 (X i X) 2 n i=1 (h i h) 2, n = 10 n = W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 408 / 566

109 Anpassungstests Tests Anpassungstests SAS verwendet eine Approximation von W. Der Shapiro-Wilk-Test erweist sich für kleinere, mittlere und größere Stichprobenumfänge als geeignetster Test (höchste Güte). Früher wurde meist der sogen. χ 2 -Anpassungstest verwendet. Dieser hat jedoch geringe Güte. W ist etwas besser als A-sq, besser als W-sq, und viel besser als D und χ 2. D ist nur für sehr große Stichprobenumfänge zu empfehlen (n 2000). W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 409 / 566

110 Anpassungstests Tests Anpassungstests Man sollte beim Test auf Normalverteilung das Signifikanzniveau auf α = 0.1 hochsetzen, insbesondere wenn wenig robuste Tests (die NV verlangen) angewendet werden sollen. Robuste Tests haben meist geringen Effizienzverlust bei NV. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 410 / 566

111 Anpassungstests Anpassungstests Durchführung des Tests auf Normalverteilung Unter Verwendung von ˆµ, ˆσ: PROC UNIVARIATE NORMAL; RUN; PROC UNIVARIATE; HISTOGRAM variable / NORMAL; RUN; mit vorgebenen µ, σ: PROC UNIVARIATE; HISTOGRAM variable / NORMAL(mu=0, sigma=1); RUN; Bem.: Mit der Prozedur UNIVARIATE (Kommando HISTOGRAM) können Sie auch auf andere Verteilungen testen. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 412 / 566

112 Anpassungstests Anpassungstests 8.4 Anpassungstests auf weitere Verteilungen χ 2 -Anpassungstest (Pearson, 1900) Prinzip: Daten werden in p Klassen eingeteilt. Klassenhäufigkeiten: N i theoretische Klassenhäufigkeiten: np i X 2 = p (N i np i ) 2 i=1 np i X 2 χ 2 p 1 asymptotisch (bei bekannten µ, σ2 ) (Fisher, 1922) X 2 χ 2 p 3 approx. (bei 2 zu schätzenden Parametern, ML-Schätzung mit gruppierten Daten oder Minimum-χ 2 -Schätzung). W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 413 / 566

113 Anpassungstests χ 2 -Anpassungstest Tests Anpassungstests Nachteile des χ 2 -Anpassungstests Wert von X 2 abhängig von Klasseneinteilung. χ 2 - Anpassungstest auf Normalverteilung hat geringe Güte. Diskrete Verteilungen Hier kann der χ 2 -Anpassungstest genommen werden (natürliche Klasseneinteilung) Prozedur FREQ, Option CHISQ W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 414 / 566

114 Anpassungstests Anpassungstests χ 2 -Anpassungstest Diskrete Gleichverteilung PROC FREQ; TABLES var1 /CHISQ; RUN; Sonstige diskrete Verteilungen wie oben, zusätzlich sind die Einzelwktn. explizit zu formulieren, /CHISQ TESTP=(p 1,..., p k ); Test_GoF_Poisson.sas Anzahlen schon gegeben Die Variablen, die Anzahlen bezeichnen, werden durch ein WEIGHT-Kommando angegeben. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 416 / 566

115 Anpassungstests Anpassungstests EDF-Tests Stetige Verteilungen zugelassen sind: Normal, Gamma, Weibull, Lognormal, Exponential HISTOGRAM var1 / Gamma; Test_GoF_Darwin_1.sas W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 418 / 566

116 Nichtparametrische Tests 5.9. Nichtparametrische Tests Übersicht Es werden die wichtigsten Rang-Analoga zu den Tests in behandelt Einführung Einstichprobenproblem (vgl 5.2), 2 verbundene Stichproben (vgl. 5.3) Vorzeichentest, Vorzeichen-Wilcoxon-Test Zwei unverbundene Stichproben (vgl. 5.4) Wilcoxon-Test Mehrere unabhängige Stichproben (vgl. 5.5) Kruskal-Wallis-Test Mehrere verbundene Stichproben (vgl. 5.6) Friedman-Test W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 419 / 566

117 Nichtparametrische Tests Nichtparametrische Tests Einführung Was tun wenn Normalverteilung nicht vorliegt? Nichtparametrische Tests sie verwenden keine Parameterschätzung (wie X, s) sie halten das Signifikanzniveau (α) für jede stetige Verteilung (approx.) ein. α hängt also nicht von der zugrundeliegenden Verteilungsfunktion ab. sie sind relativ effizient. Der Effizienzverlust bei Normalvert. ist in vielen Fällen gering! Annahme: Verteilungsfunktion ist stetig (wenn nicht anders vermerkt) W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 420 / 566

118 Nichtparametrische Tests Einstichprobenproblem Nulhypothese Alternative a) H 0 : µ µ 0 H A : µ > µ 0 b) H 0 : µ µ 0 H A : µ < µ 0 c) H 0 : µ = µ 0 H A : µ µ 0 Nichtparametrische Tests Vorzeichentest Wie bisher werden die Differenzen X i µ 0 gebildet. { 1 falls X i µ 0 > 0 V i := 0 falls X i µ 0 < 0 V + = n i=1 = # Differenzen mit positivem Vorzeichen W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 421 / 566 V i

119 Nichtparametrische Tests Vorzeichentest (2) Nichtparametrische Tests Bem: Der Fall X i µ 0 = 0 tritt wegen der Stetigkeit der Vf. nur mit Wkt. 0 auf. Sollte der Wert X i µ 0 = 0 trotzdem vorkommen (Meßungenauigkeit) so wird die entspr. Beobachtung weggelassen und der Stichprobenumfang entsprechend verringert. (Nachteil: Es werden gerade Beob. weggelassen, die für die Nullhypothese sprechen!) Es gilt: V + B(n, 1 2 ) (V + = # Erfolge bei n Versuchen mit Wkt. je 1 2 ). krit. Werte können leicht bestimmt werden: BINV(1 α, n, 1 2 ) oder QUANTILE( Binomial,1 α, n, 1 2 ) W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 422 / 566

120 Nichtparametrische Tests Vorzeichentest (3) Teststatistik Nichtparametrische Tests M = V + n (= V+ V ) (zentriertestatistik) 2 2 n + : Realisierung von V + n : Realisierung von V Zweiseitiger p-wert: P( M n + n 2 ) = P( M max(n+, n ) n 2 )=(*) denn n + n n + n n + > n = n 2 n+ n + < n 2 = n n 2 W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 423 / 566

121 Nichtparametrische Tests Vorzeichentest (4) Der p-wert ist gleich Nichtparametrische Tests ( ) = P ( V + n 2 max(n+, n ) n + 2) P ( n 2 V+ max(n +, n ) n ) 2 = P ( V + max(n +, n ) ) + P ( n V + max(n +, n ) ) n ( ) n = 2 ( 1 j 2 )j ( 1 2 )n j j=max(n +,n ) = ( 1 2 )n 1 n j=max(n +,n ) = ( 1 min(n+,n ) 2 )n 1 j=0 ( ) n j W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 424 / 566 ( n j ).

122 Nichtparametrische Tests Vorzeichentest (5) Nichtparametrische Tests Die Verteilung von V + ist diskret, d.h. es gibt nicht zu jedem α einen entsprechenden kritischen Wert. Aber: p-werte gibt es immer, d.h.: p < α H 0 (c) ablehnen M > 0 p 2 < α H 0 (b) ablehnen M < 0 p 2 < α H 0 (a) ablehnen Der Vorzeichentest ist meist nicht sehr effizient (Ausnahme: Verteilung=Doppelexponential) besser ist der Wilcoxon-Vorzeichen-Rangtest W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 425 / 566