Mittelwertsvergleich bei mehr als 2 Stichproben. Marcus Hudec

Mittelwertsvergleich bei mehr als 2 Stichproben Im Fall von 2 Gruppen kennen wir nunmehr verschiedene Varianten des t-tests für den Vergleich der Mittelwerte Liegen k > 2 Gruppen von Beobachtungen vor und man möchte testen, ob sie sich die Gruppen in Bezug auf den Mittelwert signifikant unterscheiden, ist es nicht adäquat einfach wiederholt mehrere paarweise Vergleiche durchzuführen. Als Standardmethode wird bei Annahme der Normalverteilung und konstanter Varianz in den Gruppen die einfache Varianzanalyse verwendet. Statistik für SoziologInnen 1

Einfache Varianzanalyse Methode geht auf Sir Ronald Fisher zurück Ein Faktor (qualitative Variable) teilt eine Grundgesamtheit in k-gruppen ein, wobei k>2 sei (ONEWAY ~ einfache Varianzanalyse, d.h. nur ein Faktor wird berücksichtigt, Ein-Weg- Varianzanalyse) Allgemeiner: ANOVA Analysis of Variance (hier können auch mehrere Faktoren analysiert werden) Statistik für SoziologInnen 2

Beispiel Fog-Index: Lesbarkeit von Texten 0,4*(durchschnittl. Anzahl Wörter pro Satz+Prozentsatz der Wörter mit mehr als 3 Silben) Newsweek 10,21 9,66 7,67 5,12 4,88 3,12 Scientific American 15,75 11,55 11,16 9,92 9,23 8,2 Sports Illustrated 9,17 8,44 6,1 5,78 5,58 5,36 Aus jedem Journal der 3 Journale wurden 6 zufällige Artikel ausgewählt und jeweils der Fog-Index ausgewertet. Statistik für SoziologInnen 3

Fragestellung: Sind die beobachteten Mittelwerts-Differenzen zufällige Schwankungen oder Ausdruck eines systematischen Effekts? Bevor wir eine inferenzstatistische Analyse durchführen, ist eine deskriptive Darstellung der empirischen Daten sinnvoll Mittelwert Varianz Standardabw. Newsweek 6,78 8,12 2,85 Scientific American 10,97 7,00 2,65 Sports Illustrated 6,74 2,68 1,64 Gesamtmittel 8,16 Statistik für SoziologInnen 4

Deskriptiver Vergleich mit Boxplots FogIndex 4 6 8 10 12 14 16 Newsweek Scientific AmericanSports Illustr. Statistik für SoziologInnen 5

Alternative Visualisierung FogIndex 4 6 8 10 12 14 16 Newsweek Scientific American Sports Illus Statistik für SoziologInnen 6

Notation Beobachtungen y ij Index i bezeichnet die Zugehörigkeit zur Gruppe und nimmt Werte von 1 bis k an Index j bezeichnet die Wiederholung in der Gruppe und nimmt Werte von 1 bis n an Wir treffen für die Notation folgende vereinfachende Annahme: die Anzahl der Beobachtungen in jeder der k Gruppen sei konstant n Die Methode der einfachen Varianzanalyse kann aber auch bei einer ungleichen Anzahl von Beobachtungen angewendet werden Statistik für SoziologInnen 7

Statistisches Modell der einfachen Varianzanalyse Faktor A mit Ausprägungen a 1,, a k y = µ + α + ε i = 1,, k j = 1,, n α = 0 ij i ij i i Gesamtmittel Effekt der Gruppe ε ij 2 ~ N(0, σ ) Im Beispiel: A Zeitung a1 Newsweek a2 Scient. Amer a3 Sports Illustrated Die Modellgleichung unterstellt, dass sich ein Messwert y ij konzeptionell wie folgt zusammensetzt: Gesamtmittelwert plus spezifischer Effekt der Gruppe - i plus zufällige Streuung der Beobachtung j in Gruppe i Statistik für SoziologInnen 8

Fehler-Modell Bezüglich des Fehlers nehmen wir an, dass die Beobachtungen innerhalb einer Gruppe jeweils mit der gleichen Varianz um den gruppenspezifischen Mittelwert entsprechend einer Normalverteilung streuen E( y ) = µ + α i = 1, K, k j = 1, K, n α = 0 ij i i i 0.0 0.1 0.2 0.3 0.4 0 2 4 6 8 10 ε ij 2 ~ N(0, σ ) Modellannahme: Varianzhomogenität Statistik für SoziologInnen 9

Interessierende Hypothese Wir sind interessiert zu testen: H 0 : α 1 =... = α k = 0 Statistik für SoziologInnen 10 gegen H 1 : α i 0 für zumindest ein i {1, 2,..., k}. Das entspricht der Nullhypothese, dass alle Erwartungswerte gleich sind: H 0 : μ 1 = μ 2 =... = μ k H A : es gibt ein Paar μ i μ j, für das gilt: μ i μ j Falls H 0 abgelehnt wird, ist der Einfluss des Faktors zum gewählten Niveau statistisch abgesichert. Alternativ können wir auch sagen, dass zumindest eine Gruppe einen signifikant unterschiedlichen Erwartungswert aufweist.

Notation für k Gruppen mit je n Beobachtungen y 11 y 12 y 1n y i1 y i2 y in y k1 y k2 y kn y y i... Mittelwert in Gruppe i = 1 n n j= 1 1 nk y k ij n = i= 1 j= 1 y ij Gesamtmittelwert über alle k Gruppen Für Notation vereinfachende Annahme: konstante Anzahl von n Beobachtungen in jeder der k Gruppen Statistik für SoziologInnen 11

Konzept der Varianzanalyse Zur Analyse des Unterschiedes in Bezug auf den Mittelwert zwischen den k Gruppen wird die gesamte in der Datenmatrix enthaltene Streuung in zwei Komponenten zerlegt: Variabilität zwischen den Gruppen Variabilität innerhalb der Gruppen Der beobachtete Unterschied der Mittelwerte in den einzelnen Faktorstufen ist umso bedeutsamer, je geringer der Anteil der Variabilität in den Gruppen und je größer daher der Anteil der Variabilität zwischen den Gruppen ist Statistik für SoziologInnen 12

Visualisierung der Varianzzerlegung im Beispiel SS-Within bzw. SS-Residuals 8 Total 6 4 2 0 Treatment 8 6 Sc.Americ. Newsweek Gesamtmittel 4 Sp. Sp. Illustrated Illustr. 2 0 Newsweek Sc. Amer. 0 1 2 3 4 5 Statistik für SoziologInnen 13

Rechenschema der Varianzzerlegung Spezialfall: Jede Ausprägung des Faktors wird genau n-mal wiederholt. Insgesamt gibt es dann N=n*k Beobachtungen Source of Variation SS degrees of freedom Sum of Squares Treatment SSA k-1 n k ( y 2 y ) i= 1 i... Mean Squares MSA=SSA/(k-1) Error SSE k(n-1) 2 ( yij yi. ) MSE=SSE/k(n-1) Total SST kn-1 2 ( y y ) ij ij ij.. SSTreatment ~ SSBetween ~ SSExplained SSError ~ SSWithin Im Beispiel: n=6, k=3, N=18 Statistik für SoziologInnen 14

Teststatistik Falls die Modellvoraussetzungen erfüllt sind, weist die Teststatistik F-Test = MSA/MSE (Mean Square Explained divididiert durch Mean Square Residual) unter der Nullhypothese eine F k 1, nk k Verteilung auf siehe dazu auch die Spalte df (degrees of freedom) in der ANOVA-Tabelle H 0 wird genau dann zu einem Niveau α abgelehnt, falls die F- Teststatistik größer als das entsprechende 1- α Quantil der F-Verteilung (der kritische Tabellenwert) mit k-1 und k(n-1) Freiheitsgraden ist. Statistik für SoziologInnen 15

F-Test Der F-Test ergibt sich also aus dem Quotienten der Variabilität zwischen den Gruppen dividiert durch die Variabilität innerhalb der Gruppen Je größer die Teststatistik ist, desto stärker ist der Unterschied der Mittelwerte ausgeprägt. Die Beurteilung der Signifikanz erfolgt mit der F- Verteilung, wobei die Freiheitsgrade genau den Freiheitsgraden der Streuungsursachen entsprechen. Statistik für SoziologInnen 16

Detaillierte Berechnung (siehe XLS) Newsweek 10,21 9,66 7,67 5,12 4,88 3,12 Scientific American 15,75 11,55 11,16 9,92 9,23 8,2 Sports Illustrated 9,17 8,44 6,1 5,78 5,58 5,36 Mittelwert Varianz Standardabw. Newsweek 6,78 8,12 2,85 Gesamtmittel 8,16 Scientific American 10,97 7,00 2,65 Sports Illustrated 6,74 2,68 1,64 SS TREATMENT 70,93 SS TOTAL 4,20 2,25 0,24 9,25 10,77 25,41 57,59 11,48 8,99 3,09 1,14 0,00 1,02 0,08 4,25 5,67 6,66 7,85 159,94 SS Residuals 11,79 8,31 0,80 2,74 3,60 13,37 22,86 0,34 0,04 1,10 3,02 7,66 5,91 2,90 0,41 0,92 1,34 1,90 89,01 Statistik für SoziologInnen 17

Ergebnis Df Sum of Squares Mean Squares F-value p-value SS TREATMENT 2 70,93 35,46 5,98 0,01234 SS Residuals 15 89,01 5,93 SS TOTAL 17 159,94 9,41 Der F-Test testet die Hypothese, ob es überhaupt Unterschiede zwischen den Mittelwerten der Gruppen gibt. Die Teststatistik ist definiert durch den Quotienten MS TREATMENT /MS Residuals und folgt unter H 0 einer F-Verteilung mit k-1 und N-k [da N= n x k ist alternativ n x k - k oder k x (n-1)] Freiheitsgraden. Große Werte des F-Tests signalisieren, dass die Variabilität zwischen den Gruppen im Verhältnis zur Variabilität in den Gruppen bedeutsam ist kleiner p-value signifikante Differenzen. Statistik für SoziologInnen 18

Multiple Paarvergleiche Der F-Test testet die Hypothese, ob es überhaupt Unterschiede zwischen den Gruppen gibt. Angenommen der F-Test liefert ein signifikantes Resultat, so bedeutet dies, dass nicht alle Gruppenmittelwerte gleich sind. Es stellt sich nun die Frage: Welche der Gruppenmittelwerte unterscheiden sich wirklich (statistisch nachweisbar) voneinander? Keine adäquate Strategie ist es, hier einfach alle paarweisen Vergleiche zu rechnen, da es zu einer Kumulierung des α-fehlers kommt. Statistik für SoziologInnen 19

Multiple Paarvergleiche Bei k-gruppen gibt es k 2 k-gruppen Paarvergleiche 3 3 4 6 5 10 6 15 7 21 8 28 9 36 10 45 paarweise Vergleiche. Da sich die einzelnen Fehlerwahrscheinlichkeiten der vielen Paarvergleiche kumulieren, ist der Fehler 1.Art insgesamt wesentlich größer als die für jeden einzelnen Paarvergleich gewählte Irrtumswahrscheinlichkeit. Statistik für SoziologInnen 20

Multiple Vergleiche Das Problem multipler Vergleiche (multiple comparisons) tritt beim Hypothesentesten ganz allgmein immer dann auf, wenn durch das wiederholte Anwenden von Hypothesentests im Rahmen einer empirischen Untersuchung der Fehler 1.Art vergrößert wird. Ziel muss es sein, den studienweiten Fehler für die gesamte Untersuchung zu kontrollieren (experimentelle Fehlerrate, experimentwise oder familywise error rate). Statistik für SoziologInnen 21

Multiple Vergleiche Führen wir im Rahmen einer Erhebung m unabhängige Vergleiche durch, und nehmen wir an, dass jede einzelne Nullhypothese zutrifft, so erhöht sich der Fehler 1.Art für die gesamte Untersuchung wie folgt: α gewählte Irrtumswahrscheinlichkeit pro Einzeltest α* Irrtumswahrscheinlichkeit der gesamten Untersuchung α = 0,05 α * = 1 (1 α) m m α* 1 0,05 2 0,10 3 0,14 4 0,19 5 0,23 10 0,40 20 0,64 50 0,92 Statistik für SoziologInnen 22

Bonferoni Korrektur Für den Fall, dass wir m nicht unabhängige Vergleiche durchführen, können wir aufgrund der Boole-schen Ungleichung folgende Aussage treffen α * m α Wir können diese Aussage dazu verwenden, um mit einem einfachen Trick sicherzustellen, dass die gesamte Fehlerrate unterhalb eines gewünschten Niveaus α * liegt. Wir wenden für jeden der m Einzeltests ein Niveau von α * /m testen. Die Fehlerrate für die einzelnen Tests wird also so gewählt, dass man die gewünschte experimentelle Fehlerrate durch die Gesamtzahl der durchzuführenden Tests dividiert. Diese konservative Vorgehensweise ist unter dem Namen Bonferroni-Korrektur bekannt. Statistik für SoziologInnen 23

Bonferoni Korrektur Will man also bei k Gruppen nachtesten, welche paarweisen Unterschiede signifikant sind, muss man das Signifikanzniveau also wie folgt adjustieren ( multiple comparisons problem ) Die einfachste (konservative) Methode: Bonferoni-Korrektur α α*/ k = 2 Ermittlung von Alpha für Einzeltest Dementsprechend wird jeder einzelne Paarvergleich zum Niveau 2α /(k²-k) getestet werden, um insgesamt ein Niveau von α * aufrechtzuhalten. Bei k=3 bedeutet dies, dass um die experimentelle Fehlerrate von 5% zu erhalten, alle 3 Paarvergleiche H o : µ 1 =µ 2, H o : µ 1 =µ 3 und H o : µ 2 =µ 3 zu einem Niveau von 1,6667% getestet werden müssen. (Entspricht Multiplikation des p-values mit 3) Statistik für SoziologInnen 24

Umsetzung mit SPSS ONEWAY FogIndex BY Zeitschrift /STATISTICS DESCRIPTIVES HOMOGENEITY /PLOT MEANS /MISSING ANALYSIS /POSTHOC=BONFERRONI ALPHA(0.05). Statistik für SoziologInnen 25

SPSS - Output Statistik für SoziologInnen 26

Prüfung der Modellannahmen - Bartlett Test Der Bartlett-Test püft, ob k Stichproben aus k Grundgesamtheiten mit gleichen Varianzen stammen. Der Bartlett Test setzt eine Normalverteilung in den k Gruppen voraus und reagiert sensitiv auf die Verletzung dieser Voraussetzung. (Verallgemeinerung des F-Tests) Die Teststatistik ist unter H 0 approximativ Chi²-verteilt mit k-1 Freiheitsgraden Statistik für SoziologInnen 27

Levene Test Der Levene-Test ist ein Signifikanztest, der es erlaubt auf die Gleichheit der Varianzen (Homoskedastizität) von zwei oder mehr Grundgesamtheiten (Gruppen) zu prüften. Die Nullhypothese ist, dass alle Gruppenvarianzen gleich sind. Die Alternativhypothese ist, dass mindestens ein Gruppenpaar ungleiche Varianzen besitzt (Heteroskedastizität). Der Levene-Test ist eine robuste Alternative zum Bartlett-Test, der Normalverteilung voraussetzt. Statistik für SoziologInnen 28

Levene Test H : σ = σ =... = σ 2 2 2 0 1 2 k 2 2 1 : σi σ j für mindestens ein Gruppenpaar i,j mit H i j Z = Y Y i = 1,..., k ij ij i L= k k n ( Z Z)² i= 1 n i= 1 j= 1 i ( Z Z)² ij ( k 1) ( N k) ~ F k 1; N k n n 1 1 Z = Z = Y Y i ij ij i n j= 1 n j= 1 Die Teststatistik ist formal identisch zur Teststatistik der einfachen Varianzanalyse für die Gleichheit von k-gruppenmittelwerten. Allerdings repräsentiert ein Gruppenmittelwert Z i eine robuste Schätzung der Gruppenvariabilität. Statistik für SoziologInnen 29

Achtung bei der Interpretation von nicht signifikanten Ergebnissen! Kein Beweis für Gleichheit der Varianzen (Power des Tests!) Lediglich Indikation, dass aus den empirischen Daten eine Verletzung der Annahme homogener Varianzen nicht gegeben erscheint. Statistik für SoziologInnen 30

Unterschiedliche Gruppengrößen In vielen praktischen Anwendungsfällen kann man nicht verhindern, dass die Anzahl der Beobachtungen in den verschiedenen Gruppen unterschiedlich sind Für diese Situation gibt es eine modifizierte Version der einfachen ANOVA. Streuungsurschae Summe der Abweichungsquadrate Freiheitsgrade Mittlere Quadratsumme Teststatistik Faktor SSA k 1 MSA=SSA/(k-1) f=msa/mse Fehler SSE N-k MSE=SSE/(N-k) Total SST=SSA+SSE N-1 N=Gesamtanzahl der Beobachtungen Statistik für SoziologInnen 31 N k = n i= 1 i

Unterschiedliche Gruppengrößen Bezeichnung y für den Gesamtmittelwert (anstelle von y.. im Falle gleicher Gruppengrößen), da y nun ein gewichtetes Mittel der ist. y i. = 1 n i n i j= 1 k 1 y = ni y N i= 1 Die F-Statistik MSA/MSE ist unter H 0 F-verteilt mit k 1 und N k Freiheitsgraden. Bemerkung: Bei 2 Gruppen ist dieser Test äquivalent zum zweiseitigen Zweistichproben t-test unter Annahme, dass die Varianzen in beiden Gruppen gleich sind. Statistik für SoziologInnen 32 y ij i. k i= 1 i= 1 j= 1 i. y i. SSA = n ( y y) k i n SSE = ( y y ) i ij i. 2 2

Modell-Annahmen Normalverteilung: F-Test ist robust, sofern Abweichung von Normalverteilung nicht zu stark! Annahme gleicher Varianzen in den Gruppen (Homoskedastizität): Wichtige Annahme! Wenn Gruppen verschiedene Varianzen haben, ist der Fehler erster Art nicht mehr garantiert. Mögliche Auswege: Verwenden der Welch-Korrektur auch beim F-Test zum Vergleich von k-gruppen Varianzstabilisierende Transformationen (zb. Arbeiten mit logarithmierten Werten) Statistik für SoziologInnen 33

Variante ohne Annahme gleicher Varianzen ONEWAY FogIndex BY Zeitschrift /STATISTICS DESCRIPTIVES WELCH /MISSING ANALYSIS. Statistik für SoziologInnen 34

Nichtparametrische Alternative Häufig gibt es Situationen, bei denen man der Modellvoraussetzung der Normalverteilung für den t-test (bzw. der einfachen Varianzanalyse) zum Vergleich der Mittelwerte von 2 (bzw. k>2) unabhängigen Stichproben nicht trauen kann. In diesem Fall eignet sich der U-Test nach Mann und Whitney (auch Wilcoxon Test für 2- unabhängige Stichproben genannt) als echte Alternative. Statistik für SoziologInnen 35

Mann Whitney U-Test Der U-Test ist für den Fall nicht-normaler Merkmals-Verteilungen geeignet, um auf die Gleichheit der Mittelwerte zu testen. Als einzige Voraussetzung gilt die Bedingung, dass die Form der Verteilungen in den beiden zu vergleichenden Gruppen gleich und stetig sein müssen. Statistik für SoziologInnen 36

Modell: t-test mit homogenen Varianzen Statistik für SoziologInnen 37

Modell: t-test mit verschiedenen Varianzen Statistik für SoziologInnen 38

Mann Whitney U-Test (Wilcoxon Test) Statistik für SoziologInnen 39

Mann Whitney U-Test (Wilcoxon Test) Der U-Test prüft also folgende Nullhypothese: Die Wahrscheinlichkeit einer Beobachtung aus den beiden Grundgesamtheiten ist für jede der beiden Grundgesamtheiten gleich (d.h. die Verteilungen sind gleich): H 0 : F 1 (x) = F 2 (x) versus H 1 : F 1 (x) = F 2 (x+a) Beachte Form der Verteilung bleibt erhalten ist aber auf der x-achse verschoben Das bedeutet auch hier wird Varianzhomogenität angenommen! Statistik für SoziologInnen 40

Grundidee: Mann Whitney U-Test Das Prinzip des U-Tests basiert auf folgender Überlegung: Sortiert man die Messwerte der beiden Stichproben in einer gemeinsamen Liste in aufsteigender Reihenfolge, so werden die Rangsummen für jede der beiden Stichproben sich nur dann stark unterscheiden, wenn sich die beiden Verteilungen unterscheiden (also die eine Gruppe systematisch kleinere Werte aufweist als die andere). Zur Berechnung der Prüfgröße U werden die Stichproben also gemeinsam sortiert und jeweils festgehalten, welcher Messwert zu welcher Stichprobe gehört. Statistik für SoziologInnen 41

Beispiel: Nutzung von 2 gruppen unserer Daten RANG Newsweek 10,21 Newsweek 3,12 1 Newsweek 9,66 Newsweek 4,88 2 Newsweek 7,67 Newsweek 5,12 3 Newsweek 5,12 Newsweek 7,67 4 Newsweek 4,88 Scientific American 8,2 5 Newsweek 3,12 Scientific American 9,23 6 Scientific American 15,75 Newsweek 9,66 7 Scientific American 11,55 Scientific American 9,92 8 Scientific American 11,16 Newsweek 10,21 9 Scientific American 9,92 Scientific American 11,16 10 Scientific American 9,23 Scientific American 11,55 11 Scientific American 8,2 Scientific American 15,75 12 Offensichtlich ist keine gute Durchmischung gegeben, die Rangsumme für Scientific American ist deutlich größer als jene von Newsweek R1 26 4,33 U1 31 R2 52 8,67 U2 5 78 U 5 Statistik für SoziologInnen 42

Mann Whitney U-Test Grundgedanke: Wie verteilen sich die Ränge in einer gemeinsamen Stichprobe? Ermittle die Rangsumme für jede Stichprobe und teste, ob diese extreme Werte annimmt. Ordne alle Beobachtungen und zähle die Ränge der ersten Gruppe (R 1 ~Rangsumme der Gruppe 1) sowie der zweiten Gruppe (R 2 ~ Rangsumme der Gruppe 1). Bestimme die Teststatistik U nach der Formel links unten Für deren Verteilung gibt es bei kleinen Stichproben eigene Tabellen; bei großen Stichproben Normalverteilung falls n 8; n 8 n1 ( n1+ 1) U1= nn 1 2+ R1 2 n ( n + 1) U = nn + R 2 U = min( U, U ) 2 2 2 1 2 2 1 2 z = 1 2 n1 n2 U 2 n1 n2 ( n1+ n2 + 1) 12 Statistik für SoziologInnen 43

Beispiel: RANG Newsweek 10,21 Newsweek 3,12 1 Newsweek 9,66 Newsweek 4,88 2 Newsweek 7,67 Newsweek 5,12 3 Newsweek 5,12 Newsweek 7,67 4 Newsweek 4,88 Scientific American 8,2 5 Newsweek 3,12 Scientific American 9,23 6 Scientific American 15,75 Newsweek 9,66 7 Scientific American 11,55 Scientific American 9,92 8 Scientific American 11,16 Newsweek 10,21 9 Scientific American 9,92 Scientific American 11,16 10 Scientific American 9,23 Scientific American 11,55 11 Scientific American 8,2 Scientific American 15,75 12 R1 26 4,33 U1 31 R2 52 8,67 U2 5 78 U 5 Statistik für SoziologInnen 44

Interpretation: Mann Whitney U-Test Die Nullhypothese H 0 wird verworfen, wenn der berechnete U-Wert kleiner oder gleich dem kritischen Wert U krit (n 1, n 2, a). Das Verwerfen der Nullhypothese bedeutet, dass die Verteilungen nicht gleich sind. SPSS wirft ohnehin direkt den p-value aus. Lehnt man die Annahme der H 0 (gleiche Verteilung) ab, folgt daraus, dass die Mittelwerte ungleich sein müssen. Statistik für SoziologInnen 45

Verallgemeinerung des Mann Whitney-Test auf k-gruppen Nichtparametrische einfache Varianzanalyse nach Kruskal Wallis Statistik für SoziologInnen 46

Paarweise Vergleiche bei Kruskal Wallis Statistik für SoziologInnen 47