Statistik-Team. Tobias Kley: Übung: Freitag, Uhr, HGA 10 Tutorium (SPSS) - ab

Transkript

1 Statistik-Team Tobias Kley: Übung: Freitag, Uhr, HGA 10 Tutorium (SPSS) - ab Koordination: Dr. Helge Thiemann Helge.Thiemann-i5m@ruhr-uni-bochum.de 0234/ Gafo Montag (GAFO 04/271) Linda Engelbrecht Linda.Engelbrecht@web.de Montag (GAFO 03/901); Montag (GAFO 03/901); Freitag (GAFO 03/974 ) Max Willenberg max.willenberg@gmx.de 1 / 51

2 3.1 Matrizen und Vektoren, Kodierung 3.2 Addition und Multiplikation von Matrizen 3.3 Das allgemeine (ALM), Methode der kleinsten Quadrate 3.4 Der F -test im ALM 3.5 Zweifaktorielle Varianzanalyse Messwiederholungen 2 / 51

3 3 / 51

4 Beispiel 3.19: Therapieerfolg bei Verhaltensstörungen Wie wirkt sich eine psychotherapeutische Behandlung auf verschiedene Verhaltensstörungen aus Es werden 3 Gruppen untersucht Konzentrationsstörung (5 Patienten) Schlafstörung (5 Patienten) Hysterische Verhaltungsstörung (5 Patienten) Gemessen wird der Therapieerfolg y (durch Expertenteam eingestuft) 4 / 51

5 Daten K: Konzentrationsstörung (i = 1) S: Schlafstörung (i = 2) H: Hysterische Verhaltsstörung (i = 3) j K S H Beachte: Es liegt hier das Modell der einfaktoriellen Varianzanalyse vor (vgl. Methodenlehre II, Beispiel 3.8(a)). Es gibt zwei Darstellungen des Modells Y ij = µ i + ε ij = µ + α i + ε ij i = 1, 2, 3; j = 1, 2,..., 5 5 / 51

6 SPSS-Output (einfaktorielle Varianzanalyse für Beispiel 3.19 ohne Berücksichtigung von Kovariablen) Tests der Zwischensubjekteffekte Abhängige Variable:Therapieerfolg Quadratsumme Quelle vom Typ III Korrigiertes Modell 36,400 a Konstanter Term 153,600 GRUPPE 36,400 Fehler 14,000 Gesamt 204,000 Korrigierte 50,400 Gesamtvariation df 2 a. R-Quadrat =,722 (korrigiertes R-Quadrat =,676) Mittel der Quadrate 18, ,600 18,200 1,167 F 15, ,657 15,600 Sig.,000,000,000 Man beachte: Die drei behandelten Gruppen unterscheiden sich signifikant Die Ergebnisse lassen vermuten, dass die Therapie bei Konzentrationsstörungen zum größten Erfolg führt (y 1 = 5.2; y 2 = 3; y 3 = 1.4) 6 / 51

7 Vermutung: Therapieerfolg hängt auch von der Verbalisationsfähigkeit (verbale Intelligenz x) der Patienten ab. Diese Eigenschaft wird aus diesem Grund mit gemessen K S H j x y x y x y Frage: Ändert sich das Ergebnis der Varianzanalyse, falls die verbale Intelligenz in die Untersuchungen mit einbezogen wird? 7 / 51

8 Streudiagramm und lineare Regressionsgeraden 6,00 Verhaltensstörung Konzentrationsstörung Schlafstörung Hysterische Verhaltsstörung Anpassungslinie für Gesamtsumme 5,00 Therapieerfolg 4,00 3,00 2,00 Konzentrationsstörung: R 2 Linear = 0,754 Schlafstörung: R 2 Linear = 0,837 Hysterische Verhaltsstörung: R 2 Linear = 0,892 R 2 Linear = 0,078 1,00 4,00 6,00 8,00 10,00 12,00 14,00 Verbale Intelligenz Beachte: Die Korrelation in der Gesamtgruppe ist negativ, aber in den einzelnen Gruppen positiv! 8 / 51

9 3.20 Das Modell der einfaktoriellen Kovarianzanalyse Wie bei der einfaktoriellen Varianzanalyse gibt es zwei Darstellungen: Y ij = µ + α i + γx ij + ε ij = µ i + γx ij + ε ij i = 1,..., k ; j = 1,..., n i (µ i = µ + α i, α α k = 0) y ij : Testergebnis des j-ten Patienten in der i-ten Gruppe (im Beispiel ist k = 3; n 1 = n 2 = n 3 = 5) µ i : Einfluss der Verhaltensstörung auf Therapieerfolg x ij : Kovariable (Verbalisationsfähigkeit) des j-ten Patienten der Gruppe i. γx ij ist dann der Einfluss der Kovariablen (Verbalisationsfähigkeit) des Patienten j in Gruppe i auf den Therapieerfolg 9 / 51

10 3.20 Das Modell der einfaktoriellen Kovarianzanalyse Zwei Darstellungen: Y ij = µ + α i + γx ij + ε ij = µ i + γx ij + ε ij i = 1,..., k ; j = 1,..., n i (µ i = µ + α i, α α k = 0) Der Parameter γ bemisst den Einfluss der Kovariablen (Verbalisationsfähigkeit) auf den Therapieerfolg. γ = 0 bedeutet: die Kovariable (Verbalisationsfähigkeit) hat keinen Einfluss auf den Therapieerfolg. Beachte: der Faktor γ ist für jede Gruppe derselbe - d.h. er hängt nicht von dem Index i ab (Homogenität der Regressionskoeffizienten) 10 / 51

11 Beachte: Dieses Modell ist ein Spezialfall des ALM Wobei b = X = ( µ1 µ 2 µ 3 γ Y = Xb + ε ) ε = ε 11.. ε 35 Y = / 51

12 3.21 Das Modell der einfaktoriellen Kovarianzanalyse im ALM Y = XB + ε Daten- und Fehlervektor Y = y 11. y 1n1. y k1. y knk ; ε = Parametervektor und Designmatrix b = µ 1. µ k γ X = ε 11. ε 1n1. ε k1. ε knk x x 1n x x 2n x k x knk 12 / 51

13 3.22(A) Schätzer für γ (Methode der kleinsten Quadrate) k ni i=1 j=1 ˆγ = (y ij y i )(x ij x i ) k ni i=1 j=1 (x ij x i ) 2 Beachte: ˆγ ist ein gewichtetes Mittel der Schätzer für die Steigungen der Regressionsgeraden in den einzelen Gruppen. D.h. Schätzer für die Steigung in Gruppe i (vgl. Methodenlehre II, 2.11): ni j=1 ˆγ i = (y ij y i )(x ij x i ) ni j=1 (x ij x i ) 2 Anteil der Varianz der Kovariablen in Gruppe i an der Gesamtvarianz ni j=1 α i = (x ij x i ) 2 k ni i=1 j=1 (x ij x i ) 2 Es gilt (α α k = 1): ˆγ = k α i ˆγ i i=1 13 / 51

14 Schätzung von γ für die Daten aus Beispiel 3.19 Schätzung der Steigung der Regressionsgeraden in den einzelnen Gruppen ˆγ 1 = ; ˆγ 2 = ; ˆγ 3 = Varianz der Kovariablen in den einzelnen Gruppen Gruppe 1: Gruppe 2: Gruppe 3: n1 j=1 (x 1j x 1 ) 2 =2.56 n2 j=1 (x 2j x 2 ) 2 =3.44 n3 j=1 (x 3j x 3 ) 2 =2.16 Gewichte: α 1 = Schätzer für γ = ; α 2 = ; α 3 = ˆγ = = / 51

15 3.22(B) Schätzer für µ i (Methode der kleinsten Quadrate) Beachte: als Schätzer für die Parameter µ i verwendet man die Gruppenmittelwerte, wobei die Daten vorher um den Einfluss der Kovariablen korrigiert werden ˆµ i = 1 n i n j=1 (y ij ˆγx ij ) = y i ˆγx i Schätzer für die Varianz der zufälligen Fehler (Residualvarianz) ŝ 2 y x = 1 n k 1 k n i (y ij ˆµ i ˆγx ij ) 2 i=1 j=1 (dabei bezeichnet n = n n k den Gesamtstichprobenumfang) 15 / 51

16 Schätzung von µ 1, µ 2, µ 3 für die Daten aus Beispiel 3.19 Schätzung der Mittelwerte (y) einzelnen Gruppen y 1 = 5.2; y 2 = 3; y 3 = 1.4 Schätzung der Mittelwerte (x) einzelnen Gruppen x 1 = 6.8; x 2 = 9.4; x 3 = 10.8 Schätzung der korrigierten Mittelwerte einzelnen Gruppen ˆµ 1 = = 1.767; ˆµ 2 = 1.746; ˆµ 3 = / 51

17 Mathematische Formulierung der Hypothesen (im Beispiel 3.19): kein Einfluss der Kovariable Die Kovariable hat keinen Einfluss auf den Therapieerfolg: H 0 : γ = 0 Mit der Matrix K = (0, 0, 0, 1) und dem Parametervektor b = (µ 1, µ 2, µ 3, γ) T kann man diese Nullhypothese schreiben als H 0 : Kb = (0, 0, 0, 1) µ 1 µ 2 µ 3 γ = γ = 0 17 / 51

18 Mathematische Formulierung der Hypothesen (im Beispiel 3.19): kein Unterschied zwischen den Gruppen Zwischen den verschiedenen Verhaltensstörungen besteht kein Unterschied hinsichtlich des Therapieerfolgs: H 0 : µ 1 = µ 2 = µ 3 Mit der Matrix K = ( ) und dem Parametervektor b = (µ 1, µ 2, µ 3, γ) T kann man diese Hypothese schreiben als ( ) µ 1 ( ) ( H 0 : Kb = µ µ 3 = µ1 µ 2 0 = µ 2 µ 3 0 γ ) 18 / 51

19 3.23(A) F -Test auf Signifikanz des Regressionskoeffizienten Man beachte: Alle Hypothesen können mit dem F -Test im ALM (vgl. Methodenlehre II; 3.12) getestet werden. Die Anwendung der allgemeinen Theorie liefert: Die Hypothese H 0 : γ = 0 (Kovariable hat keinen Einfluss) wird zum Niveau α abgelehnt, falls F γ = 1 1 ˆγ2 ns 2 xx s 2 y x > F 1,n k 1,1 α gilt (oder der p-wert < α ist). Dabei ist F 1,n k 1,1 α das (1 α) Quantil der F -Verteilung und s 2 xx = 1 n k n i (x ij x ) 2 i=1 j=1 die Summe der quadrierten Abweichungen der Kovariablen von ihrem Mittelwert 19 / 51

20 Alternative Interpretation der Teststatistik aus 3.23(A): Differenz von Summen aus quadrierten Residuen (vgl. Methodenlehre II, Kapitel 3.4) Trifft die Hypothese H 0 : γ = 0 (die Kovariable hat keinen Einfluss auf den Therapieerfolg) zu, so liegt das Modell der einfaktoriellen Varianzanalyse vor: Bezeichnet y ij = µ i + ε ij ; i = 1,..., k; j = 1,..., n i y i = 1 n n i y ij j=1 i = 1,..., k den Mittelwert in Gruppe i (nicht bzgl. der Kovariablen korrigiert), dann ist ŝ 2 H 0 = 1 n k k (y ij y i ) 2 die Residualvarianz der einfaktoriellen Varianzanalyse (Varianz unter der Nullhypothese) i=1 20 / 51

21 Allgemeines Prinzip: Differenz von Summen aus quadrierten Residuen Nach 3.22(B) ist ŝ 2 y x = 1 n k 1 k n i (y ij ˆµ i ˆγx ij ) 2 i=1 j=1 die Residualvarianz im Modell der einfaktoriellen Kovarianzanalyse (Varianz unter der Alternative) Die Statistik des F -Tests hat die Darstellung F γ = (n k) ŝ2 H 0 (n k 1) ŝ 2 y x ŝ 2 y x = 1 1 (RSS γ H 0 RSS) 1 n k 1 RSS Man vergleicht also die Summen der quadrierten Residuen in dem Modell der einfaktoriellen Varianzanalyse [RSS γ H 0 = (n k)ŝ 2 H 0 ] und unter der Einbeziehung der Kovariablen [RSS = (n k 1)ŝ 2 y x ] Kurz: Differenz der Summe der quadrierten Residuen unter Nullhypothese und Alternative dividiert durch die Summe der quadrierten Residuen unter Alternative 21 / 51

22 Beispiel: Test auf Einfluss der Kovariablen für die Daten aus Beispiel 3.19 RSS γ H 0 = (n k) ŝ 2 H 0 = 14.0 RSS = (n k 1) ŝ 2 y x = 3.6 F γ = = = Für α = 5% ist F 1,11,0.95 = 4.844, also wird die Nullhypothese H 0 : γ = 0 (kein Einfluss der Kovariablen) zum Niveau 5% verworfen (P-Wert: ) 22 / 51

23 3.23(B) F -Test auf Unterschiede zwischen den Gruppen Die Hypothese H 0 : µ 1 = = µ k wird zum Niveau α abgelehnt, falls F µ = gilt. Dabei ist 1 k 1 1 k n k 1 i=1 k i=1 n i(y i y ) 2 ni j=1 (y ij y i ) 2 > F k 1,n k 1,1 α Fk 1,n k 1,1 α das (1 α)-quantil der F -Verteilung mit (k 1, n k 1) Freiheitsgraden y ij = y ij ˆγx ij (die um den Einfluss der Kovariablen bereinigten Daten) y i = 1 ni n i j=1 y ij der Gruppemmittelwert in Gruppe i y = 1 k n1 n i=1 j=1 y ij der Gesamtmittelwert Beachte: es wird eine einfaktorielle Varianzanalyse mit den korrigierten Daten yij = y ij ˆγx ij durchgeführt 23 / 51

24 Alternative Interpretation der Teststatistik aus 3.23(A): Differenz von Summen aus quadrierten Residuen F µ = 1 k 1 (RSS µ H 0 RSS) 1 n k 1 RSS Residuensumme unter der Nullhypothese H 0 : µ 1 = = µ k RSS µ H 0 = k n i (yij y ) 2 i=1 j=1 Residensumme im Modell der Kovarianzanalyse (ˆµ i = 1 ni n i j=1 (y ij ˆγx ij ) = y i beachten!) RSS = k n i (y ij ˆµ i ˆγx ij ) 2 = i=1 j=1 k n i (yij y i ) 2 i=1 j=1 24 / 51

25 Beispiel: Test auf Gruppenunterschiede für die Daten aus Beispiel 3.19 RSS µ H 0 = RSS = 3.6 F µ = 1 2 ( ) 1 = = Für α = 5% ist F 2,11,0.95 = 3.982, also wird die Nullhypothese (keine Gruppenunterschiede) H 0 : µ 1 = µ 2 = µ 3 zum Niveau 5% verworfen (P-Wert: ) 25 / 51

26 SPSS-Output: einfaktorielle Kovarianzanalyse Tests der Zwischensubjekteffekte Abhängige Variable:Therapieerfolg Quadratsumme Quelle vom Typ III Korrigiertes Modell 46,801 a Konstanter Term,880 GRUPPE 42,850 VERBALE_INTELLIGENZ 10,401 Fehler 3,599 Gesamt 204,000 Korrigierte 50,400 Gesamtvariation df Mittel der Quadrate 15,600,880 21,425 10,401,327 F 47,681 2,691 65,483 31,789 Sig.,000,129,000,000 a. R-Quadrat =,929 (korrigiertes R-Quadrat =,909) Man Beachte: Durch Einbeziehung der Kovarariablen verkleinert sich die Summe der quadrierten Residuen von (im Modell der einfaktoriellen Varianzanalyse) auf 3.6 (im Modell der einfaktoriellen Kovarianzanalyse). D.h. statt 72.22% werden 92.86% der Varianz erklärt! 26 / 51

27 3.24 Voraussetzungen für die Kovarianzanalyse Modell der einfaktoriellen Kovarianzanalyse y ij = µ i + γx ij + ε ij = µ + α i + γx ij + ε ij i = 1,..., k; j = 1,..., n i µ i repräsentiert den Einfluss der Gruppe i auf die abhängige Variable y ij γx ij repräsentiert den Einfluss der Kovariablen x ij auf die abhängige Variable y ij Die zufälligen Fehler ε ij sind unabhängig und normalverteilt mit Erwartungswert 0 und Varianz σ 2 (diese Annahme ist in Beispiel 3.19 mindestens diskussionswürdig) Der Faktor γ is unabhängig von der Gruppe (d.h. hängt nicht von i ab): Homogenität der Regressionskoeffizienten 27 / 51

28 3.25 Überprüfung der Annahme der Homogenität der Regressionskoeffizienten Modell y ij = µ i + γ i x ij + ε ij ; i = 1,..., k; j = 1,..., n i Nullhypothese: Der Einfluss der Kovariablen ändert sich nicht mit der Gruppenzugehörigkeit H 0 : γ 1 = γ 2 = = γ k Beachte: - In diesem Modell betrachtet für jede Gruppe eine Regressionsgerade und die Nullhypothese sagt aus, dass dieser k Geraden parallel sind - Das Modell hat 2k Parameter µ 1,..., µ k, γ 1,..., γ k (im Beispiel 6) - Das Modell der einfaktoriellen Kovarianzanalyse hat k + 1 Parameter µ 1,..., µ k, γ (im Beispiel 4) 28 / 51

29 Design- und Hypothesenmatrix für Beispiel 3.19 b = µ 1 µ 2 µ 3 γ 1 γ 2 γ 3 X = K = Kb = ( ( ) γ1 γ 2 γ 2 γ 3 ) 29 / 51

30 3.26 F -Test für die Hypothese der Homogenität der Regressionskoeffizienten Die Hypothese H 0 : γ 1 = = γ k wird zum Niveau α abgelehnt, falls Dabei sind F γ = 1 k 1 (RSS H 0 RSS) 1 n 2k RSS > F k 1,n 2k,1 α ni j=1 (y ij ˆµ i ˆγx ij ) 2 die Summe der quadrierten RSSH0 = k i=1 Residuen unter der Nullyhpothese ˆµi, ˆγ die kleinsten Quadrate Schätzer unter der Annahme der Homogenität der Regressionskoeffizienten (vgl. Bemerkung 3.22) RSS = k ni i=1 j=1 (y ij µ i γ i x ij ) 2 die Summe der quadrierten Residuen, unter der Annahme, dass keine Homogenität der Regressionskoeffizienten vorliegt ( µi, γ i ) die kleinsten Quadrate Schätzungen, unter der Annahme, dass keine Homogenität der Regressionskoeffizienten vorliegt 30 / 51

31 Beispiel: F -Test für die Hypothese der Homogenität der Regressionskoeffizienten für die Daten aus Beispiel 3.19 RSS H0 = 3.6 RSS = F γ = 1 2 ( ) 1 = = Für α = 5% ist F 2,9,0.95 = 4.256, also wird die Nullhypothese der Homogenität der Regressionskoeffizienten H 0 : γ 1 = γ 2 = γ 3 zum Niveau 5% nicht verworfen (P-Wert: 0.824) 31 / 51

32 SPSS Output: Überprüfung der Annahme der Homogenität in der einfaktoriellen Kovarianzanalyse Tests der Zwischensubjekteffekte Abhängige Variable:Therapieerfolg Quelle Korrigiertes Modell Konstanter Term GRUPPE VERBALE_INTELLIGENZ GRUPPE * VERBALE_INTELLIGENZ Fehler Gesamt Korrigierte Gesamtvariation Quadratsumme vom Typ III 47,955 a,483 4,213 8,795 1,154 2, ,000 50,400 df Mittel der Quadrate 9,591,483 2,107 8,795,577,272 F 35,304 1,779 7,754 32,374 2,124 Sig.,000,215,011,000,176 a. R-Quadrat =,951 (korrigiertes R-Quadrat =,925) 32 / 51

33 3.27 Bemerkungen zur Kovarianzanalyse Mit der Kovarianzanalyse überprüft man, wie bedeutsam der Einfluss der Kovariablen ist Der Einfluss der Kovariablen wird durch die Kovarianzanalyse neutralisiert Durch die Beachtung der Kovariablen wird im Modell der Varianzanalyse die Residualvarianz reduziert. Beachte: liegt keine Homogenität der Regessionskoeffizienten vor, so ist eine Durchführung der Kovarianzanalyse wie in 3.23(A) und 3.23(B) beschrieben nicht sinnvoll. 33 / 51

34 3.27 Bemerkungen zur Kovarianzanalyse Eine Kovarianzanalyse ist eine Varianzanalyse bereinigt um den Einfluss der Kovariablen. D.h. Eine Kovarianzanalyse ist eine Varianzanalyse der Regressionsresiduen y ij = y ij ˆγx ij Durch die Kovarianzanalyse wird die Verzerrung durch die Gruppenunterschiede in der gewöhnlichen linearen Regression korrigiert Das Modell der Kovarianzanalyse kann in verschiedene Reichtungen erweitert werden: Mehrere Faktoren. Z.B. Zweifaktorielle Kovarainzanalyse y ijk = µ + α i + β j + αβ ij + γx ijk + ε ijk Modelle mit Messwiederholungen (vgl. Kapitel 3.7) Mehrdimensionale Kovariablen 34 / 51

35 35 / 51

36 3.28 Beispiel: Tagesschwankungen des Hautwiderstands Bei 10 Versuchspersonen wird morgens, mittags und abends der Hautwiderstand gemessen Es soll überprüft werden, ob der Hautwiderstand Tagesschwankungen unterliegt (α = 0.01) oder zu den drei Zeiten im Mittel gleich ist Beachte: Die Versuchspersonen werden unter den 3 Faktorstufen wiederholt untersucht. Problem: In solchen Versuchsanordnungen ist in der Regel die Unabhängigkeitsannahme, die für die einfaktorielle Varianzanalyse benötigt wird (vgl. Methodenlehre II, 1.4), nicht mehr erfüllt 36 / 51

37 Daten im Beispiel 3.28 Vpn morgens mittags abends / 51

38 Lineares Modell für Beispiel 3.28 Man modelliert hier einen personenindividuellen Mittelwert und einen Mittelwert für die Tageszeit: Y ij = µ i + p j + ε ij i = 1, 2, 3 j = 1,..., 10 Beachte: Das ist das Modell der zweifaktoriellen Varianzanalyse (vgl. Methodenlehre II, Kapitel 3.5) mit einer Beobachtung pro Faktorkombination, wobei - keine Wechselwirkung angenommen wird (da man diese mit einer Beobachtung pro Faktorkombination nicht schätzen kann) - Die zufälligen Fehler ε ij in der Regel nicht als unabhängig angenommen werden können - Das Modell hat 13 Parameter µ 1, µ 2, µ 3; p 1,..., p 10 - Oft werden die Personeneffekte als zufällig angenommen ( ALM mit zufälligen Faktoren). Diese Thematik wird in dieser Vorlesung nicht besprochen. 38 / 51

39 Man modelliert hier einen personenindividuellen Mittelwert und einen Mittelwert für die Tageszeit: Y ij = µ i + p j + ε ij i = 1, 2, 3 j = 1,..., 10 Parameter im ALM Y = Xb + ε b = (µ 1, µ 2, µ 3, p 1,..., p 10 ) T Die zu prüfende Hypothese keine Tagesschwankungen kann dann formuliert werden als: ( ) ( ) ( µ1 µ H 0 : Kb = b = 2 0 = µ 2 µ 3 0 Würde man die Abhängigkeit der Fehler ε ij ingnorieren, dann wäre der F -Test aus Kapitel 3.4 anwendbar! ) 39 / 51

40 SPSS-Output: Varianzanalyse für die Daten aus Bsp Tests der Zwischensubjekteffekte Abhängige Variable:HAUTWIDERSTAND Quadratsumme Quelle vom Typ III df Modell VPN TAGESZEIT Fehler Gesamt 1353,333 a 11,633 21,667 23, , Mittel der Quadrate 112,778 1,293 10,833 1,315 a. R-Quadrat =,983 (korrigiertes R-Quadrat =,971) F 85,775,983 8,239 Sig.,000,486,003 Beachte: Die Hypothese, dass sich der Hautwiderstand im Tagesverlauf nicht ändert wird zum Niveau α = 0.01 verworfen (p-wert: 0.003) Die Berechnung der p-werte erfolgt unter der Annahme, dass die Größen ε ij unabhängig sind (diese Annahme ist hier nicht zu rechtfertigen) 40 / 51

41 Problem: abhängige Daten Bei der Berechnung der p-werte in dem vorigen Beispiel wird verwendet dass die Teststatistik eine F -Verteilung mit (2, 18) Freiheitsgraden besitzt. Diese Vorgehensweise ist korrekt, falls die Größen ε ij unabhängig sind (diese Annahme ist hier nicht zu rechtfertigen) Häufig sind die Fehler bei Untersuchungen mit Messwiederholungen abhängig! Für beliebige Abhängigkeitsstrukturen ist die Teststatistik in der Regel dann nicht F -verteilt ( p-werte nicht korrekt) Frage: Gibt es andere Abhängigkeitsstrukturen (als die Unabhängigkeit), unter denen die Teststatistik doch F -verteilt ist? 41 / 51

42 Die Zirkularitätsannahme Die bei der Varianzanalyse im Modell Y ij = µ i + p j + ε ij i = 1,..., p; j = 1,..., n verwendete Teststatistik (F -Test aus ALM) besitzt genau dann eine F p 1,(p 1)(n 1) -Verteilung (im Beispiel ist p = 3 und n = 10), falls die Varianzen zwischen den Treatmenteffekten konstant ist, d.h. gilt Var(Y ij Y kj ) = konstant falls i k Diese Bedingung wird als Zirkularitätsannahme (ZA) bezeichnet Beachte: Die Zirkularitätsannahme ist erfüllt falls die Varianzen und Kovarianzen homogen sind, d.h. Var(Y ij ) = konstant1, Cov(Y ij, Y kj ) = konstant2 In diesem Fall spricht man von Homogenität der Korrelationen. Sind die Korrelationen außerdem 0 wird von Sphärizität gesprochen. 42 / 51

43 3.29 Modell der einfaktoriellen Varianzanalyse mit Messwiederholungen Untersuche den Einfluss eines Faktors (z.b. Tageszeit ) auf die abhängige Variable (z.b. Hautwiderstand ) in dem Fall, wenn die abhängige Variable für jeweils alle Faktorstufen an denselben Versuchspersonen beobachtet werden Mathematisches Modell Y ij = µ i + p j + ε ij i = 1,..., n j = 1,..., p mit µi : Mittelwert der i-ten Faktorstufe pj : individuelle Abweichung von Person j εij : Störgröße (für die Messung von Faktorstufe i bei Person j). 43 / 51

44 F -Test bei einfaktoriellen Varianzanalyse mit Messwiederholungen Modellannahmen Störgrößen unabhängig zwischen den Versuchspersonen, normalverteilt mit derselben Varianz keine Wechselwirkungen zwischen dem Faktor und den Personen die Zirkularitätsannahme: konstante Varianzen zwischen den Treatmenteffekten In diesem Fall ist der F -Test aus Kapitel 3.4 (Methodenlehre II) anwendbar und die Nullhypothese H 0 : µ 1 = µ 2 =... µ p wird zum Niveau α verworfen, falls die Statistik des F -Tests größer ist als das (1 α)- Quantil der F -Verteliung mit (p 1, (p 1)(n 1)) Freiheitsgraden Fragen: Was macht man, wenn die Zirkularitätsannahme nicht erfüllt ist? Wie überprüft man die Zirkularitätsannahme? 44 / 51

45 3.30 Verletzung der Zirkularitätsannahme Beachte: Ist die Zirkularitätsannahme nicht erfüllt, so erhält man progressive Tests, d.h. H 1 wird häufiger begünstigt, als durch das Niveau α vorgesehen Idee: Ist die Zirkularitätsannahme nicht gerechtfertigt, so führt man eine Korrektur der Freiheitsgrade durch, so dass die Teststatistik näherungsweise F -verteilt ist Korrektur der Freiheitsgrade verhindert progressives Testen Die korrigierte F-Verteilung hat (p 1)ε und (p 1)(n 1)ε 1 Freiheitsgrade, wobei ε 1 p 1 Der Korrekturfaktor ε kann aus den Daten (genauer den Varianzen und Kovarianzen) geschätzt werden Es gibt unterschiedliche Vorschläge, wie man diesen Korrekturfaktor berechnen soll In SPSS implementiert: (A) Greenhouse/Geisser (B) Huynh/Feldt (C) die Untergrenze von 1 p 1 45 / 51

46 SPSS-Output: Prüfung der Zirkularitätsannahme Maß:MASS_1 Mauchly-Test auf Sphärizität b a Epsilon a Approximiertes Greenhouse- Innersubjekteffekt Mauchly-W Chi-Quadrat df Sig. Geisser Huynh-Feldt Untergrenze Tageszeit,952,392 2,822,954 1,000,500 Prüft die Nullhypothese, daß sich die Fehlerkovarianz-Matrix der orthonormalisierten transformierten abhängigen Variablen proportional zur Einheitsmatrix verhält. a. Kann zum Korrigieren der Freiheitsgrade für die gemittelten Signifikanztests verwendet werden. In der Tabelle mit den Tests der Effekte innerhalb der Subjekte werden korrigierte Tests angezeigt. b. Design: Konstanter Term Innersubjektdesign: Tageszeit Beachte: SPSS liefert keinen Test für die Hypothese dass die Zirkularitätsannahme erfüllt ist, sondern einen Test für die Hypothese der Sphärizität Die Hypothese, dass Sphärizität vorliegt, kann in Beispiel 3.28 nicht verworfen werden Die beiden Schätzungen des Korrekturfaktors ε liegen nahe bei 1 Die Anwendung der einfaktoriellen Varianzanalyse wie in 3.29 beschrieben ist gerechtfertigt 46 / 51

47 Die Zerlegung der Quadratsumme in zwei Stufen p i=1 j=1 n (y ij y ) 2 = p } {{ } QS tot n (y j y ) 2 + j=1 } {{ } QS zwvpn p i=1 j=1 n (y ij y j ) 2 } {{ } QS invpn p i=1 j=1 n (y ij y j ) 2 = n } {{ } QS invpn p (y i y ) 2 i=1 } {{ } QS treat p n + (y ij y j y i + y ) 2 i=1 j=1 } {{ } QS res 47 / 51

48 Schematische Darstellung der zweistufigen Zerlegung der Quadratsumme Total (QS tot ) Zwischen den Vpn (QS zw Vpn ) Innerhalb der Vpn (QS in Vpn ) Zwischen den Faktorstufen (QS treat ) Residual (QS res ) 48 / 51

49 SPSS-Output: in zwei Teilen Teil 1: Analyse der Varianz zwischen den Versuchspersonen Zerlegung der Quadratsumme n n p y 2 j = p (y j y ) 2 + pny 2 j=1 j=1 Im Prinzip testet man in der einfaktoriellen Varianzanalyse ob der Erwartungswert der gemittelten Daten y j gleich 0 ist Da man über die Faktorstufen mittelt, liegen hier keine Abhängigkeiten vor Tests der Zwischensubjekteffekte Maß:MASS_1 Transformierte Variable:Mittel Quelle Quadratsumme vom Typ III df Mittel der Quadrate Konstanter Term Fehler 1320,033 11, ,033 1,293 F 1021,229 Sig., / 51

50 SPSS-Output Teil 2: Analyse der Varianz innerhalb der Versuchspersonen Zerlegung der Quadratsumme QS invpn = QS treat + QS res Hier testet man ob die Erwartungswerte µ 1, µ 2 und µ 3 der verschiedenen Treatmentgruppen gleich sind Da Unterschiede zwischen den Faktorstufen betrachtet werden, liegen hier Abhängigkeiten vor. In diesem Fall muss man die Zikularitätsannahme prüfen und gfs. die Freiheitsgrade korrigieren Tests der Innersubjekteffekte Maß:MASS_1 Quelle Tageszeit Fehler(Tageszeit) Sphärizität angenommen Greenhouse-Geisser Huynh-Feldt Untergrenze Sphärizität angenommen Greenhouse-Geisser Huynh-Feldt Untergrenze Quadratsumme vom Typ III 21,667 21,667 21,667 21,667 23,667 23,667 23,667 23,667 df 2 1,909 2,000 1, ,179 18,000 9,000 Mittel der Quadrate 10,833 11,351 10,833 21,667 1,315 1,378 1,315 2,630 F 8,239 8,239 8,239 8,239 Sig.,003,003,003,018 Die ermittelten p-werte weichen praktisch nicht voneinander ab. 50 / 51

51 Abschließende Bemerkungen Aus Zeitgründen wird nur die einfaktorielle Varianzanalyse mit Messwiederholungen besprochen Bein anderen Versuchsplänen geht man ähnlich vor. Z.B. zweifaktorielle Varianzanalyse mit Messwiederholungen Kovarianzanalyse mit Messwiederholungen etc. 51 / 51