3.3 Das allgemeine lineare Modell (ALM), Methode der kleinsten Quadrate

Transkript

1 31 und 33 Das allgemeine (), Methode der kleinsten Quadrate 31 und (), Methode der Messwiederholungen 1 / 131

2 Eine grundsätzliche Bemerkung zu Beginn Es bestehen viele Ähnlichkeiten zwischen den bisher betrachteten Beispielen (Zwei-Stichproben t-test, einfaktorielle, lineare und multiple Regression) - Zerlegung der Varianz - F -Verteilung (das Quadrat der t-verteilung mit k Freiheitsgraden ist eine F -Verteilung mit (1, k) Freiheitsgraden) - R 2 (welcher Teil der Variation ist durch das Modell erklärbar) 31 und (), Methode der Ziel: ein Modell, in dem alle bisher behandelten Situationen Spezialfälle sind! Das allgemeine () Y = Xb + ε Hilfsmittel: rechnung 2 / 131

3 31 und 31 und (), Methode der 3 / 131

4 Vektoren und sind nützliche mathematische Hilfsmittel für die - Beschreibung von der Position eines Objektes - Beschreibung von Bewegungen und Kräften - Etc - In unserem Fall: Zusammenfassung und die Kodierung der beobachteten Variablen Beispiele für Vektoren ( 1 3 ) ; ; und (), Methode der Die Anzahl der Zeilen in einem Vektor heißt Dimension des Vektors 4 / 131

5 Vektoren und In fasst man mehrere Vektoren gleicher Dimension zusammen Beispiele für ( ) ; ; und (), Methode der Eine Matrix mit Variablen x 1 x 2 x 3 x 4 x 5 y 1 y 2 y 3 y 4 y 5 ; z 1 z 2 z 3 z 4 z 5 ( cos ρ sin ρ sin ρ cos ρ ) 5 / 131

6 Mehr über : Zeilen vor Spalten (ZVS) Matrix mit 2 Zeilen und 4 Spalten (2 x 4 Matrix) ( ) Matrix mit 4 Zeilen und 2 Spalten (4 x 2 Matrix) und (), Methode der Matrix mit einer Spalte = Vektor Matrix mit einer Zeile und 6 Spalten (1 x 6 Matrix) (Zeilen-Vektor); ( ) 6 / 131

7 Beispiel 31: Erkennen von Zahlenreihen (Fortsetzung von Beispiel 110) Studierende der Fachrichtungen Mathematik und Psychologie machen einen Zahlengedächtnistest Wie viele Ziffern können sich maximal gemerkt werden Wiedergabe in Original und umgekehrter Reihenfolge Daten 31 und (), Methode der M P M P Frage: Haben Studierende der Psychologie ein besseres Zahlengedächtnis als Studierende der Mathematik? 7 / 131

8 Kodierung des Merkmals Mathematik (1,0) und Psychologie (0,1) Betrachte in jeder der beiden Gruppen nur die ersten 5 Daten (aus Platzgründen) Y = X = Alle Daten der abhängigen Variablen werden in einem Vektor zusammengefasst (Dimension 10) Alle Daten der unabhängigen Variablen (Studienfach) werden in einer Matrix zusammenfasst (10 Zeilen, 2 Spalten) Die Matrix enthält nur Nullen und Einsen, wobei die Kodierung (1,0) in einer Zeile für das Fach Mathematik und (0,1) für das Fach Psychologie verwendet wird Man spricht auch von einer Dummy-Kodierung Beispiel: in der dritten Zeile von X steht (1,0), dh der Eintrag in der dritten Zeile von Y gehört zu einem Mathematikstudenten 31 und (), Methode der 8 / 131

9 Beispiel 32 (Fortsetzung von Beispiel 110) An dem Zahlengedächtnistest (vgl Beispiel 110) nehmen auch noch 6 Studierende der Geisteswissenschaften teil Daten: M P G M P G und (), Methode der Frage: Existieren Unterschiede hinsichtlich des Zahlengedächtnisses zwischen den Studierenden der Psychologie, Mathematik und Geisteswissenschaften? 9 / 131

10 Kodierung der Merkmale Mathematik (1,0,0), Psychologie (0,1,0), Geisteswissenschaften (0,0,1) Betrachte in jeder Gruppe die ersten 5 Daten (aus Platzgründen) Y = X = und (), Methode der Y ist 15-dimensionaler Vektor, X ist 15 x 3 Matrix Beispiel: in der zwölften Zeile von X steht (0, 0, 1), dh der Eintrag in der zwölften Zeile von Y (13) gehört zu einem Studierenden der Geisteswissenschaften 10 / 131

11 Beispiel 33: Arbeitsmotivation (Fortsetzung von Beispiel 21) Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden zufällig ausgewählt und verschiedene Variablen gemessen y: Motivation (Einschätzung durch Experten) x: Leistungsstreben (Fragebogen) Frage: Besteht ein Zusammenhang zwischen der Variablen Motivation und der Prädiktorvariablen Leistungsstreben? 31 und (), Methode der Daten x y x y x y / 131

12 Kodierung von quantitativen Merkmalen (hier für die ersten 9 Daten) Beachte: Die quantitative Variable x wird nicht kodiert, sondern direkt in der Matrix verwendet Y = 20 X = und (), Methode der In der Matrix X wurde zusätzlich eine Spalte mit Einsen eingefügt (der Grund wird später klar) Y ist 9-dimensionaler Vektor; X ist 9 x 2 Matrix 12 / 131

13 Mehr über : die Position eines Elements Das Element in der Position (2,3) in der Matrix ( ) ist das Element in der 2-ten Zeile und 3-ten Spalte, also die Zahl 27 Das Element in der Position (4,1) in der Matrix und (), Methode der ist das Element in der 4-ten Zeile und 1-ten Spalte, also die Zahl 1 13 / 131

14 Die m n Matrix (m Zeilen, n Spalten) A = a 11 a 12 a 13 a 1n a 21 a 22 a 23 a 2n a 31 a 32 a 33 a 3n a m1 a m2 a m3 a mn a ij ist das Element in der Position (i, j), dh das Element in der i-ten Zeile und j-ten Spalte der Matrix A Beispiel: Das Element in der Position (2, 3) (also in der 2-ten Zeile und 3-ten Spalte) der Matrix und (), Methode der ist die Zahl / 131

15 Die mit einer Zahl: Jedes Element der Matrix wird mit einer Zahl multipliziert Beispiele: ( ) = = ( ( 13) ( 41) ( ) ) 31 und (), Methode der 3 ( ) = ( ( 1) 3 15 ) = ( ) 15 / 131

16 31 und (), Methode der 16 / 131

17 Rechnen mit : Die Addition mit gleicher Zeilen- und Spaltenanzahl können addiert werden, in dem man die Elemente addiert, die an den entsprechenden Positionen stehen: ( ) + ( ) = = ( ( ) ) 31 und (), Methode der ( ) ( ) = ( ) 17 / 131

18 Die Addition von zwei m n a 11 a 12 a 1n b 11 b 12 b 1n a 21 a 22 a 2n + b 21 b 22 b 2n a m1 a m2 a mn b m1 b m2 b mn a 11 + b 11 a 12 + b 12 a 1n + b 1n a 21 + b 21 a 22 + b 22 a 2n + b 2n = a m1 + b m1 a m2 + b m2 a mn + b mn 31 und (), Methode der Beachte: es können ausschließlich addiert werden, die gleiche Zeilen- und Spaltenzahl haben! 18 / 131

19 Rechnen mit : Die Multiplikation Das Produkt A B der A and B kann gebildet werden, falls die Anzahl der Spalten der Matrix A gleich der Anzahl der Zeilen der Matrix B ist Die Berechnung wird hier nur an Beispielen erläutert A = ( ) B = ( ) 31 und (), Methode der A B = Beachte: A B A B ( ist 2 3 Matrix ist 3 4 Matrix ist 2 4 Matrix ) = ( ) 19 / 131

20 Multiplikation einer Matrix mit einem Vektor A = A Y = Y = = und (), Methode der Beachte: A ist 3 4 Matrix Y ist 4 1 Matrix (4-dimensionaler Vektor) A Y ist 3 1 Matrix 20 / 131

21 Auf die Reihenfolge kommt es an Beachte: Bei der darf die Reihenfolge nicht vertauscht werden! Beispiel: ( ) ( ) A = ; B = ( ) ( ) A B = B A = und (), Methode der 21 / 131

22 34 Beispiel: das Modell der linearen Regression in Matrixschreibweise Beispiel: Multiplikation mit Kodierungsmatrix bei linearer Regression (vgl Beispiel 33): ( b0 b 1 ) = b b 1 b b 1 b b 1 b b 1 b 0 + 5b 1 b 0 + 6b 1 b b 1 b 0 + 0b 1 b b 1 31 und (), Methode der 22 / 131

23 34 Beispiel: das Modell der linearen Regression in Matrixschreibweise Y = Y 1 Y 2 Y n 1 x 1 1 x 2 = } 1 x n {{ } X ( b0 b 1 } {{ } b ) + ε 1 ε 2 ε n } {{ } ε 31 und (), Methode der Beachte: X hat n Zeilen und 2 Spalten Die i-te Zeile von Y = Xb + ε ergibt die Gleichung (der Fall i = 2 in blau) Y i = b 0 + b 1 x i + ε i i = 1,, n Schreibweise: Y = Xb + ε 23 / 131

24 µ 1 = 1 µ µ µ µ 4 24 / Beispiel: Das Modell der einfaktoriellen in Matrixschreibweise (vgl Beispiel 32) Beispiel: Matrixmultiplikation mit einer Kodierungsmatrix (einfaktorielle ) µ 1 µ 2 µ 3 µ 4 = Beachte: Auf der rechten Seite steht der Vektor der Erwartungswerte µ 1 µ 1 µ 1 µ 2 µ 2 µ 3 µ 3 µ 3 µ 4 µ 4 31 und (), Methode der

25 Fortsetzung Beispiel 35: Mathematisches Modell Y ij := µ i + ε ij j = 1,, n i ; i = 1, 2, 3 (n 1 = 14, n 2 = 8, n 3 = 7) Y ij : Ergebnis der j-ten Versuchsperson in Gruppe i (Mathematik: i = 1, Psychologie: i = 2 Geisteswissenschaften: i = 3) 31 und (), Methode der µ i : unbekannter Erwartungswert in der Population i (Mathematik: i = 1, Psychologie: i = 2,Geisteswissenschaften: i = 3) 25 / 131

26 Matrixschreibweise in Beispiel 35: Y = Xb + ε Y = Y 11 Y 14 Y 21 Y 28 Y 31 Y 37 = } {{ } X µ 1 µ 2 µ 3 } {{ } b + ε 11 ε 14 ε 21 ε 28 ε 31 ε 37 } {{ } ε Beachte: Liest man die Gleichung zeilenweise der Reihe nach, so gilt: 31 und (), Methode der Y 11 = µ 1 + ε 11 Y 12 = µ 1 + ε 12 Y 21 = µ 2 + ε 21 Y 37 = µ 3 + ε / 131

27 Matrixschreibweise Beispiel 35: Y = Xb + ε Y = Y 11 Y 14 Y 21 Y 28 Y 31 Y 37 = } {{ } X µ 1 µ 2 µ 3 } {{ } b + ε 11 ε 14 ε 21 ε 28 ε 31 ε 37 } {{ } ε 31 und (), Methode der Beachte: Liest man alle Gleichungen zeilenweise, so gilt: Y ij = µ i + ε ij i = 1, 2, 3; j = 1,, n i X hat = 29 Zeilen und 3 Spalten In der i-ten Spalte stehen genau n i Einsen (n 1 = 14, n 2 = 8, n 3 = 7) Schreibweise: Y = Xb + ε 27 / 131

28 Das Modell der einfaktoriellen mit k Gruppen in Matrixschreibweise: Beachte: X = Y = Xb + ε b = µ 1 µ 2 µ k ε = n = n n k Gesamtstichprobenumfang X hat n Zeilen und k Spalten die j-te Spalte von X enthält nur in den Zeilen ε 11 ε 1n1 ε 21 ε 2n2 ε k1 ε knk 31 und (), Methode der n 1 + n 2 + n j 1 + 1,, n 1 + n n j Einsen (für die 1-te Spalte sind das die Zeilen 1,, n 1 ) 28 / 131

29 Beispiel 36: Das Modell der multiplen linearen Regression in Matrixschreibweise Y = Y 1 Y 2 Y 3 Y n 1 x 11 x 21 x k1 1 x 12 x 22 x k2 = 1 x 13 x 23 x k3 } 1 x 1n x 2n {{ x kn } X b 0 b 1 b k } {{ } b + ε 1 ε 2 ε 3 ε n } {{ } ε 31 und (), Methode der Beachte: Y = Xb + ε X hat n Zeilen und k + 1 Spalten Die i-te Zeile von Y liefert die Gleichung (der Falle i = 3 in blau) Y i = b 0 + b 1 x 1i + b 2 x 2i + + b k x ki + ε i i = 1,, n 29 / 131

30 Mehr rechnung: Transposition Mit A T wird diejenige Matrix bezeichnet, die man aus der Matrix A erhält, wenn man die Zeilen als Spalten (bzw die Spalten als Zeilen) schreibt Beispiel: T = und (), Methode der Beachte: Ist A m n-matrix (m Zeilen, n Spalten), dann ist A T n m-matrix (n Zeilen, m Spalten) Beispiel: 1 1 ( ) A = A T = }{{}}{{} 2 4 Matrix 4 2 Matrix 30 / 131

31 Mehr rechnung: Inversion einer Matrix Die Matrix (nur auf der Diagonalen Einsen, sonst Nullen) I = heißt Identitätsmatrix oder Einheitsmatrix (das ist das Pendant zur Zahl 1 bei der Zahlen) Ist A m m-matrix, so ist die inverse Matrix A 1 diejenige Matrix für die gilt: 31 und (), Methode der A A 1 = A 1 A = I (das ist das Pendant des Kehrwerts bei Zahlen: A = 3 A 1 = 1/3) Beachte: A 1 existiert nicht immer (man kann nicht durch 0 teilen) 31 / 131

32 Beispiel: Inversion einer 2 2 Matrix Die Inverse der Matrix ist die Matrix A = ( ) A 1 = ( denn A A 1 = ( ) ( ) = A 1 A = ( ) ( ) = ), 31 und (), Methode der Beachte: Gewöhnlich muss die Bestimmung einer Inversen Matrix mit numerischen Methoden erfolgen 32 / 131

33 , Methode der 31 und (), Methode der 33 / 131

34 Allgemeines lineares Modell (): Y = Xb + ε Y : Vektor von Zufallsvariablen b: Parametervektor ε: Vektor der zufäligen Fehler (mit gleicher Varianz) X : Designmatrix (dadurch wird das betrachtete Modell spezifiziert) In den vorigen Beispielen erhält man für verschiedene X 31 und (), Methode der Lineares Regressionsmodell (vgl Beispiel 34) Einfaktorielle (vgl Beispiel 35) Multiples lineares Regressionsmodell (vgl Beispiel 36) Es gibt viel mehr Modelle, die man durch das beschreiben kann (zb zweifaktorielle, Kovarianzanalyse, etc ) Aus diesem Grund werden die Verfahren (Schätzen, Testen, etc ) im entwickelt, und diese können in den Spezialfällen dann verwendet werden 34 / 131

35 37 Die Methode der im Sind Y i und (Xb) i die Elemente in der i-ten Zeile der Vektoren Y und Xb, so wird die Schätzung für b so bestimmt, dass die Summe der quadrierten Differenzen n [Y i (Xb) i ] 2 i=1 zwischen beobachten Werten (Y i ) und durch das Modell vorhergesagten Werten ((Xb) i ) minimiert wird Mathematische Statistik: Der beste Schätzer für b lautet: 31 und (), Methode der ˆb = (X T X ) 1 X T Y (X T X ) 1 die inverse Matrix von X T X X T die Transposition der Matrix X Wichtig ist nicht die Formel, sondern die Erkenntnis, dass man in jedem linearen Modell den Schätzer immer ausrechnen kann (falls die inverse Matrix existiert)! 35 / 131

36 38 Beispiel: Arzneimittelstudie zur Behandlung einer Depressiven Erkrankung Drei Behandlungsformen der Depression (Placebo, einfache Dosis, doppelte Dosis) Je 10 Patienten werden mit der jeweiligen Dosierung behandelt (insgesamt 30 Probanden) Daten Faktor A Placebo einfache Dosis doppelte Dosis (1) (2) (3) und (), Methode der Es gibt einen (kontrollierbaren) Faktor, der einen Einfluß auf das Ergebnis der Therapie hat Faktor A: Behandlungsform; 36 / 131

37 Beispiel 38(a): Einfaktorielle im Untersuche den Einfluss eines Faktors (zb Behandlungsform) auf die abhängige Variable (zb Depressivität) Mathematisches Modell (n 1 = n 2 = n 3 = 10): Y ij = µ i + ε ij j = 1,, n i ; i = 1, 2, 3 31 und (), Methode der µi Einfluß der i-ten Faktorstufe εij zufällige Fehler In der Schreibweise des Y = Xb + ε (die Matrix X und der Datenvektor y werden auf der nächsten Folie gezeigt) 37 / 131

38 Die Matrix X und der Datenvektor y im Beispiel 38(a) y = X = und (), Methode der b = ( µ1 µ 2 µ 3 ) 38 / 131

39 Schätzung von b mit der Methode der kleinsten Quadrate bei Modellierung 38(a) X T X = ( X T y = ) (X T X ) 1 = 10 j=1 y 1j 10 j=1 y 2j 10 j=1 y 3j = 10 ( 1/ / /10 y 1 y 2 y 3 ) 31 und (), Methode der ˆb = (X T X ) 1 X T y = y 1 y 2 y 3 = / 131

40 Beispiel 38(b): Alternatives für die einfaktorielle Untersuche den Einfluss eines Faktors (zb Behandlungsform) auf die abhängige Variable (zb Depressivität) Mathematisches Modell (n 1 = n 2 = n 3 = 10): Y ij = µ + α i + ε ij j = 1,, n 1 ; i = 1, 2, 3 µ = (µ1 + µ 2 + µ 3)/3 Gesamtmittelwert αi Einfluß der i-ten Faktorstufe εij zufällige Fehler Beachte: α 1 + α 2 + α 3 = 0; µ i = µ + α i (i = 1, 2, 3) In der Schreibweise des 31 und (), Methode der Y = Xb + ε (die Matrix X und der Datenvektor y werden auf der nächsten Folie gezeigt) 40 / 131

41 Die Matrix X und der Datenvektor y im Beispiel 38(b) y = X = und (), Methode der b = µ α 1 α 2 α 3 41 / 131

42 Schätzung von b mit der Methode der kleinsten Quadrate bei Modellierung 38(b) Mit einer ähnlichen Methode wie in 37 erhält man ˆµ y 169 ˆb = ˆα 1 ˆα 2 = y 1 y y 2 y = α 3 y 3 y und (), Methode der Beachte: Hier schätzt man den Gesamtmittelwert (169) und die Abweichungen der Gruppenmittelwerte vom Gesamtmittelwert 42 / 131

43 39 Die Genauigkeit der Schätzungen ˆb = (ˆb1,, ˆb n ) T sei der kleinste Quadrateschätzer (vgl Beispiel 37) Für i = 1,, n sei d i das Element in der Position (i, i) der Matrix (X T X ) 1 (man spricht vom i-ten Diagonalelement) Dann ist sˆb i = ŝ 2 d i = d i ŝ der Standardfehler von ˆb (ŝb 2 ist eine Schätzung für die Varianz von ˆb), wobei ŝ 2 = 1 n [Y i (Xb) i ] 2 n r i=1 eine Schätzung für die Varianz der zufälligen Fehler ist (r bezeichnet die Anzahl der (unabhängigen) Parameter im In Beispiel 38(a) und 38(b) sind das 3! 31 und (), Methode der 43 / 131

44 31 und (), Methode der 44 / 131

45 Formulierung von Hypothesen im Y = Xb + ε b sei r-dimensionaler Vektor K sei s r Matrix Nullhypothese H 0 : Kb = 0 31 und (), Methode der Beachte: Kb ist ein s-dimensionaler Vektor; 0 ist ein s-dimensionaler Vektor (alle Einträge 0) 45 / 131

46 Beispiel 310(a): Fortsetzung von Beispiel 38(a) (Einfaktorielle ) Untersuche den Einfluss eines Faktors (zb Behandlungsform) auf die abhängige Variable (zb Depressivität) Daten X = y = (22, 25,, 19, 16,, 16, 13,, 14) T b = (µ 1, µ 2, µ 3 ) T T 31 und (), Methode der Mathematisches Modell Y = Xb + ε (n 1 = n 2 = n 3 = 10) Zeilenweise gelesen ergibt das Y ij = µ i + ε ij j = 1,, n 1 ; i = 1, 2, 3 µi Einfluß der i-ten Faktorstufe εij Störgrößen 46 / 131

47 Formulierung der Hypothese in Beispiel 38(a) Mit K = b = ( µ1 µ 2 µ 3 ) ( ) 31 und (), Methode der kann die Nullhypothese geschrieben werden als H 0 : Kb = H 0 : µ 1 = µ 2 = µ 3 ( ) ( µ1 µ 2 0 = µ 1 µ 3 0 ) 47 / 131

48 Beispiel 310 (b): Fortsetzung von Beispiel 38(a) (Einfaktorielle ) Untersuche den Einfluss eines Faktors (zb Behandlungsform) auf die abhängige Variable (zb Depressivität) Daten X = y = (22, 25,, 19, 16,, 16, 13,, 14) T b = (µ, α 1, α 2, α 3 ) T Mathematisches Modell (n 1 = n 2 = n 3 = 10) Y ij = µ + α i + ε ij j = 1,, n i ; i = 1, 2, 3 T 31 und (), Methode der µ = (µ1 + µ 2 + µ 3)/3 Gesamtmittelwert αi Einfluß der i-ten Faktorstufe εij Störgrößen Beachte: α 1 + α 2 + α 3 = 0; µ i = µ + α i (i = 1, 2, 3) 48 / 131

49 Formulierung der Hypothese in Beispiel 38(b) Mit b = K = µ α 1 α 2 α und (), Methode der kann die Nullhypothese geschrieben werden als H 0 : α i = 0 i = 1, 2, 3 H 0 : Kb = α 1 α 2 α 3 = / 131

50 Beispiel 311: Fortsetzung von Beispiel 36 (multiple lineare Regression) Y = Y 1 Y 2 Y 3 Y n 1 x 11 x 21 x k1 1 x 12 x 22 x k2 = 1 x 13 x 23 x k3 } 1 x 1n x 2n {{ x kn } X b 0 b 1 b k } {{ } b + ε 1 ε 2 ε 3 ε n } {{ } ε 31 und (), Methode der Beachte: Y = Xb + ε X hat n Zeilen und k + 1 Spalten Die i-te Zeile von Y liefert die Gleichung (der Falle i = 3 in blau) Y i = b 0 + b 1 x 1i + b 2 x 2i + + b k x ki + ε i i = 1,, n 50 / 131

51 Formulierung der Nullhypothesen in Beispiel 36: Testen von allen Koeffizienten b 0 b 1 b = b k Mit der k (k + 1)-Matrix K = kann man die Nullhypothese schreiben als H 0 : b j = 0 für alle j = 1,, k H 0 : Kb = b 1 b k = und (), Methode der 51 / 131

52 Formulierung der Nullhypothesen in Beispiel 36: Testen von einzelnen Koeffizienten b 0 b 1 b = b k Mit der 1 (k + 1)-Matrix [beachte: die 1 steht an der Stelle (1, j + 1)] K = (0, 0,, 0, 1, 0,, 0) kann man die Hypothese 31 und (), Methode der H 0 : b j = 0 schreiben als H 0 : Kb = 0 52 / 131

53 312 F -Test für lineare Hypothesesen im Modell: Y = Xb + ε Nullhypothese: H 0 : Kb = 0; H 1 : Kb 0 Voraussetzungen (sind zu prüfen): Die Komponenten des Vektors ε (zufällige Fehler) sind unabhängig normalverteilt mit Erwartungswert 0 und derselben Varianz σ 2 > 0 Mathematische Statistik: Die Designmatrix X und die Hypothesenmatrix K definieren eine Statistik F s,n r (n: Stichprobenumfang) 31 und (), Methode der Die Nullhypothese H 0 wird zu Gunsten der Alternative H 1 abgelehnt, falls F s,n r größer als das entsprechende Quantil der F -Verteilung ist bzw der p-wert < α ist 53 / 131

54 Die Statistik F s,n r F s,n r = 1 s (K ˆb) T (K(X T X ) 1 K T ) 1 (K ˆb) 1 n r y T (I X (X T X ) 1 X T )y ˆb = (X T X ) 1 X T Y ist der Kleinste-Quadrate-Schätzer für b r ist die Anzahl der Parameter im Die Nullhypothese: H 0 : Kb = 0 wird verworfen, falls F s,n r > F s,n r,1 α 31 und (), Methode der gilt (bzw der p-wert < α ist) Dabei ist F s,n r,1 α das (1 α)-quantil der F -Verteilung mit (s, r) Freiheitsgraden Beachte: Die Statistik F s,n r kann man aus X (Designmatrix), K (Hypothesenmatrix) und y (Datenvektor) berechnen ( Software wie zb SPSS) ŝ 2 = 1 n r y T (I X (X T X ) 1 X T )y ist die Schätzung für die Varianz der zufälligen Fehler im Modell 54 / 131

55 Eine anschauliche Interpretation der Statistik F s,n r ŝ 2 = 1 n r y T (I X (X T X ) 1 X T )y ist die Schätzung für die Varianz der zufälligen Fehler im Modell Y = Xb + ε sei die Schätzung für die Varianz der zufälligen Fehler im Modell Y = Xb + ε und der zusätzlichen Annahme dass die Nullhypothese gilt ŝ 2 K Es gilt F s,n r = n r s ( n r s n r ŝk 2 ) ŝ 2 1 Beachte: Der F -Test vergleicht also die Schätzung der Varianz unter Modellannahme des mit der Schätzung der Varianz unter der Modellannahme des und der Annahme, dass die Nullhypothese gilt! 31 und (), Methode der 55 / 131

56 Beispiel 313(a): Fortsetzung von Beispiel 38(a) (F -Test in einfaktorielle ) Untersuche den Einfluss eines Faktors (zb Behandlungsform) auf die abhängige Variable (zb Depressivität) Daten X = y = (22, 25,, 19, 16,, 16, 13,, 14) T b = (µ 1, µ 2, µ 3 ) T T 31 und (), Methode der Mathematisches Modell Y = Xb + ε (n 1 = n 2 = n 3 = 10) Zeilenweise gelesen ergibt das Y ij = µ i + ε ij j = 1,, n 1 ; i = 1, 2, 3 µi Einfluß der i-ten Faktorstufe εij Störgrößen 56 / 131

57 Formulierung der Hypothese in Beispiel 38(a) b = (µ 1, µ 2, µ 3 ) T H 0 : µ 1 = µ 2 = µ 3 Mit K = ( kann die Nullhypothese geschrieben werden als H 0 : Kb = ) ( ) ( µ1 µ 2 0 = µ 1 µ 3 0 ) 31 und (), Methode der Diese Designmatrix X Hypothesenmatrix K und der Datenvektor y werden in die allgemeine Formel eingesetzt und man erhält die Statistik für den F -Test (in Software implementiert) 57 / 131

58 SPSS-Output für die Daten aus Beispiel 38: Oneway ANOVA (Modell 38(a)) Beobachtung Quadrat summe df Zwischen den Gruppen Innerhalb der Gruppen Gesamt 253,400 95, , Mittel der Quadrate 126,700 3,530 ONEWAY ANOVA F 35,896 Signifikanz, und (), Methode der 58 / 131

59 Zerlegung der Summe der Quadrate (vgl Beispiel 114): k n i (y ij y ) 2 i=1 j=1 } {{ } Gesamtvarianz Beachte: = k n i (y ij ˆµ i ) 2 + i=1 j=1 } {{ } Fehler Gesamtstichprobenumfang: n = k i=1 n i Gesamtmittelwert k n i (y ˆµ i ) 2 i=1 }{{} Varianz zwischen Gruppen 31 und (), Methode der y = 1 n k n i i=1 j=1 y ij Mittelwert der Gruppe i: ˆµ i = y i = 1 n i ni j=1 y ij 59 / 131

60 Statistische Tests im Modell 38(a) (einfaktorielle ) H 0 : µ i = 0 Einfluß) F µ = (i = 1, 2, 3) (der Faktor Dosierung hat keinen = = 3589 = p-wert und (), Methode der Dh die Nullhypothese wird zum Niveau 5% verworfen R 2 µ = 2 27 Fµ Fµ = 0727 ca 727% der Variation in der Variablen Depression sind auf den Faktor Dosierung zurückführbar 60 / 131

61 Beispiel 313(b): Fortsetzung von Beispiel 38(b) (F -Test in einfaktorielle ) Untersuche den Einfluss eines Faktors (zb Behandlungsform) auf die abhängige Variable (zb Depressivität) Daten X = y = (22, 25,, 19, 16,, 16, 13,, 14) T b = (µ, α 1, α 2, α 3 ) T Mathematisches Modell (n 1 = n 2 = n 3 = 10) Y ij = µ + α i + ε ij j = 1,, n i ; i = 1, 2, 3 T 31 und (), Methode der µ = (µ1 + µ 2 + µ 3)/3 Gesamtmittelwert αi Einfluß der i-ten Faktorstufe εij Störgrößen Beachte: α 1 + α 2 + α 3 = 0; µ i = µ + α i (i = 1, 2, 3) 61 / 131

62 Formulierung der Hypothese in Beispiel 38(b) b = (µ, α 1, α 2, α 3 ) T H 0 : α i = 0 i = 1, 2, 3 Mit K = kann die Nullhypothese geschrieben werden als H 0 : Kb = α 1 α 2 α 3 = und (), Methode der Weitere Hypothese H 0 : µ = 0 verwende die Hypothesenmatrix K = (1, 0, 0, 0), dann erhält man: H 0 : Kb = µ = 0 62 / 131

63 SPSS-Output für die Daten aus Beispiel 38: Allgemeines lineares Modell, univariat (Modell 38(b)) Abhängige Variable:Beobachtung Quadratsumme Quelle vom Typ III df Korrigiertes Modell Konstanter Term A Fehler Gesamt Korrigierte Gesamtvariation 253,400 a 8568, ,400 95, , ,700 a R-Quadrat =,727 (korrigiertes R-Quadrat =,706) Tests der Zwischensubjekteffekte Mittel der Quadrate 126, , ,700 3,530 F 35, ,535 35,896 Signifikanz,000,000, und (), Methode der 63 / 131

64 Zerlegung der Summe der quadrierten Beobachtungen in Beispiel 38(b): k n i i=1 j=1 y 2 ij } {{ } Gesamt = = k n i (y ij y ) 2 i=1 j=1 }{{} korrigierte Gesamtvarianz k n i (y ij ˆµ ˆα i ) 2 + i=1 j=1 } {{ } Fehler + (n y ) 2 }{{} konstanterterm + (n y ) 2 }{{} konstanterterm k n i (y ˆµ ˆα i ) 2 i=1 }{{} Varianz zwischen Gruppen 31 und (), Methode der Beachte: ˆµ = y, ˆµ + ˆα i = ˆµ i 64 / 131

65 Statistische Tests im Modell 38(b) (einfaktorielle ) H 0 : µ = 0 (Gesamtmittelwert = 0) F µ = = = = p-wert Dh die Hypothese wird zum Niveau 5% verworfen H 0 : α i = 0 Einfluß) (i = 1, 2, 3) (der Faktor Dosierung hat keinen 31 und (), Methode der F α = = = 3589 = p-wert Dh die Nullhypothese wird zum Niveau 5% verworfen R 2 α = 2 27 Fα Fα = 0727 ca 727% der Variation in der Variablen Depression sind auf den Faktor Dosierung zurückführbar 65 / 131

66 Methodenlehre III Prof Dr Holger Dette NA 3/73 Telefon: Internet: wwwruhr-uni-bochumde/mathematik3/indexhtml Vorlesung: Montag, Uhr, HGA 20 Thema: Modelle der Faktorenanalyse, Clusteranalyse, logistische Regression und ihre Anwendungen in der Psychologie 31 und (), Methode der 66 / 131

67 Statistik-Team Übung: Freitag, Uhr, HGA 30 (ab 2210) Tobias Kley: NA 3/76, Tel Tutorium: SPSS Nathalie Fritsch: GAFO 04/615, Mo (wtl) Uhr (ab 2510) Max Willenberg: GA 1/128 (CiP-Insel), Di (3-wtl) Uhr (ab 2610) 31 und (), Methode der Igor Ivanov: GAFO 04/271, Fr (wtl) Uhr (ab 2910) Koordination Tutorium Lars Kuchinke: GAFO 02/278, Tel / 131

68 Übungsaufgaben Zwei Kommentare aus der Evaluation zu Methodenlehre II: 31 und (), Methode der Falls es gewünscht wird, können in Ergänzung zu den Übungsaufgaben in Blackboard (sehr einfache) Fragen zur Vorlesung gestellt und Eckpunkte der Lösung zu den Übungaufgaben abgefragt und die Antworten automatisiert bewertet werden 68 / 131

69 Übungsaufgaben Die Aufgaben wären in einem begrenzten Zeitraum (ein bis zwei Wochen) zu bearbeiten Wer sich jede Woche mit dem Stoff auseinander setzt und die Fragen (richtig) beantwortet kann hierfür bis zu fünf Bonusprozent in der Semesterabschlussklausur bekommen Beispiel: 63 von 93 Punkten (677%) bei den Blackboardaufgaben, entsprechen +4% für die Klausur 52% statt 48% oder 100% statt 100% Beispiel: 0 von 93 Punkten (0%) bei den Blackboardaufgaben, entsprechen 0% für die Klausur 48% statt 48% oder 100% statt 100% Die Aufgaben wären also weiterhin optional Aber: Wer sie bearbeitet, profitiert doppelt? Wird diese Lösung von der Mehrheit gewünscht? 31 und (), Methode der 69 / 131

70 31 und (), Methode der 70 / 131

71 314 Beispiel Fortsetzung von Beispiel 38 Arzneimittelstudie zur Behandlung einer depressiven Erkrankung mit Unterscheidung des Geschlechts Drei Behandlungsformen der Depression (Placebo, einfache Dosis, doppelte Dosis) Je 5 weibliche und je 5 männliche Patienten werden mit der jeweiligen Dosierung behandelt (insgesamt 30 Probanden) Es gibt zwei (kontrollierbare) Faktoren, die einen Einfluß auf das Ergebnis der Therapie haben Faktor A: Behandlungsform; Faktor: B Geschlecht Faktor A Faktor B Placebo einfache Dosis doppelte Dosis (1) (2) (3) männlich (1) weiblich (2) und (), Methode der 71 / 131

72 315 Modell der zweifaktoriellen Untersuche den Einfluß von zwei Faktoren (zb Dosierung und Geschlecht ) auf die abhängige Variable (zb Depression ) Mathematisches Modell Y ijl = µ + α i + β j + (αβ) ij + ε ijl (i = 1,, k α ; j = 1,, k β, l = 1,, n ij ) µ: Gesamtmittelwert αi : Einfluß der i-ten Stufe des Faktors A (Haupteffekt) βj : Einfluß der j-ten Stufe des Faktors B (Haupteffekt) (αβ)ij : Wechselwirkung oder Interaktion der i-ten Stufe des Faktors A mit der j-ten Stufe des Faktors B εijl : Störgröße (für den l-ten Probanden und der i-ten Stufe des Faktors A und der j-ten Stufe des Faktors B) Modellannahmen: Unabhängigkeit, Normalverteilung mit derselben Varianz Beachte: In Beispiel 38 ist k α = 2 (Geschlecht), k β = 3 (Behandlungsform) and n ij = 5 (je 5 Patienten pro Faktorkombination) 31 und (), Methode der 72 / 131

73 Kodierungsmatrix für zweifaktorielle am Beispiel der depressiven Erkrankung Xb = µ α 1 α 2 α 3 β 1 β 2 (αβ) 11 (αβ) 12 (αβ) 21 (αβ) 22 (αβ) 31 (αβ) und (), Methode der 73 / 131

74 Mittelwerte für die verschiedenen Faktorstufen in Beispiel 38 (Methode der ) Beispiele: a 1 a 2 a 3 b b ist der Mittelwert der Beobachtungen unter Stufe 1 des Faktors A und Stufe 1 des Faktors B (Schätzung für µ + α 1 + β 1 + (αβ) 11 ) 146 ist der Mittelwert der Beobachtungen unter Stufe 3 des Faktors A und Stufe 2 des Faktors B (Schätzung für µ + α 3 + β 2 + (αβ) 23 ) 170 ist der Mittelwert der Beobachtungen unter Stufe 2 des Faktors B (Schätzung für µ + β 2 ) 166 ist der Mittelwert der Beobachtungen unter Stufe 2 des Faktors A (Schätzung für µ + α 2 ) 169 ist der Mittelwert aller Beobachtungen (Schätzung für µ) 31 und (), Methode der 74 / 131

75 Beispiel 316(a): Hypothesenmatrix für Test auf Wechselwirkungen in der zweifaktoriellen Vektor der Parameter b = ( µ, α 1, α 2, α 3, β 1, β 2, (αβ) 11, (αβ) 12, (αβ) 21, (αβ) 22, (αβ) 31, (αβ) 32 Mit der Matrix K αβ = kann man die Hypothese H 0 : (αβ) ij = 0; i = 1, 2, 3; j = 1, 2 schreiben als H 0 : K αβ b = (αβ) 11 (αβ) 12 (αβ) 21 (αβ) 22 (αβ) 31 (αβ) 32 = 0 ) T 31 und (), Methode der 75 / 131

76 Beispiel 316(a): Hypothesenmatrix für Test des Faktors A in der zweifaktoriellen Vektor der Parameter b = ( µ, α 1, α 2, α 3, β 1, β 2, (αβ) 11, (αβ) 12, (αβ) 21, (αβ) 22, (αβ) 31, (αβ) 32 Mit der Matrix ( 0 ) K α = ) T 31 und (), Methode der kann man die Hypothese H 0 : α i = 0; i = 1, 2, 3 schreiben als H 0 : K αb = α 1 α 2 α 3 = 0 76 / 131

77 Beispiel 316(b): Hypothesenmatrix für Test des Faktors B in der zweifaktoriellen Vektor der Parameter b = ( µ, α 1, α 2, α 3, β 1, β 2, (αβ) 11, (αβ) 12, (αβ) 21, (αβ) 22, (αβ) 31, (αβ) 32 Mit der Matrix ( ) K β = ) T 31 und (), Methode der kann man die Hypothese H 0 : β j = 0; j = 1, 2 schreiben als ( ) β1 H 0 : K β b = = 0 β 2 77 / 131

78 SPSS-Output: Zweifaktorielle für die Daten aus Beispiel 314 Abhängige Variable:Beobachtung Quadratsumme Quelle vom Typ III Korrigiertes Modell 307,900 a Konstanter Term 8568,300 A 253,400 B,300 A * B 54,200 Fehler 40,800 Gesamt 8917,000 Korrigierte Gesamtvariation 348,700 a R-Quadrat =,883 (korrigiertes R-Quadrat =,859) Tests der Zwischensubjekteffekte df Mittel der Quadrate 61, , ,700,300 27,100 1,700 F 36, ,176 74,529,176 15,941 Signifikanz,000,000,000,678, und (), Methode der 78 / 131

79 Beispiel 317: Hypothesentests für das Beispiel der Depressiven Erkrankung H 0 : α i = 0 Einfluß ) (i = 1, 2, 3) ( der Faktor Dosierung hat keinen F α = 7453 = p-wert 0000 Dh die Nullhypothese wird zum Niveau 5% verworfen (727% der Variation der variablen Depression können durch die Variable Behandlungsform erklärt werden) H 0 : β j = 0 (i = 1, 2) (der Faktor Geschlecht hat keinen Einfluß) F β = 0176 = p-wert 0678 Dh die Nullhypothese kann zum Niveau 5% nicht verworfen werden (der Faktor Geschlecht erklärt nur 09% der Variation) H 0 : (αβ) ij = 0 (i = 1, 2, 3; j = 1, 2) 31 und (), Methode der F αβ = 1594 = p-wert 0000 Dh die Nullhypothese wird zum Niveau 5% verworfen (15, 5% der Variation können durch die Wechselwirkung erklärt werden) 79 / 131

80 Beispiel 318: Erklärung der Varianz durch die Faktoren und Interaktion für das Beispiel der Depressiven Erkrankung Bilde den Quotienten aus der Quadratsumme des Faktors (bzw Interaktion) mit der korrigierten Gesamtvariation Faktor A: = 0727 dh 727% der Variation der variablen Depression können durch die Variable Behandlungsform erklärt werden Faktor B: = der Faktor Geschlecht erklärt nur 09% der Variation Interaktion AB: = 0155 dh 155% der Variation können durch die Wechselwirkung erklärt werden 31 und (), Methode der 80 / 131

81 Die Zerlegung der Quadratsumme im Beispiel }{{} gesamt 3487 }{{} korrigiert = } {{} }{{} konstanterterm korrigiert = 2534 }{{} Faktor A + 03 }{{} Faktor B }{{} Interaktion }{{} Fehler 31 und (), Methode der 81 / 131

82 Die Zerlegung der Quadratsumme (für Experten) k kα β n ij i=1 j=1 l=1 Y 2 ijl } {{ } gesamt Bezeichnungen: = k kα β n ij ijl y ) l=1(y 2 i=1 j=1 }{{} korrigiertegesamtvariation = kα k β n ij ijl y ij y j +y ) i=1 j=1 l=1(y 2 } {{ } Fehler + n y 2 }{{} konst Term + kα n i (y i y ) 2 + k β n j (y j y ) 2 i=1 j=1 } {{ } Faktor A } {{ } Faktor B = kα k β n ij n ij (y ijl y i y j +y ) 2 i=1 j=1 l=1 } {{ } Wechselwirkung + n y 2 }{{} konst Term k kα β n ij k β n ij kα n ij y = 1 n ijl ; y i = i=1j=1l=1y 1 n ijl ; y i j = j=1l=1y 1 y ijl n j i=1 l=1 31 und (), Methode der y ij = 1 n ij n ij l=1 y ijl; n i = k k β kα kα β n ij ; n j = n ij ; n= n ij j=1 i=1 i=1 j=1 82 / 131

83 Zur Interpretation der Wechselwirkung Die Wechselwirkung (αβ) ij beschreibt einen Effekt, der nur auftritt, wenn die Faktorstufenkombination (i, j) vorliegt Interaktionsdiagramm (graphisches Hilfsmittel zur Interpretation) Auf der Abzisse wird der Faktor mit der größeren Stufenzahl abgetragen Die Ordinate bezeichnet die abhängige Variable (Mittelwerte der jeweiligen Stufenkombinationen) 31 und (), Methode der 83 / 131

84 Bei signifikanten Interaktionen ist die Interpretation der Haupteffekte zu relativieren Beispiel (Depressive Erkrankung) Richtige Interpretation: es existiert kein Unterschied zwischen männlichen und weiblichen Patienten (Faktor B nicht signifikant) Aber: Signifikante Interaktion erfordert hier eine weitergehende Interpretation 31 und (), Methode der Placebo-Behandlung ist bei weiblichen Patienten stärker depressionsreduzierend als bei männlichen Behandlung mit einfacher und doppelter Dosis wirkt bei männlichen Patienten stärker 84 / 131

85 Klassifikation von Interaktionen Ziel: Identifikation der interpretierbaren Haupteffekte Ordinale Interaktion (die Rangfolge der Mittelwerte der A-Stufen ist für b 1 und b 2 identisch, und die Rangfolge der Mittelwerte B-Stufen ist für a 1 und a 2 identisch) b1 31 und (), Methode der a2 b2 a1 a1 a2 b1 b2 In diesem Fall sind beide Haupteffekte eindeutig interpretierbar 85 / 131

86 Hybride Interaktion (die Rangfolge der Mittelwerte der B-Stufen gilt für beide Stufen von A; aber die Rangfolge der Mittelwerte der A-Stufen gilt nicht für beide Stufen von B) b1 31 und (), Methode der a1 b2 a2 a1 a2 b1 b2 In diesem Fall ist nur der Faktor B eindeutig interpretierbar 86 / 131

87 Disordinale Interaktion (die Rangfolge der Mittelwerte der B-Stufen gilt nicht für beide Stufen von A; und die Rangfolge der Mittelwerte der A-Stufen gilt nicht für beide Stufen von B) b1 a1 31 und (), Methode der b2 a2 a1 a2 b1 b2 In diesem Fall sind die Haupteffekte nicht interpretierbar Unterschiede zwischen a 1 und a 2 sind nur in Verbindung mit den Stufen von B und Unterschiede zwischen den Stufen b 1 und b 2 sind nur in Verbindung mit den Stufen von A interpretierbar 87 / 131

88 Interpretation der Haupteffekte im Beispiel der Depression und (), Methode der b b1 a1 a2 a3 Die Rangfolge der Mittelwerte der B-Stufen ändert sich = Faktor B wäre auch wenn er signifikant wäre nicht interpretierbar 88 / 131

89 Interpretation der Haupteffekte im Beispiel der Depression a1 a2 31 und (), Methode der a b1 b2 Die Rangfolge der Mittelwerte der A-Stufen ändert sich nicht = Faktor A ist eindeutig interpretierbar 89 / 131

90 31 und (), Methode der 90 / 131

91 Beispiel 319: Therapieerfolg bei Verhaltensstörungen Wie wirkt sich eine psychotherapeutische Behandlung auf verschiedene Verhaltensstörungen aus Es werden 3 Gruppen untersucht Konzentrationsstörung (5 Patienten) Schlafstörung (5 Patienten) Hysterische Verhaltensstörung (5 Patienten) 31 und (), Methode der Gemessen wird der Therapieerfolg y (durch Expertenteam eingestuft) 91 / 131

92 Daten K: Konzentrationsstörung S: Schlafstörung H: Hysterische Verhaltensstörung n K S H und (), Methode der Beachte: Es liegt hier das Modell der einfaktoriellen vor (vgl Methodenlehre II, Beispiel 38(a)) Es gibt zwei Darstellungen des Modells Y ij = µ i + ε ij = µ + α i + ε ij i = 1, 2, 3; j = 1, 2,, 5 92 / 131

93 SPSS-Output (einfaktorielle für Beispiel 318 ohne Berücksichtigung von Kovariablen) Abhängige Variable:Therapieerfolg Quadratsumme Quelle vom Typ III Korrigiertes Modell 36,400 a Konstanter Term 153,600 GRUPPE 36,400 Fehler 14,000 Gesamt 204,000 Korrigierte 50,400 Gesamtvariation Tests der Zwischensubjekteffekte df 2 a R-Quadrat =,722 (korrigiertes R-Quadrat =,676) Mittel der Quadrate 18, ,600 18,200 1,167 F 15, ,657 15,600 Man beachte: Die drei behandelten Gruppen unterscheiden sich signifikant Die Ergebnisse lassen vermuten, dass die Therapie bei Konzentrationsstörungen zum größten Erfolg führt (y 1 = 52; y 2 = 3; y 3 = 14) Sig,000,000, und (), Methode der 93 / 131

94 Vermutung: Therapieerfolg hängt auch von der Verbalisationsfähigkeit (verbale Intelligenz x) der Patienten ab Diese Eigenschaft wird aus diesem Grund mit gemessen K S H n x y x y x y und (), Methode der Frage: Ändert sich das Ergebnis der, falls die verbale Intelligenz in die Untersuchungen mit einbezogen wird? 94 / 131

95 Streudiagramm und lineare Regressionsgeraden Therapieerfolg 6,00 5,00 4,00 3,00 2,00 Verhaltensstörung Konzentrationsstörung Schlafstörung Hysterische Verhaltsstörung Anpassungslinie für Gesamtsumme Konzentrationsstörung: R 2 Linear = 0,754 Schlafstörung: R 2 Linear = 0,837 Hysterische Verhaltsstörung: R 2 Linear = 0, und (), Methode der R 2 Linear = 0,078 1,00 4,00 6,00 8,00 10,00 12,00 14,00 Verbale Intelligenz Beachte: Die Korrelation in der Gesamtgruppe ist negativ, aber in den einzelnen Gruppen positiv! 95 / 131

96 320 Das Modell der einfaktoriellen Kovarianzanalyse Wie bei der einfaktoriellen gibt es zwei Darstellungen: Y ij = µ + α i + γx ij + ε ij = µ i + γx ij + ε ij i = 1,, k ; j = 1,, n i (µ i = µ + α i, α α k = 0) y ij : Testergebnis des j-ten Patienten in der i-ten Gruppe (im Beispiel ist k = 3; n 1 = n 2 = n 3 = 5) 31 und (), Methode der µ i : Einfluss der Verhaltensstörung auf Therapieerfolg x ij : Kovariable (Verbalisationsfähigkeit) des j-ten Patienten der Gruppe i γx ij ist dann der Einfluss der Kovariablen (Verbalisationsfähigkeit) des Patienten j in Gruppe i auf den Therapieerfolg 96 / 131

97 320 Das Modell der einfaktoriellen Kovarianzanalyse Zwei Darstellungen: Y ij = µ + α i + γx ij + ε ij = µ i + γx ij + ε ij i = 1,, k ; j = 1,, n i (µ i = µ + α i, α α k = 0) 31 und (), Methode der Der Parameter γ bemisst den Einfluss der Kovariablen (Verbalisationsfähigkeit) auf den Therapieerfolg γ = 0 bedeutet: die Kovariable (Verbalisationsfähigkeit) hat keinen Einfluss auf den Therapieerfolg Beachte: der Faktor γ ist für jede Gruppe derselbe (dh er hängt nicht von dem Index i ab!) 97 / 131

98 Beachte: Dieses Modell ist ein Spezialfall des Wobei b = X = ( µ1 µ 2 µ 3 γ Y = Xb + ε ) ε = ε 11 ε 35 Y = und (), Methode der 98 / 131

99 321 Das Modell der einfaktoriellen Kovarianzanalyse im Y = Xb + ε Daten- und Fehlervektor Y = y 11 y 1n1 y k1 y knk ; ε = Parametervektor und Designmatrix b = µ 1 µ k γ X = ε 11 ε 1n1 ε k1 ε knk x x 1n x x 2n x k x knk 31 und (), Methode der 99 / 131

100 322(A) Schätzer für γ (Methode der kleinsten Quadrate) k ni i=1 j=1 ˆγ = (y ij y i )(x ij x i ) k ni i=1 j=1 (x ij x i ) 2 Beachte: ˆγ ist ein gewichtetes Mittel der Schätzer für die Steigungen der Regressionsgeraden in den einzelen Gruppen Dh Schätzer für die Steigung in Gruppe i (vgl 211): ni j=1 ˆγ i = (y ij y i )(x ij x i ) ni j=1 (x ij x i ) 2 Anteil der Varianz der Kovariablen in Gruppe i an der Gesamtvarianz ni j=1 α i = (x ij x i ) 2 k ni i=1 j=1 (x ij x i ) 2 Es gilt (α1 + + α k = 1): 31 und (), Methode der ˆγ = k α i ˆγ i i=1 100 / 131

101 322(B) Schätzer für µ i (Methode der kleinsten Quadrate) Beachte: als Schätzer für die Parameter µ i verwendet man die Gruppenmittelwerte, wobei die Daten vorher um den Einfluss der Kovariablen korrigiert werden ˆµ i = 1 n i n j=1 (y ij ˆγx ij ) = y i ˆγx i Schätzer für die Varianz der zufälligen Fehler (Residualvarianz) 31 und (), Methode der ŝ 2 y x = 1 n k 1 k n i (y ij ˆµ i ˆγx i j) 2 i=1 j=1 (dabei bezeichnet n = n n k den Gesamtstichprobenumfang) 101 / 131

102 Mathematische Formulierung der Hypothesen (im Beispiel 319): kein Einfluss der Kovariable Die Kovariable hat keinen Einfluss auf den Therapieerfolg: H 0 : γ = 0 Mit der Matrix K = (0, 0, 0, 1) und dem Parametervektor b = (µ 1, µ 2, µ 3, γ) T kann man diese Nullhypothese schreiben als µ 1 H 0 : Kb = (0, 0, 0, 1) µ 2 µ 3 = γ = 0 γ 31 und (), Methode der 102 / 131

103 Mathematische Formulierung der Hypothesen (im Beispiel 319): kein Unterschied zwischen den Gruppen Zwischen den verschiedenen Verhaltensstörungen besteht kein Unterschied hinsichtlich des Therapieerfolgs: Mit der Matrix K = H 0 : µ 1 = µ 2 = µ 3 ( und dem Parametervektor b = (µ 1, µ 2, µ 3, γ) T kann man diese Hypothese schreiben als ( ) µ 1 ( ) ( H 0 : Kb = µ µ 3 = µ1 µ 2 0 = µ 2 µ 3 0 γ ) 31 und (), Methode der ) 103 / 131

104 323(A) F -Test auf Signifikanz des Regressionskoeffizienten Man beachte: Alle Hypothesen können mit dem F -Test im (vgl 312) getestet werden Die Anwendung der allgemeinen Theorie liefert: Die Hypothese H 0 : γ = 0 (Kovariable hat keinen Einfluss) wird zum Niveau α abgelehnt, falls F γ = 1 1 ˆγ2 ns 2 xx s 2 y x > F 1,n k 1,1 α 31 und (), Methode der gilt (oder der p-wert < α ist) Dabei ist F 1,n k 1,1 α das (1 α)-quantil der F -Verteilung und s 2 xx = 1 n k n i (x ij x ) 2 i=1 j=1 die Summe der quadrierten Abweichungen der Kovariablen von ihrem Mittelwert 104 / 131

105 Alternative Interpretation der Teststatistik aus 323(A): Differenz von Summen aus quadrierten Residuen Trifft die Hypothese H 0 : γ = 0 (die Kovariable hat keinen Einfluss auf den Therapieerfolg) zu, so liegt das Modell der einfaktoriellen vor: Bezeichnet y ij = µ i + ε ij ; i = 1,, k; j = 1,, n i y i = 1 n n i y ij j=1 i = 1,, k den Mittelwert in Gruppe i (nicht bzgl der Kovariablen korrigiert), dann ist ŝ 2 H 0 = 1 n k k n i (y ij y i ) 2 i=1 j=1 die Residualvarianz der einfaktoriellen (Varianz unter der Nullhypothese) 31 und (), Methode der 105 / 131

106 Allgemeines Prinzip: Differenz von Summen aus quadrierten Residuen Nach 322(B) ist ŝ 2 y x = 1 n k 1 k n i (y ij ˆµ i ˆγx ij ) 2 i=1 j=1 die Residualvarianz im Modell der einfaktoriellen Kovarianzanalyse (Varianz unter der Alternative) Die Statistik des F -Tests hat die Darstellung 31 und (), Methode der F γ = (n k) ŝ2 H 0 (n k 1) ŝ 2 y x ŝ 2 y x Man vergleicht also die Summen der quadrierten Residuen in dem Modell der einfaktoriellen [(n k)ŝ 2 H 0 ] und unter der Einbeziehung der Kovariablen [(n k 1)ŝ 2 y x ] Kurz: Differenz der Summe der quadrierten Residuen unter Nullhypothese und Alternative dividiert durch die Summe der quadrierten Residuen unter Alternative 106 / 131

107 Beispiel: Test auf Einfluss der Kovariablen für die Daten aus Beispiel 319 RSS γ H 0 = (n k) ŝ 2 H 0 = 140 RSS = (n k 1) ŝ 2 y x = 36 F γ = = = und (), Methode der Für α = 5% ist F 1,11,095 = 4844, also wird die Nullhypothese H 0 : γ = 0 (kein Einfluss der Kovariablen) zum Niveau 5% verworfen (p-wert: 00001) 107 / 131

108 323(B) F -Test auf Unterschiede zwischen den Gruppen Die Hypothese H 0 : µ 1 = = µ k wird zum Niveau α abgelehnt, falls F µ = 1 k 1 1 k n k 1 i=1 k i=1 n i(y i y ) 2 ni j=1 (y ij y i ) 2 > F k 1,n k 1,1 α 31 und (), Methode der gilt Dabei ist Fk 1,n k 1,1 α das (1 α)-quantil der F -Verteilung mit (k 1, n k 1) Freiheitsgraden y ij = y ij ˆγx ij (die um den Einfluss der Kovariablen bereinigten Daten) y i = 1 ni n i j=1 y ij der Gruppemmittelwert in Gruppe i y = 1 k n1 n i=1 j=1 y ij der Gesamtmittelwert Beachte: es wird eine einfaktorielle mit den korrigierten Daten yij = y ij ˆγx ij durchgeführt 108 / 131

109 Alternative Interpretation der Teststatistik aus 323(A): Differenz von Summen aus quadrierten Residuen F µ = 1 k 1 (RSS µ H 0 RSS) 1 n k 1 RSS Residuensumme unter der Nullhypothese H 0 : µ 1 = = µ k RSS µ H 0 = k n i (yij y ) 2 i=1 j=1 31 und (), Methode der Residensumme im Modell der Kovarianzanalyse (ˆµ i = 1 ni n i j=1 (y ij ˆγx ij ) = y i beachten!) RSS = k n i (y ij ˆµ i ˆγx ij ) 2 = i=1 j=1 k n i (yij y i ) 2 i=1 j=1 109 / 131

110 Beispiel: Test auf Gruppenunterschiede für die Daten aus Beispiel 319 RSS µ H 0 = 4645 RSS = 36 F µ = 1 2 ( ) 1 = = und (), Methode der Für α = 5% ist F 2,11,095 = 3982, also wird die Nullhypothese (keine Gruppenunterschiede) H 0 : µ 1 = µ 2 = µ 3 zum Niveau 5% verworfen (p-wert: ) 110 / 131

111 SPSS-Output: einfaktorielle Kovarianzanalyse Tests der Zwischensubjekteffekte Abhängige Variable:Therapieerfolg Quadratsumme Quelle vom Typ III Korrigiertes Modell 46,801 a Konstanter Term,880 GRUPPE 42,850 VERBALE_INTELLIGENZ 10,401 Fehler 3,599 Gesamt 204,000 Korrigierte 50,400 Gesamtvariation df Mittel der Quadrate 15,600,880 21,425 10,401,327 F 47,681 2,691 65,483 31,789 Sig,000,129,000, und (), Methode der a R-Quadrat =,929 (korrigiertes R-Quadrat =,909) Man Beachte: Durch Einbeziehung der Kovarariablen verkleinert sich die Summe der quadrierten Residuen von 1400 (im Modell der einfaktoriellen ) auf 36 (im Modell der einfaktoriellen Kovarianzanalyse) Dh statt 7222% werden 9286% der Varianz erklärt! 111 / 131

112 324 Voraussetzungen für die Kovarianzanalyse Modell der einfaktoriellen Kovarianzanalyse y ij = µ i + γx ij + ε ij = µ + α i + γx ij + ε ij i = 1,, k; j = 1,, n i µ i repräsentiert den Einfluss der Gruppe i auf die abhängige Variable y ij γx ij repräsentiert den Einfluss der Kovariablen x ij auf die abhängige Variable y ij Die zufälligen Fehler ε ij sind unabhängig und normalverteilt mit Erwartungswert 0 und Varianz σ 2 31 und (), Methode der Der Faktor γ is unabhängig von der Gruppe (dh hängt nicht von i ab): Homogenität der Regressionskoeffizienten 112 / 131

113 325 Überprüfung der Annahme der Homogenität der Regressionskoeffizienten Modell y ij = µ i + γ i x ij + ε ij ; i = 1,, k; j = 1,, n i Nullhypothese: Der Einfluss der Kovariablen ändert sich nicht mit der Gruppenzugehörigkeit 31 und (), Methode der H 0 : γ 1 = γ 2 = = γ k Beachte: - Das Modell hat 2k Parameter µ 1,, µ k, γ 1,, γ k (im Beispiel 6) - Das Modell der einfaktoriellen Kovarianzanalyse hat k + 1 Parameter µ 1,, µ k, γ (im Beispiel 4) 113 / 131

114 Design- und Hypothesenmatrix für Beispiel 319 b = µ 1 µ 2 µ 3 γ 1 γ 2 γ 3 X = und (), Methode der K = Kb = ( ( ) γ1 γ 2 γ 2 γ 3 ) 114 / 131

115 326 F -Test für die Hypothese der Homogenität der Regressionskoeffizienten Die Hypothese H 0 : γ 1 = = γ k wird zum Niveau α abgelehnt, falls F γ = 1 k 1 (RSS H 0 RSS) 1 n 2k RSS > F k 1,n 2k,1 α 31 und (), Methode der Dabei sind ni j=1 (y ij ˆµ i ˆγx ij ) 2 die Summe der quadrierten RSSH0 = k i=1 Residuen unter der Nullyhpothese ˆµi, ˆγ die Schätzer unter der Annahme der Homogenität der Regressionskoeffizienten (vgl Bemerkung 322) RSS = k ni i=1 j=1 (y ij µ i γ i x ij ) 2 die Summe der quadrierten Residuen in der einfaktoriellen Kovarianzanalyse ( µi, γ i ) die Schätzungen, unter der Annahme, dass keine Homogenität der Regressionskoeffizienten vorliegt 115 / 131

116 Beispiel: F -Test für die Hypothese der Homogenität der Regressionskoeffizienten für die Daten aus Beispiel 319 RSS H0 = 36 RSS = 2445 F γ = 1 2 ( ) 1 = = und (), Methode der Für α = 5% ist F 2,9,095 = 4256, also wird die Nullhypothese der Homogenität der Regressionskoeffizienten zum Niveau 5% nicht verworfen H 0 : γ 1 = γ 2 = γ / 131