Statistik II im Wintersemester 2006/2007

Transkript

1 Statistik II im Wintersemester 2006/2007 Themen am Multivariate Analysemodelle Multivariate Regression Hauptkomponentenanalyse Faktorenanalyse Lineare Strukturgleichungsmodelle Lernziele: 1. Unterschied zwischen Hauptkomponenten und Faktoren 2. Die Bedeutung von Rotationen bei der Interpretation von Faktorenanalysen 3. Unterschied zwischen explorativer und konfirmatorischer Faktorenanalyse 4. Goodness-of-Fit-Test 5. Auswirkungen von Messfehlern 1

2 Wiederholung vom 9.1. Logit- und Probitregression bei dichotomen abhängigen Variablen µ Y X Lineare Regression: Probit-Regression: Logistische Regression: X Probleme der linearen Regression: Vorhersagewerte außerhalb des Werteberichs und heteroskedastische Residuen. 2

3 Wiederholung vom 9.1. Interpretation von Logits und Odds in logistischen Modellen am Beispiel der binären logistischen Regression ( β 0 +β1 1+ +βk K) ( ) L e exp X... X µ ˆ = Pr( Y= 1) = = Y + + β +β + +β L 1 e 1 exp 0 1 X 1... K XK ( = ) ( ) K Pr Y 1 ln =β + β X 1 Pr Y 1 = = 0 k k k 1 ( = ) ( ) X K Pr Y 1 β + β = e = e e 1 Pr Y= 1 K 0 k k k= 1 β0 βk Xk k= 1 Links-Rechts Logit Differenz Pr(SPD) / Pr(CDU) Veränderungsfaktor Pr(SPD) Differenz

4 Wiederholung vom 9.1. Likelihood-Quotienten-Test und Pseudo-R-Quadrate L 2 = 2 ( lnl(m 0 ) lnl(m 1 ) ) R ' = 1 = = = = ln L(M ) 2ln L(M ) 2ln L(M ) + L ln L(M 1) L L ' L /1293 RCox&Snell = 1 exp = 1 e = n 2 ( ) ( ( ( 0 )) ) 1 exp L /n ' R Nagelker ke = = = / exp 2lnL M /n 1 e LMvs.M L 1 0 Mvs.M L i 0 Mvs.M 1 i Δ R' = = 2lnL M 2lnL M 2lnL M ( ) ( ) ( )

5 Wiederholung vom 9.1. Multinomiale logistische Regression ( = i) ( = I) Pr Y Pr Y ( = i) ( = I) Pr Y ln = β i0 +βi1 X1 +βi2 X2 + +βik X K für i = 1, 2,, I 1 Pr Y ( ) = exp β +β X +β X + +β X für i = 1, 2,, I 1 i0 i1 1 i2 2 ik K Prädiktor Logit PDS/CDU Grüne/CDU SPD/CDU FDP/CDU Konstante b *** *** *** *** SE(b) exp(b) Region b *** *** * SE(b) exp(b) Bildung b *** ** ** SE(b) exp(b) Links/Rechts b *** *** *** SE(b) exp(b) (Daten: Nachwahlbefragung BTW 2005, n=1874, Berechnungen mit SPSS) 5

6 Wiederholung vom 9.1. Multinomiale logistische Regression K exp β i0 + βik Xk k= 1 Pr( Y = i ) = für i = 1,2,,I 1 I 1 K 1+ exp β j0 + βjk Xk j= 1 k= 1 1 Pr( Y = I) = I 1 K 1+ exp β j0 + βjk Xk j1 = k1 = Ordinale logistische Regression ( ) ( ) ( ) ( ) K Pr Y> i Pr Y> i ln = ln =α i + βk X k für i = 1, 2,, I 1 Pr Y i 1 Pr Y i > k= 1 ( ) ( ) ( ) ( ) K Pr Y > i Pr Y > i = = exp i k X k für i 1,2,,I 1 Pr Y i 1 Pr Y i α + β = > k= 1 6

7 Wiederholung vom 9.1. Ordinale logistische Regression K exp α+ i β k Xk k= 1 Pr( Y > i ) = für i = 1,2,,I 1 K 1+ exp α i + βk Xk k= 1 ( ) Pr Y = 1 = 1 ( I) e 1+ e K α+ β X 1 k k k= 1 K K K α+ β X α + β X 1 k k k= 1 α i 1+ βk Xk α i+ βk Xk k= 1 k= 1 e e Pr( Y = i ) = K K für i = 2,3,,I 1 α i 1+ βk Xk α i+ βk Xk k= 1 k= 1 1+ e 1+ e Pr Y = = e 1+ e I 1 k k k= 1 K α + β X I 1 k k k= 1 K 7

8 Wiederholung vom 9.1. Probit-Regression β 0+ βk Xk 2 K k= Z e Pr(Y = 1) =Φ β + β X = dz 2π 0 k k k= 1 K K Pr(Y > i) =Φ α i + βk X k für i = 1,2,,I 1 k= 1 Probit-Modell: Prädiktor b SE(b) b s(x k ) 2lnL df Links-Rechts (β 1 ) *** M Region (β 2 ) *** M Konstante für Y>1 (α 1 ) *** L Konstante für Y>2 (α 2 ) *** R 2.0% *** Konstante für Y>3 (α 3 ) *** (Daten: Allbus 1996, n=3212) Logit-Modell Prädiktor b SE(b) b s(x k ) exp(b) 2lnL df Links-Rechts (β 1 ) *** M Region (β 2 ) *** M Konstante für Y>1 (α 1 ) *** L Konstante für Y>2 (α 2 ) *** R 2.1% *** Konstante für Y>3 (α 3 ) *** (Daten: Allbus 1996, n=3212) 8

9 Multivariate Regression Die lineare Regression ist nicht nur Ausgangspunkt für Verallgemeinerungen zu nichtlinearen Modellen wie Logit- und Probitmodelle. Eine andere Verallgemeinerungsmöglichkeit besteht darin, nicht nur eine abhängige Variable, sondern in einem komplexeren Modell mehrere abhängige Variablen simultan zu analysieren. Das einfachste derartige Modell ist das Modell der multivariaten Regression. Während in einem multiplen Regressionsmodell der Einfluss mehrerer erklärende Variablen auf eine abhängige Variable untersucht wird, wird im Modell der multivariaten Regression der Einfluss einer oder mehrerer erkärender Variablen auf mehrere abhängige Variablen betrachtet. Als Beispiel soll in einer multiplen Regression der Einfluss des politischen Interesses und des Vertrauens in Regierungsbeamte und Politiker auf zwei abhängige Variablen betrachtet werden, die die Beeinflussbarkeit des politischen Systems erfassen. Die Variable einfluss misst die Zustimmung zu der Aussage Der Durchschnittsbürger hat einen erheblichen Einfluss auf die Politik, die Variable wahlen die Zustimmung zu der Aussage Wahlen sind ein gutes Mittel, eine Regierung dazu zu bringen, auf die Meinung des Volkes zu achten. Die Antwortmöglichkeiten sind auf jeweils auf fünfstufigen Skalen von stimme überhaupt nicht zu (1) bis stimme voll und ganz zu (5) vorgegeben. 9

10 Multivariate Regression Die erklärenden Variablen sind das politische Interesse (Variablen polint1 und polint2), die im verwendeten Datensatz des Allbus 1996 zweimal vorkommen, zum einen im face-to-face Interview und zum anderem im schriftlichen ISSP- Fragebogen. Die Antwortskalen sind ebenfalls fünfstufig von überhapt nicht (1) bis sehr stark (5). Zusätzlich werden die Zustimmungen zu den Variablen politikr und beamte auf der gleichen Antwortskala wie die abhängigen Variablen erfasst. Die Itemformulierungen lauten Die Politiker, die wir in den Bundestag wählen, versuchen, ihre Versprechen aus dem Wahlkampf zu halten und Man kann sich darauf verlassen, dass die meisten Regierungsbeamte das Beste für das Land tun. Da zwei abhängige Variablen betrachtet werden, werden zwei Regressionsgleichungen formuliert, wobei zur Unterscheidung die Regressionskoeffizienten zwei Indizes aufweisen, von denen der erste die abhängige Variable und der zweite die unabhängige Variable bezeichnet: einf luss = Yˆ 1 + U1 =β 10 +β11 politikr +β12 beamte +β13 polint1+β14 polint2 + U1 wahlen = Yˆ + U =β +β politikr +β beamte +β polint1+β polint2 + U

11 Multivariate Regression abhängig: einfluss wahlen R-Quadrat *** *** Prädiktor b SE(b) b * b SE(b) b * Wilks λ Konstante *** *** *** politikr *** *** *** beamte *** *** *** polint polint ** (*) ** (Daten: Allbus 1996, nur alte Bundesländer, n=1882) Die Tabelle zeigt die Ergebnisse der Schätzung. Die Interpretation der Regressionskoeffizienten ist gegenüber der multiplen Regression unverändert. Bei der abhängigen Variable einfluss hat die erklärende Variable politikr den relativ stärksten positiven Einfluss gemessen über das standardisierte Regressionsgewicht b * gefolgt von polint2 und beamte; polint1 hat einen negativen Einfluss, der aber bei einer Irrtumswahrscheinlichkeit von 5% nicht signifikant ist. Bei der abhängigen Variable wahlen ist dagegen der positive Effekt von beamte am relativ stärksten, gefolgt von politikr. Der positive Effekt von polint2 ist am Rande der Signifikanz, das empirische Signifikanzniveau beträgt Die Erklärungskraft ist bei beiden abhängigen Variablen mit 9.5% bzw. 9.1% recht mäßig. 11

12 Multivariate Regression abhängig: einfluss wahlen R-Quadrat *** *** Prädiktor b SE(b) b * b SE(b) b * Wilks λ Konstante *** *** *** politikr *** *** *** beamte *** *** *** polint polint ** (*) ** (Daten: Allbus 1996, nur alte Bundesländer, n=1882) Die berichteten Ergebnisse ergeben sich sowohl bei einer gemeinsamen multivariaten Schätzung als auch bei der getrennten Schätzung von zwei multiplen Regressionsmodellen. Im Unterschied zur getrennten Schätzung besteht bei der multivariaten Regression zusätzlich die Möglichkeit zu testen, ob ein Prädiktor überhaupt einen Effekt aufweist. Die Nullhypothese behauptet, dass in allen Regressionsgleichungen der zugehörige Regressionskoeffizient Null ist. In der letzten Spalte der Tabelle ist dazu die Teststatistik Wilks Lambda aufgeführt, eine von einer Reihe alternativer Teststatistiken. Mit Ausnahme von polint2 weisen alle Prädikoren bei einer Irrtumswahrscheinlichkeit von 1% signifikante Effekte auf. 12

13 Multivariate Regression abhängig: einfluss wahlen R-Quadrat *** *** Prädiktor b SE(b) b * b SE(b) b * Wilks λ Konstante *** *** *** politikr *** *** *** beamte *** *** *** polint polint ** (*) ** (Daten: Allbus 1996, nur alte Bundesländer, n=1882) In beiden Regressionsgleichungen haben die drei erklärenden Variablen politikr, beamte und polint2 positive Effekte: Je größer also das Vertrauen in Politikern und Regierungsbeamte ist und je höher das politische Interesse, desto eher glauben die Befragte politischen Einfluss zu haben. Irritierend ist allerdings, dass polint1 keinen signifikanten positiven Effekt aufweist, misst diese Variable doch das gleiche wie polint2. Tatsächlich ist dies eine Folge der hohen Multikollinearität, die Produktmomentkorrelation zwischen polint1 und polint2 beträgt Da polint2 geringfügig höher mit den beiden abhängigen Variablen korreliert als polint1, wird praktisch die gesamte Erklärungskraft des politischen Interesses über polint2 vermittelt. 13

14 Multivariate Regression Sichtbar wird dies, wenn jeweils eine der beiden Messungen des Interesses aus den Modellgleichungen entfernt wird. abhängig: einfluss wahlen R-Quadrat *** *** Prädiktor b SE(b) b * b SE(b) b * Wilks λ Konstante *** *** *** politikr *** *** *** beamte *** *** *** polint *** *** *** (Daten: Allbus 1996, nur alte Bundesländer, n=1882) abhängig: einfluss wahlen R-Quadrat *** *** Prädiktor b SE(b) b * b SE(b) b * Wilks λ Konstante *** *** *** politikr *** *** *** beamte *** *** *** polint *** *** *** (Daten: Allbus 1996, nur alte Bundesländer, n=1882) 14

15 Hauptkomponentenanalyse Es erscheint sinnvoller, anstelle des Auslassens von einer der beiden Messungen des politischen Interesses einen Index zu verwenden, in den die beiden Messungen einfließen. Die Hauptkomponentenanalyse ist ein statistisches Verfahren, das aus einer Menge von Variablen optimale Linearkombinationen berechnet. Optimal bedeutet hierbei, dass die Linearkombinationen so gebildet sind, dass sie möglichst alle Informationen der Ausgangsvariablen enthalten. Die Operationalisierung dieser Idee besteht darin, dass die Korrelationsmatrix der Ausgangsvariable durch den optimalen Index möglichst gut reproduziert wird. Als Beispiel soll eine Hauptkomponentenanalyse der vier erklärenden Variablen politikr, beamte, polint1 und polint2 des Beispiels zur multivariaten Regression berechnet werden. Die Korrelationsmatrix der vier Variablen weist folgende Koeffizienten auf: Variable politikr beamte polint1 polint2 politikr beamte polint polint

16 Hauptkomponentenanalyse Variable politikr beamte polint1 polint2 politikr beamte polint polint Komponentenmatrix Eigenwert: Varianzanteil: % Variable Kompon. 1 politikr beamte polint polint Die Berechnung der optimalen Lösung basiert auf einer rechenaufwendigen sogenannten Eigenwertzerlegung der Korrelationsmatrix der Ausgangsvariablen. Für das Beispiel ist nur die erste Hauptkomponente berechnet worden. Bei einer Eigenwertzerlegung einer Korrelationsmatrix ist die Summe der Eigenwerte immer gleich der Zahl der Variablen, im Beispiel also 4. Der erste Eigenwert beträgt im Beispiel 1.918, was % von 4 ist. Dieser Wert ist gleichzeitig die Summe der erklärten Varianzen, wenn die Ausgangsvariablen in einer multivariaten Regression auf die Hauptkomponente regregiert werden. Die Komponentenmatrix gibt die standardisierten Regressionsgewichte wieder, die sich bei einer multivariaten Regression der Ausgangsvariablen auf die Hauptkomponente ergeben. Die Regressionsgewichte werden hier auch als Ladungen bezeichnet. 16

17 Hauptkomponentenanalyse Variable politikr beamte polint1 polint2 politikr beamte polint polint Komponentenmatrix Eigenwert: Varianzanteil: % Variable Kompon. 1 politikr beamte polint polint Kommunalitäten Variable Extraction politikr beamte polint polint Da es nur eine einzige erklärende Variable, die erste Hauptkomponente gibt, sind die standardisierten Gewichte gleichzeitig die Korrelationen der Hauptkomponenten mit den Ausgangsvariablen. Sichtbar wird, dass die erste Hauptkomponente sehr hoch mit den beiden Messungen des politischen Interesses korreliert und deutlich geringer mit politikr und beamte. Die durch die Hauptkomponenten erklärten Varianzen werden als Kommunalitäten bezeichnet. Da nur eine Hauptkomonente berechnet wurde und die Varianz einer Hauptkomponetne Eins ist, sind die Kommunalitäten die quadrierten Werte der Ladungen (Regressionsgewichte). Die quadrierte Ladung von politikr auf die erste Hauptkomonente ergibt 0.049, die quadrierte Ladung von polint ergibt

18 Hauptkomponentenanalyse Variable politikr beamte polint1 polint2 politikr beamte polint polint Komponentenmatrix Eigenwert: Varianzanteil: % Variable Kompon. 1 politikr beamte polint polint Kommunalitäten Variable Extraction politikr beamte polint polint Da der Eigenwert einer Hauptkomponente gleich der Summe der quadrierten Ladungen, also der erklärten Varianzen ist, ergibt sich im Beispiel: = Die Hauptkomponenten sind optimale Indizes der Ausgangsvariablen, reproduzieren also die Korrelationen der Ausgangsvariablen optimal (im Sinne der kleinsten Abweichungsquadrate). Die reproduzierte Korrelationsmatrix ergibt sich dadurch, dass die Hauptkomponenten als gemeinsame Erklärungsgrößen für die Ausgangsvariablen aufgefasst werden. Nach den Regeln für Linearkombinationen von Variablen ergibt sich, dass die durch die Hauptkomponenten erklärte Korrelation zwischen zwei Variablen gleich dem Produkt der Ladungen ist. Die durch die erste Hauptkomponenten erklärte Korrelation zwischen politikr und beamte beträgt daher = 0.048, die erklärte Korrelation zwischen polint1 und polint2 beträgt =

19 Hauptkomponentenanalyse Korrelationen der Ausgangsvariablen Variable politikr beamte polint1 polint2 politikr beamte polint polint Reproduzierte Korrelationen Variable politikr beamte polint1 polint2 politikr beamte polint polint Werden auch die die Kommunalitäten berücksichtigt, lässt sich reproduzierte Korrelationsmatrix berechnen, die die Korrelationsmatrix der Ausgangsvariablen optimal reproduziert. Der Vergleich der beiden Tabellen zeigt, dass die letzten Elemente der Matrix relativ gut reproduziert wird, während die anderen Korrelationen nicht so gut reproduziert werden. Die Differenz zwischen der empirischen Korrelationsmatrix und der Ausgangsmatrix kann als Residualkorrelationsmatrix interpretiert werden. Je geringer diese Werte sind, desto besser wird die Ausgangsmatrix reproduziert. Residualkorrelationen Variable politikr beamte polint1 polint2 politikr beamte polint polint

20 Hauptkomponentenanalyse Komponentenmatrix Eigenwert: Varianzanteil: % Variable Kompon. 1 politikr beamte polint polint Kommunalitäten Variable Extraction politikr beamte polint polint Koeffizientenmatrix Variable Kompon. 1 politikr beamte polint polint Hauptkomponenten sind optimale Indizes der Ausgangsvariablen. Um mit ihnen arbeiten zu können, müssen sie berechenbar sein. Die Koeffizienntenmatrix gibt die standardisierten Regressionsgewichte wieder, wenn die Hauptkomponenten auf die Ausgangsvariablen regrediert werden. Die erste Hauptkomponente ist also die mit den Werten in der Koeffizientenmatrix gewichte Summe der standardisierten (z-transformierten) Ausgangsvariablen. Im Beipsiel berechnet sich also die erste Hauptkomponente nach: politiker x beamte x polint1 x politi ker beamte polint1 H1 = spoliti ker sbeamte spolint1 polint2 x s polint 2 polint 2 20

21 Hauptkomponentenanalyse Korrelationen der Ausgangsvariablen Variable politikr beamte polint1 polint2 politikr beamte polint polint Reproduzierte Korrelationen Variable politikr beamte polint1 polint2 politikr beamte polint polint Residualkorrelationen Variable politikr beamte polint1 polint2 politikr beamte polint polint Die zweite Hauptkomponente ist gleichzeitig die erste Hauptkomponente der Residualkorrelationsmatrix. Daraus folgt, dass die erste und die zweite Hauptkompnente unkorreliert ist. Wird die Residualkorrelationsmatrix der ersten beiden Hauptkomponenten berechnet, kann daraus die dritte Hauptkomponenten berechnet werden. Dieses Vorgehen kann solange wiederholt werden, bis die empirische Korrelationsmatrix exakt reproduziert wird, die Residualmatrix also nur Nullen enthält. In der Regel ergeben sich so viele Hauptkomponenten wie es Ausgangsvariablen gibt. 21

22 Hauptkomponentenanalyse Erklärte Gesamtvarianz Komponente Anfängliche Eigenwerte Summen von quadrierten Faktorladungen für Extraktion Gesamt % der Varianz Kumulierte % Gesamt % der Varianz Kumulierte % Extraktionsmethode: Hauptkomponentenanalyse. Die Tabelle zeigt für das Beispiel die Kommunalitäten bei der Berechnung aller Hauptkomponenten. Sichtbar wird, dass die durch eine Hauptkomponente erklärten Varianzen immer geringer werden. Erklärt die erste Hauptkomponenten immerhin knapp 48% der Gesamtvarianz, ergibt sich bei der zweiten Hauptkomponenten nur noch 37%, bei der dritten nur noch gut 12% und bei der vierten nur noch unter 3%. Tatsächlich können die ersten beiden Hauptkomponenten die Korrelationsmatrix schon sehr gut reprodizieren. Korrelationen der Ausgangsvariablen Variable politikr beamte polint1 polint2 politikr beamte polint polint Reproduzierte Korrelationen bei 2 Komponenten Variable politikr beamte polint1 polint2 politikr beamte polint polint

23 Hauptkomponentenanalyse politikr POLITIKER VERSUCHEN, VERSPRECHEN Z. HALTEN beamte REGIERUNGSBEAMTE TUN D. BESTE FUERS LAND polint1 POLITISCHES <ORDINAL> polint2 POLITISCHES <ISSP> Komponentenmatrix a Komponente Extraktionsmethode: Hauptkomponentenanalyse. a. 4 Komponenten extrahiert Die Komponentenmatrix zeigt, dass auf die zweite Hauptkomponente vor allem die beiden Variablen politikr und beamte laden. Dies gilt auch für die dritte Komponente. Allerdings sind die standardisierten Regressionsgewichte nur halb so hoch. Außerdem unterscheiden sich die Vorzeichen. In gewisser Hinsicht erfasst diese Hauptkomponente also den Unterschied zwischen dem Vertrauen in Politiker und in Regierungsbeamte. Die vierte Hauptkomponenten erfasst dann analog den Unterschied zwischen den beiden Messungen des politischen Interesses. 23

24 Hauptkomponentenanalyse Komponentenmatrix a politikr POLITIKER VERSUCHEN, VERSPRECHEN Z. HALTEN beamte REGIERUNGSBEAMTE TUN D. BESTE FUERS LAND polint1 POLITISCHES <ORDINAL> polint2 POLITISCHES <ISSP> Komponente Korrelationen der Ausgangsvariablen Variable politikr beamte polint1 polint2 politikr beamte polint polint Extraktionsmethode: Hauptkomponentenanalyse. a. 4 Komponenten extrahiert Da die vier Hauptkomponenten unkorreliert sind, ergeben sich die Kommunalitäten als Summe der quadrierten Ladungen. Für politikr berechnet sich die Komunalität als (.497) = 1.0. Die modellimplizierten Korrelationen zwischen zwei Variablen ergeben sich entsprechend als Summe der Produkte der Ladungen auf die Faktoren. Die durch die Hauptkompnenten implizierte Korrelation zwischen politikr und beamte beträgt so (.497) =

25 Hauptkomponentenanalyse Koeffizientenmatrix der Komponentenwerte politikr POLITIKER VERSUCHEN, VERSPRECHEN Z. HALTEN beamte REGIERUNGSBEAMTE TUN D. BESTE FUERS LAND polint1 POLITISCHES <ORDINAL> polint2 POLITISCHES <ISSP> Komponente Extraktionsmethode: Hauptkomponentenanalyse. Komponentenwerte. Da Koeffizientenmatrix zeigt, wie sich die vier Hauptkomponenten aus den standardisierten Ausgangsvariablen berechnen lassen. Es ist möglich anstelle der Ausgangsvariablen die Hauptkomponenten in einem multivariaten linearen Regressionsmodell zur Vorhersage von einfluss und wahlen zu verwenden. 25

26 Hauptkomponentenanalyse abhängig: einfluss wahlen R-Quadrat *** *** Prädiktor b SE(b) b * b SE(b) b * Wilks λ Konstante *** *** *** HKomp *** *** *** HKomp *** *** *** HKomp * HKomp (*) (Daten: Allbus 1996, nur alte Bundesländer, n=1882) Da die vier Hauptkomponenten die Ausgangsvariablen perfekt reproduzieren, sind die Variationen der Vorhersagewerte und der Residuen und damit die erklärte Varianz mit denen der ursprünglichen multivariaten Regression identisch. Tatsächlich werden bisweilen Regressionen mit Hauptkomponten berechnet, um Multikollinearitätsprobleme zu vermeiden. Da die erklärenden Variablen, die Hauptkomponenten untereinander nicht korrelieren, sind die partiellen Regressionskoeffizienten mit denen bivariater Regressionen identisch. Die standardisierten Regressionsgewichte sind zudem gleichzeitig die Korrelationen zwischen den abhängigen und den erklärenden Variablen. Die erklärte Varianz einer abhängigen Variable ist dann die Summe der quadrierten standardisierten Regressionsgewichte: = (.033) 2 +(.043) 2. 26

27 Hauptkomponentenanalyse abhängig: einfluss wahlen R-Quadrat *** *** Prädiktor b SE(b) b * b SE(b) b * Wilks λ Konstante *** *** *** HKomp *** *** *** HKomp *** *** *** HKomp * HKomp (*) (Daten: Allbus 1996, nur alte Bundesländer, n=1882) Würden nur die ersten beiden Komponenten als Prädiktoren verwendet, würde die Erklärungskraft kaum sinken: Für die abhängige Variable einfluss ergibt sich dann: =0.092, und für die abhängige Variable wahlen ergibt sich: = Mit Hilfe der Hauptkomponenten ist es also möglich, die Zahl der erklärenden Variablen zu reduzieren ohne dabei viel an Erklärungskraft zu verlieren. Dies ist Folge der hohen Korrelationen unter den Ausgangsvariablen. Die in den Ausgangsvariablen enthaltenen Informationen lassen sich bereits durch die ersten beiden Hauptkomponenten gut erfassen. 27

28 Faktorennanalyse Während die Hauptkomponentenanalyse aus Ausgangsvariablen optimale Linearkombinationen erstellt, geht die Faktorenanalyse davon aus, dass sich die Korrelationen zwischen beobachteten Variablen, die im Kontext der Faktorenanalyse auch als Indikatoren bezeichnet werden, tatsächlich kausal auf unbeobachtete oder latente Variablen, die sogenannten Faktoren zurückführen lassen. Wenn die Werte der Faktoren bei den einzelnen Fällen, die sogenannten Faktorscores bekannt wären, würden sich die Korrelationen unter den Indikatoren bei Kontrolle durch die Faktoren somit als Scheinkausalität herausstellen. Das Problem der Faktorenanalyse besteht darin, dass die Faktoren definitionsgemäß unbeobachtet sind und sich daher die Faktorscores nicht berechnen lassen. Es kann allerdings versucht werden, die Faktorscores oder zumindest die Ladungen der Indikatoren auf die Faktoren zu schätzen. Hierzu sind unterschiedliche Schätzverfahren entwickelt worden. So können Hauptkomponenten als ungenaue Schätzung von Faktoren betrachtet werden. Auch die Methode der Hauptachsen-Faktorenanalyse basiert auf der Hauptkomponentenanalyse. Allerdings berücksichtigt diese Methode, dass die Faktoren die Indikatoren in der Regel nicht vollständig erklären können, es also Residualvarianzen gibt. Residuen können inaltlich als Messfehler der Indikatoren oder auch als sogenannten itemspezifische Faktoren oder Uniqueness interpretiert werden. 28

29 Hauptachsen-Faktorennanalyse: Berechnung politikr POLITIKER VERSUCHEN, VERSPRECHEN Z. HALTEN beamte REGIERUNGSBEAMTE TUN D. BESTE FUERS LAND polint1 POLITISCHES <ORDINAL> polint2 POLITISCHES <ISSP> Kommunalitäten Anfänglich Extraktion Extraktionsmethode: Hauptachsen-Faktorenanalyse. Korrelationen der Ausgangsvariablen Variable politikr beamte polint1 polint2 politikr beamte polint polint Reduzierte Korrelationen Variable politikr beamte polint1 polint2 politikr beamte polint polint Ausgangspunkt der Hauptachsen-Faktorenanalyse ist eine reduzierte Korrelationsmatrix, bei der von den Diagonalelementen eine erste Schätzung der Residualvarianz abgezogen wird. Diese erste Schätzung ergibt sich dadurch, dass jeder Indikator zunächt auf alle übrigen Indikatoren regrediert wird. Die erklärten Varianzen sind dann erste Schätzungen der Kommunalitäten, also der erklärten Varianzen. Entsprechend ergeben sich die ersten Schätzungen der Residualvarianzen als Differenrenz dieser Kommunalitäten von eins. Anstelle der empirischen Korrelationsmatrix wird daher eine Hauptkomponentenanalyse der reduzierten Korrelationsmatrix durchgeführt. 29

30 Hauptachsen-Faktorennanalyse: Berechnung politikr POLITIKER VERSUCHEN, VERSPRECHEN Z. HALTEN beamte REGIERUNGSBEAMTE TUN D. BESTE FUERS LAND polint1 POLITISCHES <ORDINAL> polint2 POLITISCHES <ISSP> Kommunalitäten Anfänglich Extraktion Extraktionsmethode: Hauptachsen-Faktorenanalyse. Korrelationen der Ausgangsvariablen Variable politikr beamte polint1 polint2 politikr beamte polint polint Reduzierte Korrelationen vor Iteration Variable politikr beamte polint1 polint2 politikr beamte polint polint Aus den Ladungen dieser ersten Hauptkomponentenanalyse können neue Schätzungen der Kommunalitäten berechnet werden, mit denen wiederum eine reduzierte Korrelationsmatrix berechnet werden kann. Diese ist Ausgangspunkt einer zweiten Hauptkomponentenanalyse, die wiederum zu neuen Schätzungen von Kommunalitäten führt. Dieses Vorgehen wird solange iteriert, bis sich zwei aufeinander folgende Lösungen nicht mehr unterscheiden oder aber eine Maximalzahl von Iterationen erreicht ist. 30

31 Hauptachsen-Faktorennanalyse: Bestimmung der Faktorenzahl politikr POLITIKER VERSUCHEN, VERSPRECHEN Z. HALTEN beamte REGIERUNGSBEAMTE TUN D. BESTE FUERS LAND polint1 POLITISCHES <ORDINAL> polint2 POLITISCHES <ISSP> Kommunalitäten Anfänglich Extraktion Extraktionsmethode: Hauptachsen-Faktorenanalyse. Korrelationen der Ausgangsvariablen Variable politikr beamte polint1 polint2 politikr beamte polint polint Reduzierte Korrelationen bei Konvergenz Variable politikr beamte polint1 polint2 politikr beamte polint polint Im Beispiel konvergiert die Lösung nach 9 Iterationen. Die abschließende Schätzung der Kommunalitäten ist in der zweiten Spalte der SPSS-Tabelle wiedergegeben. Bevor die Schätzung beginnt, ist zunächst festzulegen, wie viele Faktoren bzw. Hauptkomponenten geschätzt werden sollen. Wenn es theoretische Argumente gibt, die die Zahl der Faktoren vorgeben, kann diese Zahl vorgegeben werden. Da die Indikatoren Vertauen und politisches Interesse erfassen sollen, ergeben sich im Beispiel aus theoretischer Sicht 2 Faktoren. 31

32 Hauptachsen-Faktorennanalyse: Bestimmung der Faktorenzahl Faktor Anfängliche Eigenwerte Erklärte Gesamtvarianz Gesamt % der Varianz Kumulierte % Gesamt % der Varianz Kumulierte % Extraktionsmethode: Hauptachsen-Faktorenanalyse. Summen von quadrierten Faktorladungen für Extraktion Als Alternative wird oft empirisch anhand des sog. Eigenwertkriteriums entschieden. Dabei werden so viele Faktoren extrahiert, wie die ursprüngliche Korrelationsmatrix Eigenwerte hat, die größer oder gleich einem Minimalwert sind. In der Regel ist der Minimalwert 1.0. Dahinter steht die Überlegung, dass ein Faktor mindestens so viel an Varianz erklären soll, wie ein einzelner Indikator aufweist. Da alle Variablen standardisiert sind, ergibt sich so der Wert 1.0, das ist die Varianz einer standardisierten Variablen. Im Beispiel ergeben sich nach diesem Kriterium zwei Faktoren. Da bei der Faktorenanalyse Residualvarianzen berücksichtigt werden, sind die Summen der erklärten Varianzen (Kommunalitäten) der extrahierten Faktoren mit 45.1% und 25.0% der endgültigen Schätzung geringer als die entsprechende Werte einer Hauptkomponentenanalyse mit 48.0% und 37.1%. 32

33 Hauptachsen-Faktorennanalyse: Bestimmung der Faktorenzahl Eine grafische Methode zur Bestimmung der Faktorenzahl bestehtdarin, die Eigenwerte der Größe nach grafisch abzutragen und die Zahl der Faktoren so zu betimmen, dass der Abfall in den Werten der nicht berücksichtigten Eigenwerten (Faktoren) deutlich geringer ist als zwischen dem gerade noch berücksichtigten Faktoren. Da der Abfall zwischen dem 3. u. 4. Eigenwert gering ist, führt auch diese Methode im Beispiel zu 2 Faktoren. 33

34 Hauptachsen-Faktorennanalyse: Interpretation politikr POLITIKER VERSUCHEN, VERSPRECHEN Z. HALTEN beamte REGIERUNGSBEAMTE TUN D. BESTE FUERS LAND polint1 POLITISCHES <ORDINAL> polint2 POLITISCHES <ISSP> Faktorenmatrix a Faktor Extraktionsmethode: Hauptachsen-Faktorenanalyse. a. 2 Faktoren extrahiert. Es werden 9 Iterationen benötigt. Korrelationen der Ausgangsvariablen Variable politikr beamte polint1 polint2 politikr beamte polint polint Reproduzierte Korrelationen bei 2 Faktoren Variable politikr beamte polint1 polint2 politikr beamte polint polint Die Faktorenmarix entspricht der Komponentenmatrix bei der Hauptkomponentenanalyse und enthält die Ladungen der Indikatoren auf die beiden extrahierten Faktoren. Aus den Werten lässt sich wieder die reproduzierte Korrelationsmatrix berechnen. Die Kommunalität von politikr beträgt = 0.513, was bis auf Rundungsfehler dem Wert entspricht. Die Korrelation zwischen politikr und beamte berechnet sich als =

35 Hauptachsen-Faktorennanalyse: Interpretation politikr POLITIKER VERSUCHEN, VERSPRECHEN Z. HALTEN beamte REGIERUNGSBEAMTE TUN D. BESTE FUERS LAND polint1 POLITISCHES <ORDINAL> polint2 POLITISCHES <ISSP> Faktorenmatrix a Faktor Extraktionsmethode: Hauptachsen-Faktorenanalyse. a. 2 Faktoren extrahiert. Es werden 9 Iterationen benötigt. Korrelationen der Ausgangsvariablen Variable politikr beamte polint1 polint2 politikr beamte polint polint Reproduzierte Korrelationen bei 2 Faktoren Variable politikr beamte polint1 polint2 politikr beamte polint polint Vergleicht man die Ausgangskorrelationen mit den reproduzierten Korrelationen, so zeigt sich im Beispiel, dass die beoabchteten Korrelationen unter den Faktoren in der Tat sehr gut reproduziert werden können. Gleichzeitig wird sichtbar, dass es erhebliche Residualvarianzen gibt. Bei politikr und beamte betragen die Residualvarianzen (= ), bei den beiden Messungen des politischen Interesses (= ). 35

36 Hauptachsen-Faktorennanalyse: Interpretation politikr POLITIKER VERSUCHEN, VERSPRECHEN Z. HALTEN beamte REGIERUNGSBEAMTE TUN D. BESTE FUERS LAND polint1 POLITISCHES <ORDINAL> polint2 POLITISCHES <ISSP> Faktorenmatrix a Faktor Extraktionsmethode: Hauptachsen-Faktorenanalyse. a. 2 Faktoren extrahiert. Es werden 9 Iterationen benötigt. Korrelationen der Ausgangsvariablen Variable politikr beamte polint1 polint2 politikr beamte polint polint Reproduzierte Korrelationen bei 2 Faktoren Variable politikr beamte polint1 polint2 politikr beamte polint polint Bei der Interpretation der Lösung wird vor allem nach einer inhaltlichen Bedeutung der Faktoren gesucht. Diese wird i.a. aus den Ladungen erschlossen. Im Beispiel lässt sich der erste Faktor als politisches Interesse und der zweite als Vertrauen in das politische Personal deuten. Die Interpretation ist immer dann einfach, wenn es klare Ladungsmuster gibt, d.h. ein Faktor nur bei einigen Indikatoren hoch, bei allen anderen aber niedrig läd. Dies ist jedoch bei der Ausgangslösung meist nicht der Fall. 36

37 Hauptachsen-Faktorennanalyse: Rotation politikr POLITIKER VERSUCHEN, VERSPRECHEN Z. HALTEN beamte REGIERUNGSBEAMTE TUN D. BESTE FUERS LAND polint1 POLITISCHES <ORDINAL> polint2 POLITISCHES <ISSP> Faktorenmatrix a Faktor Extraktionsmethode: Hauptachsen-Faktorenanalyse. a. 2 Faktoren extrahiert. Es werden 9 Iterationen benötigt. Korrelationen der Ausgangsvariablen Variable politikr beamte polint1 polint2 politikr beamte polint polint Reproduzierte Korrelationen bei 2 Faktoren Variable politikr beamte polint1 polint2 politikr beamte polint polint Die Ausgangslösung wird daher in der Regel rotiert. Statistisch bedeutet das, dass eine Lineartransformation der extrahierten Faktoren gesucht wird, die auf der einen Seite die gleichen empirischen Implikationen hat wie die ursprüngliche Lösung, auf der anderen Seite aber leichter zu interpretieren ist. Eine Rotationsmethode, die oft angewendet wird, ist die sogenannte Varimax-Rotation. 37

38 Hauptachsen-Faktorennanalyse: Varimax-Rotation Faktorenmatrix a Rotierte Faktorenmatrix a politikr POLITIKER VERSUCHEN, VERSPRECHEN Z. HALTEN beamte REGIERUNGSBEAMTE TUN D. BESTE FUERS LAND polint1 POLITISCHES <ORDINAL> polint2 POLITISCHES <ISSP> Faktor Extraktionsmethode: Hauptachsen-Faktorenanalyse. a. 2 Faktoren extrahiert. Es werden 9 Iterationen benötigt. politikr POLITIKER VERSUCHEN, VERSPRECHEN Z. HALTEN beamte REGIERUNGSBEAMTE TUN D. BESTE FUERS LAND polint1 POLITISCHES <ORDINAL> polint2 POLITISCHES <ISSP> Faktor Extraktionsmethode: Hauptachsen-Faktorenanalyse. Rotationsmethode: Varimax mit Kaiser-Normalisierung. a. Die Rotation ist in 3 Iterationen konvergiert. Da bereits die Ausgangslösung gut zu interpretieren war, unterscheidet sich die rotierte Lösung kaum von der unrotierten. Empirisch lassen sich die beiden Lösungen nicht unterscheiden, da sie bis auf Rundungsfehler zu den gleichen modellimplizierten Kommunalitäten und Korrelationen führen = = ; = =

39 Hauptachsen-Faktorennanalyse: Varimax-Rotation Erklärte Gesamtvarianz Anfängliche Eigenwerte Summen von quadrierten Faktorladungen für Extraktion Rotierte Summe der quadrierten Ladungen Faktor Gesamt % der Varianz Kumulierte % Gesamt % der Varianz Kumulierte % Gesamt % der Varianz Kumulierte % Extraktionsmethode: Hauptachsen-Faktorenanalyse. Bei der Varmax-Rotation, handelt es sich um eine sog. orthogonale Rotation, d.h., die Faktoren sind vor und nach der Rotation unkorreliert. Durch die Rotation ändert sich der Anteil der durch einen Faktor erklärten Varianzen. Bei der Hauptkomponentenanalyse und auch bei der Faktorenextraktion vor der Rotation erklärt stets die erste Hauptkomponenten bzw. der erste Faktor am meisten von der Summe der Varianzen der Ausgangsvariablen, gefolgt vom zweiten Faktor. Dies kann sich durch die Rotation ändern, da es hier allein darauf ankommt, dass ein Faktor entweder mit sehr großen oder sehr niedrigen Werten auf die Indikatoren läd. Im Beispiel führt die Rotation nur zu sehr geringfügigen Änderungen. Neben der Varimax-Rotation gibt es weitere Rotationsverfahren. Bei einer schiefwinkligen Rotation ist es möglich, dass die Faktoren nach der Rotation untereinander korrelieren. Dadurch besteht mehr Spielraum, um eine leicht interpretierbare Lösung zu finden. 39

40 Hauptachsen-Faktorennanalyse: Promax-Rotation Mustermatrix a Strukturmatrix politikr POLITIKER VERSUCHEN, VERSPRECHEN Z. HALTEN beamte REGIERUNGSBEAMTE TUN D. BESTE FUERS LAND polint1 POLITISCHES <ORDINAL> polint2 POLITISCHES <ISSP> Faktor Extraktionsmethode: Hauptachsen-Faktorenanalyse. Rotationsmethode: Promax mit Kaiser-Normalisierung. a. Die Rotation ist in 3 Iterationen konvergiert. politikr POLITIKER VERSUCHEN, VERSPRECHEN Z. HALTEN beamte REGIERUNGSBEAMTE TUN D. BESTE FUERS LAND polint1 POLITISCHES <ORDINAL> polint2 POLITISCHES <ISSP> Faktor Extraktionsmethode: Hauptachsen-Faktorenanalyse. Rotationsmethode: Promax mit Kaiser-Normalisierung. Korrelationsmatrix für Faktor Faktor Extraktionsmethode: Hauptachsen-Faktorenanalyse. Rotationsmethode: Promax mit Kaiser-Normalisierung. Im Beispiel ist die Korrelation mit zwischen den beiden Faktoren allerdings sehr gering. Die Promax-Rotation führt zu Korrelationen unter den Faktoren. 40

41 Hauptachsen-Faktorennanalyse: Promax-Rotation Mustermatrix a Strukturmatrix politikr POLITIKER VERSUCHEN, VERSPRECHEN Z. HALTEN beamte REGIERUNGSBEAMTE TUN D. BESTE FUERS LAND polint1 POLITISCHES <ORDINAL> polint2 POLITISCHES <ISSP> Faktor Extraktionsmethode: Hauptachsen-Faktorenanalyse. Rotationsmethode: Promax mit Kaiser-Normalisierung. a. Die Rotation ist in 3 Iterationen konvergiert. politikr POLITIKER VERSUCHEN, VERSPRECHEN Z. HALTEN beamte REGIERUNGSBEAMTE TUN D. BESTE FUERS LAND polint1 POLITISCHES <ORDINAL> polint2 POLITISCHES <ISSP> Faktor Extraktionsmethode: Hauptachsen-Faktorenanalyse. Rotationsmethode: Promax mit Kaiser-Normalisierung. Anstelle einer Faktorenatrix besteht die Ausgabe aus einer Mustermatrix (engl.: pattern matrix), die die Ladungen enthält und einer Strukturmatrix, die die Korrelationen zwischen Faktoren und Indikatoren zeigt. Inhaltlich zeigt sich wieder, dass der erste Faktor das politische Interesse und der zweite das Vertrauen in die politischen Autoritäten erfasst. 41

42 Hauptachsen-Faktorennanalyse: Promax-Rotation Mustermatrix a Strukturmatrix politikr POLITIKER VERSUCHEN, VERSPRECHEN Z. HALTEN beamte REGIERUNGSBEAMTE TUN D. BESTE FUERS LAND polint1 POLITISCHES <ORDINAL> polint2 POLITISCHES <ISSP> Faktor Extraktionsmethode: Hauptachsen-Faktorenanalyse. Rotationsmethode: Promax mit Kaiser-Normalisierung. a. Die Rotation ist in 3 Iterationen konvergiert. politikr POLITIKER VERSUCHEN, VERSPRECHEN Z. HALTEN beamte REGIERUNGSBEAMTE TUN D. BESTE FUERS LAND polint1 POLITISCHES <ORDINAL> polint2 POLITISCHES <ISSP> Faktor Extraktionsmethode: Hauptachsen-Faktorenanalyse. Rotationsmethode: Promax mit Kaiser-Normalisierung. Der Unterschied zwischen Mustermatrix und Strukturmatrix ist Folge der Korrelationen unter den Faktoren Für den ersten Indikator ergeben sich bei der Faktorenkorrelation von aus den Ladungen folgende Korrelationen mit den Faktoren: r = = politikr,faktor1 r = = politikr,faktor 2 42

43 Hauptachsen-Faktorennanalyse: Promax-Rotation Mustermatrix a Strukturmatrix politikr POLITIKER VERSUCHEN, VERSPRECHEN Z. HALTEN beamte REGIERUNGSBEAMTE TUN D. BESTE FUERS LAND polint1 POLITISCHES <ORDINAL> polint2 POLITISCHES <ISSP> Faktor Extraktionsmethode: Hauptachsen-Faktorenanalyse. Rotationsmethode: Promax mit Kaiser-Normalisierung. a. Die Rotation ist in 3 Iterationen konvergiert. politikr POLITIKER VERSUCHEN, VERSPRECHEN Z. HALTEN beamte REGIERUNGSBEAMTE TUN D. BESTE FUERS LAND polint1 POLITISCHES <ORDINAL> polint2 POLITISCHES <ISSP> Faktor Extraktionsmethode: Hauptachsen-Faktorenanalyse. Rotationsmethode: Promax mit Kaiser-Normalisierung. Die Faktorkorrelationen müssen auch bei der Berechnung der Komunalitäten berücksichtigt werden. Die Kommunalität von politikr beträgt so: R politikr = = Bis auf Rundungsfehler ergeben sich die gleichen Werte wie in der unrotierten Lösung. 43

44 Konfirmatorische Faktorenanalyse Empirisch lassen sich die verschiedenen rotierten Lösungen nicht unterscheiden, da sie stets zur gleichen modellimplizierten Korrelationsmatrix führen. Dies ist eine Folge davon, dass das statistische Modell bei mehr als einem Faktor nicht identifiziert ist. Für die Schätzung der Faktorladungen wird die Korrelationsmatrix verwendet. Bei im Beispiel 4 Indikatoren enthält sie 4 Diagonalelemente (Varianzen) und 6 Korrelationen zwischen den Indikatoren. Die 4 Diagonalelemente werden benötigt, die Kommunalitäten bzw. Residualvaanzen zu bestimmen und die 6 Korrelationen, um die 8 Ladungen der Indikatoren auf die Faktoren und eventuell noch zusätzlich die Faktorkorrelation zu bestimmen. Da aus 10 Datenwerten 12 bzw. bei schiefwinkliger Rotation 13 Modellparameter bestimmt werden, gibt es keine eindeutige Lösung. Im Modell der konfirmatorischen Faktorenanalyse wird dieses Problem dadurch gelöst, dass explizit aufgrund theoretischer Erwartungen einige Ladungen auf Null gesetzt werden. Das Modell prüft dann, ob es eine mit den empirischen Daten vereinbare Lösung gibt, die durch das Muster der Faktorladungen, der Korrelationen unter den Faktoren und der Residualvarianzen gekennzeichnet ist. Das statistische Modell erlaubt es zudem, dass Faktorladungen gleiche Werte annehmen können und das auch die Residualvariablen untereinander korreliert sein können. Als Beispiel zeigt die folgende Lösung die Ladungen und Faktorkorrelationen für die vier Indikatoren des politischen Interesses und des Vertrauens in politische Autoritäten. 44

45 Konfirmatorische Faktorenanalyse Indikator Faktor 1 Faktor 2 Residualvar. polint polint politikr beamte Faktor- Korrelat polint1 polint2 politikr beamte Polit. Interesse Vertrauen Die Tabelle zeigt die standardisierten Ladungen, die Residualvarianzen und die Korrelation zwischen den beiden Faktoren. Sichtbar ist, dass der erste Faktor nur auf die beiden Indikatoren des politischen Interesses und der zweite nur auf die beiden anderen Indikatoren läd. Die Ladungen des ersten Faktor sind denen der Hauptachsen-Faktorenanalyse sehr ähnlich; auf den zweiten Faktor laden die Indikatoren allerdings deutlich geringer. Dafür ist die Korrelation zwischen den Faktoren sehr viel höher als bei der schiefwinkligen Rotation der Hauptachsen- Faktorenanalyse. Die Ergebnisse einer konfirmatorischen Faktorenanalyse werden oft grafisch als Pfaddiagramm wiedergegeben. Im Pfaddiagramm werden Indikatoren durch Rechtecke, Faktoren durch Elipsen dargestellt. Gerichtete Pfeile stehen für die Regressionsgewichte oder Residualvarianzen. Kovarianzen bzw. Korrelationen sind durch Linien gekennzeichnet, die an beiden Ende Pfeilspitzen tragen 45

46 Konfirmatorische Faktorenanalyse Varianzen u. Kovarianzen (n=1882) polint1 polint2 politikr beamte polint polint politikr beamte polint1 polint2 politikr beamte Polit. Interesse Vertrauen Ausgangspunkt der Parameterschätzung ist i.a. keine Korrelationsmatrix, sondern die Varianz- Kovarianzmatrix der Indikatoren. Dies führt zur unstandardisierten Lösung, aus der dann die standardisierte Lösung der letzten Folie berechnet wird. Da im Beispiel die Varianzen aller Indikatoren nahe Eins liegen, unterscheidet sich die standardisierte Lösung kaum von der unstandardisierten Lösung. In der unstandardisierten Lösung wird allerdings sichtbar, dass die beiden (unstandardisierten) Ladungen der Indikatoren des politischen Interesses und auch die beiden Ladungen des zweiten Faktors gleichgesetzt sind. 46

47 Konfirmatorische Faktorenanalyse Indikator Faktor 1 Faktor 2 Residualvar. polint (0.016) (0.010) polint (0.016) (0.010) politikr (0.019) (0.028) beamte (0.019) (0.026) Korrelat (0.029) polint1 polint2 politikr beamte Polit. Interesse Für die Parameterschätzung stehen verschiedene Schätzmethoden zur Verfügung. Im Beispiel ist die ML-Methode verwendet. Neben den Schätzwerten können daher auch Stamdardfehler geschätzt werden, die für die Berechnung von Konfidenzintervallen und statistischen Tests zur Verfügung stehen. Darüber hinaus ergibt sich bei der Schätzmethode ein statistischer Test, der prüft, ob sich die modellimplizierten Varisanzen und Kovarianzen, die aus den Modellparametern berechnet werden können, signifikant von den empirischen Varianzen und Kovarianzen unterscheiden. Im Beispiel ergibt dieser sog. Godness-of-Fit-Test ein empirisches Signifikanzniveau von 56%. Die Nullhypothese kann also nicht abgelehnt werden, woraus geschlossen wird, dass das 2-Faktoren-Modell die empirischen Daten gut reproduziert. Vertrauen.073 Chiquadrat: 2.061, df: 3, p:

48 Konfirmatorische Faktorenanalyse Indikator Faktor 1 Faktor 2 Residualvar. polint (0.016) (0.010) polint (0.016) (0.010) politikr (0.023) (0.034) beamte (0.023) (0.035) Korrelat (0.035) Der Goodness-of-Fit-Test setzt voraus, dass das Modell überidentifiziert ist. Dann werden weniger Modellparameter geschätzt, als es empirische Informationen in Form von Varianzen und Kovarianzen gibt. Im Beispiel liegen bei vier Indikatoren 10 empirische Varianzen und Kovarianzen vor. Geschätzt werden sieben Parameter, nämlich die vier Residualvarianzen, die Korrelation zwischen den Faktoren, deren Varianz nicht geschätzt, sondern auf den Wert Eins festgesetzt ist, sowie nur zwei Ladungen, da jeweils alle Ladungen eines Faktors auf den gleichen Wert restringiert sind. Die Differenz aus der Zahl der Varianzen und Kovarinazen und der geschätzten Parameter, hier 10 7, ergibt die Zahl der Freiheitsgrade des Modells polint1 polint2 politikr beamte Polit. Interesse Vertrauen.073 Chiquadrat: 2.061, df: 3, p: