Sind mehrere Merkmale untereinander hoch korreliert, so kann man sie als zusammengehörig interpretieren, sie bilden einen Faktor.

Transkript

1 5 Faktorenanalyse 5.1 Das orthogonale Faktorenmodell Sind mehrere Merkmale untereinander hoch korreliert, so kann man sie als zusammengehörig interpretieren, sie bilden einen Faktor. Beispiel 5.1. Körpergröße und Körpergewicht: Das Streudiagramm im Beispiel 1.2 zeigt, dass kleinere Personen tendenziell leichter, größere schwerer sind. Die Merkmale sind stark korreliert. Interpretation: Die Merkmale Körpergröße und Körpergewicht stammen von einem gemeinsamen, nicht direkt messbaren ( latenten ) Faktor Statur. Koerpergewicht Koerpergroesse Ziel und Zweck der Faktorenanalyse: Reduktion der d beobachteten Merkmale auf p < d latente Faktoren, welche die Zusammenhänge unter den Merkmalen generieren. Dimensionsreduktion: Nachfolgende statistische Analysen können bessere Resultate liefern, wenn die Anzahl der Variablen (Faktoren) rela- 75

2 tiv zum Stichprobenumfang nicht zu groß ist. Wie zuvor bei HKA: Suche nach interessanten Richtungen in der Punktewolke. Bei HKA interessant : mit hoher Variabilität, bei FA interessant : interpretierbar. Wie zuvor bei HKA: Analyse der Abhängigkeiten in den Daten (Objekt der Analyse ist die empirische Kovarianzmatrix S oder die empirische Korrelationsmatrix P). Die Abhängigkeiten der beobachteten Variablen werden durch die Abhängigkeit von gemeinsamen Faktoren erklärt. Für die Faktoren fordert man hingegen meist, dass sie untereinander unkorreliert sind. Beispiel 5.2. Konsumentenbefragung (vgl. Johnson & Wichern 1998): In einer Werbeaktion werden n = 150 zufällig ausgewählte Personen nach ihrer Meinung zu d = 5 Eigenschaften eines neuen Energy-Drinks befragt: X 1 : Aroma (von köstlich bis gräußlich) X 2 : Preis / Leistungs Verhältnis (von super bis bescheiden) X 3 : Erfrischungsgrad (von sehr hoch bis sehr niedrig) X 4 : Eignung als Muntermacher (von absolut bis gar nicht) X 5 : verleiht Energie (von sehr viel bis sehr wenig) Die Einschätzung ist jeweils auf einer Skala zwischen 0 und 100 anzugeben, so dass wir die Merkmale im Folgenden als stetig verteilt betrachten wollen. 76

3 Lassen sich die Merkmale zu Faktoren gruppieren, welche die Beurteilungskriterien der Käufer für einen solchen Drink darstellen? Empirische Korrelationsmatrix: R = X 1 (Aroma) und X 3 (Erfrischungsgrad), sowie X 2 (Preis / Leistung) und X 5 (Energie) sind paarweise hoch korreliert. X 4 (Muntermacher) hängt stärker mit X 2 und X 5 zusammen als mit X 1 und X 3. Dies legt nahe, die fünf beobachteten Merkmale zu zwei, eventuell drei Faktoren zusammenzufassen. Definition 5.3. Orthogonales Faktorenmodell: Sei X = (X 1,..., X d ) ein ZV aus d metrisch skalierten Merkmalen X 1,..., X d. X setze sich in folgender Weise aus p Faktoren F 1,..., F p zusammen: X j = µ j + p l j,k F k + ε j, j = 1,..., d. k=1 Dabei sind µ j der Erwartungswert von X j, ε j der zufällige Fehler des Modells, und die l jk die Ladungen des Modells. Annahmen an die Verteilungen der Faktoren F k und der Fehler ε j : Die Faktoren F k seien metrisch skalierte Zufallsvariablen mit E(F k ) = 0, var(f k ) = 1, k = 1,..., p, cov(f k, F k ) = 0 k = k. Für die Fehler ε j unterstellt man E(ε j ) = 0, var(ε j ) = σ 2 j, j = 1,..., d, cov(ε j, ε j ) = 0 j = j. 77

4 Faktoren und Fehler seien unkorreliert: cov(ε j, F k ) = 0 j, k. Notation 5.4. Matrixschreibweise des Faktorenmodells aus Definition 5.3: X = µ + L F + E. Dabei ist X = (X 1,..., X d ) der beobachtete ZV, µ = (µ 1,..., µ d ) sein Erwartungswertvektor, F = (F 1,..., F p ) der Vektor der gemeinsamen Faktoren, E = (ε 1,..., ε d ) der Fehlervektor der spezifischen Faktoren, und l 1,1 l 1,2... l 1,p l 2,1 l 2,2... l 2,p L =... l d,1 l d,2... l d,p die Ladungsmatrix der Faktorladungen. Die Forderungen an die Momente von F und E lauten dann E(F) = 0, Var(F) = I p, E(E) = 0, Var(E) = diag(σ1, 2..., σd), 2 Cov(F, E) = 0. Bemerkung 5.5. Prinzipiell sei die Anzahl p der Faktoren bekannt. Im orthogonalen Faktorenmodell sind die Faktoren unkorreliert. Die beobachteten Merkmale X j sind Linearkombinationen der Faktoren, plus individueller Erwartungswert und Zufallsfehler. Die F k nennt man gemeinsame Faktoren, da alle X j aus diesen Faktoren kombiniert werden. 78

5 Die Modellfehler ε j nennt man spezifische Faktoren, da sie für jedes X j individuell auftreten. Bemerkung 5.6. Vergleich Faktorenanalyse und Regressionsmodell: Beide beschreiben einen (linearen) Zusammenhang zwischen abhängigen und unabhängigen Variablen. Beim Regressionsmodell werden die abhängigen und die unabhängigen Variablen beobachtet. Beim Faktorenanalysemodell werden nur die abhängigen Variablen beobachtet, die unabhängigen Variablen sind latente Faktoren. Wenn mehrere beobachtete Variablen vom gleichen latenten Faktor abhängen, entstehen Korrelationen zwischen diesen beobachteten Variablen. Umgekehrt weisen Korrelationen zwischen beobachteten Variablen auf das Zugrundeliegen eines gemeinsamen Faktors hin. Bemerkung 5.7. Varianzzerlegung : Varianz von X j im orthogonalen Faktorenmodell 5.3: ( ) p var(x j ) = var µ j + l j,k F k + ε j k=1 In Matrixschreibweise: ( ) p = var l j,k F k k=1 Var(X) = Σ = L L + V, + var ( p ) ε j = l 2 j,k + σj 2. k=1 wobei V = diag(σ1 2,..., σ2 d ) die Diagonalmatrix der spezifischen Varianzen ist (und gleichzeitig die Kovarianzmatrix der Fehler Var(E) = V). Die Varianz lässt sich also zerlegen in zwei Anteile: 79

6 die Kommunalität p l 2 j,k k=1 die Spezifität (spezifische Varianz) σ 2 j (stammt von den gemeinsamen Faktoren), vom individuellen Faktor. Bemerkung 5.8. Faktorenanalyse auf Basis standardisierter Variablen: Im Faktorenmodell benutzt man häufig statt der usrprünglichen ZVn X 1,..., X d die standardisierten ZVn Y j = X j µ j : var(x j ) mit Y j = p l j,k F k + ε j, j = 1,..., d. k=1 sowie und E(ε j ) = 0, var(ε j ) = σ2 j var(x j ), j = 1,..., d, cov(ε j, ε j ) = 0, E(F k ) = 0, var(f k ) = 1, k = 1,..., p, cov(f k, F k ) = 0 cov(ε j, F k ) = 0. Beispiel 5.9. Konsumentenbefragung (Fortsetzung 5.2): Anpassung eines Faktorenmodells mit p = 2 latenten Faktoren an die standardisierten Variablen: Ladungen Kommunal. Spez. Varianz Faktor 1 Faktor 2 Aroma Preis/Leistung Erfrischung Muntermacher Energie

7 Im Faktorenmodell für standardisierte Variablen ist die Summe aus Kommunalität und Spezifität gleich 1. Bemerkung Interpretation der Ladungsmatrix: Die Ladung l j,k der j-ten Variablen auf dem k-ten Faktor im Faktorenmodell X = µ + LF + E ist gleichzeitig die Kovarianz zwischen X j und F k : ( ) p cov(x j, F k ) = cov µ j + l j,m F m + ε j, F k m=1 ( ) p = cov l j,m F m, F j + cov(ε j, F k ) = l j,k. m=1 Bei Verwendung standardisierter ZVn entsprechen die Ladungen somit den Korrelationen zwischen den X j und den F k. Bemerkung Skalenäquivarianz des Faktorenmodells: Läßt sich X durch ein orthogonales Faktorenmodell X = µ + LF + E mit spezifischer Varianz Var(E) = V beschreiben, so folgt Y = CX + ν, wobei ν R d und C = diag(c 1,..., c d ), c i = 0, dem orthogonalen Faktorenmodell Y = (Cµ + ν) + CLF + CE mit spezifischer Varianz Var(CE) = CVC. 81

8 Bemerkung Nicht-Eindeutigkeit des Faktorenmodells: Im orthogonalen Faktorenmodell sind Faktoren und Faktorladungen nur bis auf orthogonale Transformationen eindeutig: Äquivalentes Modell durch Rotation mit orthogonaler Matrix M: X = µ + L F + E = µ + L M M F + E = µ + L F + E. Die rotierten Faktoren F = M F erfüllen die selben Eigenschaften wie die ursprünglichen Faktoren F: E( F) = 0, cov( F) = I p, d. h. var( F k ) = 1, cov( F k, F k ) = 0 k = k, cov( F k, ε j ) = 0 j, k. Auch liefert die transformierte Ladungsmatrix L die gleiche Varianzzerlegung wie L. Σ = L L + V = L M M L + V = L L + V. Bemerkung Letzte Bemerkung bevor wir zum Schätzen kommen: Üblicherweise wird die FA mit den standardisierten Variablen Y j = (X j µ j )/s Xj statt der X j durchgeführt (vgl. Bem. 5.8). Das wird im Folgenden angenommen. Die geschätzte Kovarianzmatrix der standardisierten Daten ist dann die geschätzte Korrelationsmatrix der ursprünglichen Daten, also S Y = R X. Formal ändert sich nichts, wir analysieren nach wie vor eine Kovarianzmatrix Σ, behalten aber im Hinterkopf, dass dies eine Korrelationsmatrix ist (insbesondere Hauptdiagonale = 1). 82

9 Dadurch wird alles etwas einfacher: (Spezifität + Kommunalität = 1, Ladungen = Korrelation) Hat man Schätzungen L Y und V Y für die standardisierten Variablen bestimmt, so erhält man leicht die entsprechenden Matrizen für die ursprünglichen Variablen L X = D 1/2 L Y, V X = D 1/2 V Y D 1/2 wobei D = diag(s 2 X 1,..., s 2 X d ) = diag(s X ) (vgl. Bem. 5.11). 83

10 5.2 Anpassung des orthogonalen Faktorenmodells Bei der Anpassung eines Faktorenmodells sucht man Schätzungen für L und V. Basis der Schätzung: Iterative Algorithmen zur Varianzzerlegung Vorlesung Σ = L L + V. unter Verwendung einer Schätzung ˆΣ statt Σ. Die Schätzung von L ist nur bis auf orthogonale Transformationen eindeutig. Üblicherweise zusätzliche Forderung: Diagonalgestalt von L L. Es ist also folgendes mathematisches Problem zu lösen: Bestimmte Matrizen ˆL R d p, ˆV R d d diagonal, so dass ˆΣ = ˆL ˆL + ˆV ˆL ˆL ist Diagonalmatrix (2) für gegebene positiv definite Matrix ˆΣ R d d. Vorgehen bei Faktoranalyse: 1. Lösen des Problems (2) Man hat schonmal eine Lösung ˆL, ˆV, Kommunalitäten und Spezifitäten stehen fest. 2. Rotieren der Ladungsmatrix ˆL für bessere Interpretierbarkeit. Selbst nachdem die Orthogonalitätsredundanz behoben ist, muss (2) nicht eindeutig lösbar sein. Bemerkung Identifizierbarkeit: 1 Restriktionen in (2): 2 d(d + 1) p(p 1) Freie Parameter: d p + d (d p in ˆL, d in ˆV). ( Differenz: = 1 2 (d p) 2 (d + p) ). 84

11 Ist die Differenz negativ, so gibt es unendlich viele Lösungen. Das Modell hat zu viele Faktoren, um identifizierbar zu sein. Z. B. d = 4 und p = 2 führt zu einer Differenz von = 1. Uninteressanter Fall. Ist die Differenz genau null, so gibt es genau eine Lösung (unter Regularitätsannahmen : die Schätzung ˆΣ muss vollen Rang haben). Uninteressanter Fall: genauso viele Parameter wie im unrestringierten Modell, keine Dimensionsreduktion. Ist die Differenz positiv, so gibt es nur approximative Lösungen von (2), z. B. d = 4 und p = 1 führt zu einer Differenz von = 2. Der interessante Fall. Übliche Schätzverfahren für das Faktorenmodell Maximum-Likelihood-Methode Annahme: X multivariat normalverteilt. Erinnere an Satz 3.7. Für die Log-Likelihood gilt: log L(Σ; X) ln det(σ) + Spur(Σ 1 ˆΣ), wobei gleich bis auf additive und positive multiplikative Konstante bedeutet. Ersetze Σ durch LL + V und maximmiere ln det(ll + V) + Spur{(LL + V) 1 ˆΣ}, unter Nebenbedingung ˆL ˆL hat Diagonalgestalt. Anwendung iterativer, recht langsam konvergierender Optimierungsverfahren (z. B. vgl. Hartung, Elpelt, S. 520f). Anwendung von LR-Tests möglich, z.b. zum Testen eines p-faktorenmodells gegen ein unrestringiertes Normalverteilungsmodell. 85

12 Teststatistik: ˆT n = ( n 1 ) 2d p ln 6 ( det( ˆL ˆL ) + ˆV) det ˆΣ ist unter H 0 asymptotisch χ 2 -verteilt mit ((d p) 2 (d + p))/2 Freiheitsgraden. Kleinste-Quadrate-Methode Minimiere Kriterium ˆΣ L L V 2 2, wobei A 2 2 = i,j a 2 i,j quadrierte Matrixnorm, unter Nebenbedingung ˆL ˆL hat Diagonalgestalt, (ähnlich wie Maximum-Likelihood-Methode) Hauptfaktorenmethode Startschätzung für V: v jj = 1 ρ 2 X j,x j, wobei ρ 2 X j,x j die quadrierte multiple Korrelation zwischen X j und allen anderen Variablen X i, i = j ist. Alternativ: v jj = 1 max i =j ρ 2 X j,x i Iteriere 1. Spektralzerlegung von ˆΣ V = UΛU, setze [ L := λ1 u 1,..., ] λ p u p. 2. Setze V := diag( ˆΣ LL ). Hauptkomponentenmethode Variante der Hauptfaktorenmethode, gleiche Iteration wie oben, beginne aber mit Startschätzung für L, und zwar durch Spektralzerlegung von ˆΣ = UΛU, wie zuvor [ L := λ1 u 1,..., ] λ p u p. 86

13 Beispiel Wechsler adult intelligence scale (vgl. Bsp. 3.37), betrachte beide Personengruppen zusammen (n = 49), d = 4 einziger interessanter Fall: p = 1, unterstellt einen erklärenden Faktor allgemeine Intelligenz. Korrelationsmatrix R = Hauptfaktorenmethode Startschätzung für V mittels quadrierter multipler Korrelationen V 1 = Spektralzerlegung von R V 1 = U 1 Λ 1 U 1 : U 1 = Λ 1 = diag(2.43, 0.033, 0.067, 0.14) führt zu L 1 =

14 Neue Schätzung für V: V 2 = diag(r L 1 L 1) = Die Iteration stabilisiert sich bei L =, V = Beispiel Konsumentenbefragung (Fortsetzung 5.9): Schätzungen durch die Hauptkomponentenmethode auf Basis von R: Ladungen Kommunal. Spezif. Faktor 1 Faktor 2 Aroma Preis / Leistung Erfrischung Muntermacher Energie Geschätzte Ladungsmatrix und geschätzte Matrix der spezifischen Varianzen: L = und V =

15 Varianzzerlegung für die Korrelationsmatrix: R = LL + V Einsetzen der Schätzungen: LL + V = Varianzzerlegung mit L und V reproduziert die empirische Korrelationsmatrix R recht gut, zwei orthogonale Faktoren erklären die Daten recht gut. Dafür sprechen auch die hohen Kommunalitäten 0.98, 0.88, 0.98, 0.89, 0.93 nahe 1. Bemerkung Schätzung der Faktorscores: Faktorscores: Werte F ik der latenten Faktoren für die verschiedenen Individuen i = 1,..., n (die Realisierungen der Faktoren). Für jedes Individuum i gilt im Faktorenmodell Vorlesung X ij = µ j + p l jk F ik + ε ij, k=1 j = 1,..., d, i = 1,..., n Es gibt verschiedene Methoden zur Schätzung von Faktor-Scores. Regressionsmethode: Unter dem orthogonalen Faktorenmodell gilt X µ N d+p 0, Σ L F 0 L I p ( F X N p L Σ 1 (X µ), I p L Σ 1 L ) Schätzung: ˆF = ˆL ˆΣ 1 (X x) 89

16 Graphische Darstellung: Komponentendiagramm Veranschaulichung der Faktoren: Ladungen (l j,1,..., l j,p ) der Merkmale X j, j = 1,..., d, als Koordinaten im R p auffassen, so dass für je zwei Faktoren eine Grafik in der Ebene entsteht, welche die Lage der Variablen anzeigt: Beispiel Konsumentenbefragung 2. Faktor Y1 Y3 Y2 Y4 Y Faktor Ein solches Diagramm zeigt, wie die X j auf den F k laden. Hier laden alle Variablen hoch auf F 1. Führt man die FA mit standardisierten Variablen durch, so liegen die Punkte innerhalb des Einheitskreises (vgl. Bsp. 4.20). 5.3 Faktorrotation Die Faktoren und Faktorladungen im orthogonalen Faktorenmodell sind nur eindeutig bis auf orthogonale Transformationen, d. h. Drehungen des 90

17 Koordinatensystems um den Ursprung (Bem. 5.12). Häufig schließt man an die Modellanpassung eine Faktorrotation an zwecks besserer Interpretierbarkeit der Faktoren. Generelle Idee: Faktoren so drehen, dass auf jedem Faktor wenige Variablen hoch und die anderen niedrig laden; die Faktoren sollen über möglichst wenige Variablen mit möglichst hohen Ladungen verstanden werden. Verschiedene Kriterien zur Messung der Einfachheit der Ladungsstruktur. Varimax-Rotation (Kaiser, 1958; siehe auch Hartung & Elpelt, 1984, S. 552ff): Iterative Maximierung des Varimax-Kriteriums (Summe der Varianzen der mit den Kommunalitäten h 2 j = p k=1 l2 jk, j = 1,..., d, normierten quadrierten Ladungen innerhalb jeder Spalte von L) ( ) d 1 V(L) = (z 2 jk z 2 k d )2 p k=1 j=1 mit z jk = l jk h j, j = 1,..., d, k = 1,..., p. Quartimax-Rotation (siehe Hartung & Elpelt, 1984, S. 559ff): Iterative Maximierung des Quartimax-Kriteriums (Summe der vierten Potenzen der Ladungen in L) Q(L) = p k=1 d l 4 jk. j=1 Schiefwinklige Rotationen: Gelegentlich gibt man zugunsten der leichten Interpretation der Faktoren sogar das Prinzip unkorrelierter Faktoren auf und rotiert mit einer nicht orthogonalen Matrix (z.b. Oblimin-Rotation). Allerdings können die Faktoren dann nicht mehr einzeln interpretiert werden. 91

18 Beispiel Konsumentenbefragung (Fortsetzung 5.16): Faktorladungen nach Varimax-Rotation der ursprünglichen Faktorlösung: L = Komponentenplot nach Varimax-Rotation (vgl. Bsp. 5.18): 2. Faktor Y1Y3 Y4 Y2 Y Faktor Die Graphik zeigt: 1. rotierter Faktor von X 2, X 4 und X 5 getragen, 2. rotierter Faktor hingegen hauptsächlich durch X 1 und X 3 bestimmt (und etwas durch X 4 ). Kunden nehmen die fünf Variablen im Wesentlichen als Komponenten eines Faktors Effizienz (Preis / Leistung, Muntermacher, Energie) und eines Faktors Geschmack (Aroma, Erfrischung) wahr. 92

19 Konfirmatorische vs. explorative Faktorenanalyse Konfirmatorische Faktorenanalyse: In Voruntersuchungen oder aus Sachwissen wurden bereits Faktoren zur Erklärung gegebener Merkmale hergeleitet. Versuch, anhand (neuer) Daten dieses vermutete Faktorenmodell mit bekannter Faktorenanzahl p zu belegen (oder zu widerlegen). Explorative Faktorenanalyse: Aus vorliegenden Daten sollen latente Faktoren hergeleitet werden. Die Faktorenanzahl p ist unbekannt. Bemerkung Methoden zur Wahl der Anzahl p der Faktoren: Wähle p gleich der Anzahl der Eigenwerte von R, die größer oder gleich 1 sind. Erkläre kumulativ (festzulegenden) großen Anteil der Gesamtvarianz (Summe der Kommunalitäten). Scree-Graph: Zweidimensionale Graphik der gemäß ihrer Größe geordneten Eigenwerte gegen fortlaufenden Index. Die Stelle, an der der entstehende Linienzug einen Knick hat, liefert die Anzahl der Faktoren. Testen verschiedener Modelle (gegen unrestringiertes Modell) bei Maximum- Likelihood-Methode. 93

20 Beispiel Konsumentenbefragung (Fortsetzung): Genau zwei Eigenwerte von R sind größer als 1. Die zugehörigen beiden Faktoren erklären 93% der Gesamtvarianz. Der Knick im Scree-Plot liegt beim 3. Eigenwert: