9. November Ruhr-Universität Bochum. Methodenlehre III, WS 2009/2010. Prof. Dr. Holger Dette. Matrizenrechnung. 2. Multiple Korrelationen

Transkript

1 Ruhr-Universität Bochum 9. November / 62

2 Methodenlehre III NA 3/73 Telefon: Internet: Vorlesung: Montag, Uhr, HGA 10 Thema: Multivariate statistische Verfahren 2 / 62

3 Statistik-Team Tobias Kley: Übung: Freitag, Uhr, HGA 10 Tutorium (SPSS) - ab Koordination: Dr. Helge Thiemann Helge.Thiemann-i5m@ruhr-uni-bochum.de 0234/ Gafo Montag (GAFO 04/271) Linda Engelbrecht Linda.Engelbrecht@web.de Montag (GAFO 03/901); Montag (GAFO 03/901); Freitag (GAFO 03/974 ) Max Willenberg max.willenberg@gmx.de 3 / 62

4 Multivariate statistische Verfahren Objekte mit vielen Merkmalen Inhaltsverzeichnis 1. Noch ein wenig 4. Multivariate Mittelwertvergleiche 5. Diskriminanzanalyse 6. Clusteranalyse 7. To be done 4 / 62

5 1. Einige (sehr kurze) Vorbemerkungen zur 5 / 62

6 Abbildungen von Vektoren Beispiel: Es seien x 1 = ( ) 1 2 ; x2 = ( 1 3) ; x3 = ( ) 1 2 Vektoren und A = 1 2 ( ) eine (quadratische) Matrix Durch Multiplikation der Vektoren x 1, x 2, x 3 mit der Matrix A ergeben sich neue Vektoren. 6 / 62

7 Abbildungen von Vektoren Durch Multiplikation der Vektoren x 1, x 2, x 3 mit der Matrix A ergeben sich neue Vektoren: ) ( ) x 1 = y 1 = Ax 1 = x 2 = x 3 = ( 1 2 ( ) 1 3 ( ) 1 2 y 2 = Ax 2 = 1 2 ( 4 3 y 3 = Ax 3 = ( ) 3 1 ) Die Punkte y 1, y 2, y 3 erhält man aus x 1, x 2, x 3 durch eine Drehung um 45% gegen den Uhrzeigersinn. Die obige Matrix beschreibt also eine Drehung. 7 / 62

8 Y 1 X 1 Y 3 X 3 X 2 Y 2 8 / 62

9 Beachte: Bei der obigen Drehung ändern alle Vektoren ihre Richtung. Betrachtet man eine andere Matrix, z.b. ( ) 1 2 B = 2 1 so erhält man durch Multiplikation der Vektoren x 1, x 2, x 3 mit der Matrix B die neuen Vektoren: ( ) ( ) ( ) y 1 = Bx 1 = ; y 2 = Bx 2 = ; y 3 = Bx In diesem Fall ändert sich auch die Länge der Vektoren! Jede Matrix beschreibt eine Abbildung, die den Punkten der Ebene neue Punkte zuordnet. 9 / 62

10 Y 1 X 1 Y 3 Y 2 X 3 X 2 10 / 62

11 Frage: Gibt es Vektoren, die bei Multi plikation mit einer Matrix ihre Richtung nicht ändern? Für die Matrix A gibt es solche Vektoren nicht! Für den Vektor gilt: x 1 = ( ) 1 1 Für den Vektor gilt: Bx 1 = ( ) ( 1 1) = ( 3 3) = 3 ( 1 1) = 3x 1 Bx 2 = ( ) ( ) 1 1 ( ) x 2 = 1 1 = ( 1 1 ) ( ) = ( 1) 1 1 = ( 1)x 2 D.h. Für die Matrix B existieren solche Vektoren (man beachte: wir identifizieren die Richtung von Bx 2 und x 2 als dieselbe)! 11 / 62

12 Y 1 Y 2 X 1 X 2 12 / 62

13 1.1 Definition Ist A eine n n Matrix und x ein n-dimensionaler Vektor, dann heißt x Eigenvektor der Matrix A zum Eigenwert λ, falls die Gleichung Ax = λx erfüllt ist. Beachte: Mit x ist auch jedes Vielfache von x Eigenvektor. Die Matrix A hat immer n Eigenwerte λ 1,..., λ n (diese sind nicht notwendig reelle Zahlen). Symmetrische Matrizen (A = A T ) haben reelle Eigenwerte. Z.B. ist die Matrix aller von beobachteten Variablen symmetrisch! Die Berechnung von Eigenwerten und Eigenvektoren ist nicht einfach und wird in dieser Vorlesung nicht besprochen. 13 / 62

14 1.2 Determinante einer quadratischen Matrix Bezeichnung: Ist A eine n n Matrix und sind λ 1,..., λ n die Eigenwerte von A, dann heißt die Größe Determinante der Matrix A A = λ 1 λ 2... λ n = Beachte: Eigenwerte und Determinanten werden nur für quadratische Matrizen definiert (Zeilenzahl = Spaltenzahl) n j=1 λ j 14 / 62

15 15 / 62

16 Beispiel 2.1 (Entwicklungspsychologie) Im Rahmen einer Studie in der Entwicklungspsychologie soll der Zusammenhang zwischen Abstraktionsfähigkeit (x) und sensomotorischer Koordination (y) untersucht werden. Zusätzlich wird das Alter der Kinder erhoben (z) Insgesamt werden 15 Kinder im Alter von 6-10 Jahren untersucht 16 / 62

17 Daten Kind Abstraktions- sensomotor. Alter fähigkeit (x) Koord. (y) (z) / 62

18 Auswertung: Für den Korrelationskoeffizient von Pearson (vgl. Methodenlehre II, 2.2) erhält man für die Korrelation der Variablen x (Abstraktionsfähigkeit) und y (sensomotorische Koordination) ˆρ x,y = 0.89 Obwohl der Korrelationskoeffizient sehr hoch ist, is es in vielen Fällen sinnvoll zu untersuchen, ob dieser hohe Wert auf einen Einfluss der dritten Variablen (Alter) zurückführbar ist. In einem solchen Fall spricht man von einer Scheinkorrelation. D.h. ˆρ x,y ist zwar im mathematischen Sinn einen Korrelation, aber der gefundene Zusammenhang zwischen Abstraktionsfähigkeit und sensomotorischer Koordination ist (teilweise) durch eine dritte Variable erklärbar und kann nicht als kausal interpretiert werden. Ziel: Berechnung einer Korrelation, die von dem Einfluss der dritten Variablen Alter bereinigt ist = Partialkorrelation. 18 / 62

19 2.2. Partialkorrelation Modell: Daten (x i, y i, z i ) i=1,...,n. Im Beispiel ist x i die Abstraktionsfähigkeit, y i die sensomotorische Koordination und z i das Alter des i-ten Kinds Gesucht: Ein um den Einfluss der Variablen z bereinigtes Abhängigkeitsmaß zwischen den Variablen x und y Methode: Berechne die (lineare) Regressionsgerade für die Daten (x1, z 1),...,(x n, z n): x = â 0 + â 1z (vgl. Methodenlehre II, 2.11) und die Residuen x i = x i (â 0 + â 1z i ) i = 1,..., n Berechne die (lineare) Regressionsgerade für die Daten (y1, z 1),..., (y n, z n): y = ˆb 0 + ˆb 1z (vgl. Methodenlehre II, 2.11) und die Residuen y i = y i (ˆb 0 + ˆb 1z i ) i = 1,..., n 19 / 62

20 Bestimme die Korrelation zwischen den Residuen (x1, y 1 ),..., (xn, yn ) n ˆρ x,y z = ˆρ x,y = i=1 (x i n i=1 (x i x )(y i y ) x ) 2 n i=1 (y i y ) 2 Die Größe ˆρ x,y z heißt Partialkorrelation, zwischen x und y aus der das Merkmal z herauspartialisiert wurde. Die Partialkorrelation ist also eine bivariate Korrelation zwischen Regressionsresiduen 20 / 62

21 2.3 Bemerkung (1) Man kann zeigen dass gilt: Dabei ist ˆρ x,y ˆρ x,z ˆρ y,z ˆρ x,y z = (1 ˆρ 2 x,z)(1 ˆρ 2 y,z) ˆρx,y der Korrelationskoeffizient zwischen den Variablen x und y ˆρx,z der Korrelationskoeffizient zwischen den Variablen x und z ˆρy,z der Korrelationskoeffizient zwischen den Variablen y und z (2) Die Partialkorrelation ist ein Maß für den linearen Zusammenhang von zwei Variablen x und y, aus dem der lineare Einfluss einer dritten Variablen z eliminiert wurde. Genauer: Die Partialkorrelation bemisst, inwieweit man aus den Vorhersagefehlern bei der linearen Prognose von x durch z die Vorhersagefehler bei der linearen Prognose von y durch z linear vorhersagen kann - und umgekehrt. (3) Gibt es mehr als drei Variablen, so können Partialkorrelationen höherer Ordnung gebildet werden, in dem die Residuen xi, yi mit Hilfe des multiplen linearen Regressionsmodells (vgl. Methodenlehre II, 2.23) bestimmt werden (1) 21 / 62

22 Beispiel (Fortsetzung von Beispiel 2.1) Lineare Regression von x bzgl. z x = 1.246z Lineare Regression von y bzgl. z y = 1.420z 1.13 Regressionsresiduen x y 1,06 0,61 0,57 1,77 1,32 2,35 1,32 1,35 1,07 0,93-0,19-0,81-0,43-1,23-0,68 0,35-0,43-2,23-1,19 0,19 0,07 0,93-0,94-0,39-3,92-3,07 0,07-1,07 2,32 0,35 22 / 62

23 ˆρ x,y z = 0.72 Die Korrelation zwischen Abstraktionsfähigkeit und sensomotorischen Koordinationsleistungen der Kinder ist somit von 0.89 auf 0.72 gesunken. Die Differenz ist auf das Alter der Kinder zurückzuführen Beachte: mit den Werten ˆρx,y = 0.89 ˆρx,z = 0.77 ˆρy,z = 0.80 kann man die Partialkorrelation ˆρ x,y z auch mit Hilfe der Formel (1) berechnen 23 / 62

24 Signifikanztest für partielle Ein Test zum Niveau α für die Hypothese die Merkmale X und Y unter Z sind unkorreliert H 0 : ρ x,y.z = 0 lehnt die Nullhypothese zu Gunsten der Alternative H 1 : ρ x,y.z 0 ab, falls n 3ˆρx,y.z 1 ˆρ 2 x,y.z > t n 3,1 α/2 gilt. Man vergleiche diesen Test mit dem Test auf eine signifikante Korrelation zwischen zwei Merkmalen (Methodenlehre II, 2.5) 24 / 62

25 Partielle in SPSS Kontrollvariablen Alter Abstraktionsfähigkeit sensomotorische Koordination Korrelation Signifikanz (zweiseitig) Freiheitsgrade Korrelation Signifikanz (zweiseitig) Freiheitsgrade Abstraktions fähigkeit 1,000. 0,722, sensomotorische Koordination,722, , / 62

26 Semipartialkorrelationen Wird die dritte Variable z nur aus einer Variablen (z.b. x) herauspartialisiert, so spricht man von einer Semipartialkorrelation. Man berechnet die (lineare) Regressionsgerade für die Daten (x 1, z 1 ),..., (x n, z n ): x = â 0 + â 1 z und betrachtet die Vorhersagefehler x i = x i â 0 â 1 z i Dann bestimmt man die Korrelation zwischen (x 1, y 1),..., (x n, y n ): ˆρ y(x z) = ˆρ x,y = n i=1 (x i x )(y i y ) n i=1 (x i x ) 2 n i=1 (y i y ) 2 26 / 62

27 Alternative Darstellung für die Semipartialkorrelationen Man kann zeigen dass gilt: ˆρ y(x z) = ˆρ x,y ˆρ x,z ˆρ y,z 1 ˆρ 2 x,z (2) Dabei ist ˆρx,y der Korrelationskoeffizient zwischen den Variablen x und y ˆρx,z der Korrelationskoeffizient zwischen den Variablen x und z ˆρy,z der Korrelationskoeffizient zwischen den Variablen y und z Bemerkung: Die Semipartialkorrelation bemisst, inwieweit man aus den Vorhersagefehlern bei der linearen Prognose von x durch z die Werte von y linear vorhersagen kann. Die quadrierte Semipartialkorrelation ist der Anteil der Varianz von y, der durch die Variable x zusätzlich zu der Variablen z erklärt werden kann. Die Semipartialkorrelation ist immer kleiner als die Partialkorrelation. 27 / 62

28 Berechnung der Semipartialkorrelationen in Beispiel 2.1 Lineare Regression von x bgzl. z x = 1.246z Regressionsresiduen und Beobachtungen x y 1,06 8 0, , , , ,19 8-0,43 9-0, ,43 8-1,19 9 0, ,94 7-3, , , / 62

29 ˆρ y(x z) = 0.43 Die Korrelation zwischen Abstraktionsfähigkeit und sensomotorischen Koordinationsleistungen der Kinder ist somit von 0.89 auf 0.43 gesunken. Die Differenz ist auf das Alter der Kinder zurückzuführen. Beachte: mit den Werten ˆρx,y = 0.89 ˆρx,z = 0.77 ˆρy,z = 0.80 kann man die Semipartialkorrelation ˆρ y(x z) auch mit Hilfe der Formel (2) berechnen. 29 / 62

30 Semipartialkorrelationen in SPSS Die Semipartialkorrelationen (in SPSS heißen diese Teil-) werden (auf Wunsch) als Ergänzung zu den Kleinsten Quadrate-Schätzungen im multiplen linearen Regressionsmodell (vgl. Methodenlehre II, 2.23) ausgegeben. Signifikanztest für die Semipartialkorrelationen fehlen. Modell 1 (Konstante) Alter Abstraktionsfähigkeit Nicht standardisierte Koeffizienten Standardisierte Koeffizienten Regressions koeffizientb Standardfehler Beta T Sig. -1,469 1,795 -,818,429,510,730 Koeffizienten a a. Abhängige Variable: sensomotorische Koordination Koeffizienten a,328,202,289,671 1,555 3,615,146,004 Modell 1 Nullter Ordnung Partiell Alter Abstraktionsfähigkeit,803,892,410,722 a. Abhängige Variable: sensomotorische Koordination Teil,185, / 62

31 Eine abschließende Bemerkung: Ob ein Partial- oder Semipartialkorrelationskoeffizient zur Beschreibung eines Zusammenhangs gewählt wird, hängt von theoretischen Überlegungen ab: Beeinflusst eine dritte Variable (z) ursächlich beide Variablen x und y Partialkorrelation Wird der Zusammenhang zwischen den Variablen x und y durch die dritte Variable z vermittelt (z ist mit y korreliert und beinflußt x) Semipartialkorrelation 31 / 62

32 32 / 62

33 3.1 Grundlegende/einleitende Bemerkungen zur Faktorenanalyse Die Faktorenanalyse ist ein Sammelbegriff für eine Reihe von explorativen Verfahren, um für wechselseitige Beziehungen vieler Variablen ein einfaches Erklärungsmodell zu bestimmen Typisches Beispiel: Schulnoten ( 10 inklusive Kopfnoten) Erklärung durch Intelligenz und Disziplin. Man Beachte: die Größen Intelligenz und Disziplin sind nicht direkt beobachtbar Ziel: Aus der Korrelationsmatrix der beobachtbaren Variablen sollen möglichst wenige, wechselseitig voneinander unkorrelierte Faktoren extrahiert werden, so dass möglichst wenig Information über die beobachteten Variablen verloren geht sich eine interpretierbare Struktur ergibt, durch die die Faktoren bezüglich der gemeinsamen Anteile der Ausgangsvariablen benannt werden können 33 / 62

34 Das Ergebnis der Faktorenanalyse sind wechselseitig voneinander unkorrelierte Faktoren, die die Zusammenhänge zwischen den beobachtbaren Variablen erklären In dieser Vorlesung betrachten wir nur ein Verfahren der Faktorenanalyse: Hauptkomponentenanalyse (PCA: principal component analysis) Es gibt viele andere Verfahren der Faktorenanalyse, die sich vor allem aus anderen Modellannahmen ableiten. Z.B. Explorative Faktorenanalyse Image Analyse Kanonische Faktorenanalyse 34 / 62

35 Heuristisches Prinzip: Schritt 1: Aus den der gemessenen Variablen wird eine synthetische Variable (Faktor) konstruiert, die mit allen gemessenen Variablen möglichst hoch korreliert ist. Dieser Faktor ist also eine theoretische (nicht beobachtbare) Variable. Die Partialkorrelationen bzgl. dieses Faktors erfassen diejenigen Zusammenhänge, die durch den Faktor nicht erklärt werden können. Schritt 2: Aus den Restkorrelationen wird dann mit derselben Methode ein weiterer Faktor bestimmt, der - mit dem ersten Faktor unkorreliert ist. - die verbleibenden Zusammenhänge möglichst gut erklärt. Dieses Verfahren wird dann fortgesetzt. Wie wird das gemacht? 35 / 62

36 3.2 Das Grundprinzip des Faktormodells in einem Beispiel Klausurergebnisse in 5 Fächern (Mechanik, Vektorrechnung, Algebra, Analysis, Statistik) In den Klausuren zur Algebra (x 3 ), Analysis (x 4 ) und Statistik (x 5 ) konnten während der Klausur Bücher verwendet werden (O: open book); in den Klausuren zur Mechanik (x 1 ) und Vektorrechnung (x 2 ) nicht (C: closed book) Daten (Ergebnisse in Punkten) C O x 1 x 2 x 3 x 4 x Datensatz unter methodenlehre3.html verfügbar 36 / 62

37 Korrelationsmatrix für das Beispiel der Klausurergebnisse Beachte: Es bestehen zwischen allen Variablen! kleinste Korrelation besteht zwischen den Ergebnissen der Klausuren in Mechanik und Statistik (x 1 und x 5 ) größte Korrelation besteht zwischen den Ergebnissen der Klausuren in Algebra und Analysis (x 3 und x 4 ) 37 / 62

38 Beachte: x mi bezeichne das Ergebnis des m-ten Studenten in Klausur i (i = 1,..., 5 m = 1, 2,..., 87) Es ist zu erwarten: (1) dass eine Korrelation zwischen den verschiedenen Klausuren besteht. Die Ergebnisse könnten z.b. von der Intelligenz oder einer anderen nicht beobachtbaren Eigenschaft der Kandidaten abhängen. Diese Eigenschaft der Person m wird mit f m bezeichnet. (2) dass das Ausmaß dieser Eigenschaft für die Bearbeitung der verschiedenen Klausuren unterschiedlich ist. Das Ausmaß, in dem diese Eigenschaft für die Bearbeitung der Klausur i erforderlich ist, wird mit a i bezeichnet 38 / 62

39 Mathematische Annahme: Faktormodell x m1 = f m a 1 x m2 = f m a 2 x m3 = f m a 3 x m4 = f m a 4 x m5 = f m a 5 + Rest D.h. Das Klausurergebnis x mi (des m-ten Studenten im Fach i) setzt sich als Produkt zusammen aus der Eigenschaft (z.b. der allgemeinen Intelligenz) der m-ten Person (f m ) (man spricht von einem Faktor) und dem Ausmaß einer Eigenschaft (z.b. der allgemeinen Intelligenz), das für die Bearbeitung der Klausur i in diesem Fach erforderlich ist (a i ) Beachte: Der Faktor wird mathematisch konstruiert, und seine Interpretation (z.b. als allgemeine Intelligenz) erfolgt erst später. 39 / 62

40 Beachte: es kann weitere Faktoren geben! Beispiel: Mit einer Eigenschaft (z.b. der allgemeinen Intelligenz) sind die Klausurergebnisse nicht eindeutig bestimmt und es bleibt oft ein nicht erklärbarer Rest (man beachte der Rest ist für jede Klausur ein anderer). Zum Beispiel könnten Klausuren mit Buchbenutzung andere Eigenschaften erfordern als Klausuren ohne Buchbenutzung, z.b. Disziplin (um etwas auswendig zu lernen). Es ist daher in vielen Fällen sinnvoll einen weiteren (und evtl. auch mehrere) Faktor(en) einzuführen. In der Regel sucht man nach möglichst wenigen Faktoren. 40 / 62

41 Ein zweiter Faktor: Bezeichnet man - die Ausprägung des ersten Faktors (z.b. der allgemeinen Intelligenz) der Person m mit f m1 - das Ausmaß, in dem die Klausur i den ersten Faktor (z.b. allgemeine Intelligenz) erfordert mit a i1 - die Ausprägung des zweiten Faktors (z.b. der Disziplin ) der Person m mit f m2 - das Ausmaß, in dem die Klausur i den zweiten Faktors (z.b. die Disziplin ) erfordert mit a i2 so erhält man das folgende Modell x m1 = f m1 a 11 + f m2 a 12 x m2 = f m1 a 21 + f m2 a 22 x m3 = f m1 a 31 + f m2 a 32 x m4 = f m1 a 41 + f m2 a 42 x m5 = f m1 a 51 + f m2 a 52 + Rest Die Fähigkeit, die Klausur zu bearbeiten, stellt sich als gewichtete Summe aus den Komponenten Intelligenz und Disziplin dar. Diese beiden Größen bezeichnen wir als Faktoren 41 / 62

42 3.3 Das allgemeine Faktormodell x mi = f m1 a i1 + + f mq a iq (m = 1,..., n i = 1,..., p) + Rest = q j=1 f mj a ij + Rest Interpretation: n ist die Anzahl der Versuchsperson; p bezeichnet die Anzahl der Variablen/Merkmale, die bei jeder Versuchsperson gemessen werden. x mi repräsentiert die ite Komponente der Messung für die Versuchsperson m (im Beispiel: Klausurergebnis für Klausur i = 1,..., p = 5) f mj Ausprägung der Person m mit dem Faktor j (j = 1,..., q) q bezeichnet die Anzahl der Faktoren (im Beispiel ist - bis jetzt - q = 2) Beachte: Im mathematischen Modell sind f 1 = (f 11,... f 1q ), f 2 = (f 21,... f 2q ),..., f n = (f n1,... f nq ) Zufallsvariable (genauer Zufallsvektoren), deren Komponenten Varianz 1 haben. Außerdem wird angenommen, dass diese Zufallsvariablen unabhängig sind. 42 / 62

43 3.3 Das allgemeine Faktormodell x mi = f m1 a i1 + + f mq a iq (m = 1,..., n i = 1,..., p) Interpretation: + Rest = q j=1 f mj a ij + Rest a ij Bedeutung des j-ten Faktors für die Variable x i (im Beispiel die Bedeutung von Intelligenz (j = 1) bzw. Disziplin (j = 2) für das Klausurergebnis in den 5 Fächern, d.h. i = 1,..., 5). Die Größen a ij bezeichnet man auch als Faktorladungen In der Regel ist q wesentlich kleiner als p ( Dimensionsreduktion) und aus diesem Grund steht in der obigen Gleichung immer ein Rest. Wie bestimmt man die Faktoren und die Faktorladungen? 43 / 62

44 Matrixschreibweise des allgemeinen Faktormodells X = ( x11 x 1p x n1 xnp ) ; F = ( f11 f 1q f n1 fnq ) A = ( a11 a 1q a p1 apq ) ; A T = ( a11 a p a 1q apq ) Matrixschreibweise des allgemeinen Faktormodells X = F A T Beachte: X is n p Matrix F ist n q Matrix A T ist q p Matrix 44 / 62

45 Matrixschreibweise des allgemeinen Faktormodells Beachte: X is n p Matrix F ist n q Matrix A T ist q p Matrix X = F A T Die Darstellung ist nicht eindeutig: ist V eine invertierbare q q Matrix mit V V 1 = I q, so gilt X = F A T = F I q A T = F V V 1 A T = F ÃT mit F = F V ; Ã T = V 1 A T. Oft interessiert man sich für solche Matrizen für die V 1 = V T gilt (solche Matrizen, genauer die durch sie beschriebenen Abbildungen bezeichnet man als Rotation) 45 / 62

46 3.4 Bestimmung der Faktoren für das Beispiel von 2 Variablen 3 Daten ) ( x11 1 P 1 =( = x 12 2 ) ) ( x21 0 ; P 2 =( = x 22 1 ) ) ( x31 1 ; P 3 =( = x 32 3 ) X 2 P 1 P 2 X 1 P 3 46 / 62

47 Kenngrößen der Daten x 1 = x j1 = 0 x 2 = 1 3 j=1 3 3 x j2 = 0 j=1 s 2 x 1 = 1 3 j=1 3 (x j1 x 1 ) 2 = 2 3 s 2 x 2 = 1 3 j=1 (x j2 x 2 ) 2 = 14 3 sx sx 2 2 = s 2 x 1,x 2 = 1 3 j=1 (x j1 x 1 )(x j2 x 2 ) = / 62

48 Gesucht: Neues Koordinatensystem mit der folgenden Eigenschaft: in dem neuen Koordinatensystem hat die erste Koordinate der Datenpunkte möglichst große und die zweite Koordinate möglichst kleine Varianz Beispiel 1: Drehung der Achsen um 90 P 1 P 2 X 2 P 3 X 1 48 / 62

49 Beispiel 1: Drehung der Achsen um 90 (nicht optimal) Beachte: In dem neuen Koordinatensystem haben die Punkte die Koodinaten ) ( ) ) ( y11 2 y21 1 P 1 =( = ; P 2 =( = y 12 1 y 22 0 ) ) ( y31 ; P 3 =( = y ) die Varianz der ersten Koordinate wird deutlich vergrößert y 1 = j=1 y j1 = 0 ; y 2 = j=1 y j2 = 0 sy 2 1 = j=1 (y j1 y 1 ) 2 = 14 3 sy 2 2 = j=1 (y j2 y 2 ) 2 = 2 3 sy sy 2 2 = 16 3 sy 2 1,y 2 = j=1 (y j1 y 1 )(y j2 y 2 ) = / 62

50 Beispiel 2: Drehung um 45 (besser - aber nicht optimal!) X 2 P 1 X 1 P 2 P 3 50 / 62

51 Beispiel 2: Drehung der Achsen um 45 (besser - aber nicht optimal!) In dem neuen Koordinatensystem haben die 3 Punkte die Koordinaten ) P 1 =( y ( ) =( y ( ) ( ); P 2 = =( y31 ); P 3 = = 2 2 y y y 32 2 Beachte: in diesem Fall wird die Varianz der ersten Koordinate nicht weiter vergrößert y 1 = 0 ; y 20 = 0 sy 2 1 = 1 3 (y j1 y 3 1 ) 2 = 13 3 s 2 y 2 = 1 j=1 sy sy 2 2 = 16 3 sy 2 1,y 2 = 1 3 (y j1 y 3 1 )(y j2 y 2 ) = 2 j=1 ) 51 / 62

52 Beispiel 3: Drehung um (optimal!) X 1 P 1 X 2 P 2 P 3 52 / 62

53 Beispiel 3: Drehung um (optimal!) In diesem Koordinatensystem haben die 3 Punkte die Koordinaten ) ( P 1 =( y11 = y ) ) ( ; P 2 =( y21 = 0.94 y ) ; P 3 =( y31 y 32 ) = ( ) In diesem Fall ist die Varianz der ersten Koordinate maximal und die der zweiten Koordinate minimal y 10 = 0 ; y 20 = 0 ; s 2 y 1 = ; s 2 y 2 = s 2 y 1 + s 2 y 2 = 16 3 s 2 y1,y 2 = 0 Die beiden neuen Achsen nennt man Faktoren. Offensichtlich kann der größte Teil der Varianz der beiden Variablen durch nur einen Faktor erklärt werden! Durch die Rotation wurden Koordinaten eingeführt in den die Daten unkorreliert sind. 53 / 62

54 3.5 Das Prinzip der Faktor- (Hauptkomponenten) analyse im allgemeinen Fall Methode: In der Regel wird die Faktorenanalyse mit der Korrelationsmatrix durchgeführt d.h. die Daten werden zunächst z-standardisiert Mit der Hauptkomponentenanalyse bestimmt man für die p Variablen ein neues Koordinatensystem: Schritt 1: Die erste Achse (Faktor) wird so gewählt, dass die Projektionen der Daten auf diese Achse maximale Varianz haben Dadurch wird ein Teil der Gesamtvarianz durch den ersten Faktor erklärt Schritt 2: Die zweite Achse wird orthogonal (senkrecht) zu der ersten Achse so gewählt, dass von der Restvarianz ein möglichst großer Anteil erklärt wird (man beachte, dass im Beispiel 3.4 p = 2 ist und dadurch die zweite Achse festgelegt ist) Schritt 3, 4..., q: Das Verfahren wird in dieser Weise fortgesetzt. 54 / 62

55 Beachte: Die neuen Achsen erklären sukzessive maximale Varianz. Mathematisch bestimmt man dafür die Eigenwerte und Eigenvektoren der Korrelationsmatrix der Daten. Die neuen (optimalen) Achsen bezeichnet man als Faktoren. Die neuen Koordinaten z ij werden noch durch eine z-transformation standardisiert z mi z mi z i s zi, und die transformierten Werte heißen Faktorwerte. Diese Werte sind die Koordinaten der Daten bzgl. der neuen Achsen und geben Auskunft, wie stark die Merkmale in dem jeweiligen Faktor ausgeprägt sind. Die Faktorladungen a ij sind die zwischen den Faktorwerten für den jten Faktor und den Messungen der Variablen x i. D.h. a 2 ij ist der Anteil der Varianz, der Variablen x i, der durch j-ten Faktor erklärt werden kann! 55 / 62

56 Graphische Darstellung der PCA-Lösung F 2 P 2 cos( ) = a 11 = 0,507 z 32 = -1,389 F 1 f 12 = -0,901 P 3 z 31 = -1,225 f 11 = 1,090 P 1 a 12 = -3,012 In der Abbildung sind die Daten gemäß ihrer Faktorwerte eingetragen. Zum Beispiel hat der Punkt P 1 in dem neuen Koordinatensystem die Koordinaten (f 11, f 12 ) = (1.09, 0.901) 56 / 62

57 Graphische Darstellung der PCA-Lösung F 2 P 2 cos( ) = a 11 = 0,507 z 32 = -1,389 F 1 f 12 = -0,901 P 3 z 31 = -1,225 f 11 = 1,090 P 1 a 12 = -3,012 Die Faktorladungen definieren Variablenachsen (die ursprünglich senkrecht aufeinander standen). Im Beispiel hat der Punkt P 1 die Faktorladungen (a 11, a 12 ) = ( 3.012, 0.507). Der Winkel zwischen zwei Geraden liefert die Korrelation zwischen den beiden Variablen. Z.B. ist die Korrelation zwischen den beiden ursprünglichen Merkmalen cos ( ) = / 62

58 Graphische Darstellung der PCA-Lösung F 2 P 2 cos( ) = a 11 = 0,507 z 32 = -1,389 F 1 f 12 = -0,901 P 3 z 31 = -1,225 f 11 = 1,090 P 1 a 12 = -3,012 Die Projektionen der Versuchspunkte auf die Variablenachsen entsprechen den ursprünglichen z-standardisierten Ausprägungen der Variablen. Im Beispiel erhält man für das dritte Datum (z 31, z 32 ) = ( 1.225, 1.389) 58 / 62

59 Weitere Bezeichnungen Die Größe λ j = p aij 2 (j = 1,..., q) i=1 ergibt diejenige Varianz, die durch den j-ten Faktor aufgeklärt werden kann. λ j heißt Eigenwert des j-ten Faktors. Sind die Variablen wie üblich z-standardisiert, dann ist die Summe der Varianzen aller Variablen gleich p, und es gilt p λ j = p j=1 0 λ j p (j = 1,..., q) D.h. der Eigenwert λ j gibt an, wie viel von der Gesamtvarianz aller Variablen durch den j -ten Faktor erklärt werden kann. Man kann zeigen: λ 1 λ 2 λ q sind die q größten Eigenwerte der Korrelationsmatrix der Daten. 59 / 62

60 Kommunalitäten Die Größe h 2 i = q aij 2 (i = 1,..., p) j=1 gibt an, welcher Anteil der Varianz der Variablen x i durch die q Faktoren erklärt werden kann. h 2 i heißt Kommunalität und es gilt (da man wie üblich von z-standardisierten Variablen ausgeht) 0 h 2 i 1 60 / 62

61 3.6 Eine Methoden zur Wahl von q Die Frage, wie viele Faktoren man verwendet, ist nicht eindeutig beantwortbar. In der Regel sollte q im Verhältnis zu p klein sein! Kaiser-Guttmann Kriterium: Benutze nur Faktoren für die der zugehörige Eigenwert λj größer als 1 ist! Beachte: die Varianz der standardisierten Eingangsvariablen ist gleich 1! Damit betrachtet man nur Faktoren, für die die Varianz der transformierten Größe größer ist als die ursprünglichen Varianzen. Ein Screeplot betrachtet das Eigenwertdiagramm in Abhängigkeit von den Faktoren und man sucht in diesem einen Knick, der die wesentlichen Eigenwerte von den unwesentlichen unterscheidet. In anderen Worten: Man reduziert Schritt für Schritt die Dimensionalität, bis plötzlich im nächsten Schritt die Kosten der Reduktion (gemessen in Form des Verlusts an erklärter Varianz) deutlich größer sind als in den vorigen Schritten. 61 / 62

62 Beispiel für ein Eigenwertdiagramm bzw. Screeplot Screeplot 5 4 Eigenwert Faktor Auf Basis des Diagramms entscheidet man für 3 Faktoren Aus Basis des Kaiser-Guttmann Kriteriums entscheidet man für 2 Faktoren 62 / 62