Angewandte Multivariate Statistik Prof. Dr. Ostap Okhrin

Transkript

1 Angewandte Multivariate Statistik Angewandte Multivariate Statistik Prof. Dr. Ostap Okhrin Ostap Okhrin 1 of 60

2 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Principal Components Analysis (Hauptkomponentenanalyse) Ziel: Reduziere die Dimension einer p-variaten Zufallsvariable X über Linearkombinationen. Diese Linearkombinationen sollten die gröÿte Streuung zwischen den Werten von X erzeugen, z. B. in dem die Linearkombinationen mit den gröÿten Varianzen gesucht werden. Ostap Okhrin 2 of 60

3 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Principal Components Analysis (Hauptkomponentenanalyse) Standardisierte Linearkombination (SLC) Für eine standardisierte Linearkombination (SLC) mit einem gewichteten Durchschnitt von X kann δ X = p δ j=1 jx j δ = 1, standardisiert p j=1 δ2 j = 1 geschrieben werden. δ = (δ 1,..., δ p ) ist dabei der Wichtungsvektor, der die Richtung der Linearkombinationen bestimmt. Ostap Okhrin 3 of 60

4 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Mit Hilfe der SLC kann ein δ gefunden werden, das die Varianz von δ X maximiert: max {δ: δ =1} Var(δ X ) = max {δ: δ =1} δ Var(X )δ. Die Lösung zu Theorem 2: der maximale Vektor (die beste Richtung) ist der Eigenvektor γ 1 mit dem dazugehörigen gröÿten Eigenwert λ 1 der Kovarianz-Matrix Σ = Var(X ). Ostap Okhrin 4 of 60

5 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Gegeben sei: erste Hauptkomponente: zweite Hauptkomponente: Y 1 = γ 1 X Y 2 = γ 2 X...und so weiter mit γ i γ j i j. Allgemein: Die Hauptkomponenten (PC) Transformation einer Zufallsvariable X mit E(X ) = µ, Var(X ) = Σ = ΓΛΓ ist: Y = Γ (X µ) Anmerkung: Die Variable X ist zentriert, damit die Hauptkomponente einen Erwartungswert von Null erhält. Ostap Okhrin 5 of 60

6 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination 5 0 Direction in Data Projection Explained variance Total variance Explained percentage Abbildung 1: Eine beliebige SLC Ostap Okhrin 6 of 60

7 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination 5 0 Direction in Data Projection Explained variance Total variance Explained percentage Abbildung 2: Die interessanteste SLC Ostap Okhrin 7 of 60

8 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Beispiel ( ) Bivariate Normalverteilung N(0, Σ), Σ = 1ρ ρ 1, ρ > 0. Eigenwerte dieser Matrix sind λ 1 = 1 + ρ und λ 2 = 1 ρ mit den dazugehörigen Eigenvektoren γ 1 = 1 ( ) 1, γ 2 = ( ). Die PC Transformation ist somit or ( Y1 Y 2 Y = Γ (X µ) = 1 ( ) = 1 2 ( X1 + X 2 X 1 X 2 ). ) X Ostap Okhrin 8 of 60

9 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Die erste Hauptkomponente (PC) ist Y 1 = 1 2 (X 1 + X 2 ) und die zweite ist Y 2 = 1 2 (X 1 X 2 ). Ostap Okhrin 9 of 60

10 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Berechne die Varianzen von diesen Hauptkomponenten (PCs) { } 1 Var(Y 1 ) = Var 2 (X 1 + X 2 ) = 1 2 Var(X 1 + X 2 ) = 1 2 {Var(X 1) + Var(X 2 ) + 2 Cov(X 1, X 2 )} = 1 ( ρ) = 1 + ρ 2 = λ 1. Auf die gleiche Weise kann Var(Y 2 ) = λ 2 = 1 ρ. gefunden werden. Ostap Okhrin 10 of 60

11 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Theorem Sei X (µ, Σ) und Y = Γ (X µ) die PC Transformation. Dann ist für j=1,...,p: E Y j = 0 Var(Y j ) = λ j Cov(Y i, Y j ) = 0, for i j Var(Y 1 ) Var(Y p ) 0 p j=1 Var(Y j) = tr(σ) p j=1 Var(Y j) = Σ. Ostap Okhrin 11 of 60

12 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Theorem Es gibt keine SLC, die eine gröÿere Varianz als λ 1 = Var(Y 1 ) hat. Theorem Sei Y = a X eine SLC, die nicht mit den ersten k Hauptkomponenten (PCs) von X korreliert, dann wird Var(Y ) durch a = γ k+1 maximal. Ostap Okhrin 12 of 60

13 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Zusammenfassung: SLC Eine standardisierte Linearkombination (SLC) ist ein gewichteter Durchschnitt δ X = p δ j=1 jx j. Der Vektor δ hat eine Länge von 1. Durch Maximieren der Varianz von δ X wird der Eigenvektor δ = γ 1 gefunden. Dieser Eigenvektor gehört zum gröÿten Eigenwert λ 1 der Kovarianzmatrix Σ = Var(X ). Das entspricht einer Projektion von X in einem eindimensionalen Raum, in dem die Komponenten von X von den Elementen γ 1 gewichtet werden. Y 1 = γ 1 (X µ) wird die erste Hauptkomponente (rst PC) genannt. Ostap Okhrin 13 of 60

14 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Zusammenfassung: SLC Diese Projektion kann für höhere Dimensionen verallgemeinert werden. Die PC Transformation ist eine Lineartransformation Y = Γ (X µ), mit Σ = Var(X ) = Γ ΛΓ und µ = E X. Y 1, Y 2,..., Y p wird erste, zweite,..., p-te Hauptkomponente (rst, second,...,pth PCs) genannt. Ostap Okhrin 14 of 60

15 Angewandte Multivariate Statistik Principal Components Analysis Standardisierte Linearkombination Zusammenfassung: SLC Die Hauptkomponenten (PCs) haben einen Erwartungswert von Null, eine Varianz Var(Y j ) = λ j, und keine Kovarianzen. Gilt λ 1... λ p, ist Var(Y 1 )... Var(Y p ). Des Weiteren sei p j=1 Var(Y j) = tr(σ) und p j=1 Var(Y j) = Σ. Wenn Y = a X eine SLC ist, die nicht mit den ersten k Hauptkomponenten von X korreliert, wird die Varianz von Y durch die Wahl von a gleich der (k + 1)ten Hauptkomponente maximiert. Ostap Okhrin 15 of 60

16 Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis Hauptkomponenten in der Praxis µ wird x, Σ ändert sich zu S = GLG Y = (X 1 n x )G S Y = n 1 Y HY = n 1 G (X 1 n x ) H(X 1 n x )G = n 1 G X HX G = G SG = L L = diag(l 1,..., l p ) ist die Matrix der Eigenwerte von S. Ostap Okhrin 16 of 60

17 Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis y 1 = (X 1 n x )g 1 g 1 = 1. Evec(S) g 2 = 2. Evec(S) g 3 = 3. Evec(S). Die Hauptkomponenten-Methode ist empndlich gegenüber Skalabzw. Maÿstabsänderungen. Die Hauptkomponenten (PC) Transformation sollte nur für Daten angewendet werden, die nahezu die selbe Skala in jeder Variable aufweisen. Ostap Okhrin 17 of 60

18 Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis Beispiel Es wird der Banknotendatensatz betrachtet. Der Mittelwertsvektor von X ist: x = (214.9, 130.1, 129.9, 9.4, 10.6, 140.5), der Vektor mit den Eigenwerten von S ist: l = (2.985, 0.931, 0.242, 0.194, 0.085, 0.035). Ostap Okhrin 18 of 60

19 Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis Die Eigenvektoren g j entsprechen den Spalten von G: G = Die erste Spalte von G ist der erste Eigenvektor. Er liefert die Gewichte, die für die erste Hauptkomponente benötigt werden. Abbildung 3 zeigt die geplotteten Hauptkomponenten, echte Banknoten wurden mit o und gefälschte mit + gekennzeichnet. Ostap Okhrin 19 of 60

20 Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis First vs. Second PC PC1 PC Second vs. Third PC PC2 PC First vs. Third PC PC1 PC Eigenvalues of S Index Lambda Abbildung 3: Hauptkomponenten der Bankdaten. Ostap Okhrin 20 of 60

21 Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis Beispiel (Skala- bzw. Maÿstabsänderung) Umskalierung der Variablen X 1, X 2, X 3, und X 6 in cm, nur X 4 und X 5 werden weiterhin mm angegeben. Damit ist x = (21.49, 13.01, 12.99, 9.4, 10.6, 14.05), und l = (2.101, 0.623, 0.005, 0.002, 0.001, ). Dieses Ergebnis unterscheidet sich ganz klar vom vorherigen (siehe Abbildung 4): die 1. Hauptkomponente wird durch X 4 und die 2. Hauptkomponente durch X 5 dominiert. Die anderen Variablen haben deutlich weniger Gewicht. Ostap Okhrin 21 of 60

22 Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis First vs. Second PC PC1 PC Second vs. Third PC PC2 PC First vs. Third PC PC1 PC Eigenvalues of S Index Lambda Abbildung 4: Hauptkomponenten der umskalierten Bankdaten Ostap Okhrin 22 of 60

23 Angewandte Multivariate Statistik Principal Components Analysis Hauptkomponenten in der Praxis Zusammenfassung: PCs in der Praxis Die Skala (bzw. der Maÿstab) der Variablen sollte ungefähr gleich sein, wenn eine Hauptkomponentenanalyse (PCA) durchgeführt wird. Für die Anwendung der PCA in der Praxis wird µ durch den Mittelwert x und Σ durch die empirische Kovarianz S ersetzt. Anschlieÿend werden die Eigenwerte l 1,..., l p und die Eigenvektoren g 1,..., g p von S berechnet. Für die grasche Darstellung der Hauptkomponenten wird die geplottete 1. Hauptkomponente der 2. Hauptkomponente (und eventuell der 3. Hauptkomponente) gegenübergestellt. Die Komponenten des Eigenvektors g i sind die Gewichte der originalen Variablen in den Hauptkomponenten. Ostap Okhrin 23 of 60

24 Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs Interpretation der Hauptkomponenten Die Varianz wird durch die ersten q Hauptkomponenten erklärt. ψ = λ λ q = p λ j = j=1 q Var(Y j ) j=1 tr(σ) q Var(Y j ) j=1 p Var(Y j ) j=1 Ostap Okhrin 24 of 60

25 Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs Kovarianzen zwischen dem Hauptkomponenten Vektor Y und dem Originalvektor X : Cov(X, Y ) = E(XY ) E X E Y = E(XX Γ) µµ Γ = Var(X )Γ = ΣΓ = ΓΛΓ Γ = ΓΛ Korrelation zwischen Variable X i und der Hauptkomponente Y j : ρ Xi Y j ( ) 1/2 λj = γ ij. σ Xi X i Ostap Okhrin 25 of 60

26 Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs Beispiel Bankdaten: Eigenwert Varianz- kumulierter anteil Anteil Ostap Okhrin 26 of 60

27 Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs Swiss Bank Notes Variance Explained Index Abbildung 5: Relativer Varianzanteil, der durch die Hauptkomponenten erklärt werden kann. Ostap Okhrin 27 of 60

28 Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs ψ 1 = λ λ q p λ j j=1 Arbeitsschritte fürs Plotten: 1. Berechnen der Kovarianzmatrix 2. Berechnen der Eigenwerte 3. Standardisieren der Eigenwerte durch die Summe der Eigenwerte 4. Plotten der Anteile auf der y Achse Ostap Okhrin 28 of 60

29 Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs Swiss Bank Notes Second PC X6 X1 X5 X2 X3 X First PC Abbildung 6: Korrelation der originalen Variablen mit den Hauptkomponenten. Ostap Okhrin 29 of 60

30 Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs Zusammenfassung: Interpretation Die Gewichtung der Hauptkomponenten bestimmt in welche Richtungen, ausgedrückt in Originalkoordinaten, die beste Varianzerklärung liegt. Es muss beachtet werden, dass die PCA nicht skaleninvariant ist. Der relative Anteil ψ q = q λ j=1 j/ p λ j=1 j ist ein Maÿstab dafür, wie gut die ersten q Hauptkomponenten die Variation erklären. Wie gut die Hauptkomponenten die Variation in den Daten erklären, kann mit einem Scree Plot von diesen Variationen grasch dargestellt werden. Ostap Okhrin 30 of 60

31 Angewandte Multivariate Statistik Principal Components Analysis Interpretation der PCs Zusammenfassung: Interpretation Die Korrelation zwischen einer Hauptkomponente Y j und einer ( λ Originalvariable X i kann mit ρ Xi Y j = γ j ij berechnet σ Xi X j ) 1/2 werden. Wird in der Praxis eine Datenmatrix betrachtet, wird die Korrelation stattdessen mit rx 2 i Y j = l j gij 2 s berechnet. Anders Xi X j ausgedrückt entspricht rx 2 i Y j dem Varianzanteil von X i, der durch Y j erklärt werden kann. Ein Plot von r Xi Y 1 und r Xi Y 2 zeigt, welche Variablen aus dem Originaldatensatz am stärksten mit den Hauptkomponenten korrelieren. Das sind jene Variablen, die sehr Nahe am Einheitskreis liegen. Ostap Okhrin 31 of 60

32 Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs Asymptotische Eigenschaften der Hauptkomponenten Theorem Sei Σ > 0 mit eindeutigen Eigenwerten und U m 1 W p (Σ, m) mit den spektralen Zerlegungen Σ = ΓΛΓ und U = GLG gegeben. Dann sind (a) L m(l λ) N p (0, 2Λ 2 ), (b) m(g j γ j ) L N p (0, V j ), mit V j = λ j k j (c) Cov(g j, g k ) = V jk, (r, s)-element von V jk ist: λ k (λ k λ j ) 2 γ k γ k, λ j λ k γ rk γ sj [m(λ j λ k ) 2 ], (d) Elemente in l asymptotische unabhängige Elemente in G Ostap Okhrin 32 of 60

33 Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs Beispiel Sei X 1,..., X n N(µ, Σ), ns W p (Σ, n 1), dann kann das letzte Theorem wie folgt ausgedrückt werden: n 1(lj λ j ) L N(0, 2λ 2 j ), j = 1,..., p. Da die Varianz 2λ 2 j unbekannt ist, wird die Log-Transformation und das Transformationstheorem (siehe Multivariate Verteilungen) wie folgt angewendet: n 1 L (log l j log λ j ) N(0, 1) 2 Ein zweiseitiges Kondenzintervall sieht wie folgt aus: 2 2 log(l j ) 1.96 n 1 log λ j log(l j ) n 1 Ostap Okhrin 33 of 60

34 Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs Gegeben seien die Bankdaten mit: n = 200, l 1 = Dafür ist log(2.98) ± = log(2.98) ± und das Kondenzintervall: P{λ 1 (2.448, 3.62)} 0.95 Ostap Okhrin 34 of 60

35 Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs Erklärung der Varianz durch die ersten q Hauptkomponenten ψ = λ λ q p λ j j=1 ψ = l l q p l j j=1 Ostap Okhrin 35 of 60

36 Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs Ausgehend vom Theorem und Nichtlinearität von ψ in λ wird das Transformationstheorem 4.11 angewendet: n 1( ψ ψ) L N(0, D VD) V = 2Λ 2 D = (d 1,, d p ) d j = ψ λ j = { 1 ψ tr(σ) ψ tr(σ) for 1 j q, for q + 1 j p. Ostap Okhrin 36 of 60

37 Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs Theorem n 1( ψ ψ) L N(0, ω 2 ), ω 2 = D 2 { VD = (1 ψ) 2 (λ 2 {tr(σ)} λ 2 q) + ψ 2 (λ 2 q λ 2 p) } = 2 tr(σ2 ) {tr(σ)} 2 (ψ2 2βψ + β) β = λ λ2 q λ λ2 p Hinweis: Mit tr(λ) = tr(σ) und tr(λ 2 ) = tr(σ 2 ) können die Berechnungen vereinfacht werden Ostap Okhrin 37 of 60

38 Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs Beispiel Die erste berechnete Hauptkomponente der Schweizer Banknoten erklärt 67% der Variation. Nun soll getestet werden, ob der wahre Anteil sogar bei 75% liegt. Das Kondenzintervall mit einer 1-α=0.95 Vertrauenswahrscheinlichkeit sei gegeben: ± 1.96 ω 2 kann wie folgt berechnet werden: ω 2 n 1, β = l 2 1 l l2 p = tr(s) = p tr(s 2 ) = l 2 j = j=1 Ostap Okhrin 38 of 60

39 Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs Damit ist: ω 2 = 2 tr(s2 ) tr(s) 2 ( ψ 2 2 β ψ + β) = ± 1.96 = (0.615, 0.720). 199 Das heiÿt, die (Null-) Hypothese, dass ψ = 75% kann mit einer Irrtumswahrscheinlichkeit von α = 5% abgelehnt werden Ostap Okhrin 39 of 60

40 Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs Zusammenfassung: Asymptotische Eigenschaften der Hauptkomponenten Die Eigenwerte l j und Eigenvektoren g j sind asymptotisch normalverteilt, im Speziellen L n 1(l λ) N p (0, 2Λ 2 ). Für die Eigenwerte gilt n 1 2 (log l j log λ j ) L N(0, 1). Ostap Okhrin 40 of 60

41 Angewandte Multivariate Statistik Principal Components Analysis Asymptotische Eigenschaften der PCs Zusammenfassung: Asymptotische Eigenschaften der Hauptkomponenten Die asymptotische Normalverteilung erlaubt Konndenzintervalle zu konstruieren und auf den Anteil der Varianz zu testen, der von den ersten q Hauptkomponenten erklärt wird. Es gilt für die geschätzten ψ von ψ das L n 1( ψ ψ) N(0, ω 2 ). Ostap Okhrin 41 of 60

42 Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA Normalisierte Hauptkomponentenanalyse (NPCA) Die Hauptkomponentenanalyse (PCA) ist abhängig von der Skala bzw. dem Maÿstab von X j. Die Standardisierung der Komponenten X j, wenn die Datenmatrix X sei: Korrektur des Mittelwertes: X C = HX zentrierte Datenmatrix (H = I n n 1 1 n 1 n ) Ostap Okhrin 42 of 60

43 Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA Korrektur bzw. Anpassung der Skala bzw. des Maÿstabes: X S = HX D 1/2, D = diag(s X1 X 1,..., s XpX p ), x S = 0, S XS = RKorrelationsmatrix Die PCA von X S wird NPCA (Normalisierte Hauptkomponentenanalyse) genannt, mit L R = diag(l R 1,..., lr p ). R = G R L R G R, Die NPC's sind: Z = X S G R = (z 1,..., z p ). Ostap Okhrin 43 of 60

44 Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA Die NPC's genügen: z = 0, S Z = G R S XS G R = G R RG R = L R. Kovarianz und Korrelation S XS,Z = 1 n X S Z = G RL R R XS,Z = G R L R L 1/2 1/2 R = G R L R r Xi Z j = r Xsi Z j = l j g R,ij p rx 2 i Z j = 1. j=1 Ostap Okhrin 44 of 60

45 Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA French Food Data Die Daten beinhalten durchschnittliche Ausgaben für Lebensmittel verschiedener Familien in Frankreich (manual workers = MA, employees = EM, managers = CA) mit unterschiedlicher Kinderzahl (2,3,4 or 5 children). Die Daten sind von Lebart, Morineau and Fénelon (1982). Ostap Okhrin 45 of 60

46 Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA French Food data Second Factor Families CA5 EM5 CA3 MA5 MA4 EM4 MA3 EM3 CA2 MA2 CA4 EM First Factor Families Abbildung 7: Grasche Darstellung der Individuen Ostap Okhrin 46 of 60

47 Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA French Food data Second Factor Goods vegetables meat poultry fruits milk bread wine First Factor Goods Abbildung 8: Grasche Darstellung der Variablen Ostap Okhrin 47 of 60

48 Angewandte Multivariate Statistik Principal Components Analysis Normalisierte PCA Zusammenfassung: NPCA Die normalisierte Hauptkomponentenanalyse (NPCA) entspricht der Hauptkomponentenanalyse (PCA), die auf eine standardisierte (normalisierte) Datenmatrix X S angewendet wird. Die grasche Darstellung liefert ähnliche Bilder wie bei der PCA, jedoch wird hier die relative Position der Individuen berücksichtigt. Im Gegensatz zur PCA hat bei der NPCA jede Variable das selbe Gewicht (bei der PCA hat die Variable mit der gröÿten Varianz das gröÿte Gewicht). Die Qualität der Darstellungen kann durch geschätzt werden. ψ = l 1 + l l q. p l j j=1 Ostap Okhrin 48 of 60

49 Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode Hauptkomponenten als faktorielle Methode Die empirischen Hauptkomponenten (normalisiert oder nicht) sind äquivalent zu den Faktoren, die man beim Zerlegen der Datenmatrix erhalten würde. Die Hauptkomponenten entsprechen Faktoren und werden durch die Zeilen der zentrierten Datenmatrix repräsentiert. Die normalisierten Hauptkomponenten (NPCs) entsprechen den Faktoren der standardisierten Datenmatrix. Ostap Okhrin 49 of 60

50 Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode Betrachtet man die Individuen (die Zeilen von X ) und die Variablen (die Spalten von X ) in einer kleineren Dimension, dann ist X C = HX. Die spektrale Zerlegung von X C X C ist der Zerlegung von S X ähnlich: X C X C = X H HX = ns X = nglg. Die faktoriellen Variablen werden durch die Projektion von X C auf G berücksichtigt, Y = X C G = (y 1,..., y p ). Ostap Okhrin 50 of 60

51 Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode Da HX C = X C, folgt sofort, dass y = 0, S Y = G S X G = L = diag(l 1,..., l p ). Die faktoriellen Achsen des Streudiagramms der Individuen sind somit um den Ursprung zentriert und streuen stärker in die erste Richtung (die erste Hauptkomponente hat die Varianz l 1 ), danach in die zweite Richtung (die zweite Hauptkomponente hat die Varianz l 2 ). Ostap Okhrin 51 of 60

52 Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode Duale Relationen Die Projektionen der Spalten von X C in die Eigenvektoren v k von X C XC sind XC v k = 1 XC X C g k = nl k g k. nlk Projektionen der ersten p Achse sind die Spalten von X C V = ngl 1/2. Ostap Okhrin 52 of 60

53 Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode Geometrische Darstellung Betrachte x C[j] x C[k] = ns Xj X k, x C[j] 2 = ns Xj X j, mit x C[j] und x C[k], dabei sei die j-te und k-te Spalte von X C. Wenn θ jk der Winkel zwischen x C[j] und x C[k] ist, kann cos θ jk = x C[j] x C[k] x C[j] x C[k] = r X j X k geschrieben werden. Ostap Okhrin 53 of 60

54 Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode Qualität der Darstellungen Die Qualität der Darstellungen kann mit ψ = l 1 + l l q. p l j bestimmt werden. j=1 Ostap Okhrin 54 of 60

55 Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode Es ist sinnvoll den Winkel ϑ ik zwischen der Darstellung eines Individuum i und der k-ten Hauptkomponente - oder die normalisierten Hauptkomponenten-Achse zu berechnen. cos ϑ ik = y i e k y i e k = für die Hauptkomponenten oder analog cos ζ ik = z i e k z i e k = y ik x Ci z ik x Si für die normalisierten Hauptkomponenten, dabei beschreibt e k den k-ten Einheitsvektor e k = (0,..., 1,..., 0). Ostap Okhrin 55 of 60

56 Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode Ein Individuum i wird durch die k-te PC Achse dargestellt, wenn sein entsprechender Winkel klein ist, zum Beispiel, wenn cos 2 ϑ ik für k = 1,..., p ist dieser nahezu eins. Für jedes Individuum gilt i, p k=1 cos 2 ϑ ik = y i y i xci x Ci = x Ci GG x Ci x Ci x Ci = 1 Die Werte cos 2 ϑ ik werden manchmal relative Beiträge der k-ten Achse zur Darstellung des i-ten Individuums genannt. Ostap Okhrin 56 of 60

57 Angewandte Multivariate Statistik Principal Components Analysis PC als faktorielle Methode Zusammenfassung: Hauptkomponenten als faktorielle Methode Normalisierte Hauptkomponenten (NPCs) sind Hauptkomponenten (PCs), die auf eine standardisierte (normalisierte) Datenmatrix X S angewendet werden. Die grasche Darstellung der NPCs ist äquivalent zu der graschen Darstellung der PCs. Der Unterschied liegt lediglich in der Position der Individuen. Die Qualität der Darstellung einer Variablen kann über den prozentualen Varianzanteil von X i bewertet werden. Dieser lässt sich durch eine Hauptkomponente, z.b., mit rx 2 i Y j erklären. Ostap Okhrin 57 of 60

58 Angewandte Multivariate Statistik Principal Components Analysis Gemeinsame Hauptkomponenten Common Principal Components (Gemeinsame Hauptkomponenten) Zusammengesetze Dimensionsreduktionstechnik Die Schätzung der Hauptkomponenten erfolgt gleichzeitig in verschiedenen Gruppen. Der identische Raum wird von Eigenvektoren aufgespannt. Flury (1988) H CPC : Σ i = ΓΛ i Γ, i = 1,..., k Σ i Bevölkerungs Kovarianzmatrix der Gruppe i Γ = (γ 1,..., γ p ) Transformationsmatrix Λ i = diag(λ i1,..., λ ip ) Eigenwertmatrix Ostap Okhrin 58 of 60

59 Angewandte Multivariate Statistik Principal Components Analysis Gemeinsame Hauptkomponenten Beispiel Gemeinsame Hauptkomponentenanalyse für die impliziten Oberächenschwankungen des Dax-Index von Oberächenglättung (tageweise). Drei Gruppen (Laufzeiten in Monaten): τ = 1, τ = 2 and τ = 3 Der Moneynessbereich: Ostap Okhrin 59 of 60

60 Angewandte Multivariate Statistik Principal Components Analysis Gemeinsame Hauptkomponenten PCP for CPCA, 3 eigenvectors loading moneyness Abbildung 9: Faktorladungen der ersten (dick), der zweiten (mittel), und der dritten (dünn) Hauptkomponente. Ostap Okhrin 60 of 60