Hauptkoponentenanalyse PCA Die Hauptkoponentenanalyse (Principal Coponent Analysis, PCA) ist eine Methode zur linearen Transforation der Variablen, so dass: öglichst wenige neue Variablen die relevante Inforation beschreiben. (Mass für die Relevanz ist die Varianz) die neuen Variablen orthogonal und dait unkorreliert sind Zweck: explorative Datenanalyse Entdeckung von Zusaenhängen in 2D- oder 3D-Plots Modellbildung (z.b. Regression) it den transforierten Daten eliiniert irrelevante Inforation wie Rauschen eliiniert die Gefahr von Artefakten wie Ausreissern
Hauptkoponentenanalyse x 2 x 2 3 2 x 6 5 4 x
Hauptkoponentenanalyse x 2 x 2 t 2 PC PC2 3 t t 22 2 x t 2 4 x 6 5
Hauptkoponentenanalyse x 2 x 2 t 2 PC PC2 3 t t 22 2 x Neue Koordinaten (scores, T-Matrix) t 2 6 5 4 x Berechnung der neuen Achsen (Loadings, P-Matrix)
Hauptkoponentenanalyse Es handelt sich u eine Rotation des Koordinatensystes (Multiplikation it einer orthogonalen Matrix). Mass für den Inforationsgehalt ist der Anteil an der totalen Varianz, den die einzelnen Hauptkoponenten beschreiben. Der Inforationsgehalt der höheren Hauptkoponenten nit oft rapide ab, so dass sie ohne Verlust an Inforation weggelassen können. 6 T 2 5 4 x 2 3 x 2 t t 2 t 22 2 t 2 x T x
Hauptkoponentenanalyse und Lineare Regression y y x x Bei der Hauptkoponentenanalyse werden die Fehlerquadrate senkrecht zur Geraden inialisiert (orthogonale Regression), bei der linearen Regression diejenige in der y-richtung.
Hauptkoponentenanalyse n X = n M + n M 2 +... + n M r 2 r Eine Matrix vo Rang r kann als eine Sue von r Matrizen vo Rang ausgedrückt werden. Für eine n x Matrix it n >, ist der Rang r. Der Rang einer Matrix entspricht der Ordnung der grössten (quadratischen) Subatrix, deren Deterinante (D) ungleich null ist. (Eine Subatrix kann aus einer Matrix durch Weglassen einer beliebigen Anzahl von Zeilen und/oder Spalten gebildet werden). Der Rang enstspricht der Anzahl unabhängiger Inforationen. Wenn eine Spalte oder Zeile einer Matrix als Linearkobination anderer Spalten/Zeilen ausgedrückt werden kann, ist die entsprechende Inforation nicht unabhängig. Eine quadratische Matrix it D = 0 ist singulär und kann nicht invertiert werden.
Hauptkoponentenanalyse n = n... + n + + n X t p T t 2 p 2 T t r p r T r n = n r X T P T Bei der Hauptkoponentenanalyse werden die Vektoren t und p so ausgewählt, dass. die p Vektoren paarweise orthonoral sind, 2. die t Vektoren orthogonal sind, 3. jeder t-vektor (Scores, neue Koordinaten) das Maxiu der verbleibenden Varianz beschreibt.
Hauptkoponentenanalyse n = n... + n + + n X t p T t 2 p 2 T t r p r T r n = n r X T P T Die weniger relevanten Hauptkoponenten können oft ohne wesentlichen Verlust an Inforation weggelassen werden. Sie beschreiben viel Rauschen und enthalten kau relevante Inforation.
Hauptkoponentenanalyse X 0.7 02.05 88.52 504.0 76.54 66.49 02.05 267.23 240.5.24E+3 87.9 59.24 88.52 240.5 220.72.E+3 65.44 4.35 504.0.24E+3.E+3 5.85E+3 886.6 752.89 76.54 87.9 65.44 886.6 34.42 3.99 66.49 59.24 4.35 752.89 3.99 97.6 587.8 34 67 622 94.0 799.4 t 0.082 0.99 0.77 0.942 0.43 0.2 44.0 07.36 95.3 507.49 76.87 65.3 07.4 26.86 232.46.24E+3 87.5 59.3 p T 95.3 232.46 206.36.E+3 66.45 4.4 507.5.24E+3.E+3 5.85E+3 886.34 753 76.87 87.5 66.45 886.34 34.25 4. 65.3 59.29 4.4 753 4.06 96.9 M = t p T 66.7-5.3-6.78-3.49-0.33.8-5.3 5.37 7.69-2.06-0.3-0.06-6.78 7.69 4.36-3.57 -.0-0.06-3.49-2.06-3.57.38 0.27-0.0-0.33-0.3 -.0 0.27 0.6-0.07.9-0.06-0.06-0.0-0.07 0.26 X - M -67.3 6.7 9.23 2.8 0.7 -.9 t 2 2.78 8.65 5.48-4.83 -. 0.3 t 3-0.985 0.098 0.35 0.04 0.003-0.07 p 2 T 0.49 0.464 0.83-0.259-0.06 0.007 p 3 T 66.28-6.6-9.09-2.77-0.7.7-6.6 0.66 0.9 0.28 0.02-0.2-9.09 0.9.25 0.38 0.02-0.6-2.77 0.28 0.38 0.7 0.007-0.05-0.7 0.02 0.02 0.007 0.0004-0.003.7-0.2-0.6-0.05-0.003 0.02 M 2 = t 2 p 2 T 0.42.29 2.3-0.72-0.7 0.02.29 4.02 7.9-2.24-0.52 0.062 2.3 7.9 2.87-4.0-0.92 0. -0.72-2.24-4.0.25 0.29-0.035-0.7-0.52-0.92 0.29 0.07-0.008 0.02 0.06 0. -0.04-0.008 0.00 M 3 = t 3 p T 3 0.42.30 2.3-0.72-0.6 0.0.30 4.7 6.79-2.34-0.33 0.06 2.3 6.79 3. -3.96 -.03 0.0-0.72-2.34-3.96.27 0.26-0.05-0.6-0.33 -.03 0.26 0.7-0.06 0.03 0.06 0.0-0.054-0.06 0.239 X - M - M 2 0.0004 0.0-0.005-0.00 0.004-0.007 0.0 0.69-0.4-0. 0.9-0.00-0.006-0.4 0.24 0.06-0. -0.0-0.000-0. 0.06 0.02-0.03-0.02 0.004 0.9-0. -0.03 0. -0.05 0.007-0.00-0.0-0.02-0.05 0.24 X - M - M 2 - M 3
Hauptkoponentenanalyse: Matheatische Grundlagen Bei der Hauptkoponentenanalyse sucht an nach einer linearen Transforation der Koordinaten X (Transforationsatrix P) in neue Koordinaten T (XP = T), so dass ein öglichst grosser Teil der Varianz beschrieben ist, und dass die Transforationsatrix orthonoral ist. Man sucht also bei jede Schritt nach den p- und t-vektoren, die die Bedingungen erfüllen:. t T t = ax d.h. (Xp) T (Xp) = p T X T Xp = ax (X T X ist die Varianz-Kovarinazatrix * (n )) 2. p T p = Optiierung it Nebenbedingungen, Methode der Lagrange-Multiplikatoren: Optiierung der Funktion f(x,y) unter der Bedingung g(x,y) = 0 Vorgehen: Definition einer allgeeineren Funktion: u(x,y,λ) = f(x,y) λg(x,y) p T X T Xp axial, Nebenbedingung: p T p = Funktion: u = p T X T Xp λ(p T p ) du/dp = 2X T Xp 2λp = 0 (A λi)p = 0 (it A = X T X): klassisches Eigenwertproble. p ist jeweils ein Eigenvektor der Varianz-Kovarianzatrix.
Hauptkoponentenanalyse X = T P T T = X P P ist eine orthogonale Matrix, daher ist die Inverse die Transponierte. originale Variablen transforierte Variablen Proben n x x2... x x2 x22... x2 etc X k P = Proben n k t t2... tn t2 t22... t2n etc T Die zu den einzelnen Eigenvektoren p i gehörenden Eigenwerte λ i geben den Anteil der Gesatvarianz an, der durch sie repräsentiert ist.
Hauptkoponentenanalyse: Das Vorgehen. Berechnung der Korrelationsatrix X T X der zentrierten und it der Varianz skalierten Daten. 2. Berechnung der Eigenvektoren und Eigenwerte der X T X-Matrix. Die Eigenvektoren solcher Matrizen sind reell, und die Eigenwerte sind nicht negativ. 3. Auswahl der Anzahl signifikanter Eigenwerte. Der Anteil der Varianz, die die ausgewählten r Koponenten beschreiben, ist: Σ λ i / k (k ist die Diension der X T X-Matrix). Die den ausgewählten Eigenwerten entsprechenden Eigenvektoren bilden die Koeffizienten für die Linearkobination der ursprünglichen X-Variablen für die Berechnung der neuen Variablen T ("scores"), d.h. sie bilden die "loadings"-matrix. 4. Berechnung der T-Matrix ("scores"): T = XP Man kann die Hauptkoponenten auch ohne Skalierung oder Zentrierung der Variablen berechnen. Je nach Aufgabestellung kann die eine oder die andere Art sinnvollere Resultate geben.
Singularwert-Zerlegung Allgeein gilt, dass jede Matrix X in das Produkt dreier Matrizen zerlegt werden kann: Singularwert-Zerlegung (Singular value decoposition): X nx = U nxr W rxr V T rx it U und V orthonoral und W diagonal. r r r W r V T n X = n U Zusaenhang it der Hauptkoponentenanalyse: U W = T; V = P Die Eigenwerte der X T X und XX T Matrizen sind Λ = W 2. U ist die Matrix der Eigenvektoren von XX T und V die Matrix der Eigenvektoren von X T X
Singularwert-Zerlegung (SVD): BSP Bestiung von drei Spureneleenten in Luftproben in Abhängigkeit von der Windrichtung: Windrichtung Na Cl Si 0 0.22 0.399 0.90 90 0.072 0.33 0.55 80 0.036 0.063 0.23 270 0.078 0.4 0.273 0.753 0.68 0.343 0.27 0.302 0.567 0.473 0.529 0.626 0 0 0.24 0.37 0.690 0.622 0.280 0.556 0.783 X = UλV T = = 0.22 0.399 0.90 0.072 0.33 0.55 0.036 0.063 0.23 0.078 0.4 0.273 = X
Singularwert-Zerlegung (SVD): BSP 0.753 0.343 0.302 0.473 0.68-0.27-0.567-0.529 0.753 0.68 0.343 0.27 0.302 0.567 0.473 0.529 U T U= = 0 0 0.37 0.690 0.622 0.280 0.556 0.783 0.37 0.280 V T V= 0.690 0.556 = 0.622 0.783 0 0 X T X = (UλV T ) T UλV T = VλU T UλV T = Vλ 2 V T V und λ 2 sind Eigenvektoren und Eigenwerte der Matrix X T X XX T = (VλU T ) T VλU T = UλV T VλU T = Uλ 2 U T U und λ 2 sind Eigenvektoren und Eigenwerte der Matrix XX T
SVD und PCA 0.753 0.68 0.343 0.27 0.302 0.567 0.473 0.529 0.626 0 0 0.24 0.472 0.32 0.25 0.027 0.89 0.22 0.296 0.3 T = U λ = = = = X V = 0.22 0.399 0.90 0.072 0.33 0.55 0.036 0.063 0.23 0.078 0.4 0.273 0.37 0.280 0.690 0.556 0.622 0.783
SVD und PCA 0.753 0.68 0.343 0.27 0.302 0.567 0.473 0.529 0.626 0 0 0.24 0.472 0.32 0.25 0.027 0.89 0.22 0.296 0.3 T = U λ = = = = X V = 0.22 0.399 0.90 0.072 0.33 0.55 0.036 0.063 0.23 0.078 0.4 0.273 0.37 0.280 0.690 0.556 0.622 0.783
Teeproben: PCA Teeproben: zentrierte Daten X-Matrix -2.3-4.38-4.05 5.54 0.68 0.4 -.74-4.7-4.0 4.35 0.53 0.28 -.0-3.82-2.96 3.04 0.5 0.04-0.49-4.36-2.56.67-0.04-0.3-0.3-3.2-2. -0.2-0.26-0.32 0.3-3.64 -.97 -.26-0.38-0.4.5-3.6 -.26-2.39-0.62-0.55-2.73-3.95-3.6 3.74 0.44-0.24 -.05-3.48-2.29 2.5 0.24-0.42 -.02-3.56 -.79.28 0. -0.5 0.2-2.6-0.38 0.56-0.27-0.6 0.37-3.42 0.3-0.47-0.34-0.82 -.48.38-2.5 -.94 0.47.0-0.8 0.83 -.98-2.85 0.38 0.93 0.52 0.84 -.05-3.43 0.26 0.7.24 -.58 0.2-4.5-0.02 0.03-0.85 -.44-2.36 3.9.27.9 -. -.48 -.76 0.96 0.56.3-0.99-0.85 -.58 0.25 0.35.08 -.5-0.87 -.8-0.28 0.23 0.86-0.56 -.5 0.03-0.8 0.05 0.67-0.69-0.75 0.39-0.95-0.0 0.55 0.03 0.5.09 -.33-0.7 0.46 0.35 3.56 2.37-2.84-0.67-0.45 0.33 3.07 2.97-2.88-0.79-0.93 0. 6.55 3.6-2.97-0.82 -.52 0.2 6.3 4.29-3.07-0.93 -.63 0.3 4.74 3.4-4.53-0.89-0.62 0.94 4.95 3.58-4.85 -.04 -.9 0.2 5.7 4.5-4.63 -. -.58 0.05 5.4 5.02-4.65 -.2 -.66 Teeproben: Kreuzprodukt-Matrix (X X) 32.74 46.84 5.35-56.45-0.77 -.27 46.84 383.95 256.25-232.75-4.3-44.22 5.35 256.25 27.2-80.97-40.6-49.59-56.45-232.75-80.97 268.55 4.7 38.28-0.77-4.3-40.6 4.7.33 5.06 -.27-44.22-49.59 38.28 5.06 25.99 Eigenwerte 7.277 0.569 7.95 45.252 93.09 775.6 Eigenvektoren (P-Matrix) -0.46-0.02 0.79 0.34-0.2 0.2-0.3-0.04 0.04-0.4 0.54 0.67 0.58 0.07 0.04 0.62 0.6 0.5-0.07-0.08 0.2 0.28 0.79-0.52 0.5 0.93 0.24-0.2 0.08-0.09 0.58-0.36 0.56-0.46 0.03-0. 0.77% 0.06%.9% 4.8% 9.9% 82.5% Neue Koordinaten: T = XP -0.05-0.047 -.0-0.273.908-8.20-0.355-0.063-0.896-0.39 0.953-7.334-0.29-0.74-0.648 0.88 0.084-5.75-0.68-0.4-0.55 0.566 -.359-5.08-0.342-0.4-0.78 0.049-2.2-3.068-0.402-0.24-0.459 0.28-3.397-2.665-0.597-0.74 0.237 0.94-4.428 -.59 0.254 0.59-2.05-0.204 0.905-6.502-0.2 0.54-0.938 0.49-0.05-4.874 0.3 0.92 -.28 0.57 -.002-4.022 0.022-0.02-0.305.389 -.09-2. 0.422 0.45-0.443.98-2.336 -.824-0.384 0.09-0.759-3.726-0.823 0.342-0.27 0.084-0.4-3.46 -.905 0.804-0.403 0.45 0.444-2.55-2.499.77 0.279 0.345 0.427-0.035-4.386.287 0.52 0.38 0.92 -.42.707-4.209 0.697-0.078-0.024 -.308-0.04-2.687 0.455-0.5-0.6 -.469-0.253 -.753 0.658-0.07-0.486 -.29-0.604 -.278.07-0.076-0.2-0.252 -.23-0.478.5-0.063-0.369-0.208-0.94 0.045 0.806-0.56 0.43-0.07-0.66.54-0.003-0.98-0.232-0.35-0.082 5.9 0.204-0.072-0.546 0.484-0.303 5.24-0.697 0.04-0.9-0.369.642 7.972-0.306 0.046-0.967 0.22.522 8.226 0.256-0.74-0.522-0.56-0.63 7.406-0.328-0.089-0.403-0.077-0.902 7.945 0.223 0.049 -.36 0.407-0.327 8.399 0.558 0.03 -.295 0.72-0.247 8.642
Teeproben: Clustering 6 S i i l a ri t y D eg r e e 5 4 3 2 Green Good quality Black Black and green tea Low quality Oolong Green Black 0 C C2 H C3 C4 H2 H3 K K2 F2 F3 F4 F C5 C6 H4 H5 C7 K3 K4 F5 F6 F7 T T2 S T3 T4 S3 S4 S2
Teeproben: Score Plots t vs t 2 2 c f t3 t4 0 t 2-2 c2 h high quality c3 c4 Green high quality h2 h3 c5 high quality f2 h4 h5 f3 low quality Black f4 f5 low quality f7 k f6 high quality k2 k3 t t2 s s2 Oolong s3 s4-4 c6 low quality low quality c7 k4-6 -0-8 -6-4 -2 0 2 4 6 8 0 t
Teeproben: Score Plots t vs t 6.5 0.5 t 6 0-0.5 - c c2 h high quality high quality c3 c4 h2 f h3 Green high quality c5 f2 c6 h4 low quality c7 f3 h5 low quality -0-8 -6-4 -2 0 f4 f5 f6 high quality low quality Black k k2 t k4 f7 low quality k3 t t2 Oolong 2 4 6 8 0 s s2 t3 s3 s4 t4
Evolvierende Faktoranalyse EFA Die Evolvierende Faktoranalyse EFA ist eine Anwendung der Hauptkoponentenanalyse. Ein sich entwickelndes Syste wird beschrieben. Ein typisches Beispiel ist ein HPLC-UV-Experient. Der Detektor liefert nicht nur einen Skalar, sondern ein ganzes Spektru. Dieses kann als Vektor aufgefasst werden. Bei p verschiedenen Wellenlängen wird die Absorbanz geessen. Das Syste entwickelt sich zeitlich. Es koen also dauernd neue Datenvektoren dazu. Die Datenatrix des ganzen Experients besteht aus n Spektren, die zu n Zeitpunkten geessen wurden. Unter der Annahe, dass die cheischen Koponenten paarweise unterschiedliche UV-Spektren aufweisen, wird die PCA der Datenatrix so viele Hauptkoponenten it nennenswerte Eigenwert ergeben, wie cheische Koponenten eluiert wurden. Die anderen Hauptkoponenten beschreiben Rauschen und ähnliche irrelevante Phänoene. Ihre Eigenwerte sind deutlich kleiner als die der relevanten Koponenten.
Evolvierende Faktoranalyse EFA Die zeitliche Entwicklung wird berücksichtigt, inde nur Teile der Datenatrix verwendet werden. Bei der klassischen EFA wird die Datenatrix sukzessive vergrössert, inde Vektoren so hinzugefügt werden, wie sie zeitlich entstanden sind. Nach jede Hinzufügen wird eine PCA durchgeführt. Bei einer alternativen Methode wird eine fixe Anzahl Datenvektoren als Zeitfenster systeatisch verschoben, inde ein Vektor dazukot und der zeitlich früheste entfernt wird (Moving Window Factor Analysis). Evolving factor analysis Moving window factor analysis Die Anzahl cheischer Koponenten, die in den reduzierten Datenatrizen vorhanden sind, lässt sich anhand der relevantesten Hauptkoponenten erkennen.
Evolvierende Faktoranalyse c Λ t t Eigenwerte t
Evolvierende Faktoranalyse Zur Definition der Auflösung R siehe Vorlesung Analytische Cheie III Angenoene Spektren : 0 : R = R = 0.5 Tests it:. R =.0, 0.2% Verunreinigung 2. R = 0.2, 0.5% Verunreinigung R = 0.25
Evolvierende Faktoranalyse Siuliertes Chroatogra. R =.0, 0.2% Verunreinigung
Evolvierende Faktoranalyse Siuliertes Chroatogra 2. R = 0.2, 0.5% Verunreinigung H.R. Keller, D.L. Massart, Anal. Chi. Acta 99, 246, 379-390
Faktoranalyse Gelegentlich wird der Begriff Faktoranalyse für die PCA verwendet. In der cheischen Literatur ist die Faktoranalyse eine nicht notwendigereweise orthogonale Rotation der Koordinatenachsen, so dass die neuen Koordinaten cheisch interpretierbar sind.
Partial least squares (PLS). PLS ist eine it der Hauptkoponentenanalyse verwandte Methode. Es werden orthogonale Linearkobinationen der ursprünglichen Variablen so ausgewählt, dass sie a. ein Maxiu der Varianz der X-Matrix beschreiben b. ein Maxiu der Korrelation it y (oder Y) zeigen 2. PLS- und PCA-Hauptkoponenten unterscheiden sich leicht. 3. In vielen Arbeiten wurden die beiden Methoden verglichen. PLS ist in anchen Fällen PCR überlegen, aber nicht ier. Beispiel: Korrelation von Strukturvektoren it Eigenschaften: PLS war signifikant besser.
Partial least squares (PLS) PLS ist it der Hauptkoponentenanalyse verwandt. Neben de Kriteriu, dass eine Hauptkoponente das Maxiu der (Rest)-Varianz beschreiben soll, uss sie zusätzlich eine öglichst optiale Korrelation it den abhängigen Variablen haben.