Ziel: Anwendung von Verfahren der Dimensionsreduzierung Erkennen von Strukturen in Daten an ausgewählten Anwendungsbeispielen Betreuer: Dipl.-Chem. Stefan Möller IAAC, Lehrbereich Umweltanalytik Lessingstraße 8, Raum 222 Tel.: (9) 4 81 91 E-Mail: moeller.stefan@uni-jena.de Grundlagen: Vorwort Begriffsbestimmung In vielen Statistikprogrammen wird nicht zwischen Hauptkomponenten- (HKA/PCA) und Faktorenanalyse (FA) unterschieden. Somit werden auch die Begriffe Hauptkomponenten und Faktoren teilweise synomyn verwendet. Im Praktikum wird die Faktorenanalyse auf Grundlage der Extraktion von Hauptkomponenten durchgeführt, sowohl bei der HKA als auch bei der FA wird vom Programm allerdings der Begriff Faktoren verwendet. Hintergrund Das Ziel der Faktorenanalyse ist es, eine Vielzahl von Variablen (= Dimensionen, Merkmale) auf einige wenige Komponenten ( latente Variablen, Faktoren) zu reduzieren. Dies entspricht einer dimensionsreduzierenden Transformation. Somit können hochdimensionale Daten dargestellt und Zusammenhänge z. B. zwischen verschiedenen Proben (allgemein Objekten) festgestellt werden. Neben der Seite 1 von 5
Visualisierung ist es auch möglich, latente Variablen (Faktoren) zu interpretieren. Natürliche Strukturen (geogener Hintergrund) und anthropogene Einflüsse können erkannt, Belastungssituationen auf unterschiedliche Eintragsquellen zurückgeführt werden. Prinzip Bei der Durchführung der Faktorenanalyse werden mit Hilfe der HKA aus der Korrelations- oder Varianz-Kovarianzmatrix so genannte Hauptkomponenten extrahiert, die unkorreliert (orthogonal) sind und die den Informationsgehalt der ursprünglichen Matrix weitgehend reproduzieren können. Die Hauptkomponenten sind Linearkombinationen der ursprünglichen Variablen und werden nacheinander so extrahiert, dass jeweils die maximale verbleibende Varianz der Daten erklärt wird. Mathematisch geschieht dies durch Lösung des Eigenwertproblems der Korrelationsoder Varianz-Kovarianzmatrix. Die Eigenvektoren entsprechen dabei den Hauptkomponenten, die Eigenwerte den von den Eigenvektoren erklärten Varianzen. Die erste extrahierte Hauptkomponente ist demnach der Eigenvektor mit dem größten Eigenwert. Je stärker die Original-Variablen korreliert sind, umso weniger Hauptkomponenten sind notwendig, um den ursprünglichen Informationsgehalt zu erhalten. Die Zahl der nötigen Hauptkomponenten/Faktoren wird z. B. mit Hilfe des Kaiser-Kriteriums (Aufnahme von Eigenvektoren mit Eigenwerten > 1), dem Scree-Plot oder einer Kreuzvalidierung bestimmt. Als Scree werden die Ablagerungen bezeichnet, die sich an Steilküsten bilden. Üblicherweise werden nur die Hauptkomponenten extrahiert, die sich im steil abfallenden Teil des Plots befinden (3 in Abb. 1). 5.0 Scree-Plot 4.5 4.0 3.5 3.0 Eigenwert 2.5 2.0 1.5 1.0 0.5 0.0 0 1 2 3 4 5 6 7 8 9 10 Hauptkomponente Abb. 1: Scree-Plot der Faktorenanalyse Seite 2 von 5
Eine weitere Methode zur Abschätzung, wie viele Faktoren nötig sind, stellt die Berechnung der Kommunalitäten dar. Diese geben an, wie viel Prozent der Varianz einer Variablen durch die verwendeten Faktoren erklärt wird. Ist die Kommunalität der Variable Eisen für den ersten Faktor beispielsweise 0,43, so wird bereits 43 % der Gesamtvarianz der Variable durch diesen Faktor erklärt. Ist die Kommunalität für die ersten 4 Faktoren 0,93, werden bereits 93 % der Gesamtvarianz von diesen Faktoren erklärt. Somit kann man gezielter abschätzen, für welche Variablen wenige Faktoren und für welche einige mehr nötig sind. Die Auswahl der benötigten Faktoren für den Gesamtdatensatz (d. h. dieselbe Zahl für alle Variablen), erfolgt dann über die Festlegung einer minimalen Kommunalität. Interpretation der Ergebnisse und Rotation Als Ergebnis der Faktorenanalyse erhält man zwei Matrizen, die Matrix der Faktorladungen (loadings), die dem Variablenraum entspricht, und die Matrix der Faktorwerte (scores), die den Objektraum repräsentiert. Diese Matrizen bilden das Datenmaterial für Plots der Faktorwerte bzw. -ladungen, mit denen eine 2- oder 3- dimensionale Projektion der Anordnung der Objekte bzw. Variablen erhalten werden kann. Um die Interpretation der Faktoren zu erleichtern, gibt es die Möglichkeit, die aus der HKA bestimmten Faktoren zu rotieren. Als Ergebnis erhält man eine Aufspaltung in besonders hohe und besonders niedrige Ladungen in jedem Faktor (d. h. nahe 0 oder nahe ± 1). Häufig eingesetzt werden orthogonale Rotationsverfahren wie Varimax oder Quartimax. Die Hauptkomponenten/Faktoren können als Basis für weitere Auswertungen dienen, z. B. für die multiple lineare Regression (principal component regression, PCR, vgl. Praktikumsversuch), als Eingänge eines künstlichen neuronalen Netzes oder zur Source-Apportionment-Modellierung. Seite 3 von 5
Durchführung: 1. Übung Faktorenanalyse von Weindaten Datensatz: WEIN.STA Programm: STATISTICA (Factor Analysis Modul) Beschreibung: In Weinen aus verschiedenen deutschen Anbaugebieten und Rebsorten wurden die anorganischen Spurenbestandteile mittels der ICP-OES bestimmt. Kann man aus dem erhaltenen Elementmuster Hinweise auf das Anbaugebiet oder die Rebsorte des Weins erhalten? Protokollieren Sie die durchgeführten Schritte der Faktorenanalyse! Im Hinblick auf die Aufgabenstellung sind folgende Punkte interessant: Wie viele Hauptkomponenten/Faktoren sollten extrahiert werden? Zusammenhänge und Einflüsse der Variablen können in einem Faktorladungsplot dargestellt werden. Sie können eine 2-D- oder 3-D-Darstellung erhalten. Der größte Anteil der Varianz wird durch die ersten beiden Faktoren erklärt, daher bietet sich ein Plot dieser Faktorladungen an. Variablen in der Nähe des Ursprungs (z.b. B) haben nur einen kleinen Einfluss, während z.b. P in Faktor 1 hoch geladen ist. Gruppierungen von Variablen können ähnlich wie bei der Clusteranalyse interpretiert werden. Strukturen bei den Objekten können mit Hilfe des Plots der Faktorwerte aufgezeigt werden. Hier sollten Sie LAGE, GEBIET und SORTE auswählen. 2. Übung Faktorenanalyse von Olivenöldaten Datensatz: OLIV.STA Programm: STATISTICA (Factor Analysis Modul) Beschreibung: In Olivenölen aus verschiedenen italienischen Regionen wurden die Konzentrationen von acht Fettsäuren bestimmt. Durch welche Fettsäuren werden die Anbaugebiete wesentlich unterschieden? Protokollieren Sie Ihre angewendeten Schritte und interpretieren Sie das Ergebnis anhand der Grafiken, bzw. Tabellen. Seite 4 von 5
Literatur: Flury, B., Riedwyl, H.: Angewandte multivariate Statistik. Fischer, 1983 Backhaus, K., Erichson, B., Plinke, W., Weiber, R.: Multivariate Analysemethoden. Springer, Berlin (2008) Brereton, R.G. (Hrsg.): Multivariate Pattern Recognition in Chemistry. Elsevier, Amsterdam 1992 Smith, G.L.: Principal component analysis: An introduction. Anal. Proc. 28, 150 (1991) Wernecke, K.-D.: Angewandte Statistik für die Praxis. Addison-Wesley, Bonn 1995 Wold, S., Esbensen, K., Geladi, P.: Principal components analysis, Chemometrics. Intell. Lab. Syst. 2, 37 (1987) Einax, J. W., Zwanziger, H. W,, Geiß, S.: Chemometrics in Environmental Analysis. VCH, Weinheim, 1997 Massart D. L., Vandeginste B. G. M., Buydens L. M. C., De Jong S., Lewi P. J., Smeyers-Verbeke J.: Handbook of chemometrics and qualimetrics; data handling in science and technology, Parts A and B, Vols. 20A and 20B. Elsevier, Amsterdam, 1997 http://www.statsoft.com/textbook/stathome.html Seite 5 von 5