Faktoren- und Hauptkomponentenanalyse

Ähnliche Dokumente
Clusteranalyse und Display-Methoden

Einer Reihe von Merkmalen zugrunde liegende, gemeinsame Faktoren ermitteln.

Explorative Faktorenanalyse

9 Faktorenanalyse. Wir gehen zunächst von dem folgenden Modell aus (Modell der Hauptkomponentenanalyse): Z = F L T

Statistische Methoden in der Wirtschaftsund Sozialgeographie

Faktorenanalyse. Fakultät für Human und Sozialwissenschaften Professur für Forschungsmethodik und Evaluation in der Psychologie

Die Faktorenanalyse. Anwendung dann, wenn zwischen beobachtbaren und nicht direkt beobachtbaren Variablen ein kausales Verhältnis vermutet wird

Faktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduzierung. Interpretation des SPSS-Output s

Eigene MC-Fragen Kap. 4 Faktorenanalyse, Aggregation, Normierung. 1. Welche Aussage zu den Prinzipien der Faktorenanalyse ist zutreffend?

Statistik, Datenanalyse und Simulation

Zur Erklärung menschlicher Verhaltensweisen oder allgemeiner sozialer Phänomene ist häufig eine Vielzahl von Einflussfaktoren zu berücksichtigen.

Hauptkomponenten-basierte Klassifikationsverfahren (PCA)

6. Faktorenanalyse (FA) von Tests

METHODENPRAKTIKUM II Kurs 1. Prof. Dr. Beat Fux SUZ Frühlingssemester 2009

Multivariate Verfahren

Faktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduktion. Interpretation des SPSS-Output s

Grundzüge der Faktorenanalyse

1 Beispiele multivariater Datensätze... 3

Veranschaulichung: Einführung in die Faktorenanalyse mit SAS. 1. Faktorenanalyse: Wie? Inhalt. 1. Faktorenanalyse: Wozu?

6-Variablen-Fall. Dipl.-Ök. John Yun Bergische Universität Wuppertal Gaußstraße Wuppertal

Statistik II: Klassifikation und Segmentierung

Aufgaben zur Multivariaten Statistik

Musterlösung. Modulklausur Multivariate Verfahren

GHF SoSe 2011 HS MD-SDL

Hauptkomponentenanalyse. Die Schritte bei einer Hauptkomponentenanalyse

Inhaltsverzeichnis. Vorwort. 1 Einführung in die multivariate Datenanalyse 1

Statistische Versuchsplanung und Optimierung

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

5.Tutorium Multivariate Verfahren

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1. LÖSUNG 13 a.

Die Rücktransformation: Z = A t (Y µ) = Y = AZ + µ

Dimensionale Methoden: Hauptkomponentenanalyse (HKA) und Faktorenanalyse (FA)

Principal Component Analysis (PCA) (aka Hauptkomponentenanalyse)

Multivariate Statistik

Faktorenanalyse. 1. Grundlegende Verfahren. Bacher, SoSe2007

Multivariate Analysemethoden, Dozent: Dr. Thomas Schäfer Alexander Allnoch, Markus Burkhardt & Vivien Röder

Multivariate Analysemethoden

Mustererkennung. Merkmalsreduktion. R. Neubecker, WS 2016 / Übersicht

Institut für Marketing und Handel Prof. Dr. W. Toporowski. SPSS Übung 5. Heutige Themen: Faktorenanalyse. Einführung in Amos

Skript Einführung in SPSS

Explorative Faktorenanalyse

Klausur zur Vorlesung Analyse mehrdimensionaler Daten, Lösungen WS 2010/2011; 6 Kreditpunkte, 90 min

17. Januar Ruhr-Universität Bochum. Methodenlehre III, WS 2010/2011. Prof. Dr. Holger Dette. 1. Matrizenrechnung. 2.

Einführung in die Hauptkomponentenanalyse und Faktorenanalyse mit SPSS. Datenanalyse HS09 Susan Kriete Dodds 18. November 2009

Explorative Faktorenanalyse

Sind mehrere Merkmale untereinander hoch korreliert, so kann man sie als zusammengehörig interpretieren, sie bilden einen Faktor.

11.2 Ergebnisse der Faktorenanalysen

9. November Ruhr-Universität Bochum. Methodenlehre III, WS 2009/2010. Prof. Dr. Holger Dette. Matrizenrechnung. 2. Multiple Korrelationen

SPSS-Ausgabe 1: Univariate Varianzanalyse. Profildiagramm. [DatenSet1] D:\Sozialwiss2006_7\STAT2\Daten\mathsalaries.sav. Seite 1

Musterklausur im Fach Käuferverhalten und Marketingforschung. Prof. Dr. M. Kirchgeorg

Multivariate Verfahren

Übung zum Projektseminar Wetterlagen und Feinstaub

Interdisziplinäres Seminar. Multivariate Statistik bei psychologischen Fragestellungen. Markus Bühner und Helmut Küchenhoff WS 2008/09

Klausurvorbereitung Multivariate Statistik

Name Vorname Matrikelnummer Unterschrift

Überblick. GK C: Einführung in die Korpuslinguistik. Fragen. Sprachwandel/Sprachvariation. Fragen. NB: Register

Konfirmatorische Faktorenanalyse. Regressionsmodelle für Politikwissenschaftler

Multivariate Lineare Modelle SS Einführung. 1. Organisation. 2. Übersicht. 3. Arbeiten mit SAS

13 Dimensionsreduktion

Konfirmatorische Faktorenanalyse

Beispiele für Faktorscores realer Marken sowie minimaler und maximaler Score in den fünf Dimensionen. 2 Sensorik

Darstellung der Rotation 2,85 / 0,08 1 / 3,5 3,62 / 0,40. α = 67,76 -1 / -1 -2,08 / 0,23-1,30 / 0,55

Faktorenanalyse Dr. Markus Stöcklin, Universität Basel, Fakultät für Psychologie

13.0 Dimensionsreduktion Dimensionsreduktion. 13 Dimensionsreduktion Hauptkomponentenanalyse Dimensionsreduktion

4. Skalenbildung: Faktorenanalyse, Aggregation von Items & Normierung

Messen im psychologischen Kontext II: Reliabilitätsüberprüfung und explorative Faktorenanalyse

Multivariate Diskriminanzanalyse

Partial-Least-Square PLS und Kennzahl VIP

Ausgangsmatrix. Wert. Wert. Wert. 18 erhobene Merkmale. 74 Raumordnungsregionen

Clusteranalyse. Anwendungsorientierte Einführung. R. Oldenbourg Verlag München Wien. Von Dr. Johann Bacher

Hauptkomponentenanalyse PCA

Statistik-Quiz Sommersemester

Einführung in SPSS. Sitzung 5: Faktoranalyse und Mittelwertsvergleiche. Knut Wenzig. 22. Januar 2007

Klassifikation und Ähnlichkeitssuche

Statistische Methoden in der Geographie

Entwicklung der Faktorenanalyse Faktorenanalyse. Faktorenanalyse nach Spearman Variablen zur Beschreibung von Intelligenz

Multivariate statistische Analyseverfahren

Multivariate Statistische Methoden

Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit

Statistische Datenanalyse

Prof. Dr. Gabriele Helga Franke TESTTHEORIE UND TESTKONSTRUKTION

Mod. 2 p. 1. Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Fernerkundung und Waldinventur

Multivariate Statistische Methoden und ihre Anwendung

1 Übungsaufgaben zur Regressionsanalyse

Principal Component Analysis (PCA)

Auswertung mit dem Statistikprogramm SPSS:

1. Referenzpunkt Transformation

Multivariate Analysemethoden

Marktforschung und Datenanalyse

2.5 Das Rotationsproblem

2.6 Bestimmung der Faktorwerte ( Matrizenmanipulation bei Hauptkomponentenmethode)

Optimierung der Variablen-Selektion für die PLS-Regression

Übungen zu Multivariate Verfahren WS 2009/10 1. Aufgabe 1 Betrachten Sie die folgenden beiden Vektoren und Matrizen

Korrelationsmatrix. Statistische Bindungen zwischen den N Zufallsgrößen werden durch die Korrelationsmatrix vollständig beschrieben:

Prof. Dr. Fred Böker

Klausur zur Vorlesung Multivariate Verfahren, SS Kreditpunkte, 90 min

Multivariate Analysemethoden

Multivariate Statistik

Transkript:

Ziel: Anwendung von Verfahren der Dimensionsreduzierung Erkennen von Strukturen in Daten an ausgewählten Anwendungsbeispielen Betreuer: Dipl.-Chem. Stefan Möller IAAC, Lehrbereich Umweltanalytik Lessingstraße 8, Raum 222 Tel.: (9) 4 81 91 E-Mail: moeller.stefan@uni-jena.de Grundlagen: Vorwort Begriffsbestimmung In vielen Statistikprogrammen wird nicht zwischen Hauptkomponenten- (HKA/PCA) und Faktorenanalyse (FA) unterschieden. Somit werden auch die Begriffe Hauptkomponenten und Faktoren teilweise synomyn verwendet. Im Praktikum wird die Faktorenanalyse auf Grundlage der Extraktion von Hauptkomponenten durchgeführt, sowohl bei der HKA als auch bei der FA wird vom Programm allerdings der Begriff Faktoren verwendet. Hintergrund Das Ziel der Faktorenanalyse ist es, eine Vielzahl von Variablen (= Dimensionen, Merkmale) auf einige wenige Komponenten ( latente Variablen, Faktoren) zu reduzieren. Dies entspricht einer dimensionsreduzierenden Transformation. Somit können hochdimensionale Daten dargestellt und Zusammenhänge z. B. zwischen verschiedenen Proben (allgemein Objekten) festgestellt werden. Neben der Seite 1 von 5

Visualisierung ist es auch möglich, latente Variablen (Faktoren) zu interpretieren. Natürliche Strukturen (geogener Hintergrund) und anthropogene Einflüsse können erkannt, Belastungssituationen auf unterschiedliche Eintragsquellen zurückgeführt werden. Prinzip Bei der Durchführung der Faktorenanalyse werden mit Hilfe der HKA aus der Korrelations- oder Varianz-Kovarianzmatrix so genannte Hauptkomponenten extrahiert, die unkorreliert (orthogonal) sind und die den Informationsgehalt der ursprünglichen Matrix weitgehend reproduzieren können. Die Hauptkomponenten sind Linearkombinationen der ursprünglichen Variablen und werden nacheinander so extrahiert, dass jeweils die maximale verbleibende Varianz der Daten erklärt wird. Mathematisch geschieht dies durch Lösung des Eigenwertproblems der Korrelationsoder Varianz-Kovarianzmatrix. Die Eigenvektoren entsprechen dabei den Hauptkomponenten, die Eigenwerte den von den Eigenvektoren erklärten Varianzen. Die erste extrahierte Hauptkomponente ist demnach der Eigenvektor mit dem größten Eigenwert. Je stärker die Original-Variablen korreliert sind, umso weniger Hauptkomponenten sind notwendig, um den ursprünglichen Informationsgehalt zu erhalten. Die Zahl der nötigen Hauptkomponenten/Faktoren wird z. B. mit Hilfe des Kaiser-Kriteriums (Aufnahme von Eigenvektoren mit Eigenwerten > 1), dem Scree-Plot oder einer Kreuzvalidierung bestimmt. Als Scree werden die Ablagerungen bezeichnet, die sich an Steilküsten bilden. Üblicherweise werden nur die Hauptkomponenten extrahiert, die sich im steil abfallenden Teil des Plots befinden (3 in Abb. 1). 5.0 Scree-Plot 4.5 4.0 3.5 3.0 Eigenwert 2.5 2.0 1.5 1.0 0.5 0.0 0 1 2 3 4 5 6 7 8 9 10 Hauptkomponente Abb. 1: Scree-Plot der Faktorenanalyse Seite 2 von 5

Eine weitere Methode zur Abschätzung, wie viele Faktoren nötig sind, stellt die Berechnung der Kommunalitäten dar. Diese geben an, wie viel Prozent der Varianz einer Variablen durch die verwendeten Faktoren erklärt wird. Ist die Kommunalität der Variable Eisen für den ersten Faktor beispielsweise 0,43, so wird bereits 43 % der Gesamtvarianz der Variable durch diesen Faktor erklärt. Ist die Kommunalität für die ersten 4 Faktoren 0,93, werden bereits 93 % der Gesamtvarianz von diesen Faktoren erklärt. Somit kann man gezielter abschätzen, für welche Variablen wenige Faktoren und für welche einige mehr nötig sind. Die Auswahl der benötigten Faktoren für den Gesamtdatensatz (d. h. dieselbe Zahl für alle Variablen), erfolgt dann über die Festlegung einer minimalen Kommunalität. Interpretation der Ergebnisse und Rotation Als Ergebnis der Faktorenanalyse erhält man zwei Matrizen, die Matrix der Faktorladungen (loadings), die dem Variablenraum entspricht, und die Matrix der Faktorwerte (scores), die den Objektraum repräsentiert. Diese Matrizen bilden das Datenmaterial für Plots der Faktorwerte bzw. -ladungen, mit denen eine 2- oder 3- dimensionale Projektion der Anordnung der Objekte bzw. Variablen erhalten werden kann. Um die Interpretation der Faktoren zu erleichtern, gibt es die Möglichkeit, die aus der HKA bestimmten Faktoren zu rotieren. Als Ergebnis erhält man eine Aufspaltung in besonders hohe und besonders niedrige Ladungen in jedem Faktor (d. h. nahe 0 oder nahe ± 1). Häufig eingesetzt werden orthogonale Rotationsverfahren wie Varimax oder Quartimax. Die Hauptkomponenten/Faktoren können als Basis für weitere Auswertungen dienen, z. B. für die multiple lineare Regression (principal component regression, PCR, vgl. Praktikumsversuch), als Eingänge eines künstlichen neuronalen Netzes oder zur Source-Apportionment-Modellierung. Seite 3 von 5

Durchführung: 1. Übung Faktorenanalyse von Weindaten Datensatz: WEIN.STA Programm: STATISTICA (Factor Analysis Modul) Beschreibung: In Weinen aus verschiedenen deutschen Anbaugebieten und Rebsorten wurden die anorganischen Spurenbestandteile mittels der ICP-OES bestimmt. Kann man aus dem erhaltenen Elementmuster Hinweise auf das Anbaugebiet oder die Rebsorte des Weins erhalten? Protokollieren Sie die durchgeführten Schritte der Faktorenanalyse! Im Hinblick auf die Aufgabenstellung sind folgende Punkte interessant: Wie viele Hauptkomponenten/Faktoren sollten extrahiert werden? Zusammenhänge und Einflüsse der Variablen können in einem Faktorladungsplot dargestellt werden. Sie können eine 2-D- oder 3-D-Darstellung erhalten. Der größte Anteil der Varianz wird durch die ersten beiden Faktoren erklärt, daher bietet sich ein Plot dieser Faktorladungen an. Variablen in der Nähe des Ursprungs (z.b. B) haben nur einen kleinen Einfluss, während z.b. P in Faktor 1 hoch geladen ist. Gruppierungen von Variablen können ähnlich wie bei der Clusteranalyse interpretiert werden. Strukturen bei den Objekten können mit Hilfe des Plots der Faktorwerte aufgezeigt werden. Hier sollten Sie LAGE, GEBIET und SORTE auswählen. 2. Übung Faktorenanalyse von Olivenöldaten Datensatz: OLIV.STA Programm: STATISTICA (Factor Analysis Modul) Beschreibung: In Olivenölen aus verschiedenen italienischen Regionen wurden die Konzentrationen von acht Fettsäuren bestimmt. Durch welche Fettsäuren werden die Anbaugebiete wesentlich unterschieden? Protokollieren Sie Ihre angewendeten Schritte und interpretieren Sie das Ergebnis anhand der Grafiken, bzw. Tabellen. Seite 4 von 5

Literatur: Flury, B., Riedwyl, H.: Angewandte multivariate Statistik. Fischer, 1983 Backhaus, K., Erichson, B., Plinke, W., Weiber, R.: Multivariate Analysemethoden. Springer, Berlin (2008) Brereton, R.G. (Hrsg.): Multivariate Pattern Recognition in Chemistry. Elsevier, Amsterdam 1992 Smith, G.L.: Principal component analysis: An introduction. Anal. Proc. 28, 150 (1991) Wernecke, K.-D.: Angewandte Statistik für die Praxis. Addison-Wesley, Bonn 1995 Wold, S., Esbensen, K., Geladi, P.: Principal components analysis, Chemometrics. Intell. Lab. Syst. 2, 37 (1987) Einax, J. W., Zwanziger, H. W,, Geiß, S.: Chemometrics in Environmental Analysis. VCH, Weinheim, 1997 Massart D. L., Vandeginste B. G. M., Buydens L. M. C., De Jong S., Lewi P. J., Smeyers-Verbeke J.: Handbook of chemometrics and qualimetrics; data handling in science and technology, Parts A and B, Vols. 20A and 20B. Elsevier, Amsterdam, 1997 http://www.statsoft.com/textbook/stathome.html Seite 5 von 5