Hauptkomponenten-basierte Klassifikationsverfahren (PCA)

Hauptkomponenten-basierte Klassifikationsverfahren (PCA) Projektseminar: Wetterlagen und Feinstaub - Übung Dozent: Claudia Weitnauer Referent: Esther Oßwald, Julian Dare Datum: 30.05.2011

Übersicht 1 Einleitung 2 Definition: Hauptkomponentenanalyse (PCA) 3 Geometrische Veranschaulichung 4 Analyseverfahren zur Klassifikation Überblick 5 Arten der Hauptkomponentenanalyse (PCA-based methods) 5.1 S-PCA 5.2 T-PCA 5.3 P27 5.4 PCAXTR

1 Einleitung Problem bei der Gesichtserkennung: Bewältigung von enormen, hochdimensionalen Datenmengen, von denen jedoch nicht wenige Komponenten irrelevant bzw. weniger relevant sind als andere, da sie nahezu konstant sind! Beispielsweise unterscheiden sich Gesichter in Nasen-, Augen- und Mundpartien stärker voneinander als in Ausschnitten der Stirn oder Wangen.

1 Einleitung Notwenigkeit eines Verfahrens, das die einzelnen Dimensionen der Datenmenge nach ihrer Relevanz bzw. nach den Abweichungen der Menge in dieser Dimension klassifiziert! PCA: Verfahren, das eine Dimensionsreduzierung ermöglicht, bei der der Informationsverlust minimal ist!

1 Einleitung PCA Durchschnittsgesicht (Quelle: http://mplab.ucsd.edu/~marks/pca.pdf) Originalfotos mehrerer Gesichter (12 aus 97) (Quelle: http://mplab.ucsd.edu/~marks/pca.pdf)

2 Definition PCA Die Hauptkomponentenbasierte Klassifikationsmethode (Principal component analysis PCA) versucht die Originaldaten durch eine kleinere Anzahl dahinter liegender Variablen so zu ersetzen, dass die wesentlichen Beziehungen in den Ausgangsdaten durch die Hauptkomponenten reproduziert werden. D.h. Die Hauptkomponenten sollen die Variabilität der Ausgangsdaten, gemessen als Summe der Varianz der Ausgangsvariablen, möglichst vollständig erklären.

2 Definition PCA Die PCA besteht in einer orthogonalen Transformation der ursprünglichen Variablen in eine neue Menge unkorrelierter Variablen, den Hauptkomponenten (Principal components). Die Hauptkomponenten sind Linearkombinationen der ursprünglichen Variablen und werden nacheinander in absteigender Bedeutung konstruiert, wobei die erste Hauptkomponente so konstruiert wird, dass die für den größten Teil der Variation verantwortlich ist. Damit wird die effektive Dimension der Ausgangsdatenmenge verringert.

2 Definition PCA Die zweite Hauptkomponente wird nun so berechnet, dass sie die noch verbleibende größte Variation abdeckt usw. Der Vorgang wiederholt sich bis die Variation der Ausgangsdaten nahezu vollständig durch die Hauptkomponenten dargestellt ist.

3 Geometrische Veranschaulichung Zur Anschauung wird das Beispiel einer dreidimensionalen Datenmenge betrachtet, die im Sinne der PCA transformiert und anschließend auf zwei Dimensionen reduziert wird. Gegeben sei eine Reihe mehrdimensionaler Messungen (Datenmenge), die folgende Punktwolke (roter Körper) bilden: (Quelle: http://www-mmdb.iai.unibonn.de/lehre/proprak0304/siegemund.pdf)

3 Geometrische Veranschaulichung Als erstes wird der Ursprung des Koordinatensystems in den Schwerpunkt der Punktwolke gesetzt. (Quelle: http://www-mmdb.iai.unibonn.de/lehre/proprak0304/siegemund.pdf)

3 Geometrische Veranschaulichung Als nächstes wird das Koordinatensystem gedreht, sodass die erste Achse in Richtung der größten Abweichung bzw. der größten Varianz gerichtet ist (blauer Pfeil). (Quelle: http://www-mmdb.iai.unibonn.de/lehre/proprak0304/siegemund.pdf)

3 Geometrische Veranschaulichung Der nächste Schritt dreht die zweite Achse in Richtung der größtmöglichen Varianz unkorreliert zur ersten Achse (gelber Pfeil). D.h. Die Drehung des Koordinatensystems richtet die zweite Achse in Richtung der größten Varianz aus, die möglich ist, ohne die Richtung der ersten Achse zu verändern ( Drehung des Systems um die erste Achse). (Quelle: http://www-mmdb.iai.unibonn.de/lehre/proprak0304/siegemund.pdf)

3 Geometrische Veranschaulichung Das Verfahren wird fortgesetzt bis die k-te Achse in Richtung der größten Varianz ausgerichtet ist, unkorreliert zu den ersten k-1 Achsen. Die k-te Achse bezeichnet so die k-te Hauptkomponente. geometrische Interpretation der Hauptkomponenten als Hauptachsen eines Ellipsoiden (Punktwolke).

3 Geometrische Veranschaulichung Ziel der PCA: Hilfe bei der Interpretation einer Datenmenge durch Bestimmung der Komponenten mit dem größten Einfluss. Wenn diese Komponenten bekannt sind, kann eine kleinere Anzahl von Basisvektoren für die Menge gefunden werden (= Dimensionsreduzierung), sodass nur ein möglichst kleiner Teil der in den Daten enthaltenen Informationen verloren geht. (Quelle: http://www-mmdb.iai.unibonn.de/lehre/proprak0304/siegemund.pdf)

Analyseverfahren zur Klassifikation - moderne Computertechnik ermöglicht immer komplexere und vielfältigere Klassifikationsmethoden - deswegen: Einteilung in drei Kategorien durch Yarnal et al. (2001): 1. manuelle Eingabe 2. Korrelationsanalyse 3. Eigenvektoranalyse z.b. Hauptkomponentenanalyse (PCA), andere: EOF, weitere multivariate Klassifikationen --> alle sehr ähnlich!

5 Arten der PCA - keine Verwendung von vordefinierten Modellen im Gegensatz zu vielen anderen Methoden - Modelle werden durch die Eigenschaften und Attribute des Datensatzes definiert - von Richman (1981) als Klassifikationsinstrument vorgeschlagen - schließlich erprobt von Gong und Richman (1995) - Grundidee: Jeder einzelne Fall wird einem Hauptkomponenten zugewiesen

5 Arten der PCA (Quelle: - Es gibt verschiedene Arten/Modi der Hauptkomponentenanalyse - am häufigsten wird der "s-mode" verwendet

5.1 S-PCA (s-mode) - score-time series - liefert Zeitreihenergebnisse - hohe zeitliche Datenvariabilität/auflösung - Eingabe der räumlichen Variablen in die Zeitreihe

5.2 T-PCA (t-mode) - umgekehrtes Verhalten zum "s-mode - höherer Rechenaufwand und Rechenzeit als beim s-mode - Ergebnisse beschreiben vor allem räumliche Muster - Eingabe von Zeitvariablen - indirektes Rotationsverfahren

5.2 T-PCA (t-mode) - Bsp. nach Huth (2000): 10 Datenteilmengen - für die 1. Teilmenge wird der 1., 11., 21. Tag etc. ausgewählt, für die 2. Teilmenge entsprechend der 2., 12, 22. Tag, usw. - Berechnung mit einer Matrizengleichung Dadurch repräsentiert die Lösung den kompletten Datensatz

5.2 T-PCA (t-mode) - klassifiziert wird jeder untersuchte Tag durch die Hauptkomponente mit dem höchsten "Loading - die 10 Klassifikationen werden untereinander verglichen, diejenige mit der höchsten Vergleichbarkeit zu allen anderen wird als Resultat ausgegeben

5.3 P27 - Kruizinga empirical orthogonal function types - Entwickelt am Royal Netherlands Meteorological Institute, Kruizinga (1979) - verwendet S-PCA - Bsp.: tägliche Luftdruckwerte GPH werden in Modellwerte mit reduzierter saisonaler Variabilität transformiert, indem der tägliche Mittelwert abgezogen wird - Verknüpfung der Hauptkomponenten mit zonaler, meridionaler und zyklonaler Komponente

5.4 PCAXTR - principal component analysis extreme score - verwendet vordefinierte zentrale Werte - orthogonal durchwechselnde (Rotationsprinzip: VARIMAX) Zeitreihenwerte im "s-mode - VARIMAX Modell haben die höchste Ähnlichkeit zu den wahren Begebenheiten - "s-mode" weil: Dieser ist representativer im Bezug auf die Originaldaten, die hier alle mit einbezogen werden

Literatur Philip et al. (2010): Cost733cat A database of weather and circulation type classifications. In: Physics and Chemistry of Earth. S. 361-373 the US San Diego Cognitive Science Department (2010): Principal Component Analysis (PCA). http://mplab.ucsd.edu/~marks/pca.pdf (28.05.2011)