Hauptkomponenten-basierte Klassifikationsverfahren (PCA)

Ähnliche Dokumente
SEMINAR AUTOMATISCHE GESICHTSERKENNUNG

Termin3 Klassifikation multispektraler Daten unüberwachte Verfahren

Medienart: Print Medientyp: Publikumszeitschriften Auflage: 312'871 Erscheinungsweise: 26x jährlich

Darstellung der Rotation 2,85 / 0,08 1 / 3,5 3,62 / 0,40. α = 67,76 -1 / -1 -2,08 / 0,23-1,30 / 0,55

Faktorenanalyse. 1. Grundlegende Verfahren. Bacher, SoSe2007

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

PR Statistische Genetik und Bioinformatik

Hauptkomponentenanalyse PCA

Methoden Quantitative Datenanalyse

Webergänzung zu Kapitel 10

Visualisierung I 5. Statistische Graphiken

Messsystemanalyse (MSA)

WETRAX (Weather Patterns, Storm TRAcks and related precipitation Extremes) Arbeitspaket 3 Wetterlagen

x 2 x 1 x Lernen mit Entscheidungsbäumen

Lösung zu Kapitel 11: Beispiel 1

Data Mining als Arbeitsprozess

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

2 Stand der Forschung. Bei der Analyse komplexer Proben ist es mit Hilfe moderner Analysensysteme moglich,

Anwendung der Predictive Analytics

Abb. 30: Antwortprofil zum Statement Diese Kennzahl ist sinnvoll

Query Transformation based on XSLT

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

Data Mining-Modelle und -Algorithmen

Abbildung 1: Titelbild (Quelle:

Messen im psychologischen Kontext II: Reliabilitätsüberprüfung und explorative Faktorenanalyse

Datenanalyse und abstrakte Visualisierung

Deskriptive Statistik

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Visualisierung der Imperfektion in multidimensionalen Daten

Glück ist wie ein Schmetterling?

Adobe Flash CS4»3D-Tool«

Neuerungen Analysis Services

Grundlagen der Farbbildverarbeitung

Multivariate Verfahren

Modulationsanalyse. Amplitudenmodulation

Trendlinien in Diagrammen (Excel 2010)

Grundlagen der Computer-Tomographie

25. Januar Ruhr-Universität Bochum. Methodenlehre III, WS 2009/2010. Prof. Dr. Holger Dette. 4. Multivariate Mittelwertvergleiche

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Prof. Dr. Gabriele Helga Franke TESTTHEORIE UND TESTKONSTRUKTION

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Lernwerkstatt für die Klassen 7 bis 9: Linsen und optische Geräte

0, v 6 = , v 4 = span(v 1, v 5, v 6 ) = span(v 1, v 2, v 3, v 4, v 5, v 6 ) 4. span(v 1, v 2, v 4 ) = span(v 2, v 3, v 5, v 6 )

Auswertung mit dem Statistikprogramm SPSS:

5. Schließende Statistik Einführung

Multivariate Statistik

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

Proseminar - Data Mining

Analyse alt- und mittelpaläolithischer Steinartefaktinventare mittels Parallelkoordinatenplots

Wie optimiert man die Werbungserkennung von Ad- Detective?

Vergleich verschiedener Optimierungsansätze

Multivariate Analysemethoden

Grundzüge der Wirtschaftsinformatik - Übung

Testen und Metriken. Einige Fehler. Fehler vermeiden. Andreas Zeller Universität des Saarlandes Microsoft Research.

Klausur zur Vorlesung Multivariate Verfahren, SS Kreditpunkte, 90 min

Methoden der Biosignalverarbeitung

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

5 DATEN Variablen. Variablen können beliebige Werte zugewiesen und im Gegensatz zu

Usability Metrics. Related Work. Von Torsten Rauschan HAW Hamburg M-Inf2 Anwendungen 2 Betreuer: Prof. Dr.

Seminar Visual Analytics and Visual Data Mining

Algorithmen und Datenstrukturen Bereichsbäume

Übungsaufgaben zur Vorlesung Modellbasierte Softwareentwicklung Wintersemester 2014/2015 Übungsblatt 8

Hinweise zur Kalibrierung von Kameras mit einer AICON Kalibriertafel

9 Resümee. Resümee 216

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

4.3 Treppe bearbeiten

Physik im Studium. Physik I - IV. Theoretische Vorlesungen. Praktika. Vorlesungen für Fortgeschrittene. Praktika für Fortgeschrittene

Korrelation - Regression. Berghold, IMI

Probestudium der Physik: Mathematische Grundlagen

PHP 5.4 ISBN Stephan Heller, Andreas Dittfurth 1. Ausgabe, September Grundlagen zur Erstellung dynamischer Webseiten GPHP54

4.12 Elektromotor und Generator

Public. Technische Computer Tomographie DELPHI Wuppertal

REGELUNG EINER PMSM (SPARK) FÜR EINE WINDKRAFTANLAGE

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen

Varianzanalytische Methoden Zweifaktorielle Versuchspläne 4/13. Durchführung in SPSS (File Trait Angst.sav)

Exploratorische Faktorenanalyse: Hauptachsenanalyse und Hauptkomponentenanalyse SPSS-Beispiel zu Kapitel 13 1

Tutorial 2: Simulationen

Multinomiale logistische Regression

Bildverstehen. Vorlesung an der TU Chemnitz SS 2013

Inhaltsverzeichnis. I Einführung in STATISTICA 1. 1 Erste Schritte in STATISTICA 3

Einführung in die statistische Datenanalyse I

Bestimmung einer ersten

Clustering Seminar für Statistik

Varianzanalyse * (1) Varianzanalyse (2)

Versuchsprotokoll - Michelson Interferometer

Datenrecherche mit Datastream

1.4 Portfolio-Analyse (Marktwachstums-Marktanteils-Portfolio)

Umweltmonitoring Datenverarbeitung 1, Teil 2: Statistische Verfahren der Datenanalyse

Entwicklung der Faktorenanalyse Faktorenanalyse. Faktorenanalyse nach Spearman Variablen zur Beschreibung von Intelligenz

Einsatz der Mehrkörpersimulation in Verbindung mit Computertomographie in der Produktentwicklung

Übung 1: CAM-Teil Definition

Hinweise zur. Auswertung. Markus Scholz Michael Wagner Version 1.0

Anmerkungen zur Übergangsprüfung

Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), Michael Roers (Übung),

Herzlich Willkommen zur Vorlesung Statistik

Benutzerhandbuch RedMill Maschinenplanung

Mein erstes Tableau-Dashboard. Tableau Software Schritt für Schritt kennenlernen und ein erstes Dashboard erstellen

Transkript:

Hauptkomponenten-basierte Klassifikationsverfahren (PCA) Projektseminar: Wetterlagen und Feinstaub - Übung Dozent: Claudia Weitnauer Referent: Esther Oßwald, Julian Dare Datum: 30.05.2011

Übersicht 1 Einleitung 2 Definition: Hauptkomponentenanalyse (PCA) 3 Geometrische Veranschaulichung 4 Analyseverfahren zur Klassifikation Überblick 5 Arten der Hauptkomponentenanalyse (PCA-based methods) 5.1 S-PCA 5.2 T-PCA 5.3 P27 5.4 PCAXTR

1 Einleitung Problem bei der Gesichtserkennung: Bewältigung von enormen, hochdimensionalen Datenmengen, von denen jedoch nicht wenige Komponenten irrelevant bzw. weniger relevant sind als andere, da sie nahezu konstant sind! Beispielsweise unterscheiden sich Gesichter in Nasen-, Augen- und Mundpartien stärker voneinander als in Ausschnitten der Stirn oder Wangen.

1 Einleitung Notwenigkeit eines Verfahrens, das die einzelnen Dimensionen der Datenmenge nach ihrer Relevanz bzw. nach den Abweichungen der Menge in dieser Dimension klassifiziert! PCA: Verfahren, das eine Dimensionsreduzierung ermöglicht, bei der der Informationsverlust minimal ist!

1 Einleitung PCA Durchschnittsgesicht (Quelle: http://mplab.ucsd.edu/~marks/pca.pdf) Originalfotos mehrerer Gesichter (12 aus 97) (Quelle: http://mplab.ucsd.edu/~marks/pca.pdf)

2 Definition PCA Die Hauptkomponentenbasierte Klassifikationsmethode (Principal component analysis PCA) versucht die Originaldaten durch eine kleinere Anzahl dahinter liegender Variablen so zu ersetzen, dass die wesentlichen Beziehungen in den Ausgangsdaten durch die Hauptkomponenten reproduziert werden. D.h. Die Hauptkomponenten sollen die Variabilität der Ausgangsdaten, gemessen als Summe der Varianz der Ausgangsvariablen, möglichst vollständig erklären.

2 Definition PCA Die PCA besteht in einer orthogonalen Transformation der ursprünglichen Variablen in eine neue Menge unkorrelierter Variablen, den Hauptkomponenten (Principal components). Die Hauptkomponenten sind Linearkombinationen der ursprünglichen Variablen und werden nacheinander in absteigender Bedeutung konstruiert, wobei die erste Hauptkomponente so konstruiert wird, dass die für den größten Teil der Variation verantwortlich ist. Damit wird die effektive Dimension der Ausgangsdatenmenge verringert.

2 Definition PCA Die zweite Hauptkomponente wird nun so berechnet, dass sie die noch verbleibende größte Variation abdeckt usw. Der Vorgang wiederholt sich bis die Variation der Ausgangsdaten nahezu vollständig durch die Hauptkomponenten dargestellt ist.

3 Geometrische Veranschaulichung Zur Anschauung wird das Beispiel einer dreidimensionalen Datenmenge betrachtet, die im Sinne der PCA transformiert und anschließend auf zwei Dimensionen reduziert wird. Gegeben sei eine Reihe mehrdimensionaler Messungen (Datenmenge), die folgende Punktwolke (roter Körper) bilden: (Quelle: http://www-mmdb.iai.unibonn.de/lehre/proprak0304/siegemund.pdf)

3 Geometrische Veranschaulichung Als erstes wird der Ursprung des Koordinatensystems in den Schwerpunkt der Punktwolke gesetzt. (Quelle: http://www-mmdb.iai.unibonn.de/lehre/proprak0304/siegemund.pdf)

3 Geometrische Veranschaulichung Als nächstes wird das Koordinatensystem gedreht, sodass die erste Achse in Richtung der größten Abweichung bzw. der größten Varianz gerichtet ist (blauer Pfeil). (Quelle: http://www-mmdb.iai.unibonn.de/lehre/proprak0304/siegemund.pdf)

3 Geometrische Veranschaulichung Der nächste Schritt dreht die zweite Achse in Richtung der größtmöglichen Varianz unkorreliert zur ersten Achse (gelber Pfeil). D.h. Die Drehung des Koordinatensystems richtet die zweite Achse in Richtung der größten Varianz aus, die möglich ist, ohne die Richtung der ersten Achse zu verändern ( Drehung des Systems um die erste Achse). (Quelle: http://www-mmdb.iai.unibonn.de/lehre/proprak0304/siegemund.pdf)

3 Geometrische Veranschaulichung Das Verfahren wird fortgesetzt bis die k-te Achse in Richtung der größten Varianz ausgerichtet ist, unkorreliert zu den ersten k-1 Achsen. Die k-te Achse bezeichnet so die k-te Hauptkomponente. geometrische Interpretation der Hauptkomponenten als Hauptachsen eines Ellipsoiden (Punktwolke).

3 Geometrische Veranschaulichung Ziel der PCA: Hilfe bei der Interpretation einer Datenmenge durch Bestimmung der Komponenten mit dem größten Einfluss. Wenn diese Komponenten bekannt sind, kann eine kleinere Anzahl von Basisvektoren für die Menge gefunden werden (= Dimensionsreduzierung), sodass nur ein möglichst kleiner Teil der in den Daten enthaltenen Informationen verloren geht. (Quelle: http://www-mmdb.iai.unibonn.de/lehre/proprak0304/siegemund.pdf)

Analyseverfahren zur Klassifikation - moderne Computertechnik ermöglicht immer komplexere und vielfältigere Klassifikationsmethoden - deswegen: Einteilung in drei Kategorien durch Yarnal et al. (2001): 1. manuelle Eingabe 2. Korrelationsanalyse 3. Eigenvektoranalyse z.b. Hauptkomponentenanalyse (PCA), andere: EOF, weitere multivariate Klassifikationen --> alle sehr ähnlich!

5 Arten der PCA - keine Verwendung von vordefinierten Modellen im Gegensatz zu vielen anderen Methoden - Modelle werden durch die Eigenschaften und Attribute des Datensatzes definiert - von Richman (1981) als Klassifikationsinstrument vorgeschlagen - schließlich erprobt von Gong und Richman (1995) - Grundidee: Jeder einzelne Fall wird einem Hauptkomponenten zugewiesen

5 Arten der PCA (Quelle: - Es gibt verschiedene Arten/Modi der Hauptkomponentenanalyse - am häufigsten wird der "s-mode" verwendet

5.1 S-PCA (s-mode) - score-time series - liefert Zeitreihenergebnisse - hohe zeitliche Datenvariabilität/auflösung - Eingabe der räumlichen Variablen in die Zeitreihe

5.2 T-PCA (t-mode) - umgekehrtes Verhalten zum "s-mode - höherer Rechenaufwand und Rechenzeit als beim s-mode - Ergebnisse beschreiben vor allem räumliche Muster - Eingabe von Zeitvariablen - indirektes Rotationsverfahren

5.2 T-PCA (t-mode) - Bsp. nach Huth (2000): 10 Datenteilmengen - für die 1. Teilmenge wird der 1., 11., 21. Tag etc. ausgewählt, für die 2. Teilmenge entsprechend der 2., 12, 22. Tag, usw. - Berechnung mit einer Matrizengleichung Dadurch repräsentiert die Lösung den kompletten Datensatz

5.2 T-PCA (t-mode) - klassifiziert wird jeder untersuchte Tag durch die Hauptkomponente mit dem höchsten "Loading - die 10 Klassifikationen werden untereinander verglichen, diejenige mit der höchsten Vergleichbarkeit zu allen anderen wird als Resultat ausgegeben

5.3 P27 - Kruizinga empirical orthogonal function types - Entwickelt am Royal Netherlands Meteorological Institute, Kruizinga (1979) - verwendet S-PCA - Bsp.: tägliche Luftdruckwerte GPH werden in Modellwerte mit reduzierter saisonaler Variabilität transformiert, indem der tägliche Mittelwert abgezogen wird - Verknüpfung der Hauptkomponenten mit zonaler, meridionaler und zyklonaler Komponente

5.4 PCAXTR - principal component analysis extreme score - verwendet vordefinierte zentrale Werte - orthogonal durchwechselnde (Rotationsprinzip: VARIMAX) Zeitreihenwerte im "s-mode - VARIMAX Modell haben die höchste Ähnlichkeit zu den wahren Begebenheiten - "s-mode" weil: Dieser ist representativer im Bezug auf die Originaldaten, die hier alle mit einbezogen werden

Literatur Philip et al. (2010): Cost733cat A database of weather and circulation type classifications. In: Physics and Chemistry of Earth. S. 361-373 the US San Diego Cognitive Science Department (2010): Principal Component Analysis (PCA). http://mplab.ucsd.edu/~marks/pca.pdf (28.05.2011)